CN113875246A - 用于参考图片重采样的信令 - Google Patents

用于参考图片重采样的信令 Download PDF

Info

Publication number
CN113875246A
CN113875246A CN202080035774.1A CN202080035774A CN113875246A CN 113875246 A CN113875246 A CN 113875246A CN 202080035774 A CN202080035774 A CN 202080035774A CN 113875246 A CN113875246 A CN 113875246A
Authority
CN
China
Prior art keywords
video
picture
resolution
block
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080035774.1A
Other languages
English (en)
Other versions
CN113875246B (zh
Inventor
张凯
张莉
刘鸿彬
王悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
ByteDance Inc
Original Assignee
Beijing ByteDance Network Technology Co Ltd
ByteDance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd, ByteDance Inc filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of CN113875246A publication Critical patent/CN113875246A/zh
Application granted granted Critical
Publication of CN113875246B publication Critical patent/CN113875246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • H04N19/426Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements using memory downsizing methods
    • H04N19/428Recompression, e.g. by spatial or temporal decimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

描述了用于数字视频编解码的设备、系统和方法,其包括参考图片重采样。视频处理的示例方法包括:在包括一个或多个视频段的视频与所述视频的比特流表示之间执行转换,所述视频段包括一个或多个视频单元,其中,所述比特流表示符合格式规则,并且包括与自适应分辨率转换(ARC)过程有关的信息,其中,所述格式规则指定所述ARC过程对视频段的适用性,其中,以不同于标头语法结构、解码器参数集、视频参数集、图片参数集(PPS)、序列参数集和自适应参数集的语法结构,在所述比特流表示中包括以不同的分辨率对所述视频段的所述一个或多个视频单元进行编解码的指示。

Description

用于参考图片重采样的信令
相关申请的交叉引用
根据适用专利法和/或适用于巴黎公约的规则,本申请及时要求2019年5月12日提交的国际专利申请No.PCT/CN2019/086513号的优先权和权益。为了法律的目的,通过引用将上述申请的全部公开并入,作为本申请公开的一部分。
技术领域
本专利文档涉及视频编解码技术、设备和系统。
背景技术
尽管视频压缩有所进步,数字视频在互联网和其他数字通信网络上仍占最大的带宽使用量。随着能够接收和显示视频的连接用户设备的数量增加,预计数字视频使用所需的带宽将继续增长。
发明内容
描述了与数字视频编解码有关的设备、系统和方法,并且具体地,描述了用于视频编解码的参考图片重采样。所描述的方法可以应用于现有视频编解码标准(例如,高效视频编解码(HEVC))和未来视频编解码标准或视频编解码器。
在一个代表性方面,所公开的技术可以用于提供视频处理的方法。该方法包括:在包括一个或多个视频段的视频与所述视频的比特流表示之间执行转换,所述视频段包括一个或多个视频单元,其中所述比特流表示符合格式规则,并且包括与自适应分辨率转换(ARC)处理有关的信息,其中,所述格式规则指定所述ARC处理对视频段的适用性,其中,以不同于标头语法结构、解码器参数集(DPS)、视频参数集(VPS)、图片参数集(PPS)、序列参数集(SPS)和自适应参数集(APS)的语法结构,在所述比特流表示中包括以不同的分辨率对所述视频段的所述一个或多个视频单元进行编解码的指示。
在另一个代表性方面,所公开的技术可以用于提供用于视频处理的方法。该方法包括:在包括一个或多个视频段的视频与所述视频的比特流表示之间执行转换,所述一个或多个视频段包括一个或多个视频单元,其中所述比特流表示符合格式规则,并且包括与自适应分辨率转换(ARC)处理有关的信息,在所述比特流表示中用信令通知用K阶指数哥伦布码编解码的所述一个或多个视频单元的维度,并且K是正整数,其中所述格式规则指定所述ARC处理对视频段的适用性,并且以语法结构在所述比特流表示中包括以不同的分辨率对所述视频段的所述一个或多个视频单元进行编解码的指示。
在又一个代表性方面,所公开的技术可以用于提供用于视频处理的方法。该方法包括:在包括一个或多个视频段的视频与所述视频的比特流表示之间执行转换,所述视频段包括一个或多个视频单元,其中所述比特流表示符合格式规则,并且包括与自适应分辨率转换(ARC)处理有关的信息,其中在比特流表示中用信令通知高度(H)和宽度(W),其中H和W是正整数且受约束,其中所述格式规则指定自适应分辨率转换(ARC)处理对视频段的适用性,并且其中以语法结构在所述比特流表示中包括以不同的分辨率对所述视频段的所述一个或多个视频单元进行编解码的指示。
在又一个代表性方面,所公开的技术可以用于提供用于视频处理的方法。该方法包括:确定(a)视频的当前视频块的第一时域相邻块的第一参考图片的分辨率与包括当前视频块的当前图片的分辨率相同,以及(b)当前视频块的第二时域相邻块的第二参考图片的分辨率与当前图片的分辨率不同,以及由于所述确定,通过在所述第一时域相邻块的预测中禁用所述第二时域相邻块的运动信息,来执行所述当前视频块和所述视频的比特流表示之间的转换。
在又一个代表性方面,所公开的技术可以用于提供用于视频处理的方法。该方法包括:确定(a)视频的当前视频块的第一时域相邻块的第一参考图片的分辨率与包括当前视频块的当前图片的分辨率不同,以及(b)当前视频块的第二时域相邻块的第二参考图片的分辨率与当前图片的分辨率相同,以及由于该确定,通过在第一时域相邻块的预测中禁用第二时域相邻块的运动信息,来执行当前视频块和视频的比特流表示之间的转换。
在又一个代表性方面,所公开的技术可以用于提供用于视频处理的方法。该方法包括:对于视频的当前视频块,确定包括与当前视频块相关联的视频块的参考图片的分辨率与包括当前视频块的当前图片的分辨率不同,以及由于该确定,通过禁用基于参考图片中的视频块的预测处理,来执行当前视频块和视频的比特流表示之间的转换。
在又一个代表性方面,所公开的技术可以用于提供用于视频处理的方法。该方法包括:基于图片的至少一个维度,做出关于该图片是否被允许用作当前图片的当前视频块的并置参考图片的决定;以及基于该决定,执行视频的当前视频块与视频的比特流表示之间的转换。
在又一个代表性方面,所公开的技术可以用于提供用于视频处理的方法。该方法包括:基于包括该并置块的并置参考图片的维度与包括当前视频块的当前图片的维度相同的确定,针对视频的当前视频块的预测,来识别并置块,以及使用并置块执行当前视频块和视频的比特流表示之间的转换。
在又一个代表性方面,所公开的技术可以用于提供用于视频处理的方法。该方法包括:对于视频的当前视频块,确定与当前视频块相关联的参考图片具有与包括当前视频块的当前图片的分辨率不同的分辨率,以及作为当前视频块和视频的比特流表示之间的转换的一部分,对参考图片的一个或多个参考样本、以及当前视频块的运动信息或当前视频块的编解码信息执行上采样操作或下采样操作。
在又一个代表性方面,所公开的技术可以用于提供用于视频处理的方法。该方法包括:对于视频的当前视频块和视频的比特流表示之间的转换,确定包括当前视频块的当前图片的高度或宽度不同于与当前视频块关联的并置参考图片的高度或宽度,以及基于该确定,对存储并置参考图片的一个或多个运动矢量的缓冲区执行上采样操作或下采样操作。
在又一个代表性方面,所公开的技术可以用于提供用于视频处理的方法。该方法包括:基于包括视频的当前视频块的当前图片的维度和与当前视频块相关联的并置图片的维度,导出应用于当前视频块的可选时域运动矢量预测(ATMVP)处理的信息,以及使用时域运动矢量来执行当前视频块和视频的比特流表示之间的转换。
在又一个代表性方面,所公开的技术可以用于提供用于视频处理的方法。该方法包括:为将自适应分辨率转换(ARC)处理应用于视频的当前视频块,配置视频的比特流表示,其中在比特流表示中用信令通知与ARC处理有关的信息,其中包括当前视频块的当前图片具有第一分辨率,并且其中,ARC处理包括以不同于该第一分辨率的第二分辨率对当前视频块的一部分进行重采样,以及基于该配置,执行当前视频块和当前视频块的比特流表示之间的转换。
在又一代表性方面,上述方法以处理器可执行代码的形式体现并存储在计算机可读程序介质中。
在又一代表性方面,公开了一种配置或可操作以执行上述方法的设备。该设备可以包括被编程为实现该方法的处理器。
在又一代表性方面,视频解码器装置可实现如本文中所描述的方法。
在附图、说明书和权利要求中更详细地描述了所公开技术的上述和其他方面和特征。
附图说明
图1示出了以不同分辨率编解码的相同内容的两种表示的自适应流(stream)的示例。
图2示出了以不同分辨率编解码的相同内容的两种表示的自适应流的另一示例,其中,段使用封闭式图片组(Group of Picture,GOP)或开放式GOP预测结构。
图3示出了两种表示的开放式GOP预测结构的示例。
图4示出了在开放式GOP位置处切换的表示的示例。
图5示出了使用来自另一比特流的重采样参考图片作为参考来解码随机访问跳过前导(Random Access Skipped Leading,RASL)图片的示例。
图6A-6C示出了基于运动约束的片集(MCTS)的基于分区混合分辨率(RWMR)视口相关(viewpoint-dependent)的360流传输(streaming)的示例。
图7示出了不同帧内随机访问点(IRAP)间隔和不同尺寸的并置子图片表示的示例。
图8示出了当观看方位更改导致在段的开始处的分辨率更改时接收到的段的示例。
图9示出了观看方位更改的示例。
图10示出了用于两个子图片位置的子图片表示的示例。
图11示出了用于自适应分辨率转换(ARC)的编码器修改的示例。
图12示出了用于ARC的解码器修改的示例。
图13示出了用于ARC的基于片组的重采样的示例。
图14示出了ARC处理的示例。
图15示出了用于编解码单元的可选时域运动矢量预测(ATMVP)的示例。
图16A和图16B示出了简化的仿射运动模型的示例。
图17示出了每个子块的仿射运动矢量场(MVF)的示例。
图18A和图18B分别示出了4参数仿射模型和6参数仿射模型的示例。
图19示出了针对继承的仿射候选的AF_INTER的运动矢量预测(MVP)的示例。
图20示出了针对所构造的仿射候选的AF_INTER的MVP的示例。
图21A和21B示出了AF_MERGE的候选的示例。
图22示出了仿射Merge模式的候选位置的示例。
图23示出了利用ARC导出TMVP/ATMVP的示例。
图24A-24J示出了用于视频处理的示例方法的流程图。
图25是用于实现本文档中描述的视觉媒体解码或视觉媒体编码技术的硬件平台的示例的框图。
图26是其中可以实现所公开的技术的示例视频处理系统的框图。
具体实施方式
所公开技术的实施例可应用于现有视频编解码标准(例如,HEVC,H.265)和未来标准以改善压缩性能。在本文档中使用节标题来提高描述的可读性,并且不以任何方式将讨论或实施例(和/或实现)仅限于相应节。
1.视频编解码介绍
由于对更高分辨率视频的需求的增加,在现代技术中普遍存在视频编解码方法和技术。视频编解码器通常包括压缩或解压缩数字视频的电子电路或软件,并且不断改进以提供更高的编解码效率。视频编解码器将未压缩视频转换为压缩格式,反之亦然。视频质量、用于表示视频的数据量(由比特率确定)、编码和解码算法的复杂度、对数据丢失和错误的敏感性、编辑的简易性、随机访问和端到端延迟(迟延)之间存在复杂的关系。压缩格式通常符合标准视频压缩规范,例如,高效视频编解码(HEVC)标准(也称为H.265或MPEG-H第2部分)、待定的多功能视频编解码标准、或其他当前和/或未来的视频编解码标准。
视频编解码标准主要通过公知的ITU-T和ISO/IEC标准的发展而发展。ITU-T制作了H.261和H.263,ISO/IEC制作了MPEG-1和MPEG-4Visual,这两个组织共同制作了H.262/MPEG-2视频和H.264/MPEG-4增强视频编解码(AVC)和H.265/HEVC标准。从H.262开始,视频编解码标准基于混合视频编解码结构,其中利用了时域预测和变换编解码。为了探索HEVC之外的未来视频编解码技术,VCEG和MPEG于2015年联合成立了联合视频探索小组(JVET)。此后,JVET采纳了许多新方法并将其引入到名为“联合探索模型”(JEM)的参考软件中。2018年4月,VCEG(Q6/16)和ISO/IEC JTC1SC29/WG11(MPEG)之间的联合视频专家团队(JVET)成立,以致力于目标是与HEVC相比其降低50%比特率的多功能视频编解码(VVC)标准。
AVC和HEVC不具有在不必引入IDR或帧内随机访问点(IRAP)图片的情况下更改分辨率的能力;这种能力可以称为自适应分辨率更改(adaptive resolution change,ARC)。在某些使用案例或应用场景中,可以受益于ARC功能,其中包括:
-视频电话和会议中的速率适配:为了使编解码视频适应不断更改的网络状况,当网络状况变得更糟从而可用带宽变得更低时,编码器可以通过编码较小分辨率的图片来适应它。目前,只有在IRAP图片之后才能更改图片分辨率;这有几个问题。具有合理质量的IRAP图片将比帧间编解码图片大得多,并且解码起来也将相应地更加复杂:这会浪费时间和资源。如果解码器出于加载原因请求更改分辨率,则会出现问题。它还可能破坏低延迟缓冲区条件,从而迫使音频重新同步,并且流的端到端延迟将增加,至少是暂时增加。这会给用户带来糟糕的体验。
-在多方视频会议中活动发言人的更改:对于多方视频会议,通常以比其他会议参与者的视频更大的视频尺寸显示活动发言人。当活动发言人更改时,可能还需要调整每个参与者的图片分辨率。当有源扬声器中频繁发生此类更改时,具有ARC特征的需求变得尤为重要。
-流传输中的快速启动:对于流传输应用,通常在开始显示之前,该应用将缓冲多达一定长度的解码图片。以较小的分辨率启动比特流将允许应用在缓冲区中具有足够的图片以更快地开始显示。
流传输中的自适应流切换:基于HTTP的动态自适应流传输(Dynamic AdaptiveStreaming over HTTP,DASH)规范包括名为@mediaStreamStructureId的特征。这使得能够在具有不可解码的前导图片(例如,HEVC中的具有相关联的RASL图片的CRA图片)的开放式GOP随机访问点处在不同表示之间进行切换。当同一视频的两个不同表示具有不同的比特率但具有相同的空域分辨率,同时它们具有相同的@mediaStreamStructureId值时,可以在具有相关联的RASL图片的CRA图片上执行两种表示之间的切换,并且与可以以可接受的质量解码与切换处的CRA图片相关联的RASL图片,从而实现无缝切换。使用ARC,@mediaStreamStructureId特征也可用于在具有不同空域分辨率的DASH表示之间进行切换。
ARC也称为动态分辨率转换。
ARC也可以被视为参考图片重采样(RPR)的特殊情况,诸如H.263附件P。
1.1 H.263附件P中的参考图片重采样
该模式描述了在参考图片用于预测之前扭曲(warp)参考图片的算法。对于重采样具有与正在预测的图片不同的源格式的参考图片可能很有用。通过扭曲参考图片的形状、尺寸和位置,还可以将其用于全局运动估算或旋转运动估算。语法包括要使用的扭曲参数以及重采样算法。参考图片重采样模式的最简单操作级别是4重采样的隐式因子,因为仅FIR滤波器需要用于上采样和下采样处理。在这种情况下,当新图片的尺寸(在图片标头中指示)与先前图片的尺寸不同时,由于理解了它的用法,因此不需要额外的信令开销。
1.2 ARC对VVC的贡献
1.2.1 JVET-M0135
仅仅为了引发讨论,提出如下所述的ARC的初步设计(其中一些部分取自JCTVC-F158)作为占位符(place holder)。
1.2.1.1基本工具的描述
支持ARC的基本工具约束如下:
适用于两个维度的空域分辨率可与标称分辨率相差因子0.5。空域分辨率可能会增加或减少,从而导致缩放比率为0.5和2.0。
视频格式的纵横比和色度格式没有更改。
裁剪区域与空域分辨率成比率地缩放。
参考图片仅根据需要简单地重新缩放,并且照常应用帧间预测。
1.2.1.2缩放操作
提出使用简单的、零相位可分离的缩小(down-scaling)和放大(up-scaling)的滤波器。请注意,这些滤波器仅用于预测;解码器可以将更复杂的缩放用于输出目的。
使用了以下的1:2缩小滤波器,其具有零相位和5个抽头:
(-1,9,16,9,-1)/32
下采样点位于偶数采样位置并且位于同一位置。亮度和色度使用相同的滤波器。
对于2:1上采样,使用最新VVC WD中的半像素运动补偿插值滤波器系数在奇数网格位置处生成其他采样。
组合的上采样和下采样将不会更改相位或色度采样点的位置。
1.2.1.3参数集中的分辨率描述
SPS中的图片分辨率的信令如下所示更改,在本文档的以下描述和其余描述中都用双括号标记删除(例如,[[a]]表示字符“a”的删除)。
序列参数集RBSP语法和语义
Figure BDA0003351676370000081
[[pic_width_in_luma_samples指定以亮度样本为单位的每个解码图片的宽度。pic_width_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。
pic_height_in_luma_samples指定以亮度样本为单位的每个解码图片的高度。pic_height_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。]]
num_pic_size_in_luma_samples_minus1加1指定可能存在于编解码视频序列中的、以亮度样本为单位的图片尺寸(宽度和高度)的数量。
pic_width_in_luma_samples[i]指定可能存在于编解码视频序列中的、以亮度样本为单位的解码图片的第i个宽度。
pic_width_in_luma_samples[i]不应等于0,并且应为MinCbSizeY的整数倍。
pic_height_in_luma_samples[i]指定可能存在于编解码视频序列中的、以亮度样本为单位的解码图片的第i个高度。
pic_height_in_luma_samples[i]不应等于0,并且应为MinCbSizeY的整数倍。
图片参数集RBSP语法和语义
Figure BDA0003351676370000091
pic_size_idx指定序列参数集中的第i个图片尺寸的索引。参考图片参数集的图片的宽度在亮度样本中为pic_width_in_luma_samples[pic_size_idx]。同样,参考图片参数集的图片的高度在亮度样本中为pic_height_in_luma_samples[pic_size_idx]。
1.2.2 JVET-M0259
1.2.2.1背景:子图片
在全向媒体格式(OMAF)中,术语子图片轨道(sub-picture track)的定义如下:与其他轨道具有空域关系并表示代表原始视频内容的空域子集的轨道(在内容产生侧进行视频编码之前,先将其划分为空域子集)。可以通过重写运动受限的片集的参数集和条带段标头来构造HEVC的子图片轨道,以使其成为独立的HEVC比特流。子图片表示(sub-pictureRepresentation)可以定义为承载子图片轨道的DASH表示。
JVET-M0261使用术语子图片作为VVC的空域分割单元,总结如下:
1.图片被划分为子图片、片组和片。
2.子图片是以tile_group_address等于0的片组开头的矩形片组集。
3.每个子图片可以参考其自己的PPS,并且因此可以具有其自己的片分割。
4.在解码处理中,将子图片视为图片。
5.用于解码子图片的参考图片是通过从解码图片缓冲区中的参考图片中提取与当前子图片并置的区域来生成的。提取的区域应是解码的子图片,即,帧间预测发生在图片中相同尺寸和相同位置的子图片之间。
6.片组是子图片的片光栅扫描中的片序列。
在此贡献中,我们指的是JVET-M0261中定义的术语子图片。但是,封装了JVET-M0261中定义的子图片序列的轨道与OMAF中定义的子图片轨道具有非常相似的属性,以下给出的示例在两种情况下均适用。
1.2.2.2用例
1.2.2.2.1流传输中的自适应分辨率更改
支持自适应流传输的要求
MPEG N17074的第5.13节(“对自适应流传输的支持”)包括对VVC的以下要求:
在自适应流传输服务提供相同内容的多个表示、每个表示具有不同的属性(例如,空域分辨率或采样比特深度)的情况下,该标准应支持快速表示切换。该标准应允许使用有效的预测结构(例如,所谓的开放式图片组),而不会妥协不同属性(诸如不同空域分辨率)的表示之间的快速、且无缝的表示切换能力。
利用表示切换的开放式GOP预测结构的示例
用于自适应比特率流传输的内容生成包括不同表示的生成,其可以具有不同的空域分辨率。客户端从表示中请求段,因此可以决定以哪种分辨率和比特率接收内容。在客户端,级联(concatenated)、解码和播放不同表示的段。客户端应该能够通过一个解码器实例实现无缝播放。如图1所示,通常使用封闭式GOP结构(以IDR图片开始)。
开放式GOP预测结构(以CRA图片开始)比各自的封闭式GOP预测结构具有更好的压缩性能。例如,在IRAP图片间隔为24张图片的情况下,就亮度Bjontegaard增值(delta)比特率而言,平均比特率降低了5.6%。
据报道,开放式GOP预测结构还减少了主观可见质量的提升(pumping)。
在流传输中使用开放式GOP的挑战是,在切换表示后,无法使用正确的参考图片对RASL图片进行解码。我们将在下面相对于图2中的表示来描述该挑战。
以CRA图片开头的段包括RASL图片,对于RASL图片,至少一个参考图片位于先前段中。这在图3中示出,两个比特流中的图片0都位于先前段中,并且用作预测RASL图片的参考。
在图2中用虚线矩形标记的表示切换被示出在图4中。可以看出,用于RASL图片的参考图片(“图片0”)没有被解码。因此,RASL图片无法解码,并且视频播放中会有间隙。
然而,如本发明的实施例所描述的,已经发现主观上可接受的是利用重采样的参考图片对RASL图片进行解码。在图5中示出了“图片0”的重采样并且将其用作用于解码RASL图片的参考图片。
1.2.2.2.2分区(region-wise)混合分辨率(RWMR)360°视频流传输中的视口更改
背景:基于HEVC的RWMR流传输
RWMR 360°流传输在视口上提供了提高的有效空域分辨率。覆盖视口的片源自6K(6144×3072)ERP图片或等效CMP分辨率的方案如图6所示,其中在OMAF的第D.6.3和D.6.4节中包括了“4K”解码能力(HEVC级别5.1),并且也在VR行业论坛指南中采用“4K”解码能力(HEVC级别5.1)。声称这样的分辨率适合使用四维高清(quad-HD)(2560×1440)显示面板的头戴式显示器。
编码:以两个空域分辨率分别以立方面尺寸1536×1536和768×768对内容进行编码。在两个比特流中,均使用6×4的片网格,并为每个片位置编码运动受限的片集(MCTS)。
封装:每个MCTS序列被封装为子图片轨道,并可以作为DASH中的子图片表示使用。
流MCTS的选择:从高分辨率比特流中选择12个MCTS,并从低分辨率比特流中提取互补的12个MCTS。因此,流内容的半球(180°×180°)源自高分辨率比特流。
将MCTS合并到要解码的比特流:将接收到的单个时间实例的MCTS合并到1920×4608的编解码图片,该图片符合HEVC级别5.1。合并图片的另一种选择是具有四个宽度为768的片列,两个宽度为384的片列和三个高度为768亮度样本的片行,从而生成3840×2304亮度样本的图片。
背景:视口相关的360°流传输的不同IRAP间隔的几种表示
当基于HEVC的视口相关的360°流传输中的观看方位发生更改时,子图片表示的新选择可以在下一个IRAP对齐的段边界处生效。子图片表示被合并到编码图片以进行解码,因此VCL NAL单元类型在所有选定的子图片表示中对齐。
为了在对观看方位更改做出反应的响应时间与在观看方位稳定时速率失真性能之间提供权衡,可以以不同的IRAP间隔对内容的多个版本进行编码。在图7中示出对于图6中呈现的用于编码的一组并置子图片表示。
图8示出了其中首先选择以较低分辨率(384×384)接收子图片位置的示例。观看方位的更改会导致以更高的分辨率(768×768)接收新选择的子图片位置。在该示例中,发生观看方位更改,使得从短IRAP间隔子图片表示中接收到段4。此后,观看方位是稳定的,因此可以从段5开始使用长IRAP间隔版本。
问题陈述
由于在典型的观看情况下观看方位逐渐移动,因此分辨率在RWMR视口相关的流传输中仅在子图片位置的子集中发生更改。图9示出了从图6稍微向上并朝向右侧的立方面的观看方位的更改。具有与先前不同分辨率的立方面分割以“C”表示。可以观察到,在24个立方面分割中,有6个的分辨率有所更改。然而,如上所述,响应于观看方位更改,需要针对所有24个立方面分割接收以IRAP图片开始的段。就流传输速率失真性能而言,以IRAP图片开头的段更新所有子图片位置的效率很低。
另外,能够将开放式GOP预测结构与RWMR 360°流传输的子图片表示一起使用的能力是期望的,以提高速率失真性能并避免由封闭式GOP预测结构引起的可见图片质量提升(pumping)。
提出的设计目标
提出以下设计目标:
1.VVC设计应允许将源自随机访问图片的子图片和源自非随机访问图片的另一子图片合并到符合VVC的相同编码图片中。
2.VVC设计应允许在子图片表示中使用开放式GOP预测结构,而不会妥协不同属性(诸如不同空域分辨率)的子图片表示之间的快速无缝表示切换能力,同时允许将子图片表示合并成单个VVC比特流。
可以用图10来说明设计目标,其中给出了两个子图片位置的子图片表示。对于两个子图片位置,针对两种分辨率和两个随机访问间隔之间的每种组合,对内容的单独版本进行编码。某些段以开放式GOP预测结构开始。观看方位的更改导致子图片位置1的分辨率在段4的开始处切换。由于段4以与RASL图片相关联的CRA图片开始,因此那些在段3中的RASL图片的参考图片需要被重采样。应当指出,该重采样应用于子图片位置1,而其他一些子图片位置的解码子图片没有被重采样。在该示例中,观看方位的更改不会引起子图片位置2的分辨率的更改,因此子图片位置2的解码子图片不会被重采样。在段4的第一图片中,用于子图片位置1的段包括源自CRA图片的子图片,而用于子图片位置2的段包括源自非随机访问图片的子图片。提出在VVC中允许将这些子图片合并为编码图片。
1.2.2.2.3视频会议中的自适应分辨率更改
JCTVC-F158提出提出了主要用于视频会议的自适应分辨率更改。以下小节是从JCTVC-F158复制而来的,并介绍了使用声称自适应分辨率有效的用例。
无缝的网络自适应和错误恢复
诸如视频会议和通过分组网络的流传输之类的应用经常要求编码的流适应于更改的网络状况,特别是当比特率太高并且数据丢失时。这样的应用通常具有返回通道,允许编码器检测错误并执行调整。编码器有两个主要工具可供使用:降低比特率和更改时域或空域分辨率。通过使用分层预测结构进行编码,可以有效地实现时域分辨率的更改。但是,为了获得最佳质量,需要更改空域分辨率,以及设计良好的用于视频通信的编码器的一部分。
在AVC内更改空域分辨率要求发送IDR帧并重置流。这导致严重的问题。具有合理质量的IDR帧将比帧间图片大得多,并且解码起来也将相应地更加复杂:这会浪费时间和资源。如果解码器出于加载原因请求更改分辨率,则会出现问题。它还可能破坏低延迟缓冲区条件,从而迫使音频重新同步,并且将增加(至少是暂时增加)流的端到端延迟。这给用户带来不好的体验。
为了最小化这些问题,通常以与P帧相似的比特数、以低质量发送IDR,并且对于给定的分辨率,要花费大量时间才能恢复到完整质量。为了获得足够低的延迟,质量可能确实非常低,并且在图像“重新聚焦”之前通常会出现可见的模糊。实际上,就压缩而言,帧内帧所做的工作很少:它只是一种重新启动流的方法。
因此,需要允许更改分辨率的HEVC中的方法,尤其是在具有挑战性的网络条件下,并且对主观体验的影响最小。
快速启动
具有“快速启动”模式将是有用的,其中以降低的分辨率发送第一帧、并且在接下来的几帧中提高分辨率,以便减少延迟并更快地达到正常质量而不会在开始时出现不可接受的图像模糊。
会议“组成”
视频会议通常还具有这样的功能,即以全屏方式显示发言人,并以较小的分辨率窗口显示其他参与者。为了有效地支持此功能,通常以较低的分辨率发送较小的图片。然后,当参与者成为发言人并全屏显示时,此分辨率会提高。此时发送帧内帧会导致视频流出现不愉快的卡顿(hiccup)。如果发言人快速交替,这种效果可能会非常明显且令人不快。
1.2.2.3提出的设计目标
以下是针对VVC版本1提出的高级设计选择:
1.提出针对以下用例,在VVC版本1中包括参考图片重采样处理:
-在自适应流传输中使用有效的预测结构(例如,所谓的开放式图片组),而不妥协诸如不同空域分辨率的不同属性的表示之间的快速和无缝的表示切换能力。
-使低延迟会话视频内容适应网络条件和应用引起的分辨率更改,而不会出现明显的延迟或延迟更改。
2.提出了VVC设计允许将源自随机访问图片的子图片和源自非随机访问图片的另一子图片合并到符合VVC的相同编码图片中。声称可以有效处理混合质量和混合分辨率视口自适应的360°流传输中的观看方位更改。
3.提出在VVC版本1中包括子图片方面的重采样处理。声称启用有效的预测结构,以便在混合分辨率视口自适应360°流传输中更有效地处理视图方位的更改。
1.2.3 JVET-N0048
在JVET-M0259中详细讨论了自适应分辨率更改(ARC)的用例和设计目标。总结如下:
1.实时通信
JCTVC-F158最初包括以下用于自适应分辨率更改的用例:
a.无缝的网络适应和错误恢复(通过动态自适应分辨率更改);
b.快速启动(在会话启动或重置时逐渐提高分辨率);
c.会议“组成”(为发言人提供更高的分辨率);
2.自适应流传输
MPEG N17074的第5.13节(“对自适应流传输的支持”)包括对VVC的以下要求:
在提供具有相同内容的多个表示(每个具有不同的属性(例如,空域分辨率或采样比特深度))的自适应流传输服务的情况下,该标准应支持快速表示切换。该标准应允许使用有效的预测结构(例如,所谓的开放式图片组),而不妥协不同属性(诸如,不同空域分辨率)之间的快速无缝表示切换能力。
JVET-M0259讨论了如何通过对前导图片的参考图片进行重采样来满足该要求。
3. 360°视口相关的流传输
JVET-M0259讨论了如何通过对前导图片的参考图片的某些独立编码的图片区域进行重采样来解决该用例。
该贡献提出了自适应分辨率编码方法,其声称为满足上述所有用例和设计目标。此提议与JVET-N0045(提出独立的子图片层)一起处理与360°视口相关的流传输和会议“组成”用例。
提出的规范文本
信令
sps_max_rpr
Figure BDA0003351676370000151
sps_max_rpr指定CVS中任何片组(其中pic_width_in_luma_samples和pic_height_in_luma_samples分别不等于当前图片的pic_width_in_luma_samples和pic_height_in_luma_samples)的参考图片列表0或1中活动参考图片的最大数量。
图片宽度和高度
Figure BDA0003351676370000152
Figure BDA0003351676370000161
Figure BDA0003351676370000162
max_width_in_luma_samples指定对于此SPS处于活动状态的CVS的任何图片,任何活动PPS中的pic_width_in_luma_samples都必须小于或等于max_width_in_luma_samples,这是比特流一致性的要求。
max_height_in_luma_samples指定对于此SPS处于活动状态的CVS的任何图片,任何活动PPS中的pic_height_in_luma_samples都必须小于或等于max_height_in_luma_samples,这是比特流一致性的要求。
高级解码处理
当前图片CurrPic的解码处理操作如下:
1.第8.2节指定了NAL单元的解码。
2.第8.3节中的处理指定了使用片组标头中及以上的语法元素的以下解码处理:
–如第8.3.1节所指定的,导出与图片顺序计数有关的变量和功能。仅需要为图片的第一片组调用此方法。
–在针对非IDR图片的每个片组的解码处理开始时,调用第8.3.2节中指定的参考图片列表构造的解码处理,以导出参考图片列表0(RefPicList[0])和参考图片列表1(RefPicList[1])。
–调用第8.3.3节中用于参考图片标记的解码处理,其中参考图片可以标记为“未用于参考”或“用于长期参考”。仅需要为图片的第一片组调用此方法。
–对于RefPicList[0]和RefPicList[1]中每个活动参考图片(具有pic_width_in_luma_samples或pic_height_in_luma_samples分别不等于CurrPic的pic_width_in_luma_samples或pic_height_in_luma_samples),以下适用:
–调用第X.Y.Z节中的重采样处理[Ed.(MH):要添加的调用参数的详细信息],其输出具有与输入相同的参考图片标记和图片顺序计数。
–用作重采样处理输入的参考图片被标记为“未用于参考”。
3.[Ed.(YK):在此添加对编码树单元、缩放、变换、环路滤波等的解码处理的调用]
4.在对当前图片的所有片组进行解码之后,将当前解码图片标记为“用于短期参考”。
重采样处理
提出了SHVC重采样处理(HEVC第H.8.1.4.2节),并增加了以下内容:
如果sps_ref_wraparound_enabled_flag等于0,则得出n=0..7的样本值tempArray[n],如下所示:
tempArray[n]=
(fL[xPhase,0]*rlPicSampleL[Clip3(0,refW-1,xRef-3),yPosRL]+fL[xPhase,1]*rlPicSampleL[Clip3(0,refW-1,xRef-2),yPosRL]+fL[xPhase,2]*rlPicSampleL[Clip3(0,refW-1,xRef-1),yPosRL]+fL[xPhase,3]*rlPicSampleL[Clip3(0,refW-1,xRef),yPosRL]+fL[xPhase,4]*rlPicSampleL[Clip3(0,refW-1,xRef+1),yPosRL]+(H-38)fL[xPhase,5]*rlPicSampleL[Clip3(0,refW-1,xRef+2),yPosRL]+fL[xPhase,6]*rlPicSampleL[Clip3(0,refW-1,xRef+3),yPosRL]+fL[xPhase,7]*rlPicSampleL[Clip3(0,refW-1,xRef+4),yPosRL])>>shift1
否则,得出n=0..7的样本值tempArray[n],如下所示:
refOffset=(sps_ref_wraparound_offset_minus1+1)*MinCbSizeY
tempArray[n]=
(fL[xPhase,0]*rlPicSampleL[ClipH(refOffset,refW,xRef-3),yPosRL]+fL[xPhase,1]*rlPicSampleL[ClipH(refOffset,refW,xRef-2),yPosRL]+fL[xPhase,2]*rlPicSampleL[ClipH(refOffset,refW,xRef-1),yPosRL]+fL[xPhase,3]*rlPicSampleL[ClipH(refOffset,refW,xRef),yPosRL]+fL[xPhase,4]*rlPicSampleL[ClipH(refOffset,refW,xRef+1),yPosRL]+fL[xPhase,5]*rlPicSampleL[ClipH(refOffset,refW,xRef+2),yPosRL]+fL[xPhase,6]*rlPicSampleL[ClipH(refOffset,refW,xRef+3),yPosRL]+fL[xPhase,7]*rlPicSampleL[ClipH(refOffset,refW,xRef+4),yPosRL])>>shift1
如果sps_ref_wraparound_enabled_flag等于0,则得出n=0..3的样本值tempArray[n],如下所示:
tempArray[n]=(fC[xPhase,0]*rlPicSampleC[Clip3(0,refWC-1,xRef-1),yPosRL]+
fC[xPhase,1]*rlPicSampleC[Clip3(0,refWC-1,xRef),yPosRL]+
fC[xPhase,2]*rlPicSampleC[Clip3(0,refWC-1,xRef+1),yPosRL]+(H-50)
fC[xPhase,3]*rlPicSampleC[Clip3(0,refWC-1,xRef+2),yPosRL])>>shift1
否则,得出n=0..3的样本值tempArray[n],如下所示:
refOffset=(sps_ref_wraparound_offset_minus1+1)*MinCbSizeY)/SubWidthC
tempArray[n]=
(fC[xPhase,0]*rlPicSampleC[ClipH(refOffset,refWC,xRef-1),yPosRL]+fC[xPhase,1]*rlPicSampleC[ClipH(refOffset,refWC,xRef),yPosRL]+
fC[xPhase,2]*rlPicSampleC[ClipH(refOffset,refWC,xRef+1),yPosRL]+fC[xPhase,3]*rlPicSampleC[ClipH(refOffset,refWC,xRef+2),yPosRL])>>shift1
1.2.4 JVET-N0052
作为视频压缩标准中的概念,自适应分辨率更改至少自1996年以来就已出现;特别是有关参考图片重采样(RPR,附件P)和降低分辨率更新(附件Q)的H.263+相关提案。它最近获得了一定的关注,首先是思科在JCT-VC期间提出的提议,然后是VP9(如今已被适度广泛部署)的上下文,最近是在VVC的上下文中。ARC允许减少给定图片所需编码的样本数量,并在需要时将最终的参考图片上采样到更高的分辨率。
我们认为在两种情况下特别关注ARC:
1)帧内编码图片(诸如IDR图片)通常比帧间图片大很多。无论出于何种原因,对要被帧内编码的图片进行下采样都可以为将来的预测提供更好的输入。从速率控制的角度来看,至少在低延迟应用中,它显然也是有利的。
2)当在接近断点的地方操作编解码器时,至少某些电缆和卫星运营商通常会这样做,即使对于非帧内编码的图片,诸如在没有硬过渡点的场景过渡中,ARC也会变得很方便。
3)也许看起来有点太过向前:固定分辨率的概念通常可以辩护吗?随着CRT的出现和渲染设备中缩放引擎的普及,渲染和编码分辨率之间的硬绑定已成为过去。另外,我们注意到,有一些可用研究表明,当视频序列中发生大量活动时,即使该活动在空域上处于其他位置,大多数人也无法专注于精细细节(可能与高分辨率相关联)。如果这是正确的并且被普遍接受,则与自适应QP相比,精细的粒度分辨率更改可能是更好的速率控制机制。由于缺乏数据,我们目前将这一点提出以供讨论(欢迎有识之士的反馈)。当然,消除固定分辨率比特流的概念具有无数的系统层和实现含义,我们对此非常了解(至少在它们存在的层次上,如果不是它们的详细本质的话)。
从技术上讲,ARC可以实现为参考图片重采样。实现参考图片重采样有两个主要方面:重采样滤波器和比特流中重采样信息的信令。本文档重点关注后者,仅在我们具有实施经验的程度上才涉及前者。鼓励对合适的滤波器设计进行更多的研究。
现有ARC实施的概述
图11和12分别示出了现有的ARC编码器/解码器的实现。在我们的实现中,可以根据每个图片的粒度更改图片的宽度和高度,而忽略图片类型。在编码器处,将输入图像数据下采样为当前图片编码的选定图片尺寸。在将第一输入图片编码为帧内图片之后,将解码图片存储在解码后图片缓冲区(DPB)中。当随后的图片以不同的采样率下采样并编码为帧间图片时,DPB中的参考图片将根据参考图片尺寸与当前图片尺寸之间的空域比率进行按比率放大/缩小。在解码器处,解码图片无需重采样就存储在DPB中。然而,当用于运动补偿时,DPB中的参考图片相对于当前解码图片与参考之间的空域比率被按比率放大/缩小。解码图片被突显以进行显示时,将解码图片上采样为原始图片尺寸或所需的输出图片尺寸。在运动估计/补偿处理中,相对于图片尺寸比率以及图片顺序计数差来缩放运动矢量。
ARC参数的信令
术语ARC参数在本文中用作使ARC工作所需的任何参数的组合。在最简单的情况下,可能是比例(zoom)因子,或者是具有已定义比例因子的表的索引。它可以是目标分辨率(例如,以样本或最大CU尺寸粒度),也可以是到提供目标分辨率的表的索引,例如JVET-M0135中提出的那样。还包括使用中的上/下采样滤波器的滤波器选择器,甚至滤波器参数(直至滤波器系数)。
从一开始,我们在本文中提出至少在概念上允许针对图片的不同部分使用不同的ARC参数。我们提出根据当前VVC草案的适当语法结构应为矩形片组(TG)。那些使用扫描顺序TG的人将被限制为仅将ARC用于完整图片,或者在一定程度上将扫描顺序TG包括在矩形TG中(我们不记得到目前为止已经讨论过TG嵌套,也许是一个坏主意)。可以通过比特流约束轻松指定。
由于不同的TG可能具有不同的ARC参数,因此ARC参数的适当位置将在TG标头中或在TG范围内的参数集中,并由当前的VVC草案中的TG标头-自适应参数集参考,或更详细地参考(索引)在较高参数集中的表。在这三个选择中,我们提出此时使用TG标头对包括ARC参数的表条目的引用进行编码,并且该表位于SPS中,其中最大表值编码在(即将发布的)DPS中。我们可以直接将比例因子编码到TG标头中,而无需使用任何参数集值。如果像我们所做的那样,如果ARC参数的每个片组信令是一个设计准则,则如JVET-M0135中提出的,禁止使用PPS作为参考。
对于表条目本身,我们看到许多选项:
·编码下采样因子,是同时使用两个维度,还是单独使用X和Y维度?这主要是硬件(HW)实现讨论,有些人可能更喜欢这样的结果,即X维度的比例因子相当灵活,但Y维度的缩放因子固定为1,或者选择很少。我们提出语法是表达此类约束的错误地方,如果需要,我们更喜欢将约束表示为一致性要求。换句话说,保持语法灵活。
·编码目标分辨率。这就是我们在下面提出的。相对于当前分辨率,这些分辨率可能存在或多或少复杂的约束,也许以比特流一致性要求来表示。
·最好对每个片组进行下采样,以便进行图片合成/提取。但是,从信令的角度来看并不是关键。如果该组做出了仅在图片粒度上才允许ARC的不明智决定,那么我们总是可以要求所有TG使用相同的ARC参数来进行比特流一致性要求。
·与ARC相关的控制信息。在我们下面的设计中,其中包括参考图片的尺寸。
·我们需要在滤波器设计方面具有灵活性吗?有什么比一堆代码点更重要?如果是,将它们放入APS?(如果不是,请不要再次进行APS更新讨论。如果下采样滤波器发生更改并且ALF保持不变,我们提出比特流必须占用额外的开销。)
目前,为了使提出的技术保持一致和简单(在可能的范围内),我们提出
·固定式滤波器设计
·具有比特流约束的SPS表中的目标分辨率,待定(TBD)。
·DPS中的最小/最大目标分辨率,以促进性能(cap)交换/协调。
产生的语法如下所示:
解码器参数集RBSP语法
Figure BDA0003351676370000211
max_pic_width_in_luma_samples指定以亮度样本为单位的比特流中的解码图片的最大宽度。max_pic_width_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。dec_pic_width_in_luma_samples[i]的值不能大于max_pic_width_in_luma_samples的值。
max_pic_height_in_luma_samples指定以亮度样本为单位的解码图片的最大高度。max_pic_height_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。dec_pic_height_in_luma_samples[i]的值不能大于max_pic_height_in_luma_samples的值。
序列参数集RBSP语法
Figure BDA0003351676370000212
Figure BDA0003351676370000221
adaptive_pic_resolution_change_flag等于1指定输出图片尺寸(output_pic_width_in_luma_samples,output_pic_height_in_luma_samples),解码图片尺寸的数量的指示(num_dec_pic_size_in_luma_samples_minus1)和至少一个解码图片尺寸(dec_pic_width_in_luma_samples[i],dec_pic_height_in_luma_samples[i])存在于SPS中。参考图片尺寸(reference_pic_width_in_luma_samples,reference_pic_height_in_luma_samples)取决于reference_pic_size_present_flag的值有条件地存在。
output_pic_width_in_luma_samples指定以亮度样本为单位的输出图片的宽度。output_pic_width_in_luma_samples不应等于0。
output_pic_height_in_luma_samples指定以亮度样本为单位的输出图片的高度。output_pic_height_in_luma_samples不应等于0。
reference_pic_size_present_flag等于1指定存在reference_pic_width_in_luma_samples和reference_pic_height_in_luma_samples。
reference_pic_width_in_luma_samples指定以亮度样本为单位的参考图片的宽度。output_pic_width_in_luma_samples不应等于0。如果不存在,则将reference_pic_width_in_luma_samples的值推断为等于dec_pic_width_in_luma_samples[i]。
reference_pic_height_in_luma_samples指定以亮度样本为单位的参考图片的高度。output_pic_height_in_luma_samples不应等于0。如果不存在,则将reference_pic_height_in_luma_samples的值推断为等于dec_pic_height_in_luma_samples[i]。
注1–输出图片的尺寸应等于output_pic_width_in_luma_samples和output_pic_height_in_luma_samples的值。当参考图片用于运动补偿时,参考图片的尺寸应等于reference_pic_width_in_luma_samples和_pic_height_in_luma_samples的值。
num_dec_pic_size_in_luma_samples_minus1加1指定以亮度样本为单位的、编码视频序列中解码图片尺寸(dec_pic_width_in_luma_samples[i],dec_pic_height_in_luma_samples[i])的数量。
dec_pic_width_in_luma_samples[i]指定以亮度样本为单位的、编码视频序列中解码图片尺寸的第i个宽度。dec_pic_width_in_luma_samples[i]不应等于0,并且应为MinCbSizeY的整数倍。
dec_pic_height_in_luma_samples[i]指定以亮度样本为单位的、编码视频序列中解码图片尺寸的第i个高度。dec_pic_height_in_luma_samples[i]不应等于0,并且应为MinCbSizeY的整数倍。
注2–第i个解码图片的尺寸(dec_pic_width_in_luma_samples[i],dec_pic_height_in_luma_samples[i])可以等于编码视频序列中解码图片的解码图片尺寸。
片组标头语法
Figure BDA0003351676370000231
dec_pic_size_idx指定解码图片的宽度应等于pic_width_in_luma_samples[dec_pic_size_idx],并且解码图片的高度应等于pic_height_in_luma_samples[dec_pic_size_idx]。
滤波器
所提出的设计在概念上包括四个不同的滤波器组:从原始图片到输入图片的下采样滤波器、用于重缩放参考图片以进行运动估计/补偿的上/下采样滤波器,以及从解码图片到输出图片的上采样滤波器。第一个和最后一个可以保留为非规范性事项。在规范范围内,需要在适当的参数集中用信令明确通知上/下采样滤波器,或预先定义上/下采样滤波器。
我们的实现方式使用SHVC(SHM版本12.4)的下采样滤波器,该滤波器是12抽头和2D可分离的滤波器,用于下采样以调整要用于运动补偿的参考图片的尺寸。在当前实现中,仅支持二元(dyadic)采样。因此,默认情况下,下采样滤波器的相位设置为等于零。对于上采样,使用具有16个相位的8抽头插值滤波器,以移动相位并将亮度和色度像素位置与原始位置对齐。
表1和表2提供了用于亮度上采样处理的、p=0..15和x=0..7的8抽头滤波器系数fL[p,x],以及用于色度上采样处理的、p=0..15和x=0..3的4抽头滤波器系数fC[p,x]。
表3提供了用于下采样处理的12抽头滤波器系数。亮度和色度都使用相同的滤波器系数进行下采样。
表1.具有16个相位的亮度上采样滤波器
Figure BDA0003351676370000241
表2.具有16个相位的色度上采样滤波器
Figure BDA0003351676370000242
Figure BDA0003351676370000251
表3.亮度和色度的下采样滤波器系数
Figure BDA0003351676370000252
我们尚未实验其他滤波器设计。我们预计,当使用适用于内容和/或缩放因子的滤波器时,可以预期(也许很明显)主观和客观收益。
片组边界讨论
由于的确有许多与片组有关的工作,因此对于基于片组(TG)的ARC,我们的实现尚未完全完成。我们倾向于在压缩域中将多个子图片空域合成并提取到合成图片的讨论至少产生了工作草案之后,再次考虑该实现。然而,这并不妨碍我们在某种程度上推断结果,并相应地调整我们的信令设计。。
到目前为止,由于已经陈述的原因,我们认为片组标头是上述提议的dec_pic_size_idx之类的正确位置。我们使用有条件地出现在片组标头中的单个ue(v)码点dec_pic_size_idx来指示所采用的ARC参数。为了与我们的实现(即仅针对每个图片进行ARC)相匹配,我们现在需要在规范空间中做的一件事就是只对单个片组进行编码,或者将给定编码图片的所有TG标头都具有相同的dec_pic_size_idx(如果存在)作为比特流合规性的条件。
可以将参数dec_pic_size_idx移到启动子图片的任何标头中。我们当前的感觉是,其很可能将继续成为片组标头。
除了这些语法上的考虑,还需要一些额外的工作来启用基于片组或基于子图片的ARC。也许最困难的部分是如何解决图片中其中子图片已被重采样为较小的尺寸的不需要的样本的问题。
考虑图13的右侧部分,其由四个子图片组成(在比特流语法中可能表示为四个矩形片组)。在左侧,将右下TG子采样到一半尺寸。我们如何处理标记为“一半”(Half)的相关区域之外的样本?
一些现有的视频编码标准的共同点在于,不支持在压缩域中对图片的部分进行空域提取。这意味着图片的每个样本由一个或多个语法元素表示,并且每个语法元素影响至少一个样本。如果要保持,我们需要以某种方式填充由下采样后的TG标记为“一半”覆盖的样本周围的区域。H.263+附件P通过填充解决了该问题;实际上,可以在比特流中用信令通知(在一定的严格限制内)被填充的样本的样本值。
可能构成对先前假设的重大偏离的替代方案可以放宽当前的理解,该替代方案即:重构图片的每个样本必须由编码图片中的某些内容(即使该内容只是跳过的块)表示,但如果我们想支持基于图片矩形部分的子比特流提取(和合成),则在任何情况下都可能需要这样的替代方案。重构
实现注意事项、系统含义和档次/级别
我们提出将基本ARC包括在“基本/主要”档次中。如果某些应用场景不需要,则可以使用子档次将其删除。某些限制是可以接受的。在这方面,我们注意到某些H.263+档次和“推荐模式”(先前的档次)包括对只能用作“隐式因子为4”的附件P的限制,即在两个维度上均进行二元下采样。这足以支持视频会议中的快速启动(快速获得I帧)。
该设计使得我们相信所有滤波都可以“即时”完成,并且存储器带宽没有增加,或者只有微不足道的增加。就目前而言,我们认为没有必要将ARC推到外来(exotic)档次中。
我们不认为复杂表格等可以有效地用于性能交换,正如在马拉喀什(Marrakech)与JVET-M0135一起提出的那样。假设要约-应答和类似的有限深度信号交换(handshake),那么选择的数量太大而无法进行有意义的跨供应商互操作。就目前而言,在现实中,为了在性能交换场景中以有意义的方式支持ARC,我们必须回退到少数几个互操作点。例如:无ARC、隐式因子为4的ARC、完整ARC。作为替代方案,我们可以指定对所有ARC的必需支持,并将比特流复杂性的限制留给更高级别的SDO。无论如何,这是我们应该进行的战略讨论(除了在子档次和标志上下文中已经存在的讨论之外)。
关于级别:我们相信基本设计原理必须是,作为比特流一致性的条件,无论在比特流中用信令通知了多少上采样,上采样图片的样本计数都必须适合于比特流的级别,并且所有样本都必须适合上采样的编码图片。我们注意到,在H263+中并非如此。那里可能没有某些样本。
1.2.5JVET-N0118
提出以下方面:
1)在SPS中用信令通知图片分辨率列表,并在PPS中用信令通知该列表的索引以指定单个图片的尺寸。
2)对于将要输出的任何图片,裁剪(根据需要)在重采样之前的解码图片并输出,即,重采样的图片不用于输出,仅用于帧间预测参考。
3)支持1.5倍和2倍的重采样率。不支持任意重采样率。进一步研究是否需要一个或两个以上其他重采样率。
4)在图片级重采样和块级重采样之间,支持者更倾向于块级重采样。
a.但是,如果选择图片级重采样,则提出以下方面:
i.当对参考图片进行重采样时,参考图片的重采样版本和原始、重采样版本都存储在DPB中,因此两者都会影响DPB的充满度。
ii.当相应的未重采样的参考图片被标记为“未用于参考”时,重采样的参考图片被标记为“未用于参考”。
iii.RPL信令语法保持不变,而RPL的构造处理进行了如下修改:当参考图片需要包括在RPL条目中,并且与当前图片具有相同分辨率的该参考图片的版本不在DPB中时,将调用图片重采样处理,并将该参考图片的重采样版本包括在RPL条目中。
iv.DPB中可能存在的重采样参考图片的数量应限制为例如小于或等于2。
b.否则(选择块级重采样),建议以下内容:
i.为了限制最坏情况的解码器复杂度,提出不允许从与当前图片的分辨率不同的参考图片中对块进行双向预测。
ii.另一选项是,当需要进行重采样和四分之一像素插值时,两个滤波器将被组合在一起并立即应用所述操作。
5)无论选择哪种基于图片的重采样方法和基于块的重采样方法,都提出根据需要应用时域运动矢量缩放。
1.2.5.1实现方式
ARC软件是在VTM-4.0.1之上实现的,但具有以下更改:
–在SPS中用信令通知支持的分辨率列表。
–空域分辨率信令从SPS移到了PPS。
–实现了基于图片的重采样方案以对参考图片进行重采样。在图片被解码之后,可以将重构的图片重采样到不同的空域分辨率。原始的重构图片和重采样的重构图片都存储在DPB中,可供以后的图片按解码顺序进行参考。
–实现的重采样滤波器基于在JCTVC-H0234中测试的滤波器,如下所示:
ο上采样滤波器:具有抽头(-4、54、16,-2)/64的4抽头+/-四分之一相位DCTIF。
ο下采样滤波器:具有抽头(1、0,-3、0、10、16、10、0,-3、0、1)/32的h11滤波器。
–构造当前图片的参考图片列表(即L0和L1)时,仅使用分辨率与当前图片相同的参考图片。请注意,参考图片可能在其原始尺寸或重采样的尺寸上时都是可用的。
–可以启用TMVP和ATVMP;但是,当当前图片和参考图片的原始编码分辨率不同时,将对该参考图片禁用TMVP和ATMVP。
–为了方便和简化起点软件实现,在输出图片时,解码器输出最高可用分辨率。
1.2.5.2关于图片尺寸和图片输出的信令
1.关于比特流中编码图片的空域分辨率的列表
当前,CVS中的所有编码图片都具有相同的分辨率。因此,直接在SPS中仅用信令通知一种分辨率(即,图片的宽度和高度)。在ARC支持的情况下,需要用信令通知图片分辨率列表,而不是一种分辨率,并且我们提出在SPS中用信令通知该列表,并在PPS中用信令通知该列表的索引以指定单个图片的尺寸。
2.关于图片输出
我们提出,对于将要输出的任何图片,裁剪(根据需要)重采样之前的解码图片并输出,即重采样的图片不用于输出,仅用于帧间预测参考。ARC重采样滤波器应设计为优化将重采样的图片用于帧间预测,并且此类滤波器对于图片输出/显示目的可能不是最佳的,而视频终端设备通常具有已实现的优化的输出比例/缩放功能。
1.2.5.3关于重采样
解码图片的重采样可以基于图片或基于块。对于VVC中的最终ARC设计,与基于图片的重采样相比,我们更倾向于基于块的重采样。我们建议对这两种方法进行讨论,并且JVET决定应为VVC中的ARC支持指定这两种方法中的哪一种。
基于图片的重采样
在针对ARC的基于图片的重采样中,仅针对特定分辨率对图片进行一次重采样,然后将其存储在DPB中,而同一图片的未重采样版本也保留在DPB中。
为ARC采用基于图片的重采样有两个问题:1)需要额外的DPB缓冲区来存储重采样的参考图片,以及2)由于增加了从DPB读取参考图片数据并将参考图片数据写入DPB的操作,因此需要额外的存储带宽。
在DPB中仅保留参考图片的一个版本对于基于图片的重采样不是一个好主意。如果我们仅保留未重采样的版本,则参考图片可能需要多次重采样,因为多个图片可能参考同一参考图片。另一方面,如果参考图片被重采样并且我们仅保留重采样的版本,那么我们需要在需要输出参考图片时应用逆重采样,因为如上所述,最好输出未重采样的图片。这是一个问题,因为重采样处理不是无损操作。拍摄一张图片A,然后对其进行下采样,然后对其进行上采样,以得到与A分辨率相同的A',A和A'不会相同;A'包括的信息比A少,因为在下采样和上采样处理期间丢失了一些高频信息。
为了处理额外的DPB缓冲区和内存带宽的问题,我们提出,如果VVC中的ARC设计使用基于图片的重采样,则以下适用:
1.当对参考图片进行重采样时,参考图片的重采样版本和原始、重采样版本都存储在DPB中,因此两者都会影响DPB的充满度。
2.当相应的未重采样的参考图片被标记为“未用于参考”时,重采样的参考图片被标记为“未用于参考”。
3.每个片组的参考图片列表(RPL)包括与当前图片具有相同分辨率的参考图片。尽管无需更改RPL信令语法,但可以修改RPL构造处理以确保上一语句中的内容,如下所示:当需要将参考图片包括在RPL条目中时,在与当前图片具有相同分辨率的参考图片的版本尚不可用时,将调用图片重采样处理,并包括该参考图片的重采样版本。
4.DPB中可能存在的重采样参考图片的数量应限制为例如小于或等于2。
此外,为了在时域MV来自与与当前帧具有不同分辨率的参考帧的情况下启用时域MV使用(例如,Merge模式和ATMVP),我们提出根据需要将时域MV缩放到当前分辨率。
基于块的ARC重采样
在针对ARC的基于块的重采样中,只要需要,就对参考块进行重采样,并且DPB中不会存储重采样的图片。
这里的主要问题是额外的解码器复杂性。这是因为参考图片中的块可以被另一图片中的多个块和多个图片中的块多次参考。
当参考图片中的块被当前图片中的块参考、并且参考图片和当前图片的分辨率不同时,通过调用插值滤波器对参考块进行重采样,使得参考块具有整数像素分辨率。当运动矢量以四分之一像素时,再次调用插值处理以获得四分之一像素分辨率的重采样参考块。因此,对于来自涉及不同分辨率的参考块的当前块的每个运动补偿操作,需要多达两个而不是一个的插值滤波操作。在没有ARC支持的情况下,最多仅需要一个插值滤波器操作(即,用于生成四分之一像素分辨率的参考块)。
为了限制最坏情况的复杂性,我们提出,如果VVC中的ARC设计使用基于块的重采样,则以下适用:
–不允许从与当前图片的分辨率不同的参考图片中对块进行双向预测。
–更精确地,约束如下:对于参考参考图片picB中的参考块blkB的当前图片picA中的当前块blkA,当picA和picB具有不同的分辨率时,块blkA应为单向预测块。
在此约束下,解码块所需的最坏情况的插值操作数被限制为2。如果块参考来自不同分辨率图片的块,则如上所述,所需的插值操作数为2。这与块参考来自相同分辨率图片中的参考块并被编码为双向预测块的情况相同,因为插值操作数也为2(即,一个用于获得每个参考块的四分之一像素分辨率)。
为了简化实现,我们提出了另一种变型,即,如果VVC中的ARC设计使用基于块的重采样,则以下适用:
–如果参考帧和当前帧的分辨率不同,则首先计算预测器每个像素的对应位置,然后仅应用一次插值。即,两个插值操作(即,一个用于重采样、一个用于四分之一像素插值)被组合为仅一个插值操作。可以重复使用当前VVC中的子像素插值滤波器,但是在这种情况下,应扩大插值的粒度,但将插值操作次数从2减少到1。
–为了在时域MV来自与当前帧具有不同分辨率的参考帧的情况下启用时域MV使用(例如,Merge模式和ATMVP),我们提出根据需要将时域MV缩放到当前分辨率。
重采样率
在JVET-M0135中,为了开始关于ARC的讨论,提出对于ARC的起点,仅考虑2x的重采样率(意味着,2x2用于上采样,1/2x 1/2用于下采样)。通过在马拉喀什会议(Marrakechmeeting)之后对该主题的进一步讨论,我们了解到仅支持2x的重采样率是非常有限的,因为在某些情况下,重采样和未重采样分辨率之间的较小差异会更有利。
尽管可能希望支持任意重采样率,但是支持似乎很困难。这是因为为了支持任意的重采样率,必须定义和实现的重采样滤波器的数量似乎太多了,并给解码器的实现带来了沉重的负担。
我们提出应当支持不止一个但少量的重采样率,至少应支持1.5x和2x的重采样率,并且不支持任意重采样率。
1.2.5.4最大DPB缓冲区尺寸和缓冲区充满度
利用ARC,DPB可以在同一CVS内包括具有不同空域分辨率的解码图片。对于DPB管理和相关方面,以解码图片为单位计算DPB尺寸和充满度不再有效。
以下是如果支持ARC的一些需要解决的特定方面的讨论,以及最终VVC规范中的可能解决方案(我们不在本次会议上提出采用可能的解决方案):
1.不是使用PicSizeInSamplesY的值(即PicSizeInSamplesY=pic_width_in_luma_samples*pic_height_in_luma_samples)来导出MaxDpbSize(即,DPB中可能存在的参考图片的最大数量),而是基于MinPicSizeInSamplesY的值来导出MaxDpbSize。MinPicSizeInSampleY定义如下:
MinPicSizeInSampleY=(比特流中最小图片分辨率的宽度)*(比特流中最小分辨率的高度)
MaxDpbSize的推导修改如下(基于HEVC方程):
if(MinPicSizeInSamplesY<=(MaxLumaPs>>2))
MaxDpbSize=Min(4*maxDpbPicBuf,16)
else if(MinPicSizeInSamplesY<=(MaxLumaPs>>1))
MaxDpbSize=Min(2*maxDpbPicBuf,16)
else if(MinPicSizeInSamplesY<=((3*MaxLumaPs)>>2))
MaxDpbSize=Min((4*maxDpbPicBuf)/3,16)
else
MaxDpbSize=maxDpbPicBuf
2.每个解码图片都与称为PictureSizeUnit的值相关联。PictureSizeUnit是整数值,其指定解码图片尺寸相对于MinPicSizeInSampleY有多大。PictureSizeUnit的定义取决于VVC中ARC支持哪种重采样率。
例如,如果ARC仅支持2的重采样率,则PictureSizeUnit定义如下:
–比特流中分辨率最低的解码图片与为1的PictureSizeUnit相关联。
–分辨率为比特流中最小分辨率2×2的解码图片与为4的PictureSizeUnit(即1*4)相关联。
作为另一示例,如果ARC支持1.5和2的重采样率,则PictureSizeUnit的定义如下:
–比特流中分辨率最低的解码图片与为4的PictureSizeUnit相关联。
–分辨率为比特流中最小分辨率的1.5x 1.5的解码图片与为9的PictureSizeUnit(即2.25*4)相关联。
–分辨率为比特流中最小分辨率的2×2的解码图片与为16的PictureSizeUnit(即4*4)相关联。
对于ARC支持的其他重采样率,应使用与上述示例相同的原理来确定每个图片尺寸的PictureSizeUnit的值。
3.令变量MinPictureSizeUnit为PictureSizeUnit的最小可能值。也就是说,如果ARC仅支持2的重采样率,则MinPictureSizeUnit为1;如果ARC支持1.5和2的重采样率,则MinPictureSizeUnit为4;同样,使用相同的原理确定MinPictureSizeUnit的值。
4.sps_max_dec_pic_buffering_minus1[i]的值范围被指定为0到(MinPictureSizeUnit*(MaxDpbSize–1))的范围。变量MinPictureSizeUnit是PictureSizeUnit的最小可能值。
5.基于PictureSizeUnit指定DPB充满度操作如下所示:
–在解码单元0处初始化HRD,同时将CPB和DPB都设置为空(将DPB充满度设置为等于0)。
–当冲去(flush)DPB(即,从DPB中删除所有图片)时,将DPB充满度设置为等于0。
–当从DPB中删除图片时,DPB充满度通过与删除的图片相关联的PictureSizeUnit的值递减。
–当将图片插入DPB时,DPB充满度通过与所插入图片相关联的PictureSizeUnit的值递增。
1.2.5.5重采样滤波器
在软件实现中,简单地从JCTVC-H0234中描述的先前可用的滤波器中获取已实现的重采样滤波器。如果其他重采样滤波器具有更好的性能和/或更低的复杂度,则应进行测试和使用。我们提出对各种重采样滤波器进行测试,以在复杂性和性能之间进行权衡。此类测试可以在CE中进行。
1.2.5.6对现有工具的其他必要修改
为了支持ARC,可能需要对某些现有编码工具进行一些修改和/或其他操作。例如,在ARC软件实现的基于图片的重采样中,为简单起见,当当前图片和参考图片的原始编码分辨率不同时,我们禁用了TMVP和ATMVP。
1.2.6 JVET-N0279
根据“对未来视频编码标准的要求”,“在提供相同内容的多个表示、每个表示具有不同的属性(例如,空域分辨率或采样比特深度)的自适应流传输服务的情况下,该标准应支持快速表示切换”。在实时视频通信中,在不需要插入I图片的情况下在编码视频序列内允许分辨率更改,这样不仅可以使视频数据无缝地适应动态通道条件或用户偏好,而且还可以消除由I图片引起的跳动效果。自适应分辨率更改的假设示例在图14中示出,其中从不同尺寸的参考图片来预测当前图片。
该贡献提出了高级语法,以用信令通知自适应分辨率更改以及对VTM中当前运动补偿的预测处理的修改。这些修改仅限于运动矢量缩放和子像素位置推导,而不用更改现有运动补偿插值器。这将允许重新使用现有的运动补偿插值器,而不需要新的处理块来支持自适应分辨率更改(其会带来额外的成本)。
1.2.6.1自适应分辨率更改信令
1.2.6.1.1 SPS
Figure BDA0003351676370000331
Figure BDA0003351676370000341
[[pic_width_in_luma_samples指定以亮度样本为单位的每个解码图片的宽度。pic_width_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。]]
[[pic_height_in_luma_samples指定以亮度样本为单位的每个解码图片的高度。pic_height_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。]]
max_pic_width_in_luma_samples指定以亮度样本为单位的参考SPS的解码图片的最大宽度。max_pic_width_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。
max_pic_height_in_luma_samples指定以亮度样本为单位的参考SPS的解码图片的最大高度。max_pic_height_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。
1.2.6.1.2 PPS
Figure BDA0003351676370000342
pic_size_different_from_max_flag等于1指定PPS用信令通知与所参考的SPS中的max_pic_width_in_luma_samples和max_pic_height_in_luma_sample不同的图片宽度和图片高度。pic_size_different_from_max_flag等于0指定pic_width_in_luma_samples和pic_height_in_luma_sample与所参考的SPS中的max_pic_width_in_luma_samples和max_pic_height_in_luma_sample相同。
pic_width_in_luma_samples指定以亮度样本为单位的每个解码图片的宽度。pic_width_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。如果pic_width_in_luma_samples不存在,则推断它等于max_pic_width_in_luma_samples。
pic_height_in_luma_samples指定以亮度样本为单位的每个解码图片的高度。pic_height_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。当pic_height_in_luma_samples不存在时,则推断它等于max_pic_height_in_luma_samples。
比特流一致性的要求是,水平和垂直缩放比率应在1/8到2的范围内(包括每个活动(active)参考图片)。缩放比率定义如下:
–horizontal_scaling_ratio=((reference_pic_width_in_luma_samples<<14)+(pic_width_in_luma_samples/2))/pic_width_in_luma_samples
–vertical_scaling_ratio=((reference_pic_height_in_luma_samples<<14)+(pic_height_in_luma_samples/2))/pic_height_in_luma_samples
Figure BDA0003351676370000351
参考图片缩放处理
当CVS内的分辨率发生更改时,图片可能与其参考图片中的一个或多个具有不同的尺寸。该提议将所有运动矢量归一化为当前图片网格,而不是其对应的参考图片网格。据称这对于保持设计一致并使分辨率更改对运动矢量预测处理透明是有益的。否则,由于尺度不同,指向不同尺寸的参考图片的相邻运动矢量不能直接用于空域运动矢量预测。
当发生分辨率更改时,在进行运动补偿预测时,必须对运动矢量和参考块进行缩放。缩放范围被限制为[1/8,2],即,按比率放大被限制为1:8,而按比率缩小被限制为2:1。注意,按比率放大是指参考图片小于当前图片的情况,而按比率缩小是指参考图片大于当前图片的情况。在以下各节中,将详细介绍缩放处理。
亮度块
缩放因子及其定点表示被定义为
Figure BDA0003351676370000361
Figure BDA0003351676370000362
缩放处理包括两个部分:
1.将当前块的左上角像素映射到参考图片;
2.使用水平和垂直步长来确定当前块其他像素的参考位置。
如果当前块的左上角像素的坐标为(x,y),则运动矢量(mvX,mvY)指向的参考图片中的子像素位置(x′,y′)以1/16像素为单位指定如下:
·参考图片中的水平位置为
x′=((x<<4)+mvX)·hori_scale_fp, (3)
且x′进一步缩小以仅保留10个小数位
x′=Sign(x′)·((Abs(x′)+(1<<7))>>8). (4)
·同样,参考图片的垂直位置为:
y′=((y<<4)+mvY)·vert_scale_fp, (5)
且y′进一步缩小为
y′=Sign(y′)·((Abs(y′)+(1<<7))>>8) (6)
此时,当前块的左上角像素的参考位置为(x′,y′)。其他参考子像素/像素位置是相对于具有水平和垂直步长的(x′,y′)计算的。这些步长是根据上述水平和垂直缩放因子以1/1024像素精度得出的,如下所示:
x_step=(hori_scale_fp+8)>>4, (7)
y_step=(vert_scale_fp+8)>>4. (8)
作为示例,如果当前块中的像素距左上角像素i列j行,则其对应的参考像素的水平和垂直坐标可通过以下方式得出:
x′i=x′+i*x_step, (9)
y′j=y′+j*y_step. (10)
在子像素插值中,必须将x′i和y′j分解为完整像素部分和分数像素部分:
·用于寻址参考块的完整像素部分等于
(x′i+32)>>10, (11)
(y′j+32)>>10. (12)
·用于选择插值滤波器的分数像素部分等于
Δx=((x′i+32)>>6)&15, (13)
Δy=((y′j+32)>>6)&15. (14)
一旦确定了参考图片中的完整像素和分数像素位置,就可以使用现有的运动补偿插值器而无需任何其他更改。完整像素位置将用于从参考图片中获取参考块补丁,而分数像素位置将用于选择适当的插值滤波器。
色度块
当色度格式为4:2:0时,色度运动矢量的精度为1/32像素。除了与色度格式有关的调整外,色度运动矢量和色度参考块的缩放处理与亮度块几乎相同。
当当前色度块的左上角像素的坐标为(xc,yc)时,参考色度图片中的初始水平和垂直位置为
xc′=((xc<<5)+mvX)·hori_scale_fp, (1)
yc′=((yc<<5)+mvY)·vert_scale_fp, (2)
其中mvX和mvY是原始的亮度运动矢量,但现在应以1/32像素精度进行检查。
xc′和yc′进一步缩小以保持1/1024像素精度
xc′=Sign(xc′)·((Abs(xc′)+(1<<8))>>9), (3)
yc′=Sign(yc′)·((Abs(yc′)+(1<<8))>>9). (4)
与相关的亮度方程相比,上述右移增加了一位。
所使用的步长对于亮度是相同的。对于相对于左上角像素、位于(i,j)的色度像素,其参考像素的水平和垂直坐标是通过以下得到的
xci=xc′+i*x_step, (5)
ycj=yc′+j*y_step. (6)
在子像素插值中,xci和ycj也分为完整像素部分和分数像素部分:
·用于寻址参考块的完整像素部分等于
(xci+16)>>10, (7)
(ycj+160>>10. (8)
·用于选择插值滤波器的分数像素部分等于
Δx=((xci+16)>>5)&31, (9)
Δy=((ycj+16)>>5)&31. (10)
与其他编码工具的交互
由于某些编码工具与参考图片缩放的交互会带来额外的复杂性和存储器带宽,因此建议对VVC规范添加以下限制:
-当tile_group_temporal_mvp_enabled_flag等于1时,当前图片及其并置图片的尺寸应相同。
-当允许在序列中更改分辨率时,应关闭解码器运动矢量细化。
-当允许在序列中更改分辨率时,sps_bdof_enabled_flag应等于0。
1.3JVET-N0415中基于编码树块(CTB)的自适应环路滤波器(ALF)
条带级时域滤波器
在VTM4中采用了自适应参数集(APS)。每个APS包括一组用信令通知的ALF滤波器,最多支持32个APS。在该建议中,测试了条带级时域滤波器。片组可以重新使用来自APS的ALF信息以减少开销。APS被更新为先进先出(FIFO)缓冲区。
基于CTB的ALF
对于亮度分量,当将ALF应用于亮度CTB时,指示在16个固定的、5个时域的或1个用信令通知的滤波器集中进行选择。仅用信令通知滤波器设置索引。对于一个条带,只能用信令通知一个新的集合(25个滤波器)。如果为条带用信令通知了新的集合,则同一条带中的所有亮度CTB都共享该集合。固定滤波器集可用于预测新的条带级滤波器集,也可用作亮度CTB的候选滤波器集。滤波器总数为64。
对于色度分量,当将ALF应用于色度CTB时,如果用信令向条带通知新滤波器,则CTB将使用新滤波器,否则,将应用满足时域可缩放性约束的最新时域色度滤波器。
作为条带级时域滤波器,将APS更新为先进先出(FIFO)缓冲器。
1.4可选时域运动矢量(ATMVP)预测(VVC中又称为基于子块的时域Merge候选)
在ATMVP(alternative temporal motion vector prediction)方法中,通过从小于当前CU的块中提取多组运动信息(包括运动矢量和参考索引)来修改运动矢量时域运动矢量预测(TMVP)。如图15所示,子CU是正方形N×N块(默认情况下N设置为8)。
该ATMVP以两个步骤预测CU内的子CU的运动矢量。第一步是利用所谓的时域矢量识别参考图片中的对应块。参考图片被称为运动源图片。第二步是将当前CU划分成子CU,并从对应于每个子CU的块中获得运动矢量以及每个子CU的参考索引,如图15所示。
在第一步骤中,由当前CU的空域相邻块的运动信息确定参考图片和对应块。为了避免相邻块的重复扫描处理,使用当前CU的Merge候选列表中来自块0(左块)的Merge候选。来自块A0的、参考并置参考图片的第一可用运动矢量被设置为时域矢量。这样,在ATMVP中,与TMVP相比,可以更准确地识别对应块,其中对应块(有时称为并置块)总是相对于当前CU位于右下或中心位置。
在第二步骤中,通过向当前CU的坐标添加时域矢量,通过运动源图片中的时域矢量来识别子CU的对应块。对于每个子CU,其对应块(覆盖中心样本的最小运动网格)的运动信息用于推导子CU的运动信息。在识别出对应的N×N块的运动信息之后,以与HEVC的TMVP相同的方式将其转换为当前子CU的参考索引和运动矢量,其中运动缩放和其他处理也适用。
1.5仿射运动预测
在HEVC中,运动补偿预测(MCP)仅应用平移运动模型。然而,在真实世界中可能存在多种运动,例如放大/缩小、旋转、透视运动和其他不规则运动。在VVC中,简化的仿射变换运动补偿预测适用于4参数仿射模型和6参数仿射模型。如图16所示,通过用于4参数仿射模型的两个控制点运动矢量(CPMV)和用于6参数仿射模型的3个CPMV来描述块的仿射运动场。
块的运动矢量场(MVF)由以下等式与等式(1)中的4参数仿射模型(其中4参数定义为变量a,b,c,d,e和f)和等式(2)中的6参数仿射模型(其中4参数定义为变量a,b,e和f)来描述:
Figure BDA0003351676370000401
Figure BDA0003351676370000402
其中(mvh 0,mvh 0)是左上角控制点的运动矢量,(mvh 1,mvh 1)是右上角控制点的运动矢量,(mvh 2,mvh 2)是左下角的运动矢量控制点的运动矢量,所有这三个运动矢量都称为控制点运动矢量(CPMV),(x,y)代表相对于当前块内左上角样本的代表点的坐标,并且(mvh(x,y),mvv(x,y))是为位于(x,y)的样本推导的运动矢量。CP运动矢量可以被用信令通知(例如在仿射AMVP模式中)或被即时推导(例如在仿射Merge模式中)。w和h是当前块的宽度和高度。在实践中,除法是通过取整和右移来实现的。在VTM中,代表点定义为子块的中心位置,例如,当子块的左上角相对于当前块内左上角样本的坐标为(xs,ys),代表点的坐标被定义为(xs+2,ys+2)。对于每个子块(即VTM中的4x4),代表点用于推导整个子块的运动矢量。
为了进一步简化运动补偿预测,应用了基于子块的仿射变换预测。为了推导每个M×N(在当前VVC中,M和N都设置为4)子块的运动矢量,如图17所示,根据等式(1)和(2)计算出每个子块的中心样本的运动矢量,并被取整到1/16的分数精度。然后,将适用于1/16像素的运动补偿插值滤波器应用于生成具有推导运动矢量的每个子块的预测。仿射模式引入了1/16像素的插值滤波器。
在MCP之后,对每个子块的高精度运动矢量进行取整并保存为与常规运动矢量相同的精度。
1.5.1仿射预测的信令
类似于平移运动模型,由于仿射预测,也存在两种用于用信令通知辅助信息的模式。它们是AFFINE_INTER和AFFINE_MERGE模式。
1.5.2 AF_INTER模式
对于宽度和高度均大于8的CU,可以应用AF_INTER模式。在比特流中用信令通知CU级的仿射标志,以指示是否使用AF_INTER模式。
在此模式下,对于每个参考图片列表(列表0或列表1),仿射AMVP候选列表按以下顺序由三种类型的仿射运动预测器构成,其中每个候选包括当前块的估计CPMV。用信令通知在编码器侧(诸如图18中的mv0,mv1,mv2)找到的最佳CPMV和估计的CPMV的差异。另外,进一步用信令通知从其推导估计的CPMV的仿射AMVP候选的索引。
(1)继承的仿射运动预测器
检查顺序类似于HEVC AMVP列表构建中的空域MVP。首先,从{A1,A0}中的第一块推导左继承的仿射运动预测器,该第一块被仿射编码,并且具有与当前块相同的参考图片。其次,从{B1,B0,B2}中的第一块推导上述继承的仿射运动预测器,该第一块被仿射编码,并且具有与当前块相同的参考图片。在图19中示出了五个块A1,A0,B1,B0,B2。
一旦发现相邻块被以仿射模式编码,则覆盖该相邻块的编码单元的CPMV被用于推导当前块的CPMV的预测器。例如,如果A1用非仿射模式编码,而A0用4参数仿射模式编码,则左继承的仿射MV预测器将从A0推导。在这种情况下,覆盖A0的CU的CPMV,如图21B中左上角的CPMV的
Figure BDA0003351676370000411
和右上角的CPMV的
Figure BDA0003351676370000412
所示,用于推导当前块的估计CPMV,由用于当前块的左上(坐标(x0,y0))、右上(坐标(x1,y1))和右下(坐标(x2,y2))位置的
Figure BDA0003351676370000413
表示。
(2)构造的仿射运动预测器
构造的仿射运动预测器由从具有相同的参考图片的相邻帧间编码块推导的控制点运动矢量(CPMV)组成,如图20所示。如果当前仿射运动模型为4参数仿射,则CPMV的数量为2,否则,如果当前仿射运动模型为6参数仿射,则CPMV的数量为3。左上角的CPMV
Figure BDA0003351676370000414
是由{A,B,C}组中第一块处的MV推导的,该组被帧间编码,并具有与当前块相同的参考图片。右上角的CPMV
Figure BDA0003351676370000415
是由{D,E}组中第一块处的MV推导的,该组被帧间编码,并具有与当前块相同的参考图片。左下角的CPMV
Figure BDA0003351676370000416
是由{F,G}组中第一块处的MV推导的,该组被帧间编码,并具有与当前块相同的参考图片。
-如果当前仿射运动模型是4参数仿射,则只有当
Figure BDA0003351676370000417
Figure BDA0003351676370000418
都已知时,才会将构造的仿射运动预测器插入到候选列表中,即
Figure BDA0003351676370000421
Figure BDA0003351676370000422
用作当前块的左上(坐标(x0,y0))、右上(坐标(x1,y1))和右下(坐标(x2,y2))位置的估计CPMV。
-如果当前仿射运动模型是6参数仿射,则只有当
Figure BDA0003351676370000423
Figure BDA0003351676370000424
都已知,才会将构造的仿射运动预测器插入到候选列表中,即
Figure BDA0003351676370000425
Figure BDA0003351676370000426
用作当前块的左上(坐标(x0,y0))、右上(坐标(x1,y1))和右下(坐标(x2,y2))位置的估计CPMV。
当将构造的仿射运动预测器插入候选列表时,不应用裁剪处理。
1)常规AMVP运动预测器
适用以下内容,直到仿射运动预测器的数量达到最大值为止。
1)通过将所有CPMV设置为等于
Figure BDA0003351676370000427
(如果可用)来推导仿射运动预测器。
2)通过将所有CPMV设置为等于
Figure BDA0003351676370000428
(如果可用)来推导仿射运动预测器。
3)通过将所有CPMV设置为等于
Figure BDA0003351676370000429
(如果可用)来推导仿射运动预测器。
4)通过将所有CPMV设置为等于HEVC TMVP(如果可用)来推导仿射运动预测器。
5)通过将所有CPMV设置为零MV来推导仿射运动预测器。
注意,
Figure BDA00033516763700004210
已经在构造的仿射运动预测器中推导出。
在AF_INTER模式下,当使用4/6参数仿射模式时,需要2/3个控制点,因此,需要为这些控制点编码2/3MVD,如图18A和18B所示。在JVET-K0337中,提出推导MV,如下所示,即,从mvd0预测mvd1和mvd2
Figure BDA00033516763700004211
Figure BDA00033516763700004212
Figure BDA00033516763700004213
其中
Figure BDA00033516763700004214
mvdi和mv1分别是左上像素(i=0)、右上像素(i=1)或左下像素(i=2)的预测运动矢量、运动矢量差和运动矢量,如图18B所示。请注意,两个运动矢量(例如mvA(xA,yA)和mvB(xB,yB))的加法分别等于两个分量的总和,即newMV=mvA+mvB,且newMV的两个分量分别被设置为(xA+xB)和(yA+yB)。
1.5.2.1 AF_MERGE模式
当以AF_MERGE模式应用CU时,它从有效的邻居重构块中获得以仿射模式编码的第一块。并且候选块的选择顺序是从左、上、右上,左下到左上(依次由A,B,C,D,E表示),如图21A所示。例如,如果邻居左下块以仿射模式被编码,如图21B中的A0所示,则获取包括块A的相邻CU/PU的左上角、右上角和左下角的控制点(CP)运动矢量mv0 N、mv1 N和mv2 N。基于mv0 N、mv1 N和mv2 N计算当前CU/PU左上角/右上/左下的运动矢量mv0 C、mv1 C和mv2 C(仅用于6参数仿射模型)。应该注意的是,在VTM-2.0中,如果当前块为仿射编码的,则位于左上角的子块(例如,VTM中的4×4块)存储mv0,位于右上角的子块存储mv1。如果使用6参数仿射模型对当前块进行编码,则位于左下角的子块存储mv2;否则(使用4参数仿射模型对当前块进行编码),LB存储mv2’。其他子块存储用于MC的MV。
在推导当前CU的CPMVmv0 C、mv1 C和mv2 C之后,根据简化的仿射运动模型等式(1)和(2),生成当前CU的MVF。为了识别当前CU是否以AF_MERGE模式编码,当至少一个邻近块以仿射模式编码时,在比特流中用信令通知仿射标志。
在JVET-L0142和JVET-L0632中,仿射Merge候选列表通过以下步骤构造:
1)插入继承的仿射候选
继承的仿射候选是指该候选是从其有效邻居仿射编码块的仿射运动模型推导的。从相邻块的仿射运动模型中推导最多两个继承的仿射候选,并将其插入到候选列表中。对于左预测器,扫描顺序为{A0,A1};对于上述预测器,扫描顺序为{B0,B1,B2}。
2)插入构造的仿射候选
如果仿射Merge候选列表中的候选数量小于MaxNumAffineCand(例如5),则将构造的仿射候选插入到候选列表中。构造仿射候选是指通过组合每个控制点的邻居运动信息来构造候选。
a)首先从图22所示的指定空域邻居和时域邻居中推导控制点的运动信息。CPk(k=1,2,3,4)表示第k个控制点。A0,A1,A2,B0,B1,B2和B3是用于预测CPk(k=1、2、3)的空域位置;T是用于预测CP4的时域位置。
CP1,CP2,CP3和CP4的坐标分别是(0,0),(W,0),(H,0)和(W,H),其中W和H是当前块的宽度和高度。
根据以下优先级顺序获得每个控制点的运动信息:
–对于CP1,检查优先级为B2->B3->A2。如果B2可用,则使用B2。否则,如果B2不可用,则使用B3。如果B2和B3都不可用,则使用A2。如果这三个候选都不可用,则无法获得CP1的运动信息。
–对于CP2,检查优先级为B1→B0;
–对于CP3,检查优先级为A1→A0;
–对于CP4,使用T。
b)其次,使用控制点的组合来构造仿射Merge候选。
I.需要三个控制点的运动信息来构造6参数仿射候选。可以从以下四个组合({CP1,CP2,CP4},{CP1,CP2,CP3},{CP2,CP3,CP4},{CP1,CP3,CP4})中的一个中选择三个控制点。组合{CP1,CP2,CP3},{CP2,CP3,CP4},{CP1,CP3,CP4}将转换为由左上、右上和左下控制点表示的6参数运动模型。
II.需要两个控制点的运动信息来构造4参数仿射候选。可以从两个组合({CP1,CP2},{CP1,CP3})中的一个中选择两个控制点。这两个组合将转换为由左上和右上控制点表示的4参数运动模型。
III.按照以下顺序将构造的仿射候选的组合插入到候选列表中:
{CP1,CP2,CP3},{CP1,CP2,CP4},{CP1,CP3,CP4},{CP2,CP3,CP4},{CP1,CP2},{CP1,CP3}
i.对于每个组合,检查每个CP的列表X的参考索引,如果它们都相同,则此组合具有针对列表X的有效CPMV。如果组合对于列表0和列表1均没有有效的CPMV,则该组合被标记为无效。否则,它是有效的,并将CPMV放入子块Merge列表中。
3)用零运动矢量填充
如果仿射Merge候选列表中的候选的数量小于5,则将具有零参考索引的零运动矢量插入候选列表中,直到列表已满。
更具体地,对于子块Merge候选列表,具有MV设置为(0,0)且预测方向设置为列表0的单向预测(对于P条带)和双向预测(对于B条带)的4参数Merge候选。
2.现有实现方式的缺点
在VVC中应用时,ARC可能会出现以下问题:
1.尚不清楚如何用信令通知与ARC有关的信息。
2.当参考图片、并置图片和当前图片的分辨率不同时,尚不清楚如何应用仿射/TMVP或ATMVP。
3.用于ARC的下采样或上采样滤波器的设计可能会被更好地设计。
3.自适应分辨率转换的示例方法
下面的详细发明应被认为是示例以解释一般概念。这些发明不应狭义地解释。此外,这些发明可以以任何方式组合。
在下面的讨论中,SatShift(x,n)被定义为
Figure BDA0003351676370000451
Shift(x,n)被定义为Shift(x,n)=(x+offset0)>>n。
在一个示例中,将offset0和/或offset1设置为(1<<n)>>1或(1<<(n-1))。在另一示例中,将offset0和/或offset1设置为0。
在另一示例中,offset0=offset1=((1<<n)>>1)-1或((1<<(n-1)))-1。
Clip3(min,max,x)被定义为
Figure BDA0003351676370000452
Floor(x)被定义为小于或等于x的最大整数。
Ceil(x)是大于或等于x的最小整数。
Log2(x)被定义为x的以2为底的对数。
ARC的信令
1.提出可以在除DPS、VPS、SPS、PPS、APS、图片标头、条带标头、片组标头之外的视频单元中用信令通知与ARC有关的图片维度信息(宽度和/或高度)。
a.在一个示例中,可以在补充增强信息(SEI,Supplemental EnhancementInformation)消息中用信令通知与ARC有关的图片维度信息。
b.在一个示例中,可以在用于ARC的单独视频单元中用信令通知与ARC有关的图片维度信息。例如,视频单元可以被命名为分辨率参数集(RPS)或转换参数集(CPS),或任何其他名称。
i.在一个示例中,在用于ARC的单独视频单元(诸如将被命名的RPS或CPS)中用信令通知宽度和高度的一种以上的组合。
2.提出不以0阶指数哥伦布码(Exponential Golomb code)信令通知图片尺寸(宽度或高度)。
a.在一个示例中,可以用定长码或一元(unary)码对其进行编码。
b.在一个示例中,可以用K(K>0)阶指数哥伦布码来对其进行编码。
c.可以在视频单元(诸如,DPS、VPS、SPS、PPS、APS、图片标头、条带标头、片组标头等)中,或在用于ARC的单独视频单元(诸如将被命名的RPS或CPS)中用信令通知维度。
3.提出用信令通知分辨率比率,而不是用信令通知多个分辨率。
a.在一个示例中,可以用信令通知一种基本分辨率的指示。另外,可以进一步用信令通知允许的比率组合的指示(诸如,水平比率、垂直比率)。
b.在一个示例中,可在PPS中用信令通知所允许比率组合的指示的索引,以指示一个图片的实际分辨率。
4.提出当在单个视频单元(诸如,DPS、VPS、SPS、PPS、APS、图片标头、条带标头、片组标头等)中、或在用于ARC的单独视频单元(诸如将被命名的RPS或CPS)中用信令通知图片宽度和高度的一种以上的组合时,不允许第一组合中的宽度和高度都等于第二组合中的宽度和高度。
5.提出用信令通知的维度(宽度W和高度H)必须受到限制。
a.例如,W应该满足TW_min<=W<=TW_max。
b.例如,H应该满足TH_min<=H<=TH_max。
c.在一个示例中,可以用信令通知W-TW_min-B,其中B是诸如0的固定值。
d.在一个示例中,可以用信令通知H-TH_min-B,其中B是诸如0的固定值。
e.在一个示例中,可以用信令通知TW_max-W-B,其中B是诸如0的固定值。
f.在一个示例中,可以用信令通知TH_max-H-B,其中B是诸如0的固定值。
g.在一个示例中,可以用信令通知TW_min和/或TH_min。
h.在一个示例中,可以用信令通知TW_max和/或TH_max。
6.提出用信令通知的维度(宽度W和高度H)必须采用W=w*X和H=h*Y的形式,其中X和Y是预定义的整数,例如,X=Y=4。
a.在一个示例中,用信令通知w和h。从w和h导出W和H。
7.提出可以以预测的方式对图片维度信息(宽度和/或高度)进行编码。
a.在一个示例中,可以用信令通知第一宽度(W1)和第二宽度(W2)之间的差,即W2-W1。
i.可替代地,可以用信令通知W2-W1-B,其中B是诸如1的固定值。
ii.在一个示例中,W2应该大于W1。
iii.在一个示例中,可以用一元码、或截断的一元码、或定长码或定长编码来对该差进行编码。
b.在一个示例中,可以用信令通知第一高度(H1)和第二高度(H2)之间的差,即H2-H1。
i.可替代地,可以用信令通知H2-H1-B,其中B是诸如1的固定值。
ii.在一个示例中,H2应该大于H1。
iii.在一个示例中,可以用一元码、或截断的一元码、或定长码或定长编码来对该差进行编码。
c.在一个示例中,可以用信令通知第一宽度(W1)和第二宽度(W2)之间的比率,即W2/W1。例如,如果W=F*W1,则用信令通知F。在另一示例中,如果W2=Shift(F*W1,P),则用信令通知F,其中,P是表示精度的数字,例如,P=10。
i.可替代地,F可以等于(W2*P+W1/2)/W1,其中P是表示精度的数字,例如,P=10。
ii.可替代地,可以用信令通知F-B,其中B是诸如1的固定值。
iii.在一个示例中,W2应该大于W1。
iv.在一个示例中,可以用一元码、或截断的一元码、或定长码或定长编码来对F进行编码。
d.在一个示例中,可以用信令通知第一高度(H1)和第二高度(H2)之间的比率,即H2/H1。例如,如果H2=F*H1,则用信令通知F。在另一示例中,如果H2=Shift(F*H1,P),则用信令通知F,其中,P是表示精度的数字,例如P=10。
i.可替代地,F可以等于(H2*P+H1/2)/H1,其中P是表示精度的数字,例如,P=10。
ii.可替代地,可以用信令通知F-B,其中B是诸如1的固定值。
iii.在一个示例中,H2应该大于H1。
iv.在一个示例中,可以用一元码、或截断的一元码、或定长码或定长编码来对该差进行编码。
e.在一个示例中,W2/W1必须等于H2/H1,并且仅应用信令通知W2/W1或H2/H1。
8.提出当用信令通知不同的分辨率/分辨率比率时,可以进一步用信令通知以下附加语法元素。
a.语法元素可以是CTU尺寸的指示。
b.语法元素可以是最小编码单元尺寸的指示。
c.语法元素可以是最大和/或最小变换块尺寸的指示。
d.语法元素可以是四叉树和/或二叉树/三叉树的最大深度的指示。
e.在一个示例中,附加语法元素可以与特定图片分辨率绑定。
参考图片列表
9.一致性比特流应满足以下要求:与分辨率与当前图片相同的参考图片相比,分辨率与当前图片不同的参考图片应被分配更大的参考索引。
a.可替代地,在解码一个图片/条带/片/片组之前,可以对参考图片列表进行重新排序,以使得对于参考图片列表,与分辨率与当前图片相同的参考图片相比,分辨率与当前图片不同的参考图片应被分配更大的参考索引。
利用ARC的从时域块的运动预测(例如,TMVP和ATMVP)
10.假设有两个块,A和B。如果块A的参考图片是与当前块具有相同分辨率的参考图片,并且块B的参考图片是与当前块具有不同分辨率的参考图片,则提出禁止使用块B的运动信息来预测块A。
a.如果块A的参考图片是与当前块具有不同分辨率的参考图片,并且块B的参考图片是与当前块具有相同分辨率的参考图片,则提出禁止使用块B的运动信息来预测块A。
11.提出禁止从与当前图片具有不同分辨率的参考图片中的块进行预测。
12.提出如果参考图片的宽度不同于当前图片的宽度或者其高度不同于当前图片的高度,则参考图片不能是并置参考图片。
b.可替代地,如果参考图片的宽度不同于当前图片的宽度并且其高度不同于当前图片的高度,则参考图片不能是并置参考图片。
13.如何在TMVP/ATMVP中找到并置块或在ATMVP中找到并置子块可能取决于并置参考图片和当前图片是否具有相同的图片宽度和高度。
a.在一个示例中,假设当前图片维度为W0*H0,并且并置参考图片维度为W1*H1,则并置块的位置和/或维度可以取决于W0、H0、W1和H1。
i.在一个示例中,假设当前块或子块的左上坐标是(x,y),则并置块或子块可被推导为并置参考图片中覆盖位置(x’,y’)的块,其中(x’,y’)可计算为x’=Rx*(x+offsetX)+offsetX’和y’=Ry*(y+offsetY)+offsetY’。offsetX’和offsetY’的值为0。
1)在一个示例中,假设当前块或当前子块的维度为w*h,(offsetX,offsetY)可以等于(x+w,y+h)。
a)在替代示例中,(offsetX,offsetY)可以等于(x+w/2,y+h/2)。
b)在替代示例中,(offsetX,offsetY)可以等于(x+w/2-1,y+h/2-1)。
c)在替代示例中,(offsetX,offsetY)可以等于(0,0)。
2)在一个示例中,Rx=W1/W0。
3)在一个例子中,Ry=H1/H0。
4)在另一示例中,x’=Shift(Rx*(x+offsetX),P),其中P是表示精度的值,诸如10。
a)Rx可导出为Rx=(W1*P+offset)/W0,其中offset是整数,诸如0或W0/2。
5)在另一示例中,y’=Shift(Ry*(y+offsetY),P),其中P是表示精度的值,诸如10。
a)Ry可导出为Ry=(H1*P+offset)/H0,其中offset是整数,诸如0或H0/2。
14.除了以不同于当前图片的分辨率对参考图片中的参考样本进行上采样或下采样之外,还提出进一步对运动信息/代码信息进行上采样或下采样,且上采样和下采样信息可用于编码其他帧中的后续块。
15.提出如果并置参考图片的宽度或高度与当前图片的宽度或高度不同,则可以上采样或下采样存储并置参考图片的MV的缓冲区。
b.在一个示例中,可以同时存储上采样或下采样的MV缓冲区和上采样或下采样之前的MV缓冲区。
i.可替代地,可以去除在上采样或下采样之前的MV缓冲区。
c.在一个示例中,在上采样之前,从MV缓冲区中的一个MV复制上采样的MV缓冲区中的多个MV。
i.例如,上采样的MV缓冲区中的多个MV可以在与上采样之前MV在MV缓冲区中的区域相对应的区域中。
d.在一个示例中,可以在下采样之前从MV缓冲区中的多个MV之一中选择下采样的MV缓冲区中的一个MV。
i.例如,下采样的MV缓冲区中的一个MV可以在与下采样之前多个MV在MV缓冲区中的区域相对应的区域中。
16.提出ATMVP中的时域MV的推导可以取决于当前图片的维度W0*H0和并置图片的维度W1*H1。
c.例如,如果并置图片的维度和当前图片的维度不同,则表示为tMV的时域MV可以转换为tMV’。
i.例如,假设tMV=(tMVx,tMVy)、tMV'=(tMVx',tMVy'),则可以将tMVx'计算为tMVx'=Rx*tMVx+offsetx,并且可以将tMVy'计算为tMVy'=Ry*tMVy+offsety。offsetx和offsety是诸如0的值。
1)在一个示例中,Rx=W1/W0。
2)在一个例子中,Ry=H1/H0。
3)在另一示例中,tMVx'=Shift(Rx*(tMVx+offsetX),P)或SatShift(Rx*(tMVx+offsetX),P),其中P是表示精度的值,诸如10。
a)Rx可导出为Rx=(W1*P+offset)/W0,其中offset是整数,诸如0或W0/2。
4)在另一示例中,tMVy'=Shift(Ry*(tMVy+offsetY),P)或SatShift(Ry*(tMVy+offsetY),P),其中P是表示精度的值,诸如10。
a)Ry可导出为Ry=(H1*P+offset)/H0,其中offset是整数,诸如0或H0/2。
17.提出TMVP/ATMVP中的当前块或当前子块的MV预测(MVP)的推导可以取决于当前图片的维度、和/或由MVP参考的当前图片的维度、和/或并置图片的维度、和/或并置图片的参考图片的维度(由并置MV参考)。并置MV表示在并置块中找到的MV。图23示出了示例,其中当前图片(CurPic)、MVP所参考的参考图片(RefPic)、并置图片(ColPic)以及并置MV(RefColPic)所参考的并置图片的参考图片分别位于时间(或带有POC)T0、T1、T2、T3处。并且它们的维度分别为W0*H0、W1*H1、W2*H2和W3*H3。当前块/子块的MVP表示为MvCur=(MvCurX,MvCurY),且并置MV表示为MvCol(MvColX,MvColY)。
d.MvCurX可以被计算为MvCurX=Rx*MvColX+offsetx,并且MvCurY可以被计算为MvCurY=Ry*MvColY+offsety。offsetx和offsety是诸如0的值。
e.在一个示例中,Rx=W0/W2。
f.在一个示例中,Ry=H0/H2。
g.在一个替代示例中,MvCurX=Shift(Rx*(MvColX+offsetX),P)或MvCurX=SatShift(Rx*(MvColX+offsetX),P),其中P是表示精度的值,诸如10。
i.Rx可导出为Rx=(W0*P+offset)/W2,其中offset是诸如0或W2/2的整数。
h.在一个替代示例中,MvCurY=Shift(Ry*(MvColY+offsetY),P)或MvCurY=SatShift(Ry*(MvColY+offsetY),P),其中P是表示精度的值,诸如10。
i.Ry可以导出为Ry=(H0*P+offset)/H2,其中offset是诸如0或H2/2的整数。
i.在一个示例中,(W3,H3)必须等于(W2,H2)。否则,MvCol可被视为不可用。
j.在一个示例中,(W0,H0)必须等于(W1,H1),否则,MVCur可被视为不可用。
ARC中的插值和缩放
18.提出可以在视频单元(诸如,DPS、VPS、SPS、PPS、APS、图片标头、条带标头、片组标头等)中,或在用于ARC的单独视频单元(诸如将被命名的RPS或CPS)中用信令通知用于ARC的一个或多个下采样或上采样滤波方法。
19.在JVET-N0279的方法中,可以在视频单元(诸如,DPS、VPS、SPS、PPS、APS、图片标头、条带标头、片组标头等)中,或在用于ARC的单独视频单元(诸如将被命名的RPS或CPS)中用信令通知hori_scale_fp和/或vert_scale_fp。
20.提出RAC中缩放方法的任何除法运算(诸如hori_scale_fp和/或vert_scale_fp的推导、或项目符号8–项目符号11中的Rx和/或Ry的推导)都可以用一个或多个运算替换或近似,其中可以使用一个或多个表。例如,P1905289301中公开的方法可用于替换或近似该除法运算。
可以在以下描述的方法的上下文中并入上述示例,例如,可以在视频解码器或视频编码器处实现的方法2400、2410、2420、2430、2440、2450、2460、2470、2480和2490。
图24A示出了用于视频处理的示例性方法的流程图。方法2400包括,在步骤2402,在包括一个或多个视频段的视频与所述视频的比特流表示之间执行转换,所述视频段包括一个或多个视频单元。在一些实施例中,所述比特流表示符合格式规则,并且包括与自适应分辨率转换(ARC)处理有关的信息,所述格式规则指定所述ARC处理对视频段的适用性,以不同于标头语法结构、解码器参数集(DPS)、视频参数集(VPS)、图片参数集(PPS)、序列参数集(SPS)和自适应参数集(APS)的语法结构,在所述比特流表示中包括以不同的分辨率对所述视频段的所述一个或多个视频单元进行编码的指示。
在一些实施例中,所述比特流表示符合格式规则,并且包括与自适应分辨率转换(ARC)处理有关的信息,在所述比特流表示中用信令通知用K阶指数哥伦布码编码的所述一个或多个视频单元的维度,K是正整数,所述格式规则指定所述ARC处理对视频段的适用性,且以语法结构在所述比特流表示中包括以不同的分辨率对所述视频段的所述一个或多个视频单元进行编码的指示。
在一些实施例中,所述比特流表示符合格式规则,并且包括与自适应分辨率转换(ARC)处理有关的信息,在比特流表示中用信令通知高度(H)和宽度(W),H和W是正整数且受约束,所述格式规则指定自适应分辨率转换(ARC)处理对视频段的适用性,并且以语法结构在所述比特流表示中包括以不同的分辨率对所述视频段的所述一个或多个视频单元进行编码的指示。
图24B示出了用于视频处理的示例性方法的流程图。方法2410包括,在步骤2412中,确定(a)视频的当前视频块的第一时域相邻块的第一参考图片的分辨率与当前图片的分辨率相同,以及(b)当前视频块的第二时域相邻块的第二参考图片的分辨率与当前图片的分辨率不同。
方法2410包括,在步骤2414中,由于该确定,通过在第一时域相邻块的预测中禁用第二时域相邻块的运动信息,来执行当前视频块和视频的比特流表示之间的转换。
图24C示出了用于视频处理的示例性方法的流程图。方法2420包括,在步骤2422中,确定(a)视频的当前视频块的第一时域相邻块的第一参考图片的分辨率与当前图片的分辨率不同,以及(b)当前视频块的第二时域相邻块的第二参考图片的分辨率与当前图片的分辨率相同。
方法2420包括,在步骤2424中,由于该确定,通过在第一时域相邻块的预测中禁用第二时域相邻块的运动信息,来执行当前视频块和视频的比特流表示之间的转换。
图24D示出了用于视频处理的示例性方法的流程图。方法2430包括,在步骤2432中,对于视频的当前视频块,确定包括与当前视频块相关联的视频块的参考图片的分辨率与包括当前视频块的当前图片的分辨率不同。
方法2430包括,在步骤2434中,由于该确定,通过禁用基于参考图片中的视频块的预测处理,来执行当前视频块和视频的比特流表示之间的转换。
图24E示出了用于视频处理的示例性方法的流程图。方法2440包括,在步骤2442中,基于图片的至少一个维度,做出关于该图片是否被允许用作当前图片的当前视频块的并置参考图片的决定。
方法2440包括,在步骤2444中,基于该决定,执行视频的当前视频块与视频的比特流表示之间的转换。
图24F示出了用于视频处理的示例性方法的流程图。方法2450包括,在步骤2452中,基于包括该并置块的并置参考图片的维度与包括当前视频块的当前图片的维度相同的确定,针对视频的当前视频块的预测,来识别并置块。
方法2450包括,在步骤2454中,使用并置块执行当前视频块和视频的比特流表示之间的转换。
图24G示出了用于视频处理的示例性方法的流程图。方法2460包括,在步骤2462中,对于视频的当前视频块,确定与当前视频块相关联的参考图片具有与包括当前视频块的当前图片的分辨率不同的分辨率。
方法2460包括,在步骤2464中,作为当前视频块和视频的比特流表示之间的转换的一部分,对参考图片的一个或多个参考样本、以及当前视频块的运动信息或当前视频块的编码信息执行上采样操作或下采样操作。
图24H示出了用于视频处理的示例性方法的流程图。方法2470包括,在步骤2472中,对于视频的当前视频块和视频的比特流表示之间的转换,确定包括当前视频块的当前图片的高度或宽度不同于与当前视频块关联的并置参考图片的高度或宽度。
方法2470包括,在步骤2474中,基于该确定,对存储并置参考图片的一个或多个运动矢量的缓冲区执行上采样操作或下采样操作。
图24I示出了用于视频处理的示例性方法的流程图。方法2480包括,在步骤2482中,基于包括视频的当前视频块的当前图片的维度和与当前视频块相关联的并置图片的维度,导出应用于当前视频块的可选时域运动矢量预测(ATMVP)处理的信息。
方法2480包括,在步骤2484中,使用时域运动矢量来执行当前视频块和视频的比特流表示之间的转换。
图24J示出了用于视频处理的示例性方法的流程图。方法2490包括,在步骤2492中,为将自适应分辨率转换(ARC)处理应用于视频的当前视频块,配置视频的比特流表示。在一些实施例中,在比特流表示中用信令通知与ARC处理有关的信息,包括当前视频块的当前图片具有第一分辨率,并且ARC处理包括以不同于该第一分辨率的第二分辨率对当前视频块的一部分进行重采样。
方法2490包括,在步骤2494中,基于该配置,执行当前视频块和当前视频块的比特流表示之间的转换。
4.所公开技术的示例实现
图25是视频处理装置2500的框图。设备2500可以用于实现本文描述的一种或多种方法。装置2500可以体现在智能手机,平板电脑,计算机,物联网(IoT)接收器等中。装置2500可以包括一个或多个处理器2502、一个或多个存储器2504和视频处理硬件2506。(一个或多个)处理器2502可以被配置为实现在本文档中描述的一种或多种方法(包括但不限于方法1500、1600和1700)。(一个或多个)存储器2504可以用于存储用于实现本文描述的方法和技术的数据和代码。视频处理硬件2506可以用于在硬件电路中实现本文档中描述的一些技术。
在一些实施例中,视频编码方法可以使用关于图25描述的在硬件平台上实现的装置来实现。
所公开技术的一些实施例包括做出决定或确定以启用视频处理工具或模式。在示例中,当启用视频处理工具或模式时,编码器将在视频块的处理中使用或实现该工具或模式,但是不一定基于该工具或模式的使用来修改结果比特流。也就是说,从视频块到视频的比特流表示的转换将在基于决定或确定启用视频处理工具或模式时使用视频处理工具或模式。在另一示例中,当启用视频处理工具或模式时,解码器将基于视频处理工具或模式已经知道比特流已被修改的情况下处理比特流。也就是说,将使用基于决定或确定而启用的视频处理工具或模式来执行从视频的比特流表示到视频块的转换。
所公开技术的一些实施例包括作出决定或确定以禁用视频处理工具或模式。在示例中,当禁用视频处理工具或模式时,编码器将在视频块到视频的比特流表示的转换中不使用该工具或模式。在另一示例中,当禁用视频处理工具或模式时,解码器将在知道尚未使用基于决定或确定启用的视频处理工具或模式修改比特流的情况下处理比特流。
图26是示出其中可实现本文中所公开的各种技术的示例视频处理系统2600的框图。各种实施方式可以包括系统2600的一些或全部组件。系统2600可以包括用于接收视频内容的输入2602。视频内容可以以原始或未压缩的格式(例如8或10位多分量像素值)接收,或者可以以压缩或编码的格式接收。输入2602可以代表网络接口、外围总线接口或存储接口。网络接口的示例包括有线接口(诸如以太网、无源光网络(PON)等)和无线接口(诸如Wi-Fi或蜂窝接口)。
系统2600可以包括可以实现本文中描述的各种编码或编码方法的编码组件2604。编码组件2604可以减少从编码组件2604的输入2602到输出的视频的平均比特率,以生成视频的编码表示。因此,编码技术有时称为视频压缩或视频转码技术。如组件2606所表示的,编码组件2604的输出可以被存储或经由所连接的通信来发送。在输入2602处接收的视频的存储或传送的比特流(或编码)表示可以被组件2608使用,以生成被发送到显示接口2610的像素值或可显示视频。从比特流表示中生成用户可见视频的处理有时称为视频解压缩。此外,尽管某些视频处理操作被称为“编码”操作或工具,但是应当理解,在编码器处使用编码工具或操作,并且将由编码器执行反向编码结果的相应解码工具或操作。
外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高清多媒体接口(HDMI)或Displayport等。存储接口的示例包括SATA(串行高级技术附件)、PCI、IDE接口等。本文中描述的技术可以体现在各种电子设备中,诸如移动电话、膝上型计算机、智能电话或其他能够执行数字数据处理和/或视频显示的设备。
在一些实施例中,可以实现以下技术解决方案:
A1.一种视频处理方法,包括:在包括一个或多个视频段的视频与视频的比特流表示之间执行转换,视频段包括一个或多个视频单元,其中,比特流表示符合格式规则,并且包括与自适应分辨率转换(ARC)处理有关的信息,其中,在比特流表示中用信令通知用K阶指数哥伦布码编码的一个或多个视频单元的维度,其中,K是正整数,其中,格式规则指定ARC处理对视频段的适用性,以及其中,以语法结构在比特流表示中包括以不同的分辨率对视频段的一个或多个视频单元进行编码的指示。
A2.根据解决方案A1的方法,其中,维度包括一个或多个视频单元中的视频单元的宽度和视频单元的高度中的至少一个。
A3.根据解决方案A1的方法,其中,一个或多个视频单元包括图片。
A4.根据解决方案A1的方法,其中,语法结构是解码器参数集(DPS)、视频参数集(VPS)、序列参数集(SPS)、图片参数集(PPS)、自适应参数集(APS)、图片标头、条带标头或片组标头。
A5.根据解决方案A1的方法,其中,语法结构是分辨率参数集(RPS)或转换参数集(CPS)。
A6.一种用于视频处理的方法,包括:在包括一个或多个视频段的视频与视频的比特流表示之间执行转换,视频段包括一个或多个视频单元,其中,比特流表示符合格式规则,并且包括与自适应分辨率转换(ARC)处理有关的信息,其中,在比特流表示中用信令通知一个或多个视频单元的视频单元的高度(H)和宽度(W),其中,H和W是正整数并且受约束,其中,格式规则指定自适应分辨率转换(ARC)处理对视频段的适用性,以及其中,以语法结构在比特流表示中包括以不同的分辨率对视频段的一个或多个视频单元进行编码的指示。
A7.根据解决方案A6的方法,其中,W≤TWmax,并且其中,TWmax是正整数。
A8.根据解决方案A7的方法,其中,在比特流表示中用信令通知TWmax
A9.根据解决方案A6的方法,其中,TWmin≤W,并且其中TWmin是正整数。
A10.根据解决方案A9的方法,其中,在比特流表示中用信令通知TWmin
A11.根据解决方案A6的方法,其中,H≤THmax,并且其中,THmax是正整数。
A12.根据解决方案A11的方法,其中,在比特流表示中用信令通知THmax
A13.根据解决方案A6的方法,其中,THmin≤H,并且其中,THmin是正整数。
A14.根据解决方案A13的方法,其中,在比特流表示中用信令通知THmin
A15.根据解决方案A6的方法,其中,高度H=h×Y并且宽度W=w×X,其中w、h、X和Y是正整数,并且其中,在比特流表示中用信令通知w和h。
A16.根据解决方案A15的方法,其中,X=Y=4。
A17.根据解决方案A15的方法,其中,X和Y是预定义的整数。
A18.根据解决方案A6的方法,其中,一个或多个视频单元包括图片。
A19.一种用于视频处理的方法,包括:在包括一个或多个视频段的视频与视频的比特流表示之间执行转换,视频段包括一个或多个视频单元,其中,比特流表示符合格式规则,并且包括与自适应分辨率转换(ARC)处理有关的信息,其中,格式规则指定ARC处理对视频段的适用性,其中,以不同于标头语法结构、解码器参数集(DPS)、视频参数集(VPS)、图片参数集(PPS)、序列参数集(SPS)和自适应参数集(APS)的语法结构,在比特流表示中包括以不同的分辨率对视频段的一个或多个视频单元进行编码的指示。
A20.根据解决方案A19的方法,其中,与ARC处理有关的信息包括图片的高度(H)或宽度(W),图片包括一个或多个视频单元。
A21.根据解决方案A19或A20的方法,其中,在补充增强信息(SEI)消息中用信令通知与ARC处理有关的信息。
A22.根据解决方案A19或A20的方法,其中,标头语法结构包括图片标头、条带标头或片组标头。
A23.根据解决方案A19或A20的方法,其中,在分辨率参数集(RPS)或转换参数集(CPS)中用信令通知与ARC处理有关的信息。
A24.根据解决方案A19的方法,其中,与ARC处理有关的信息包括图片的高度与宽度的比率,图片包括一个或多个视频单元。
A25.根据解决方案A19的方法,其中,与ARC处理有关的信息包括图片的不同高度与不同宽度的多个比率,图片包括一个或多个视频单元。
A26.根据解决方案A25的方法,其中,在图片参数集(PPS)中用信令通知与多个比率中的允许比率相对应的索引。
A27.根据解决方案A25的方法,其中,多个比率中的任何一个比率与多个比率中的任何其他比率不同。
A28.根据解决方案A19的方法,其中,信息包括以下至少之一:(i)第一宽度和第二宽度之间的差;(ii)第一高度和第二高度之间的差;(iii)第一宽度和第二宽度之间的比率,或者(iv)第一高度和第二高度之间的比率。
A29.根据解决方案A28的方法,其中,信息是用一元码、截断的一元码或定长码进行编码的。
A30.根据解决方案A19的方法,其中,比特流表示还包括以下至少一项:指示编码树单元(CTU)尺寸的语法元素、指示最小编码单元(CU)尺寸的语法元素、指示最大或最小变换块(TB)尺寸的语法元素、指示可应用于一个或多个视频单元的分割处理的最大深度的语法元素、或配置为与特定图片分辨率绑定的语法元素。
A31.根据解决方案A19的方法,其中,与包括一个或多个视频单元的当前图片相关联的第一参考图片具有等于当前图片的分辨率的第一分辨率,其中与当前图片相关联的第二参考图片具有大于当前图片的分辨率的第二分辨率,并且其中,第二参考图片的参考索引大于第一参考图片的参考索引。
A32.根据解决方案A19至A31中任一项的方法,其中,转换从比特流表示生成一个或多个视频单元。
A33.根据解决方案A19至A31中任一项的方法,其中,转换从一个或多个视频单元生成比特流表示。
A34.一种视频系统中的装置,包括处理器和其上具有指令的非暂时性存储器,其中,所述指令在由处理器执行时使处理器实现解决方案A19至A33中任一项的方法。
A35.一种存储在非暂时性计算机可读介质上的计算机程序产品,计算机程序产品包括用于执行根据解决方案A19至A33中任一项的方法的程序代码。
在一些实施例中,可以实现以下技术解决方案:
B1.一种用于视频处理的方法,包括:确定(a)视频的当前视频块的第一时域相邻块的第一参考图片的分辨率与包括当前视频块的当前图片的分辨率相同,以及(b)当前视频块的第二时域相邻块的第二参考图片的分辨率与当前图片的分辨率不同;以及由于该确定,通过在第一时域相邻块的预测中禁用第二时域相邻块的运动信息,来执行当前视频块和视频的比特流表示之间的转换。
B2.一种用于视频处理的方法,包括:确定(a)视频的当前视频块的第一时域相邻块的第一参考图片的分辨率与包括当前视频块的当前图片的分辨率不同,以及(b)当前视频块的第二时域相邻块的第二参考图片的分辨率与当前图片的分辨率相同;以及由于该确定,通过在第一时域相邻块的预测中禁用第二时域相邻块的运动信息,来执行当前视频块和视频的比特流表示之间的转换。
B3.一种用于视频处理的方法,包括:对于视频的当前视频块,确定包括与当前视频块相关联的视频块的参考图片的分辨率与包括当前视频块的当前图片的分辨率不同;以及由于该确定,通过禁用基于参考图片中的视频块的预测处理,来执行当前视频块和视频的比特流表示之间的转换。
B4.一种用于视频处理的方法,包括:基于图片的至少一个维度,做出关于该图片是否被允许用作当前图片的当前视频块的并置参考图片的决定;以及基于该决定,执行视频的当前视频块与视频的比特流表示之间的转换。
B5.根据解决方案B4的方法,其中参考图片的至少一个维度不同于包括当前视频块的当前图片的相应维度,并且其中参考图片未被指定为并置参考图片。
B6.一种用于视频处理的方法,包括:基于包括该并置块的并置参考图片的维度与包括当前视频块的当前图片的维度相同的确定,针对视频的当前视频块的预测,来识别并置块;以及使用并置块执行当前视频块和视频的比特流表示之间的转换。
B7.根据解决方案B6的方法,其中,所述预测包括时域运动矢量预测(TMVP)处理或可选时域运动矢量预测(ATMVP)处理。
B8.根据解决方案B7的方法,其中,当前图片的维度为W0×H0,其中,并置参考图片的维度为W1×H1,其中,并置块的位置或尺寸基于W0、H0、W1或H1中的至少一个,并且其中W0、H0、W1和H1为正整数。
B9.根据解决方案B8的方法,其中ATMVP处理中的时域运动矢量的推导基于W0、H0、W1或H1中的至少一个。
B10.根据解决方案B8的方法,其中针对当前视频块的运动矢量预测的推导基于W0、H0、W1或H1中的至少一个。
B11.一种用于视频处理的方法,包括:对于视频的当前视频块,确定与当前视频块相关联的参考图片具有与包括当前视频块的当前图片的分辨率不同的分辨率;以及作为当前视频块和视频的比特流表示之间的转换的一部分,对参考图片的一个或多个参考样本、以及当前视频块的运动信息或当前视频块的编码信息执行上采样操作或下采样操作。
B12.根据解决方案B11的方法,还包括在与包括所述当前视频块的当前帧不同的帧中使用与上采样操作或下采样操作有关的信息,以对随后的视频块进行编码。
B13.一种用于视频处理的方法,包括:对于视频的当前视频块和视频的比特流表示之间的转换,确定包括当前视频块的当前图片的高度或宽度不同于与当前视频块关联的并置参考图片的高度或宽度;以及基于该确定,对存储并置参考图片的一个或多个运动矢量的缓冲区执行上采样操作或下采样操作。
B14.一种用于视频处理的方法,包括:基于包括视频的当前视频块的当前图片的维度和与当前视频块相关联的并置图片的维度,导出应用于当前视频块的可选时域运动矢量预测(ATMVP)处理的信息;以及使用时域运动矢量来执行当前视频块和视频的比特流表示之间的转换。
B15.根据解决方案B14的方法,其中,该信息包括时域运动矢量。
B16.根据解决方案B14的方法,其中,该信息包括用于当前视频块的运动矢量预测(MVP),并且其中,所述导出还基于所述MVP所参考的参考图片的维度。
B17.一种用于视频处理的方法,包括:为将自适应分辨率转换(ARC)处理应用于视频的当前视频块,配置视频的比特流表示,其中在比特流表示中用信令通知与ARC处理有关的信息,其中包括当前视频块的当前图片具有第一分辨率,并且其中,ARC处理包括以不同于该第一分辨率的第二分辨率对当前视频块的一部分进行重采样;以及基于该配置,执行当前视频块和当前视频块的比特流表示之间的转换。
B18.根据解决方案B17的方法,其中与ARC处理有关的信息包括用于一种或多种上采样或下采样滤波方法的参数。
B19.根据解决方案B17的方法,其中与ARC处理有关的信息包括水平缩放因子或垂直缩放因子,用于缩放参考图片以实现编码视频序列内的分辨率更改。
B20.根据解决方案B18或B19的方法,其中在解码器参数集(DPS)、视频参数集(VPS)、序列参数集(SPS)、图片参数集(PPS)、自适应参数集(APS)、图片标头、条带标头、片组标头或单个视频单元中用信令通知该信息。
B21.根据解决方案B20的方法,其中,单个视频单元是分辨率参数集(RPS)或转换参数集(CPS)。
B22.根据解决方案B19的方法,其中导出水平缩放因子或垂直缩放因子包括使用一个或多个表实现的除法运算。
B23.根据解决方案B1至B22中任一项的方法,其中,所述转换从比特流表示生成当前视频块。
B24.根据解决方案B1至B22中的任一项的方法,其中,所述转换从当前视频块生成比特流表示。
B25.一种视频系统中的装置,包括处理器和其上具有指令的非暂时性存储器,其中,所述指令在由处理器执行时使所述处理器实现解决方案B1至B24中任一项的方法。
B26.一种存储在非暂时性计算机可读介质上的计算机程序产品,所述计算机程序产品包括用于执行根据解决方案B1至B24中任一项所述的方法的程序代码。
在一些实施例中,可以实现以下技术解决方案:
C1.一种用于视频处理的方法,包括:为将自适应分辨率转换(ARC)处理应用于当前视频块,配置当前视频块的比特流表示,其中在比特流表示中用信令通知与ARC处理有关的信息,其中当前视频块具有第一分辨率,并且其中ARC处理包括以不同于该第一分辨率的第二分辨率对当前视频块的一部分进行重采样;以及基于该配置,执行当前视频块和当前视频块的比特流表示之间的转换。
C2.根据解决方案C1的方法,其中与ARC处理有关的信息包括包含当前视频块的图片的高度(H)或宽度(W)。
C3.根据解决方案C1或C2的方法,其中在不同于解码器参数集(DPS)、视频参数集(VPS)、序列参数集(SPS)、图片参数集(PPS)、自适应参数集(APS)、图片标头、条带标头和片组标头的补充增强信息(SEI)消息中用信令通知与ARC处理有关的信息。
C4.根据解决方案C1或C2的方法,其中在单个视频单元中用信令通知与ARC处理有关的信息。
C5.根据解决方案C4的方法,其中,单个视频单元是分辨率参数集(RPS)或转换参数集(CPS)。
C6.根据解决方案C1至C5中的任一项的方法,其中,与ARC处理有关的信息用定长码或一元码进行编码。
C7.根据解决方案C1至C5中的任一项的方法,其中与ARC处理有关的信息用K阶的指数哥伦布码编码,其中K是大于零的整数。
C8.根据解决方案C1或C2的方法,其中,在解码器参数集(DPS)、视频参数集(VPS)、序列参数集(SPS)、图片参数集(PPS)、自适应参数集(APS)、图片标头、条带标头或片组标头中用信令通知与ARC处理有关的信息。
C9.根据解决方案C1的方法,其中,与ARC处理有关的信息包括包含当前视频块的图片的高度与宽度的比率。
C10.根据解决方案C1的方法,其中与ARC处理有关的信息包括包含当前视频块的图片的不同高度与不同宽度的多个比率。
C11.根据解决方案C10的方法,其中在图片参数集(PPS)中用信令通知与多个比率中的允许比率相对应的索引。
C12.根据解决方案C10的方法,其中,所述多个比率中的任何一个比率都不同于所述多个比率中的任何其他比率。
C13.根据解决方案C2的方法,其中TWmin≤W≤TWmax,并且其中TWmin和TWmax是正整数。
C14.根据解决方案C13的方法,其中在当前视频块的比特流表示中用信令通知TWmin和TWmax
C15.根据解决方案C2的方法,其中THmin≤H≤THmax,并且THmi和THmax是正整数。
C16.根据解决方案C13的方法,其中在当前视频块的比特流表示中用信令通知THmi和THmax
C17.根据解决方案C1的方法,其中包括当前视频块的图片具有高度H=h×Y和宽度W=w×X,其中w、h、W、H、X和Y是正整数,其中X和Y是预定义的整数,并且其中与ARC处理有关的信息包括w和h。
C18.根据解决方案C17的方法,其中X=Y=4。
C19.根据解决方案C1的方法,其中与ARC处理有关的信息包括以下至少一项:(i)第一宽度和第二宽度之间的差,(ii)第一高度和第二高度之间的差,(iii)第一宽度与第二宽度之间的比率,或(iv)第一高度与第二高度之间的比率。
C20.根据解决方案C19的方法,其中该信息用一元码、截断的一元码或定长码进行编码的。
C21.根据解决方案C1的方法,其中,比特流表示还包括以下至少一项:指示编码树单元(CTU)尺寸的语法元素、指示最小编码单元(CU)尺寸的语法元素、指示最大或最小变换块(TB)尺寸的语法元素、指示可应用于当前视频块的分割处理的最大深度的语法元素、或配置为与特定图片分辨率绑定的语法元素。
C22.一种用于视频处理的方法,包括:针对当前视频块的预测,做出关于选择使用当前视频块的时域相邻块的参考图片的决定;以及基于该决定和当前视频块的参考图片,执行当前视频块与当前视频块的比特流表示之间的转换。
C23.根据解决方案C22的方法,其中,当前视频块的参考图片的分辨率与当前视频块的分辨率相同,其中,时域相邻块的参考图片的分辨率与当前视频块的分辨率不同,并且其中当前视频块的预测不使用与时域相邻块相关联的运动信息。
C24.根据解决方案C22的方法,其中,当前视频块的参考图片的分辨率与当前视频块的分辨率不同,其中,时域相邻块的参考图片的分辨率与当前视频块的分辨率不同,并且其中当前视频块的预测不使用与时域相邻块相关联的运动信息。
C25.一种用于视频处理的方法,包括:基于当前视频块的参考图片的至少一个维度,做出关于将参考图片指定为并置参考图片的决定;基于该决定,执行当前视频块和当前视频块的比特流表示之间的转换。
C26.根据解决方案C25的方法,其中参考图片的至少一个维度不同于包括当前视频块的当前图片的相应维度,并且其中参考图片未被指定为并置参考图片。
C27.一种用于视频处理的方法,包括:基于与并置块相关联的并置参考图片的维度和包括当前视频块的当前图片的维度的比较,针对当前视频块的预测,识别并置块;以及基于该识别,对当前视频块执行预测。
C28.根据解决方案C27的方法,其中,该预测包括时域运动矢量预测处理或可选时域运动矢量预测(ATMVP)处理。
C29.根据解决方案C27或C28的方法,其中当前图片的维度为W0×H0,其中并置参考图片的维度为W1×H1,并且其中并置块的位置或尺寸基于W0、H0、W1或H1中的至少一个。
C30.根据解决方案C29的方法,其中ATMVP处理中的时域运动矢量的推导基于W0、H0、W1或H1中的至少一个。
C31.根据解决方案C29的方法,其中针对当前视频块的运动矢量预测的推导基于W0、H0、W1或H1中的至少一个。
C32.根据解决方案C1的方法,其中与ARC处理有关的信息包括用于一种或多种上采样或下采样滤波方法的参数。
C33.根据解决方案C1的方法,其中与ARC处理有关的信息包括水平缩放因子或垂直缩放因子,用于缩放参考图片以实现编码视频序列(CVS)内的分辨率更改。
C34.根据解决方案C32或C33的方法,其中,在解码器参数集(DPS)、视频参数集(VPS)、序列参数集(SPS)、图片参数集(PPS)、自适应参数集(APS)、图片标头、条带标头、片组标头或单个视频单元中用信令通知该信息。
C35.根据解决方案C34的方法,其中,单个视频单元是分辨率参数集(RPS)或转换参数集(CPS)。
C36.一种视频系统中的装置,包括处理器和其上具有指令的非暂时性存储器,其中,所述指令在由处理器执行时使所述处理器实现解决方案C1至C35中任一项的方法。
C37.一种存储在非暂时性计算机可读介质上的计算机程序产品,所述计算机程序产品包括用于执行根据解决方案C1至C35中任一项所述的方法的程序代码。
从前述内容可以理解,本文已经出于说明的目的描述了当前所公开的技术的具体实施例,但是在不脱离本发明的范围的情况下可以做出各种修改。因此,除了所附权利要求之外,当前所公开的技术不受限制。
本专利文档中描述的主题的实现方式和功能性操作可以在各种系统、数字电子电路中实施,或者在计算机软件、固件或硬件中实施,包括本说明书中公开的结构及其结构等同物,或者以他们的一个或多个的组合实施。本说明书中描述的主题的视线方式可以被实施为一个或多个计算机程序产品,即,在计算机可读介质上编码的一个或多个暂时性和非暂时性计算机程序指令模块,用于由数据处理装置运行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读传播信令的物质的合成、或者它们中的一个或多个的组合。术语“数据处理单元”和“数据处理装置”包括用于处理数据的所有装置、设备和机器,包括例如可编程处理器、计算机或者多个处理器或计算机。除了硬件之外,装置可以包括为所讨论的计算机程序创建运行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统及其一个或多个的组合的代码。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言(包括编译语言或解释语言)编写,并且可以以任何形式部署,包括作为独立程序或作为模块、组件、子程序或其他适合在计算环境中使用的单元。计算机程序不一定与文件系统中的文件相对应。程序可以存储在保存其他程序或数据的文件的部分中(例如,存储在标记语言文档中的一个或多个脚本)、专用于所讨论的程序的单个文件中、或多个协调文件(例如,存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以部署在一台或多台计算机上来执行,这些计算机位于一个站点或分布在多个站点并通过通信网络互连。
本说明书中描述的处理和逻辑流可以由一个或多个可编程处理器执行,该一个或多个处理器运行一个或多个计算机程序,通过对输入数据进行操作并生成输出来执行功能。处理和逻辑流也可以由专用逻辑电路来执行,并且装置也可以实施为专用逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
例如,适用于运行计算机程序的处理器包括通用和专用微处理器、以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是执行指令的处理器和存储指令和数据的一个或多个存储设备。通常,计算机还将包括一个或多个用于存储数据的大容量存储设备,例如,磁盘、磁光盘或光盘,或可操作地耦合到一个或多个大容量存储设备,以从其接收数据或向其传送数据,或两者兼有。然而,计算机不一定需要具有这样的设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如EPROM、EEPROM和闪存设备。处理器和存储器可以由专用逻辑电路来补充,或合并到专用逻辑电路中。
旨在将说明书与附图一起仅视为示例性的,其中示例性意味着示例。如本文所使用的,除非上下文另有明确说明,否则“或”的使用旨在包括“和/或”。
虽然本专利文档包括许多细节,但不应将其解释为对任何发明或要求保护的范围的限制,而应解释为特定于特定发明的特定实施例的特征的描述。本专利文档在分离的实施例的上下文描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种功能也可以在多个实施例中单独地实施,或在任何合适的子组合中实施。此外,虽然特征可以被描述为在某些组合中起作用,甚至最初这样要求保护,但在某些情况下,可以从要求保护的组合中移除组合中的一个或多个特征,并且要求保护的组合可以指向子组合或子组合的变体。
同样,尽管在附图中以特定顺序描述了操作,但这不应理解为要获得期望的结果必须按照所示的特定顺序或次序顺序来执行这些操作,或执行所有示出的操作。此外,本专利文档所述实施例中的各种系统组件的分离不应理解为在所有实施例中都需要这样的分离。
仅描述了一些实施方式和示例,其他实施方式、增强和变体可以基于本专利文档中描述和说明的内容做出。

Claims (35)

1.一种视频处理方法,包括:
在包括一个或多个视频段的视频与所述视频的比特流表示之间执行转换,所述视频段包括一个或多个视频单元,
其中,所述比特流表示符合格式规则,并且包括与自适应分辨率转换(ARC)处理有关的信息,
其中,在所述比特流表示中用信令通知用K阶指数哥伦布码编解码的所述一个或多个视频单元的维度,
其中,K是正整数,
其中,所述格式规则指定所述ARC处理对视频段的适用性,并且
其中,以语法结构在所述比特流表示中包括以不同的分辨率对所述视频段的所述一个或多个视频单元进行编解码的指示。
2.根据权利要求1所述的方法,其中,所述维度包括所述一个或多个视频单元中的视频单元的宽度和所述视频单元的高度中的至少一个。
3.根据权利要求1所述的方法,其中,所述一个或多个视频单元包括图片。
4.根据权利要求1所述的方法,其中,所述语法结构是解码器参数集(DPS)、视频参数集(VPS)、序列参数集(SPS)、图片参数集(PPS)、自适应参数集(APS)、图片标头、条带标头或片组标头。
5.根据权利要求1所述的方法,其中,所述语法结构是分辨率参数集(RPS)或转换参数集(CPS)。
6.一种用于视频处理的方法,包括:
在包括一个或多个视频段的视频与所述视频的比特流表示之间执行转换,所述视频段包括一个或多个视频单元,
其中,所述比特流表示符合格式规则,并且包括与自适应分辨率转换(ARC)处理有关的信息,
其中,在所述比特流表示中用信令通知所述一个或多个视频单元的视频单元的高度(H)和宽度(W),
其中,H和W是正整数并且受约束,
其中,所述格式规则指定自适应分辨率转换(ARC)处理对视频段的适用性,以及
其中,以语法结构在所述比特流表示中包括以不同的分辨率对所述视频段的所述一个或多个视频单元进行编解码的指示。
7.根据权利要求6所述的方法,其中,W≤TWmax,并且其中,TWmax是正整数。
8.根据权利要求7所述的方法,其中,在所述比特流表示中用信令通知TWmax
9.根据权利要求6所述的方法,其中,TWmin≤W,并且其中TWmin是正整数。
10.根据权利要求9所述的方法,其中,在所述比特流表示中用信令通知TWmin
11.根据权利要求6所述的方法,其中,H≤THmax,并且其中,THmax是正整数。
12.根据权利要求11所述的方法,其中,在所述比特流表示中用信令通知THmax
13.根据权利要求6所述的方法,其中,THmin≤H,并且其中,THmin是正整数。
14.根据权利要求13所述的方法,其中,在所述比特流表示中用信令通知THmin
15.根据权利要求6所述的方法,其中,所述高度H=h×Y并且所述宽度W=w×X,其中w、h、X和Y是正整数,并且其中,在所述比特流表示中用信令通知w和h。
16.根据权利要求15所述的方法,其中,X=Y=4。
17.根据权利要求15所述的方法,其中,X和Y是预定义的整数。
18.根据权利要求6所述的方法,其中,所述一个或多个视频单元包括图片。
19.一种用于视频处理的方法,包括:
在包括一个或多个视频段的视频与所述视频的比特流表示之间执行转换,所述视频段包括一个或多个视频单元,
其中,所述比特流表示符合格式规则,并且包括与自适应分辨率转换(ARC)处理有关的信息,
其中,所述格式规则指定所述ARC处理对视频段的适用性,
其中,以不同于标头语法结构、解码器参数集(DPS)、视频参数集(VPS)、图片参数集(PPS)、序列参数集(SPS)和自适应参数集(APS)的语法结构,在所述比特流表示中包括以不同的分辨率对所述视频段的所述一个或多个视频单元进行编解码的指示。
20.根据权利要求19所述的方法,其中,与所述ARC处理有关的信息包括图片的高度(H)或宽度(W),所述图片包括所述一个或多个视频单元。
21.根据权利要求19或20所述的方法,其中,在补充增强信息(SEI)消息中用信令通知与所述ARC处理有关的信息。
22.根据权利要求19或20所述的方法,其中,所述标头语法结构包括图片标头、条带标头或片组标头。
23.根据权利要求19或20所述的方法,其中,在分辨率参数集(RPS)或转换参数集(CPS)中用信令通知与所述ARC处理有关的信息。
24.根据权利要求19所述的方法,其中,与所述ARC处理有关的信息包括图片的高度与宽度的比率,所述图片包括所述一个或多个视频单元。
25.根据权利要求19所述的方法,其中,与所述ARC处理有关的信息包括图片的不同高度与不同宽度的多个比率,所述图片包括所述一个或多个视频单元。
26.根据权利要求25所述的方法,其中,在图片参数集(PPS)中用信令通知与所述多个比率中的允许比率相对应的索引。
27.根据权利要求25所述的方法,其中,所述多个比率中的任何一个比率与所述多个比率中的任何其他比率不同。
28.根据权利要求19所述的方法,其中,所述信息包括以下至少之一:(i)第一宽度和第二宽度之间的差;(ii)第一高度和第二高度之间的差;(iii)第一宽度和第二宽度之间的比率,或者(iv)第一高度和第二高度之间的比率。
29.根据权利要求28所述的方法,其中,所述信息是用一元码、截断的一元码或定长码进行编解码的。
30.根据权利要求19所述的方法,其中,所述比特流表示还包括以下至少一项:指示编解码树单元(CTU)尺寸的语法元素、指示最小编解码单元(CU)尺寸的语法元素、指示最大或最小变换块(TB)尺寸的语法元素、指示可应用于所述一个或多个视频单元的分割处理的最大深度的语法元素、或配置为与特定图片分辨率绑定的语法元素。
31.根据权利要求19所述的方法,其中,与包括所述一个或多个视频单元的当前图片相关联的第一参考图片具有等于所述当前图片的分辨率的第一分辨率,其中与所述当前图片相关联的第二参考图片具有大于所述当前图片的分辨率的第二分辨率,并且其中,所述第二参考图片的参考索引大于所述第一参考图片的参考索引。
32.根据权利要求19至31中任一项所述的方法,其中,所述转换从所述比特流表示生成所述一个或多个视频单元。
33.根据权利要求19至31中任一项所述的方法,其中,所述转换从所述一个或多个视频单元生成所述比特流表示。
34.一种视频系统中的装置,包括处理器和其上具有指令的非暂时性存储器,其中,所述指令在由处理器执行时使所述处理器实现权利要求19至33中任一项所述的方法。
35.一种存储在非暂时性计算机可读介质上的计算机程序产品,所述计算机程序产品包括用于执行根据权利要求19至33中任一项所述的方法的程序代码。
CN202080035774.1A 2019-05-12 2020-05-12 用于参考图片重采样的信令 Active CN113875246B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2019086513 2019-05-12
CNPCT/CN2019/086513 2019-05-12
PCT/CN2020/089740 WO2020228691A1 (en) 2019-05-12 2020-05-12 Signaling for reference picture resampling

Publications (2)

Publication Number Publication Date
CN113875246A true CN113875246A (zh) 2021-12-31
CN113875246B CN113875246B (zh) 2024-09-10

Family

ID=73289080

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202080035724.3A Pending CN113875250A (zh) 2019-05-12 2020-05-12 通过参考图片重采样从时域块进行运动预测
CN202080035774.1A Active CN113875246B (zh) 2019-05-12 2020-05-12 用于参考图片重采样的信令

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202080035724.3A Pending CN113875250A (zh) 2019-05-12 2020-05-12 通过参考图片重采样从时域块进行运动预测

Country Status (6)

Country Link
US (2) US11671602B2 (zh)
EP (1) EP3954124A4 (zh)
JP (2) JP7273193B2 (zh)
KR (1) KR102653570B1 (zh)
CN (2) CN113875250A (zh)
WO (2) WO2020228692A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023184467A1 (en) * 2022-04-01 2023-10-05 Intel Corporation Method and system of video processing with low latency bitstream distribution

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112021002832A2 (pt) * 2018-08-17 2021-05-04 Huawei Technologies Co., Ltd. gerenciamento de imagem de referência em codificação de vídeo
CA3133224A1 (en) * 2019-03-11 2020-09-17 Yong He Methods and apparatus for sub-picture adaptive resolution change
WO2020200235A1 (en) 2019-04-01 2020-10-08 Beijing Bytedance Network Technology Co., Ltd. Half-pel interpolation filter in intra block copy coding mode
CN114026867B (zh) * 2019-07-09 2024-04-02 阿里巴巴集团控股有限公司 分辨率自适应视频编解码
EP4011085A4 (en) * 2019-08-06 2023-07-26 OP Solutions, LLC ADAPTIVE RESOLUTION MANAGEMENT USING SUBFRAME
BR112022002480A2 (pt) 2019-08-20 2022-04-26 Beijing Bytedance Network Tech Co Ltd Método para processamento de vídeo, aparelho em um sistema de vídeo, e, produto de programa de computador armazenado em uma mídia legível por computador não transitória
US20220417499A1 (en) * 2019-12-13 2022-12-29 Sony Group Corporation Image processing apparatus and method
US11863789B2 (en) * 2020-03-31 2024-01-02 Tencent America LLC Method for signaling rectangular slice partitioning in coded video stream
KR20230165766A (ko) * 2021-04-02 2023-12-05 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 확장성 차원 정보(scalability dimension information)의 사용
CN113783600B (zh) * 2021-08-31 2023-06-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 巨型低轨互联网星座路由方法
US20230177649A1 (en) * 2021-12-03 2023-06-08 Nvidia Corporation Temporal image blending using one or more neural networks
US20240251106A1 (en) * 2023-01-10 2024-07-25 Sharp Kabushiki Kaisha Systems and methods for signaling picture resolution information in video coding

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013106705A2 (en) * 2012-01-14 2013-07-18 Qualcomm Incorporated Coding parameter sets and nal unit headers for video coding
WO2015038877A1 (en) * 2013-09-13 2015-03-19 Qualcomm Incorporated Representation format signaling in multi-layer video coding
CN104704835A (zh) * 2012-10-03 2015-06-10 联发科技股份有限公司 视频编码中运动信息管理的装置与方法
WO2015104451A1 (en) * 2014-01-07 2015-07-16 Nokia Technologies Oy Method and apparatus for video coding and decoding
US20160191931A1 (en) * 2014-12-31 2016-06-30 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100772878B1 (ko) * 2006-03-27 2007-11-02 삼성전자주식회사 비트스트림의 비트율 조절을 위한 우선권 할당 방법,비트스트림의 비트율 조절 방법, 비디오 디코딩 방법 및 그방법을 이용한 장치
JP5651560B2 (ja) * 2011-09-07 2015-01-14 日本放送協会 動きベクトル予測装置、符号化装置、復号装置、及びこれらのプログラム
US9998735B2 (en) 2013-04-01 2018-06-12 Qualcomm Incorporated Inter-layer reference picture restriction for high level syntax-only scalable video coding
US9509999B2 (en) 2013-06-11 2016-11-29 Qualcomm Incorporated Inter-layer prediction types in multi-layer video coding
WO2015006281A2 (en) * 2013-07-09 2015-01-15 Sony Corporation High level syntax improvement on inter-layer prediction for shvc/mv-hevc
CN105723712B (zh) * 2013-10-14 2019-06-28 韩国电子通信研究院 基于多层的图像编码/解码方法和设备
US20150264404A1 (en) * 2014-03-17 2015-09-17 Nokia Technologies Oy Method and apparatus for video coding and decoding
CN114554199B (zh) * 2014-09-30 2023-11-10 寰发股份有限公司 用于视频编码的自适应运动向量分辨率的方法
US9918105B2 (en) * 2014-10-07 2018-03-13 Qualcomm Incorporated Intra BC and inter unification
US10075712B2 (en) * 2014-11-20 2018-09-11 Hfi Innovation Inc. Method of motion vector and block vector resolution control
US10148969B2 (en) * 2015-02-11 2018-12-04 Qualcomm Incorporated Of sample entry and operation point signalling in a layered video file format
US20160373771A1 (en) * 2015-06-18 2016-12-22 Qualcomm Incorporated Design of tracks and operation point signaling in layered hevc file format
WO2017052409A1 (en) * 2015-09-25 2017-03-30 Huawei Technologies Co., Ltd. Apparatus and method for video motion compensation with selectable interpolation filter
WO2018045108A1 (en) * 2016-09-02 2018-03-08 Vid Scale, Inc. Method and system for signaling of 360-degree video information
WO2018221368A1 (ja) 2017-05-31 2018-12-06 シャープ株式会社 動画像復号装置、及び動画像符号化装置
FR3073999B1 (fr) * 2017-11-23 2024-02-09 Ateme Compression intelligente de contenus video graines
CN108833916B (zh) * 2018-06-20 2021-09-24 腾讯科技(深圳)有限公司 视频编码、解码方法、装置、存储介质和计算机设备
US10764603B2 (en) * 2018-12-31 2020-09-01 Alibaba Group Holding Limited Resolution-adaptive video coding
JP2022530172A (ja) * 2019-03-11 2022-06-28 アリババ・グループ・ホールディング・リミテッド 適応解像度ビデオ符号化のためのインター符号化
US11399195B2 (en) * 2019-10-30 2022-07-26 Tencent America LLC Range of minimum coding block size in video coding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013106705A2 (en) * 2012-01-14 2013-07-18 Qualcomm Incorporated Coding parameter sets and nal unit headers for video coding
CN104054345A (zh) * 2012-01-14 2014-09-17 高通股份有限公司 对用于视频译码的参数集和nal单元标头进行译码
CN104704835A (zh) * 2012-10-03 2015-06-10 联发科技股份有限公司 视频编码中运动信息管理的装置与方法
WO2015038877A1 (en) * 2013-09-13 2015-03-19 Qualcomm Incorporated Representation format signaling in multi-layer video coding
WO2015104451A1 (en) * 2014-01-07 2015-07-16 Nokia Technologies Oy Method and apparatus for video coding and decoding
US20160191931A1 (en) * 2014-12-31 2016-06-30 Nokia Technologies Oy Apparatus, a method and a computer program for video coding and decoding

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PEISONG CHEN: "AHG 19: Adaptive Resolution Change", JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 14TH MEETING: GENEVA, CH, 19–27 MARCH 2019,JVET-N0279, 27 March 2019 (2019-03-27) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023184467A1 (en) * 2022-04-01 2023-10-05 Intel Corporation Method and system of video processing with low latency bitstream distribution

Also Published As

Publication number Publication date
WO2020228692A1 (en) 2020-11-19
KR20220006048A (ko) 2022-01-14
US20220060712A1 (en) 2022-02-24
US11671602B2 (en) 2023-06-06
JP2023099077A (ja) 2023-07-11
CN113875250A (zh) 2021-12-31
JP7273193B2 (ja) 2023-05-12
JP2022532334A (ja) 2022-07-14
JP7513796B2 (ja) 2024-07-09
US20230319284A1 (en) 2023-10-05
KR102653570B1 (ko) 2024-04-02
CN113875246B (zh) 2024-09-10
WO2020228691A1 (en) 2020-11-19
EP3954124A1 (en) 2022-02-16
EP3954124A4 (en) 2022-08-03

Similar Documents

Publication Publication Date Title
KR102627834B1 (ko) 비디오 프로세싱에서의 코딩 툴들의 선택적 사용
CN113875246B (zh) 用于参考图片重采样的信令
CN114556916B (zh) 视频编解码工具的高级语法
CN113841395B (zh) 视频编解码中的自适应分辨率改变
JP7391203B2 (ja) ビデオコーディングツールを洗練する使用およびシグナリング

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant