CN117581536A - 用于视频处理的方法、设备和介质 - Google Patents
用于视频处理的方法、设备和介质 Download PDFInfo
- Publication number
- CN117581536A CN117581536A CN202280036199.6A CN202280036199A CN117581536A CN 117581536 A CN117581536 A CN 117581536A CN 202280036199 A CN202280036199 A CN 202280036199A CN 117581536 A CN117581536 A CN 117581536A
- Authority
- CN
- China
- Prior art keywords
- video block
- dimd
- mrl
- syntax element
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 297
- 238000012545 processing Methods 0.000 title claims abstract description 87
- 238000009795 derivation Methods 0.000 claims abstract description 58
- 238000006243 chemical reaction Methods 0.000 claims abstract description 11
- 230000007704 transition Effects 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 25
- 239000000523 sample Substances 0.000 claims description 25
- 230000001419 dependent effect Effects 0.000 claims description 22
- 239000013074 reference sample Substances 0.000 claims description 21
- 230000002123 temporal effect Effects 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 16
- 238000005192 partition Methods 0.000 claims description 9
- 230000006978 adaptation Effects 0.000 claims description 3
- 230000033001 locomotion Effects 0.000 description 78
- 239000013598 vector Substances 0.000 description 50
- 238000010586 diagram Methods 0.000 description 34
- 241000023320 Luma <angiosperm> Species 0.000 description 26
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 26
- 230000011664 signaling Effects 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 17
- 238000004458 analytical method Methods 0.000 description 13
- 238000001914 filtration Methods 0.000 description 13
- 230000009466 transformation Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000006073 displacement reaction Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 101100004280 Caenorhabditis elegans best-2 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 229920000915 polyvinyl chloride Polymers 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
Abstract
本公开的实施例提供了一种视频处理的解决方案,提出了一种视频处理的方法。该方法包括:在视频的图片和视频的比特流之间的转换期间,基于解码器侧帧内预测模式导出(DIMD)和多参考行(MRL)的组合处理图片中的第一视频块,至少一个帧内预测模式(IPM)从DIMD被导出,并且针对第一视频块的重构样本的至少一个不相邻参考行在DIMD和MRL的组合中被使用;以及基于第一视频块执行转换。与传统方案相比,所提出的方法可以有利地提高编码有效性和编码效率。
Description
技术领域
本公开的实施例总体上涉及视频编解码技术,并且更具体地,涉及基于解码器侧帧内预测模式导出(DIMD)和具多参考行(MRL)的帧内预测。
背景技术
视频编解码标准主要通过著名的ITU-T和ISO/IEC标准的发展而发展。ITU-T制作了H.261和H.263,ISO/IEC制作了MPEG-1和MPEG-4Visual,两个组织联合制作了H.262/MPEG-2视频和H.264/MPEG-4高级视频编解码(AVC)和H.265/HEVC标准。自H.262以来,视频编解码标准基于混合视频编解码结构,其中利用了时间预测加变换编解码。为了探索超越HEVC的未来视频编解码技术,联合视频探索团队(JVET)于2015年由VCEG和MPEG共同创立。此后,JVET采用了许多新方法,并将其放入名为联合探索模型(JEM)的参考软件中。2018年4月,VCEG(Q6/16)和ISO/IEC JTC1 SC29/WG11(MPEG)联合视频专家组(JVET)创建的目的是在VVC标准上工作,目标是与HEVC相比降低50%的比特率。
发明内容
本公开的实施例提供用于视频处理的解决方案。
在第一方面中,提出了一种处理视频数据的方法。该方法包括:在视频的图片和视频的比特流之间的转换期间,基于解码器侧帧内预测模式导出(DIMD)和多参考行(MRL)的组合处理图片中的第一视频块,至少一个帧内预测模式(IPM)从DIMD被导出,并且针对第一视频块的重构样本的至少一个不相邻参考行在DIMD和MRL的组合中被使用;以及基于第一视频块执行转换。根据本公开第一方面的方法允许一起使用在解码器侧导出的IPM和用于重建当前块的样本的多个参考行。与传统解决方案相比,在这种可以表示为DIMD_MRL模式的组合模式中,可以降低帧内预测的信令开销,并且提高编解码效率和性能。
在第二方面,一种用于处理视频数据的装置,包括处理器和耦合到处理器并在其上存储指令的非瞬态存储器,其中在处理器执行指令时,使处理器执行根据本公开的第一方面的方法。
在第三方面,非瞬态计算机可读存储介质存储指令,使处理器根据本公开的第一方面执行方法。
在第四方面,一种非瞬态计算机可读记录介质,其存储由视频处理设备执行的方法生成的视频的比特流,其中方法包括:基于解码器侧帧内预测模式导出(DIMD)和多参考行(MRL)的组合处理视频的图片中的第一视频块,至少一个帧内预测模式(IPM)从DIMD被导出,并且针对第一视频块的重构样本的至少一个不相邻参考行在DIMD和MRL的组合中被使用;以及基于第一视频块生成比特流。
在第五方面,一种用于存储视频的比特流的方法,包括:基于解码器侧帧内预测模式导出(DIMD)和多参考行(MRL)的组合处理视频的图片中的第一视频块,至少一个帧内预测模式(IPM)从DIMD被导出,并且针对第一视频块的重构样本的至少一个不相邻参考行在DIMD和MRL的组合中被使用;基于第一视频块生成比特流;以及将比特流存储在非瞬态计算机可读记录介质中。
提供本发明内容是为了以简化的形式介绍以下在具体实施例中进一步描述的概念的选择。本发明内容并非旨在标识所要求保护的主题的关键特征或基本特征,亦非旨在用于限制所要求保护主题的范围。
附图说明
通过参考附图的以下详细描述,本公开的示例实施例的上述和其他目的、特征和优点将变得更加明显。在本公开的示例实施例中,相同的附图标记通常指代相同的组件。
图1示出了根据本公开的一些实施例的示例视频编解码系统的框图;
图2示出了根据本公开的一些实施例的示例视频编码器的框图;
图3示出了根据本公开的一些实施例的示例视频解码器的框图;
图4是示出编码器框图示例的示意图;
图5是示出帧内预测模式的示意图;
图6是示出用于广角帧内预测的示例参考样本的示意图;
图7是示出超过45°方向时不连续的问题的示意图;
图8是示出用于导出α和β的样本的示例位置的示意图;
图9A至图9D是示出应用于对角线和相邻角度帧内模式的PDPC所使用的样本的定义的示意图,其中图9A示出了对角线右上模式,图9B示出了对角线左下模式,图9C示出了相邻的对角线右上模式,图9D示出了相邻的对角线左下模式;
图10是示出非垂直/非水平模式的梯度方法的示意图;
图11是示出nScale值相对于nTbH和模式数的示意图;对于所有nScale<0的情况使用了梯度方法;
图12示出了左侧的当前PDPC和右侧的所提出PDPC的流程图;
图13是示出用于导出一般MPM列表的相邻块(L、A、BL、AR、AL)的示意图;
图14是示出关于所提出的帧内参考映射的示例的示意图;
图15是示出与预测块相邻的四个参考行的示例的示意图;
图16A和16B是示出取决于块尺寸的子划分的示意图,其中4x8和8x4个CU的子划分示的例示被显示在图16A中,并且4x8、8x4和4x4以外的CU的子划分的示例被显示在图16B中;
图17是示出矩阵加权帧内预测过程的示意图;
图18是示出DIMD中使用的目标样本、模板样本和模板的参考样本的示意图;
图19是示出在其上执行梯度分析的一组选定像素的示意图;
图20是说明3x3 Sobel梯度滤波器与模板的卷积的示意图;
图21是示出根据本公开的一些实施例提出的帧内块解码过程的示意图;
图22是示出从宽度为3像素的模板进行HoG计算的示意图;
图23是示出通过两个HoG模式和平面的加权平均进行预测融合的示意图;
图24示出了根据本公开的一些实施例的用于视频处理的方法的流程图;以及
图25示出了其中可以实现本公开的各种实施例的计算设备的框图。
在附图中,相同或相似的附图标记通常指代相同或相似元素。
具体实施方式
现在将参考一些实施例来描述本公开的原理。应当理解的是,描述这些实施例仅出于说明并且帮助本领域技术人员理解和实施本公开的目的,而不暗示对本公开的范围的任何限制。除了下文所述的方式之外,本文所描述的公开内容还可以以各种方式实施。
在以下描述和权利要求中,除非另有定义,否则在本文中使用的所有科学术语和技术术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。
本公开中提及的“一个实施例”、“实施例”、“示例实施例”等指示所描述的实施例可以包括特定的特征、结构或特性,但是并非每个实施例都必须包括该特定的特征、结构或特性。此外,这些短语不一定指同一实施例。此外,当结合示例实施例描述特定的特征、结构或特性时,无论是否明确描述,认为影响与其他实施例相关的这种特征、结构或特性在本领域技术人员的知识范围内。
应当理解的是,尽管术语“第一”和“第二”等可以用于描述各种元素,但这些元素不应受限于这些术语。这些术语仅用于区分一个元素与另一个元素。例如,第一元素可以被称为第二元素,类似地,第二元素可以被称为第一元素,而不脱离示例实施例的范围。如本文中所使用的,术语“和/或”包括一个或多个所列术语的任何和所有组合。
本文中所使用的术语仅用于描述特定实施例的目的,并不旨在限制示例实施例。如本文中所用的,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另有明确指示。还应理解,术语“包括”、“包含”和/或“具有”在本文中使用时表示存在所述特征、元素和/或组件等,但不排除一个或多个其他特征、元素、组件和/或其组合的存在或添加。
示例环境
图1是图示可以利用本公开的技术的示例视频编解码系统100的框图。如所示出的,视频编解码系统100可以包括源设备110和目的设备120。源设备110也可以称为视频编码设备,并且目的设备120也可以称为视频解码设备。在操作中,源设备110可以被配置为生成经编码的视频数据,并且目的设备120可以被配置为对由源设备110生成的经编码的视频数据进行解码。源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。
视频源112可以包括诸如视频捕获设备之类的源。视频捕获设备的示例包括但不限于从视频内容提供商接收视频数据的接口、用于生成视频数据的计算机图形系统和/或其组合。
视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码,以生成码流。码流可以包括形成视频数据的编码表示的位序列。码流可以包括编码图片和相关联的数据。编码图片是图片的编码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器和/或发送器。经编码的视频数据可以通过网络130A经由I/O接口116直接传输至目的设备120。经编码的视频数据也可以存储在存储介质/服务器130B上,以供目的设备120访问。
目的设备120可以包括I/O接口126、视频解码器124和显示设备122。I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130B获取经编码的视频数据。视频解码器124可以对经编码的视频数据进行解码。显示设备122可以向用户显示经解码的视频数据。显示设备122可以与目的设备120集成,或者可以在目的设备120的外部,该目的设备120被配置为与外部显示设备接口连接。
视频编码器114和视频解码器124可以根据视频压缩标准操作,诸如高效视频编解码(HEVC)标准、通用视频编解码(VVC)标准和其他现有和/或将来的标准。
图2是示出根据本公开的一些实施例的视频编码器200的示例的方框图,视频编码器200可以是图1所示的系统100中的视频编码器114的示例。
视频编码器200可以被配置为实现本公开的任何或所有技术。在图2的示例中,视频编码器200包括多个功能组件。本公开中描述的技术可以在视频编码器200的各个组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
在一些实施例中,视频编码器200可以包括划分单元201、预测单元202、残差生成单元207、变换单元208、量化单元209、反量化单元210、反变换单元211、重建单元212、缓冲213和熵编码单元214,该预测单元202可以包括模式选择单元203、运动估计单元204、运动补偿单元205和帧内预测单元206。
在其他示例中,视频编码器200可以包括更多、更少或不同的功能组件。在一个示例中,预测单元202可以包括块内复制(IBC)单元。IBC单元可以在IBC模式中执行预测,其中至少一个参考图片是当前视频块所位于的图片。
此外,尽管一些组件(诸如运动估计单元204和运动补偿单元205)可以被集成,但是为了解释的目的,这些组件在图2的示例中被分离地示出。
划分单元201可以将图片划分成一个或多个视频块。视频编码器200和视频解码器300(其将在以下详细讨论)可以支持各种视频块尺寸。
模式选择单元203可以例如基于误差结果来选择多种编码模式(帧内编码或帧间编码)中的一种编码模式,并且将所产生的帧内编解码块或帧间编解码块提供给残差生成单元207以生成残差块数据,并且提供给重建单元212以重建编解码块以用作参考图片。在一些示例中,模式选择单元203可以选择帧内和帧间预测(CIIP)模式的组合,其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下,模式选择单元203还可以为块选择针对运动矢量的分辨率(例如,亚像素精度或整数像素精度)。
为了对当前视频块执行帧间预测,运动估计单元204可以通过将来自缓冲213的一个或多个参考帧与当前视频块进行比较来生成针对当前视频块的运动信息。运动补偿单元205可以基于运动信息和来自缓冲213的除了与当前视频块相关联的图片之外的图片的经解码样本,来确定针对当前视频块的预测视频块。
运动估计单元204和运动补偿单元205可以对当前视频块执行不同的操作,例如,取决于当前视频块是在I条带、P条带还是B条带中。如本文中使用的,“I条带”可以是指由宏块构成的图片的一部分,所有宏块均基于同一图片内的宏块。此外,如本文中使用的,在一些方面中,“P条带”和“B条带”可以是指由独立于同一图片中的宏块的宏块构成的图片的部分。
在一些示例中,运动估计单元204可以对当前视频块执行单向预测,并且运动估计单元204可以搜索列表0或列表1的参考图片,以寻找针对当前视频块的参考视频块。运动估计单元204然后可以生成参考索引和运动矢量,该参考索引指示列表0或列表1中的包含参考视频块的参考图片,并且该运动矢量指示当前视频块与参考视频块之间的空间位移。运动估计单元204可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。
备选地,在其他示例中,运动估计单元204可以对当前视频块执行双向预测。运动估计单元204可以搜索列表0中的参考图片以寻找针对当前视频块的参考视频块,并且还可以搜索列表1中的参考图片以寻找针对当前视频块的另一参考视频块。运动估计单元204然后可以生成多个参考索引和多个运动矢量,该多个参考索引指示列表0和列表1中的包含多个参考视频块的多个参考图片,并且该多个运动矢量指示在多个参考视频块与当前视频块之间的多个空间位移。运动估计单元204可以输出当前视频块的多个参考索引和多个运动矢量以作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的多个参考视频块来生成针对当前视频块的预测视频块。
在一些示例中,运动估计单元204可以输出完整的运动信息集,以用于解码器的解码处理。备选地,在一些实施例中,运动估计单元204可以参考另一视频块的运动信息来通过信号传输当前视频块的运动信息。例如,运动估计单元204可以确定当前视频块的运动信息与邻近视频块的运动信息足够相似。
在一个示例中,运动估计单元204可以在与当前视频块相关联的语法结构中向视频解码器300指示一值,该值指示当前视频块具有与另一视频块相同的运动信息。
在另一示例中,运动估计单元204可以在与当前视频块相关联的语法结构中标识另一视频块和运动矢量差(MVD)。运动矢量差指示在当前视频块的运动矢量与所指示的视频块的运动矢量之间的差异。视频解码器300可以使用所指示的视频块的运动矢量以及运动矢量差来确定当前视频块的运动矢量。
如上所讨论的,视频编码器200可以以预测性的方式通过信号传输运动矢量。可以由视频编码器200实现的预测信令技术的两个示例包括高级运动矢量预测(AMVP)和合并模式信令。
帧内预测单元206可以对当前视频块执行帧内预测。当对当前视频块执行帧内预测时,帧内预测单元206可以基于同一图片中其他视频块的经解码样本来生成针对当前视频块的预测数据。针对当前视频块的预测数据可以包括预测视频块和各个语法元素。
残差生成单元207可以通过从当前视频块中减去(例如,由减号指示)当前视频块的(多个)预测视频块来生成针对当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样本的不同样本部分的残差视频块。
在其他示例中,例如在跳过模式中,针对当前视频块可以不存在针对当前视频块的残差数据,并且残差生成单元207可以不执行减去操作。
变换单元208可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块,来生成针对当前视频块的一个或多个变换系数视频块。
在变换单元208生成与当前视频块相关联的变换系数视频块之后,量化单元209可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。
反量化单元210和反变换单元211可以分别对变换系数视频块应用反量化和反变换,以从变换系数视频块重建残差视频块。重建单元212可以将经重建的残差视频块添加到来自由预测单元202生成的一个或多个预测视频块的对应样本,以产生与当前视频块相关联的重建视频块,以供存储在缓冲213中。
在重建单元212重建视频块之后,可以执行环路滤波操作以减少视频块中的视频块效应伪像。
熵编码单元214可以从视频编码器200的其他功能组件接收数据。当数据被接收时,熵编码单元214可以执行一个或多个熵编码操作,以生成熵编码数据并且输出包括该熵编码数据的码流。
图3是示出根据本公开的一些实施例的视频解码器300的示例的方框图,视频解码器300可以是图1所示的系统100中的视频解码器124的示例。
视频解码器300可以被配置为执行本公开的任何或所有技术。在图3的示例中,视频解码器300包括多个功能组件。本公开中描述的技术可以在视频解码器300的各个组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
在图3的示例中,视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、反量化单元304、反变换单元305、以及重建单元306和缓冲307。在一些示例中,视频解码器300可以执行通常与关于视频编码器200所描述的编码过程相对的解码过程。
熵解码单元301可以取回经编码的码流。经编码的码流可以包括经熵编码的视频数据(例如,经编码的视频数据块)。熵解码单元301可以对经熵编码的视频数据进行解码,并且运动补偿单元302可以从经熵解码的视频数据中确定运动信息,该运动信息包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息。运动补偿单元302可以例如通过执行AMVP和合并模式来确定该信息。AMVP被使用,包括基于邻近PB的数据和参考图片导出数个最可能的候选项。运动信息通常包括水平和竖直运动矢量位移值、一个或两个参考图片索引,并且在B条带中的预测区域的情况下,还包括哪个参考图片列表与每个索引相关联的标识。如本文所使用的,在一些方面中,“合并模式”可以是指从空间或时间上邻近的块中导出运动信息。
运动补偿单元302可以产生运动补偿块,可能地基于插值滤波器来执行插值。针对以亚像素精度被使用的插值滤波器的标识符可以被包括在语法元素中。
运动补偿单元302可以使用由视频编码器200在视频块的编码期间使用的插值滤波器来计算用于参考块的亚整数像素的插值值。运动补偿单元302可以根据接收到的语法信息来确定由视频编码器200使用的插值滤波器,并且运动补偿单元302可以使用插值滤波器来产生预测块。
运动补偿单元302可以使用至少部分语法信息来确定用于编码经编码视频序列的(多个)帧和/或(多个)条带的块的大小、描述经编码视频序列的图片的每个宏块如何被划分的划分信息、指示每个划分如何被编码的模式、针对每个帧间编解码块的一个或多个参考帧(和参考帧列表)、以及对经编码视频序列进行解码的其他信息。如本文中所使用的,在一些方面,“条带”可以是指在熵编码、信号预测和残差信号重建方面可以独立于同一图片的其他条带而被解码的数据结构。条带可以是整个图片,或者也可以是图片的区域。
帧内预测单元303可以使用例如在码流中接收的帧内预测模式,以从空间邻近块形成预测块。反量化单元304反量化(即,去量化)在码流中提供的、并且由熵解码单元301解码的量化视频块系数。反变换单元305应用反变换。
重建单元306可以例如通过将残差块与由运动补偿单元302或帧内预测单元303生成的相应预测块相加来获得经解码的块。如果需要的话,还可以应用去块效应滤波器以对经解码的块进行滤波,以便去除块效应伪像。经解码的视频块随后被存储在缓冲307中,缓冲307为后续运动补偿/帧内预测提供参考块,并且缓冲307还产生经解码的视频以供在显示设备上呈现。
下文将详细描述本公开的一些示例性实施例。应当注意,在本文件中使用章节标题是为了便于理解,而不是将章节中公开的实施例仅限于该章节。此外,尽管参考通用视频编解码或其他特定视频编解码器描述了一些实施例,但是所公开的技术也适用于其他视频编解码技术。此外,尽管一些实施例详细描述了视频编码步骤,但是应当理解的是取消编码的相应解码步骤将由解码器实现。此外,术语视频处理包括视频编码或压缩、视频解码或解压缩以及视频转码,在该视频转码中视频像素被从一种压缩格式表示为另一种压缩格式或以不同的压缩码率表示。
1.概述
本公开涉及视频编解码技术。具体地,本公开涉及使用先前解码的块来导出帧内预测模式的编解码工具,以及图像/视频编码中使用多参考行(MRL)和其他编解码工具的帧内预测。它可以应用于现有的视频编解码标准,如HEVC或通用视频编解码(VVC)。它也可以适用于未来的视频编解码标准或视频编解码器。
2.背景
视频编解码标准主要是通过众所周知的ITU-T和ISO/IEC标准的发展而发展起来。ITU-T制作了H.261和H.263,ISO/IEC制作了MPEG-1和MPEG-4视觉(Visual),这两个组织联合制作了H.264/MPEG-2视频和H.264/MMPEG-4高级视频编解码(AVC)以及H.264/HEVC标准。自从H.262,视频编解码标准基于混合视频编解码结构,其中利用了时间预测加变换编解码。为了探索HEVC之外的未来视频编解码技术,VCEG和MPEG于2015年联合成立了联合视频探索团队(JVET)。此后,JVET采用了许多新方法,并将其放入名为联合探索模型(JEM)的参考软件中。2018年4月,VCEG(Q6/16)和ISO/IEC JTC1 SC29/WG11(MPEG)之间的联合视频专家组(JVET)被创建,以致力于VVC标准,其目标是与HEVC相比降低50%比特率。
最新版本VVC草案,即多功能视频编码(草案10)可在以下网址找到:
http://phenix.it-sudparis.eu/jvet/doc_end_user/documents/20_Teleconference/wg11/JVET-T2001-v1.zip
VVC最新的参考软件名为VTM,可在以下网址找到:
https://vcgit.hhi.fraunhofer.de/jvet/VVCSoftware_VTM/-/tags/VTM-11.0
2.1典型视频编解码器的编解码流程
图4示出了VVC编码器框图的一个示例,其包含三个环内(in-loop)滤波块:去块滤波器(DF)、样本自适应偏移(SAO)和ALF。与使用预定义滤波器的DF不同,SAO和ALF利用当前图片的原始样本,分别通过添加偏移量和通过应用有限冲激响应(FIR)滤波器来减少原始样本和重构样本之间的均方误差,其中编码侧信息通过信令通知偏移和滤波器系数。ALF位于每个图片的最后处理阶段,并且可以被视为一种尝试获取和修复先前阶段所产生的伪影的工具。
2.2具有67个帧内预测模式的帧内模式编码
为了捕捉自然视频中呈现的任意边缘方向,定向帧内模式500的数目从HEVC中使用的33个扩展到65个,如图5所示,平面模式和DC模式保持不变。这些密集的定向帧内预测模式适用于所有块尺寸并且适用于亮度帧内预测和色度帧内预测二者。
在HEVC中,每个帧内编解码块都具有正方形形状,并且其每条边的长度是2的幂。因此,不需要除法运算来使用DC模式生成帧内预测器。在VVC中,块可以具有矩形形状,这在一般情况下需要使用每个块的除法运算。为了避免针对DC预测的除法运算,仅使用较长边来计算非正方形块的平均值。
2.2.1广角帧内预测
尽管在VVC中定义了67个模式,但是用于给定帧内预测模式索引的精确预测方向进一步取决于块形状。传统的角度帧内预测方向定义为沿顺时针方向从45度到-135度。在VVC中,几种传统的角度帧内预测模式被自适应地替换为非正方形块的广角帧内预测模式。使用原始模式索引来通知被替换的模式,原始模式索引在解析后被重新映射到广角模式的索引。帧内预测模式的总数不变,即67,并且帧内模式编解码方法不变。
为了支持这些预测方向,定义了长度为2W+1的顶部参考和长度为2H+1的左侧参考,如图6所示。图6是示出了宽角帧内预测的示例参考样本600的示意图。
宽角度方向模式中被替换的模式的数目取决于块的纵横比。被替代的帧内预测模式如表2-1所示。
表2-1被广角模式替代的帧内预测模式
图7是示出在超过45°方向情况下的不连续性问题700的示意图。如图7所示,在广角帧内预测的情况下,两个垂直的邻近预测样本可以使用两个不邻近的参考样本。因此,将低通参考样本滤波器和侧平滑应用于广角预测,以减少所增加的间隙Δpα带来的负面影响。如果广角模式代表非分数偏移。广角模式中有8种模式满足这一条件,它们是[-14,-12,-10,-6,72,76,78,80]。当通过这些模式预测块时,直接复制参考缓冲区中的样本,而不应用任何插值。通过这种修改,需要进行平滑处理的样本数目减少了。此外,它将对齐传统预测模式和广角模式中的非分数模式的设计。
在VVC中,支持4:2:2和4:4:4色度格式以及4:2:0色度格式。4:2:2色度格式的色度导出模式(DM)导出表最初从HEVC移植,将条目的数目从35扩展到67,以与帧内预测模式的扩展对齐。由于HEVC规范不支持低于-135度和超过45度的预测角度,因此范围从2到5的亮度帧内预测模式被映射到2。因此,通过替换映射表的条目的一些值来更新4:2:2:色度格式的色度DM导出表,以更精确地转换色度块的预测角度。
2.3帧间预测
对于每个帧间预测CU,运动参数包括运动矢量、参考图片索引和参考图片列表使用索引、以及将被用于帧间预测样本生成的VVC的新编码特征所需的附加信息。可以以显式或隐式的方式用信令通知运动参数。在以跳跃模式对CU进行编码时,该CU与一个PU相关联,并且不具有显著的残差系数,不具有编码的运动矢量差异(delta)或参考图片索引。指定一种合并(merge)模式,其中从邻近CU获得当前CU的运动参数,包括空间候选和时间候选,以及VVC中引入的附加调度。合并模式可以被应用于任何帧间预测CU,而不仅仅适用于跳过模式。合并模式的替代方案是运动参数的显式传输,其中运动矢量、每个参考图片列表的对应参考图片索引和参考图片列表使用标志以及其他所需信息按每个CU显式地以信令通知。
2.4块内复制(IBC)
块内复制(IBC)是SCC上HEVC扩展中采用的一种工具。众所周知,它显著提高了屏幕内容材料的编码效率。由于IBC模式被实现为块级编码模式,因此在编码器处执行块匹配(BM),以找到每个CU的最佳块矢量(或运动矢量)。这里,块矢量用于指示从当前块到参考块的位移,该参考块已经在当前图片内重建。IBC编码的CU的亮度块矢量具有整数精度。色度块矢量也舍入到整数精度。当与AMVR结合使用时,IBC模式可以在1像素和4像素运动矢量精度之间切换。IBC编码的CU被视为除了帧内或帧间预测模式之外的第三预测模式。IBC模式适用于宽度和高度均小于或等于64个亮度样本的CU。
在编码器侧,对IBC执行基于哈希的运动估计。编码器对宽度或高度不大于16个亮度样本的块执行RD检查。对于非合并模式,首先使用基于哈希的搜索来执行块矢量搜索。如果哈希搜索没有返回有效的候选,则将执行基于块匹配的本地搜索。
在基于哈希的搜索中,当前块和参考块之间的哈希键匹配(32位CRC)被扩展到所有允许的块尺寸。当前图片中每个位置的哈希键计算基于4×4个子块。对于大小较大的当前块,在所有4×4个子块的所有哈希键与对应参考位置中的哈希键匹配时,确定哈希键与参考块的哈希键相匹配。如果发现多个参考块的哈希键与当前块的哈希密钥匹配,则计算每个匹配的参考的块向量成本,并选择具有最小成本的一个。
在块匹配搜索中,搜索范围被设置为覆盖先前CTU和当前CTU。
在CU级别,IBC模式通过一个标志发信号,它可以被以信令通知为IBC AMVP模式或IBC跳过/合并模式,如下所示:
–IBC跳过/合并模式:合并候选索引用于指示来自邻近候选IBC编解码块的列表中的哪个块矢量被用于预测当前块。合并列表包括空间候选、HMVP候选和成对候选。
–IBC AMVP模式:块矢量差以与运动矢量差相同的方式进行编解码。块矢量预测方法使用两个候选作为预测器,一个来自左邻近,一个从上邻近(如果是IBC编码)。当任一邻近不可用时,将使用默认块向量作为预测器。以信令通知一个标志,以指示块向量预测器索引。
2.5跨分量线性模型预测
为了降低跨分量冗余性,在VVC中使用跨分量线性模型(CCLM)预测模式,对于该CCLM预测模式,通过使用如下线性模型来基于相同CU的重构亮度样本来预测色度样本:
predC(i,j)=α·recL′(i,j)+ β (2-1)
其中predC(i,j)表示CU中的预测色度样本,并且recL′(i,j)表示相同CU的下采样重构亮度样本。
CCLM参数(α和β)是用最多四个邻近色度样本及其对应的下采样亮度样本导出的。假设当前色度块维度为W×H,则W’和H’被设置为
-当应用LM模式时,W'=W,H'=H;
-当采用LM-T模式时,W’=W+H;
-当应用LM-L模式时,H’=H+W。
上方邻近位置被表示为S[0,-1]…S[W'-1,-1],并且左侧邻近位置被表示为S[-1,0]…S[-1,H'-1]。然后,四个样本被选择为:
-在应用LM模式并且上方邻近样本和左侧邻近样本都可用时,S[W’/4,-1],S[3*W’/4,-1],S[-1,H’/4],S[-1,3*H’/4];
-在应用LM-T模式或者只有上方邻近样本可用时,S[W’/8,-1],S[3*W’/8,-1],S[5*W’/8,-1],S[7*W’/8,-1];
-在应用LM-L模式或者只有左侧邻近样本可用时,S[-1,H’/8],S[-1,3*H’/8],S[-1,5*H’/8],S[-1,7*H’/8]。
对所选位置处的四个邻近亮度样本进行下采样并比较四次,以找到两个较大的值:x0 A和x1 A,以及两个较小的值:x0 B和x1 B。它们对应的色度样本值表示为y0A、y1A、y0B和y1B。则xA、xB、yA和yB导出为:
Xa=(x0 A+x1 A+1)>>1;Xb=(x0 B+x1 B+1)>>1;Ya=(y0 A+y1 A+1)>>1;Yb=(y0 B+y1 B+1)>>1
(2-2)
最后,根据下式获得线性模型的参数α和β。
B=Yb-α·Xb (2-4)
图8示出了左侧样本和上方样本的位置以及CCLM模式中涉及的当前块的样本的位置的示例800。
利用查找表来实现除法运算以计算参数α。为了减少用于存储表所需的存储器,diff值(最大值和最小值之间的差)和参数α以指数表示。例如,diff是以4位有效部分和指数来近似的。因此,用于1/diff的表被缩减为针对有效位的16个值的16个元素,如下所示:
DivTable[]={0,7,6,5,5,4,4,3,3,2,2,1,1,0} (2-5)
这将有利于降低计算的复杂度以及用于存储所需表所需的存储器大小。
除了上方模板和左侧模板可以一起用于计算线性模型系数之外,它们也可以交替地用于其他两种LM模式,称为LM_T和LM_L模式。
在LM_T模式中,仅使用上方模板来计算线性模型系数。为了获得更多的样本,上方模板被扩展到(W+H)个样本。在LM_L模式下,只使用左侧模板来计算线性模型系数。为了获得更多样本,将左侧模板扩展到(H+W)个样本。
在LM模式中,左侧模板和上方模板用于计算线性模型系数。
为了匹配用于4:2:0视频序列的色度采样位置,将两种类型的下采样滤波器应用于亮度样本,以在水平和垂直方向上实现2比1的下采样率。下采样滤波器的选择由SPS级别标志指定。两个下采样滤波器如下,分别对应“类型0(type-0)”和“类型2(type-2)”内容。
注意,当上部的参考行处于CTU边界时,仅使用一个亮度行线(帧内预测中的通用行缓冲)来进行下采样的亮度采样。
此参数计算是作为解码过程的一部分执行的,而不仅仅是作为编码器搜索操作。因此,不使用语法来将α和β值传递给解码器。
对于色度帧内模式编解码,总共允许8个帧内模式用于色度帧内方式编解码。这些模式包括五种传统的帧内模式和三种跨分量线性模型模式(LM、LM_T和LM_L)。色度模式信令和导出过程如表2-2所示。色度模式编解码直接取决于对应亮度块的帧内预测模式。由于在I条带中启用了用于亮度和色度分量的单独块划分结构,因此一个色度块可以对应于多个亮度块。因此,对于色度DM模式,直接继承覆盖当前色度块的中心位置的对应亮度块的帧内预测模式。
表2-2在CCLM启用时从亮度模式导出色度预测模式
不管sps_cclm_enabled_flag的值如何,都使用单个二值化表,如表2-3所示。
表2-3用于色度预测模式的统一二值化表
intra_chroma_pred_mode的值 | 二进制值字符串 |
4 | 00 |
0 | 0100 |
1 | 0101 |
2 | 0110 |
3 | 0111 |
5 | 10 |
6 | 110 |
7 | 111 |
在表2-3中,第一个二进制值指示它是常规模式(0)还是LM模式(1)。如果是LM模式,则下一个二进制值指示它是否是LM_CHROMA(0)。如果它不是LM_CHROMA,则下一个1二进制值指示它是LM_L(0)还是LM_T(1)。对于这种情况,当sps_cclm_enabled_flag为0时,可以在熵编解码之前丢弃对应的intra_chroma_pred_mode的二值化表的第一个二进制值。或者,换言之,第一二进制值被推断为0,因此不被编解码。该单个二值化表用于sps_cclm_enabled_flag等于0和1的两种情况。表2-3中的前两个二进制值用自己的上下文模型进行上下文编解码,其余二进制值进行旁路编解码。
此外,为了减少双树中的亮度-色度延迟,当64×64亮度编解码树节点用NotSplit(并且ISP不用于64×64CU)或QT进行划分时,32×32/32×16色度编解码树节点中的色度CU被允许以以下方式使用CCLM:
–如果32×32色度节点未拆分或分割QT拆分,则32×32节点中的所有色度CU都可以使用CCLM
–如果32×32色度节点是用水平BT分割的,而32×16子节点不分割或使用垂直BT分割,则32×16色度节点中的所有色度CU都可以使用CCLM。
在所有其他亮度和色度编解码树分割条件下,对于色度CU不允许CCLM。
2.6位置相关帧内预测组合
在VVC中,通过位置相关帧内预测组合(PDPC)方法进一步修改DC、平面和几个角模式的帧内预测结果。PDPC是一种帧内预测方法,它调用边界参考样本和具有滤波边界参考样本的HEVC式的帧内预测的组合。PDPC应用于以下帧内模式,无需发出信号:平面、DC、小于或等于水平的帧内角,以及大于或等于垂直且小于或等于80的帧内角。如果当前块是BDPCM模式或MRL索引大于0,则不应用PDPC。
根据如下等式2-8,预测样本pred(x’,y’)是使用帧内预测模式(DC,平面,角)和参考样本的线性组合来预测的:
pred(x’,y’)=Clip=(0,(1<<BitDepth)-1,(wL×R-1,y’+wT×Rx’,-1+(64-wL-wT)×pred(x’,y’)+32)>>6)
(2-8)
其Rx,-1,R-1,y分别表示位于当前样本(x,y)顶部和左侧边界的参考样本。
如果PDPC应用于DC、平面、水平和垂直帧内模式,则不需要额外的边界滤波,如HEVC DC模式边界滤波或水平/垂直模式边缘滤波的情况所需。DC模式和平面模式的PDPC过程是相同的。对于角模式,如果当前角模式为HOR_IDX或VER_IDX,则分别不使用左侧或顶部参考采样。PDPC权重和比例因子取决于预测模式和块尺寸。PDPC应用于宽度和高度均大于或等于4的块。
图9A至9D示出了在各种预测模式下应用的PDPC的参考样本(Rx,-1和R-1,y)的定义。预测样本pred(x’,y’)位于预测块内的(x’,y’)处。例如,参考样本Rx,-1的坐标x由:x=x’+y’+1给出,参考样本R-1,y,y的坐标y类似地由:y=x’+y’+1给出。对于其他角模式,参考样本Rx,-1和R-1,y可以位于分数样本位置。在这种情况下,将使用最近整数采样位置的采样值。
2.7渐变PDPC
如图10所示,基于梯度所述的方法1000扩展到非垂直/非水平模式。这里,梯度计算为r(-1,y)–r(-1+d,-1),其中d是取决于角方向的水平位移。这里需要注意的几点:
梯度项r(-1,y)–r(-1+d,-1)需要每行计算一次,因为它不取决于x位置。
对d的计算已经是可以重用的原始帧内预测过程的一部分,因此不需要单独计算d。因此,d的精度为1/32像素。
当d处于小数位置时,我们使用了双抽头(线性)滤波,即,如果dPos是1/32像素精度的位移,dInt是(向下取整)整数部分(dPos>>5),dFract是1/32像素精度的小数部分(dPos&31),则r(-1+d)计算为:
r(-1+d)=(32–dFrac)*r(-1+dInt)+dFrac*r(-1+dInt+1)
如在a中所述,每行执行一次2抽头滤波(如果需要)。
最后,计算预测信号
p(x,y)=Clip(((64–wL(x))*p(x,y)+wL(x)*(r(-1,y)-r(-1+d,-1))+32)>>6)
其中wL(x)=32>>((x<<1)>>nScale2),nScale2=(log2(nTbH)+log2(nTbW)–2)>>2,它们与垂直/水平模式相同。简而言之,与垂直/水平模式相比,应用了相同的过程(事实上,d=0表示垂直/水平模式)。
其次,在非垂直/非水平模式下,当(nScale<0)或由于辅参考样本不可用而无法应用PDPC时,基于梯度所述的方法被激活。已经在图11中显示了与TB大小和角模式有关的nScale的值,以更好地可视化使用梯度方法的情况。此外,图12中示出了用于当前和所提出的PDPC的流程图1200。
2.8辅MPM
现有的主MPM(PMPM)列表包括6个条目,而辅MPM(SMPM)列表包括16个条目。首先构建具有22个条目的通用MPM列表,然后将该通用MPM表中的前6个条目包括在PMPM列表中,其余条目形成SMPM列表。通用MPM列表中的第一个条目是平面模式。如图13所示,其余条目包括左(L)、上(A)、左下(BL)、右上(AR)和左上(AL)邻近块的帧内模式1300,与邻近块的前两个可用方向模式有附加偏移的方向模式以及默认模式。
如果CU块是垂直定向的,则邻近块的顺序是A、L、BL、AR、AL;否则,它是L、A、BL、AR、AL。
首先解析PMPM标志,如果等于1,则解析PMPM索引以确定PMPM列表的哪个条目被选择,否则解析SPMPM标志以确定是解析SMPM索引还是解析其余模式。
2.9 6抽头插值滤波器
为了提高预测精度,提出用6抽头插值滤波器代替4抽头三次插值滤波器,滤波器系数是基于相同的多项式回归模型导出的,但多项式阶数为6。
滤波器系数如下所示,
{0,0,256,0,0,0},//0/32位置
{0,-4,253,9,-2,0},//1/32位置
{1,-7,249,17,-4,0},//2/32位置
{1,-10,245,25,-6,1},//3/32位置
{1,-13,241,34,-8,1},//4/32位置
{2,-16,235,44,-10,1},//5/32位置
{2,-18,229,53,-12,2},//6/32位置
{2,-20,223,63,-14,2},//7/32位置
{2,-22,217,72,-15,2},//8/32位置
{3,-23,209,82,-17,2},//9/32位置
{3,-24,202,92,-19,2},//10/32位置
{3,-25,194,101,-20,3},//11/32位置
{3,-25,185,111,-21,3},//12/32位置
{3,-26,178,121,-23,3},//13/32位置
{3,-25,168,131,-24,3},//14/32位置
{3,-25,159,141,-25,3},//15/32位置
{3,-25,150,150,-25,3},//半像素位置用于插值的参考样本来自重建样本或HEVC中的填充样本,因此不需要对参考样本可用性进行条件检查。
建议使用4抽头三次插值滤波器,而不是使用最近舍入操作来导出扩展的帧内参考样本。如图14中的示例1400所示,为了导出参考样本P的值,使用了四抽头插值滤波器,而在JEM-3.0或HM中,直接将P设置为X1。
2.10多参考行(MRL)帧内预测
多参考行(MRL)帧内预测使用更多的参考行用于帧内预测。在图15中,描绘了4条参考行的示例1500,其中段A和段F的样本不是从重建的邻近样本中提取的,而是分别用来自段B和段E的最接近的样本填充的。HEVC帧内图片预测使用最附近的参考行(即参考行0)。在MRL中,使用了2条附加行(参考行1和参考行2)。所选参考行的索引(mrl_idx)被用信号发送并用于生成帧内预测。对于大于0的参考行索引,仅在MPM列表中包括额外的参考行模式,并且仅信号MPM索引而不包括剩余模式。在帧内预测模式之前用信号发送参考行索引,如果参考行索引非零,则帧内预测模式不包括平面模式。
对CTU内的块的第一行禁用MRL,以防止在当前CTU行外使用扩展的参考样本。此外,当使用附加行时,PDPC将被禁用。对于MRL模式,非零参考行索引的DC帧内预测模式中的DC值的导出与参考行索引0的导出对齐。MRL需要存储具有CTU的3条邻近亮度参考行来生成预测。跨分量线性模型(CCLM)工具的下采样滤波还需要3个邻近的亮度参考行。使用相同3行的MRL的定义与CCLM一致,以减少解码器的存储要求。
2.11帧内子划分(ISP)
帧内子划分(ISP)根据块尺寸小将亮度帧内预测块垂直或水平划分为2或4个子划分。例如,ISP的最小块尺寸为4×8(或8×4)。如果块尺寸大于4×8,则对应块将被划分为四个子划分。我们注意到,M×128(M≤64)和128×N(N≤64)ISP块可能会对64×64VDPU生成潜在问题。例如,单树情况下的M×128CU有一个M×128亮度TB和两个相应的色度TB。如果CU使用ISP,那么亮度TB将被分成4个M×32TB(只能水平分割),每个TB都小于一个64×64块。然而,在目前的ISP设计中,色度块是不可分割的。因此,两个色度分量的大小都将大于一个32×32块。类似地,使用ISP的128×N CU也可以创建类似的情况。因此,这两种情况是64×64解码器流水线的问题。因此,可以使用ISP的CU大小被限制为最大值64×64。图16A和16B显示了两种可能性的示例1600和1650。所有子划分都满足具有至少16个样本的条件。
在ISP中,1×N/2×N子块预测允许取决于编解码块的先前解码的1×N/2×N子块的重建值,使得子块的最小预测宽度变为四个样本。例如,一个8×N(N>4)的编解码块,在使用ISP垂直分割编解码时,会被分割成两个预测区域,每个预测区域的大小为4×N,四个变换的大小为2×N。同样,使用垂直分割ISP编解码的4×N编解码块,使用完整的4×N块进行预测;使用四个变换,每个变换的大小为1×N。尽管允许1×N和2×N的变换大小,但可以断言,这些块在4×N区域内的变换可以并行执行。例如,当4×N预测区域包含四个1×N变换时,在水平方向上没有变换;垂直方向上的变换可以作为垂直方向上单个4×N变换来执行。类似地,当4×N预测区域包含两个2×N变换块时,可以并行地进行两个2×N块在每个方向(水平和垂直)上的变换操作。因此,与处理4×4常规编解码的帧内块相比,在处理这些较小的块时不增加延迟。
表2-4熵编解码系数组大小
块尺寸 | 系数组尺寸 |
1×N,N≥16 | 1×16 |
N×1,N≥16 | 16×1 |
2×N,N≥8 | 2×8 |
N×2,N≥8 | 8×2 |
所有其他可能的M×N情况 | 4×4 |
对于每个子划分,通过将残差信号与预测信号相加来获得重建样本。这里,通过诸如熵解码、逆量化和逆变换的处来生成残差信号。因此,每个子划分的重建样本值可用于生成下一个子划分的预测,并且每个子划分被重复处理。此外,要处理的第一个子划分是包含CU的左上样本,然后向下(水平分割)或向右(垂直分割)继续的子划分。因此,用于生成子划分预测信号的参考样本仅位于线的左侧和上方。所有子划分共享相同的帧内模式。以下是ISP与其他编解码工具的交互摘要。
–多参考行(MRL):如果块的MRL索引不是0,则ISP编解码模式将被推断为0,因此ISP模式信息将不会发送到解码器。
–熵编解码系数组大小:如表2-4所示,熵编解码子块的大小已被修改,以便在所有可能的情况下都有16个样本。值得注意,新的尺寸仅影响ISP的其中一个维度小于4个样本的块。在所有其他情况下,系数组保持4x4维度。
–CBF编解码:假设至少有一个子划分具有非零CBF。因此,如果n是子划分的数目,并且第一n-1子划分已经产生零CBF,则第n子划分的CBF被推断为1。
–变换大小限制:所有长度大于16点的ISP变换都使用DCT-II。
–MTS标志:如果CU使用ISP编解码模式,MTS CU标志将设置为0,并且不会发送到解码器。因此,编码器不会对每个结果子划分的不同可用变换执行RD测试。ISP模式的变换选择将改为固定的,并根据所使用的帧内模式、处理顺序和块尺寸进行选择。因此,不需要用信号发出。例如,设tH和tV和为分别为w×h子划分选择的水平变换和垂直变换,其中w为宽度,h为高度。然后根据以下规则选择变换:
–如果w=1或h=1,则分别不存在水平变换或垂直变换。
–如果w≥4且w≤16,tH=DST-VII,否则tH=DCT-II
–如果h≥4且h≤16,tV=DST-VII,否则tV=DCT-II在ISP模式中,允许所有67个帧内预测模式。如果相应的宽度和高度至少为4个样本长,则也应用PDPC。此外,参考样本滤波过程(参考平滑)和帧插值值滤波选择的条件不再存在,并且在ISP模式下,三次(DCT-IF)滤波总是用于分数位置插值。
2.12矩阵加权帧内预测(MIP)
矩阵加权帧内预测(MIP)方法是VVC中新加入的一种帧内预测技术。为了预测宽度W和高度H的矩形块的样本,矩阵加权帧内预测(MIP)取块左侧的一行H个重建的相邻边界样本和块上方的一行W个重建的相邻边缘样本作为输入。如果重建的样本不可用,则像在传统帧内预测中那样生成它们。如图17所示,预测信号的生成1700基于以下三个步骤,即平均、矩阵矢量乘法和线性插值。
2.12.1平均邻近样本
在边界样本中,通过基于块尺寸和形状进行平均来选择四个样本或八个样本。具体地,输入边界bdrytop和bdryleft会根据取决于块的大小的预定义的规则,通过对邻近边界样本进行平均,缩小为更小的和/>边界。然后,将两个缩小的边界/>和/>连接到缩小的边界矢量bdryred,因此,对于形状的块,缩小的边界矢量的大小为4×4,而对于所有其他形状的块来说,缩小的边缘矢量的大小是8。如果是指MIP模式,则此级联定义如下:/>
2.12.2矩阵乘法将平均样本作为输入,执行矩阵矢量乘法,然后添加偏移。结果是原始块中的样本的子采样集上生成缩减预测信号。从缩减的输入矢量bdryred中生成缩减的预测信号predred,,该缩减的预测是宽度Wred和高度Hred的下采样块上的信号。此处,Wred和Hred定义为:
通过计算矩阵矢量乘积并添加偏移来计算缩减的预测信号predred:
predred=A·bdryred+b (2-12)
这里,A是一个矩阵,如果W=H=4z则它有Wred·Hred行和4列,在所有其他情况下有8列。b是Wred·Hred大小的矢量。矩阵A和偏移矢量b取自S0,S1,S2.其中一个集合。索引idx=idx(W,H)定义如下:
这里,矩阵A的每个系数以8比特的精度表示。集合S0由16个矩阵i∈{0,…,15}组成,每个矩阵具有16行4列,以及16个偏移矢量/>i∈{0,…,16},每个偏移矢量的大小为16。该集合的矩阵和偏移矢量用于大小为4×4的块。集合S1由8个矩阵/>i∈{0,…,7}组成,每个矩阵具有行和8列,以及8个偏移矢量/>i∈{0,…,7},每个偏移矢量大小为16。集合S2由6个矩阵/>i∈{0,…,5}组成,每个矩阵具有64行和8列,以及6个偏移矢量/>i∈{0,…,5},每个偏移矢量大小为64。
2.12.3插值
其余位置处的预测信号是通过线性插值从子采样集上的预测信号生成的,该线性插值是在每个方向上的单步线性插值。插值首先在水平方向上执行,然后在垂直方向上执行,与块的形状或块的大小无关。
2.12.4 MIP模式的信令和与其他编解码工具的协调对于帧内模式中的每个编解码单元(CU),发送标志是否要应用MIP模式的标志。如果要应用MIP模式,则用信号发送MIP模式(predModeIntra)。对于MIP模式,转置标志(isTransposed)用于确定模式是否转置,MIP模式标识(modeId)用于确定给定MIP模式使用的矩阵,其导出过程如下:
isTransposed=predModeIntra&1
modeId=predModeIntra>>1 (2-14)
通过考虑以下方面,MIP编解码模式与其他编解码工具相协调:
–大块上的MIP启用LFNST。这里使用平面模式的LFNST变换
–MIP的参考样本导出与传统帧内预测模式完全相同
–对于MIP预测中使用的上采样步骤,使用原始参考样本而不是下采样样本
–在上采样之前执行剪裁,而不是在上采样之后执行剪裁
–无论最大变换大小如何,MIP都允许达到64×64
MIP模式的数目对于sizeId=0为32,对于sizeId=1为16,对于sizeId=2为12。
2.13第一示例中的解码器侧帧内模式导出
帧内模式已经从HEVC中的35种模式扩展到67种,并且它们在编码器处导出并明确地用信号发送到解码器。在JEM-2.0中,在帧内模式编解码上花费了大量开销。例如,在所有帧内编解码配置中,帧内模式信令开销可以高达总码率的5~10%。该贡献提出了解码器侧的帧内模式导出方法,以在保持预测精度的同时减少帧内模式编解码开销。
为了减少帧内模式信令的开销,本文提出了解码器侧帧内模式导出(DIMD)方法。在所提出所述的方法中,编码器和解码器不是显式地用信号发送帧内模式,而是从当前块的邻近重建样本导出信息。DIMD导出的帧内模式有两种使用方式:
1)对于2N×2N CU,当对应的CU级别DIMD标志开启时,DIMD模式被用作帧内预测的帧内模式;
2)对于N×N CU,DIMD模式用于替换现有MPM列表的一个候选模式,以提高帧内模式编解码的效率。
2.13.1基于模板的帧内模式导出
图18是示出目标样本、模板样本和DIMD中使用的模板的参考样本的示意图1800。如图18所示,目标表示要估计其帧内预测模式的当前块(块尺寸为N)。模板(由图18中的图案区域表示)指定了一组已经重建的样本,这些样本用于导出帧内模式。模板大小表示为模板内延伸到目标块的上方和左侧的样本数目,即L。在当前实现中,4×4和8×8块的模板大小为2(即L=2),16×16及更大的块的模板大小为4(即L=4))。根据JEM-2.0的定义,模板参考(由图18中的虚线区域表示)指的是模板上方和左侧的一组邻近样本。与总是来自重建区域的模板样本不同,在对目标块进行编码/解码时,模板的参考样本可能尚未重建。在这种情况下,利用JEM-2.0的现有参考样本替换算法来用可用参考样本替换不可用的参考样本。
对于每个帧内预测模式,DIMD计算重建的模板样本与其从模板的参考样本获得的预测样本之间的绝对差(SAD)。选择生产最小SAD的帧内预测模式作为目标块的最终帧内预测模型。
2.13.2帧内2N×2N CU的DIMD
对于帧内2N×2N个CU,DIMD被用作一个附加帧内模式,通过将DIMD帧内模式与最佳正常帧内模式进行比较(即,被明确地发信令通知)而自适应地选择。每个帧内2N×2N CU都有一个标志来指示DIMD的使用情况。如果标志为1,则使用由DIMD导出的帧内模式来预测CU;否则,不应用DIMD,并且使用在码流中明确发信令通知的帧内模式来预测CU。当启用DIMD时,色度分量总是重复使用与为亮度分量导出的相同的帧内模式,即DM模式。
此外,对于每个DIMD编解码的CU,CU中的块可以自适应地选择以在PU级别或TU级别导出它们的帧内模式。具体而言,当DIMD标志为1时,另一个CU级别DIMD控制标志用信号表示执行DIMD的级别。如果该标志为0,则意味着在PU级别执行DIMD,并且PU中的所有TU使用相同的导出帧内模式进行帧内预测;否则(即,DIMD控制标志为1),则表示在TU级别执行DIMD,并且PU中的每个TU导出其自己的帧内模式。
此外,当启用DIMD时,角方向的数目增加到129,并且DC模式和平面模式仍然保持不变。为了适应角帧内模式的粒度增加,DIMD编解码CU的帧插值值滤波的精度从1/32像素增加到1/64像素。此外,为了使用DIMD编解码CU的导出帧内模式作为邻近帧内块的MPM候选模式,在将DIMD编解码的CU的129个方向用作MPM之前,将其转换为“正常”帧内模式(即,65个角帧内方向)。
2.12.3帧内N×N CU的DIMD
在所提出所述的方法中,总是用信号发送N×N内CU的帧内模式。然而,为了提高帧内模式编解码的效率,从DIMD导出的帧内模式被用作预测CU中四个PU的帧内模式的MPM候选。为了不增加MPM索引信令的开销,DIMD候选总是被放在MPM列表的第一位,并删除最后一个现有的MPM候选模式。此外,执行修剪操作,使得如果DIMD候选是冗余的,则不会将其添加到MPM列表中。
2.13.4 DIMD的帧内模式搜索算法
为了降低编码/解码的复杂度,DIMD使用一种简单的快速帧内模式搜索算法被用于DIMD。首先,执行一个初始估计过程来为帧内模式搜索提供良好的起点。具体地,通过从允许的帧内模式中选择N个固定模式来创建初始候选列表。然后,针对所有候选帧内模式计算SAD,并且选择使SAD最小化的帧内模式作为开始帧内模式。为了实现良好的复杂性/性能权衡,初始候选列表由11个帧内模式组成,包括DC、平面和HEVC中定义的33个角帧内方向中的每4个模式,即帧内模式0、1、2、6、10…30、34。
如果起始帧内模式是DC模式或平面模式,则将其用作DIMD模式。否则,基于起始帧内模式,然后应用一个细化过程,其中通过一次迭代搜索来识别最佳帧内模式。它通过在每次迭代时比较由给定搜索间隔分隔的三个帧内模式的SAD值来工作,并保持最小化SAD的帧内模式。然后将搜索间隔减少到一半,并且从上一次迭代中选择的帧内模式将用作当前迭代的中心帧内模式。对于具有129个角帧内方向的当前DIMD实现,在细化过程中最多使用4次迭代来找到最佳DIMD帧内模式。
2.14第二示例中的解码器侧帧内模式导出
在第二示例中,提出了一种避免在码流中传输亮度帧内预测模式所述的方法。这是通过在编码器和解码器处以相同的方式使用先前编码/解码的像素来导出亮度帧内模式来实现的。该过程定义了一种称为DIMD的新编解码模式,其选择在使用简单标志的帧内编解码块的码流中用信号发送。DIMD在编码器上与其他编解码模式竞争,包括经典的Intra编解码模式(对帧内预测模式进行编解码)。请注意,在本文中DIMD仅适用于亮度。对于色度,适用经典的帧内编解码模式。正如对其他编解码模式(经典的帧内、帧间、合并等)所做的那样,为DIMD模式计算率失真成本,然后将其与其他模式的编解码成本进行比较,以决定是否将其选择为当前块的最终编解码模式。
在解码器侧,首先解析DIMD标志。如果DIMD标志为真,则在重建过程中使用相同的先前编码的邻近像素来导出帧内预测模式。否则,帧内预测模式将与经典帧内编解码模式一样从码流中解析出来。
2.14.1帧内预测模式导出
2.14.1.1梯度分析
为了导出块的帧内预测模式,首先选择对其执行梯度分析的一组邻近像素。出于规范性的目的,这些像素应该在解码/重建的像素池中。图19是示出了在其上执行梯度分析的所选择像素集的示意图1900。如图19所示,当前块周围的模板由左边的T个像素和上面的T个像素选择。在建议书中设定了T=2。
接下来,对模板的像素执行梯度分析。这可以确定模板的主要角方向,假设模板的主要角方向(这是我们方法的核心前提)很有可能与当前块的角方向相同。因此,使用一个简单的3×3Sobel梯度滤波,该滤波由将与模板卷积的以下矩阵定义:
和/>
对于模板的每个像素,这两个矩阵中的每一个都是以当前像素为中心的3×3个窗口,逐点相乘,并由其8个直接邻近组成,结果相加。因此,在水平方向和垂直方向上分别获得与当前像素处的梯度相对应的两个值Gx(来自与Mx的乘积)和Gy(来自与My的乘积)。图20显示了卷积过程2000。蓝色像素是当前像素。红色像素(包括蓝色)是可以进行梯度分析的像素。灰色像素是由于缺乏一些邻近而无法进行梯度分析的像素。紫色像素是所考虑的模板之外的可用(重建)像素,用于红色像素的梯度分析。如果紫色像素不可用(例如,由于块离图片边界太近),则不执行使用该紫色像素的所有红色像素的梯度分析。
2.14.1.2梯度直方图和模式导出
对于每个红色像素,使用Gx和Gy的梯度的强度(G)和方向(O)如下核算:
G=|Gx|+|Gy|和
值得注意,提出了atan功能的快速实现。然后将梯度的方向转换为帧内角预测模式,用于对直方图进行索引(首先初始化为零)。该帧内角模式下的直方图值增加G。一旦处理了模板中的所有红色像素,直方图将包含每个帧内角方式的梯度强度的累积值。显示直方图中最高峰值的模式被选择为当前块的帧内预测模式。如果直方图中的最大值是0(意味着不能进行梯度分析,或者组成模板的区域是平的),则DC模式被选择为当前块的帧内预测模式。
对于位于CTU顶部的块,不对位于模板顶部的像素的梯度执行分析。DIMD标志使用三种可能的上下文进行编解码,具体取决于左侧和上方邻近块,类似于Skip标志编解码。上下文0对应于左邻近块和上邻近块中均未利用DIMD模式编解码的情况,上下文1对应于只有一个邻近块用DIMD编解码的情况,以及上下文2对应于两个邻近块都用DIMD进行编解码的情况。每个上下文的初始符号概率被设置为0.5。
2.14.2 130种帧内模式的预测
与经典帧内模式编解码相比,DIMD提供的一个优点是,导出的帧内模式可以具有更高的精度,允许更精确的预测,而不需要额外的成本,因为它不在码流中传输。导出的帧内模式交叉涵盖129个角模式,因此包括DC在内共有总共有130个模式(在我们的贡献中,导出的帧内模式永远不可能是平面的)。经典的帧内编解码模式是不变的,即预测和模式编解码仍然使用67种模式。
对广角帧内预测和简化的PDPC进行了所需的改变,以适应使用129种模式的预测。注意,只有预测过程使用扩展的帧内模式,这意味着对于任何其他目的(例如,决定是否对参考样本进行滤波),模式被转换回67模式精度。
2.14.3其他规范性变更
在DIMD模式中,亮度帧内模式是在块重建之前的重建过程中导出的。这样做是为了避免在解析期间对重建像素的取决性。然而,通过这样做,对于块的色度分量和邻近块的亮度分量,块的亮度帧内模式将是未定义的。这会导致一个问题,因为:
·对于色度,定义了固定模式候选列表。通常,如果亮度模式等于色度候选之一,则候选模式将被垂直对角线(VDIA_IDX)帧内模式取代。由于在DIMD中,亮度模式不可用,因此不会修改初始色度模式候选列表。
在要从码流解析亮度帧内预测模式的经典帧内模式中,使用邻近块的亮度帧内模式来构建MPM列表,如果使用DIMD对这些块进行编解码,则MPM列表可能不可用。在这种情况下,在我们的贡献中,DIMD编解码块在MPM列表构建过程中被视为帧间块,这意味着它们实际上被认为是不可用的。
2.15第三示例中的DIMD
从当前块的邻近像素计算的梯度直方图(HoG)中选择三个角模式。一旦选择了这三种模式,就正常地计算它们的预测,然后将它们的加权平均值用作块的最终预测。为了确定权重,三种模式都使用了HoG中的相应振幅。DIMD模式用作替代预测模式,始终在FullRD模式中进行检查。
当前版本的DIMD在信令、HoG计算和预测融合方面进行了一些修改。此修改的目的是提高编解码性能,并解决上次会议期间提出的复杂性问题(即4×4块的吞吐量)。以下各节介绍了每个方面的修改。
2.15.1信令
图21是示出了根据本公开一些实施例的所提出的帧内块解码过程2100的示意图。图21示出了VTM5中与所提出的DIMD集成的解析标志/索引的顺序。
可以看出,首先使用单个CABAC上下文来解析块的DIMD标志,该上下文被初始化为默认值154。
如果flag==0,则解析将正常继续。
否则(如果标志==1),则仅解析ISP索引,并且推断出以下标志/索引为零:BDPCM标志、MIP标志、MRL索引。在这种情况下,也会跳过整个IPM解析。
在解析阶段,当常规非DIMD块查询其DIMD邻近的IPM时,模式PLANAR_IDX被用作DIMD块的虚拟IPM。
2.15.2纹理分析
DIMD的纹理分析包括梯度直方图(HoG)计算2200,例如图22中所示。梯度直方图计算是通过对块周围宽度为3的模板中的像素应用水平和垂直Sobel滤波。但是,如果以上模板像素属于不同的CTU,则它们将不会用于纹理分析。
一旦计算出,就为块选择对应于两个最高直方图条的IPM。
在先前的版本中,模板中线中的所有像素都参与了HoG计算(X.Xiu,Y.He和Y.Ye“Decoder-side intra mode derivation,”Document of Joint Video Experts Team,JVET-C0061,Geneva,2016年6月)。然而,当前版本通过在4x4块上更稀疏地应用Sobel滤波来提高该过程的吞吐量。为此,仅使用从左起的一个像素和从上起的一个亚像素。如图21所示。
除了减少梯度计算的操作次数外,该特性还简化了从HoG中选择最佳2个模式,因为得到的HoG不能具有两个以上的非零振幅。
2.15.3预测融合
类似于先前版本(X.Xiu,Y.He和Y.Ye“Decoder-side intra mode derivation,”Document of Joint Video Experts Team,JVET-C0061,Geneva,2016年6月),该方法的当前版本也为每个块使用三个预测的融合。然而,预测模式的选择是不同的,并且使用了在E.Mora,A.Nasrallah和M.Raulet,“CE3-related:Decoder-side Intra ModeDerivation,”Document of Joint Video Experts Team,JVET-L0164,澳门,2018年10月中提出的合并假设帧内预测方法,其中当计算帧内预测候选时,平面模式被认为与其他模式组合使用。在当前版本中,对应于两个最高HoG条的两个IPM与平面模式相结合。
预测融合被应用为上述三个预测的加权平均值。为此,平面的权重固定为21/64(~1/3)。剩余的43/64(~2/3)权重在两个HoG IPM之间共享按其HoG条的振幅成比例共享。图23表现了这一过程2300。
2.16.第四示例中的DIMD
当应用DIMD时,从重构的邻近样本中导出两个帧内模式,并将这两个预测器与从梯度导出的权重的平面模式预测器组合,如第三示例所述。
导出的帧内模式被包含在最可能模式(MPM)的主列表中,因此在构建MPM列表之前执行DIMD过程。DIMD块的主导出帧内模式与块一起存储,并用于相邻块的MPM列表构建。
2.17.基于模板的帧内模式导出(TIMD)
该贡献提出了一种使用MPM的基于模板的帧内模式导出(TIMD)方法,其中使用相邻模板从MPM导出TIMD模式。TIMD模式用作CU的附加帧内预测方法。
2.17.1.TIMD模式导出
对于MPM中的每个帧内预测模式,计算帧内预测和模板的重建样本之间的SATD。选择SATD最小的帧内预测模式作为TIMD模式,并用于当前CU的帧内预测。TIMD模式的导出中包括位置相关帧内预测组合(PDPC)。
2.17.2 TIMD信令
在序列参数集(SPS)中通过信号传输标志以启用/禁用所提出所述的方法。当该标志为真时,通过信号传输CU级标志以指示是否使用所提出的TIMD方法。TIMD标志紧接在MIP标志之后通过信号被传输。如果TIMD标志为真,则与亮度帧内预测模式(包括MRL、ISP)相关的剩余语法元素和针对亮度帧内预测模式的正常解析阶段都被跳过。
2.17.3与新编解码工具的交互
一种使用平面进行预测融合的DIMD方法被集成在EE2中。当EE2DIMD标志为真(true)时,所提出的TIMD标志不通过信号传输并设置为假。
与PDPC类似,梯度PDPC也包含在TIMD模式的导出中。
启用辅MPM时,主MPM和辅MPM都用于导出TIMD模式。在TIMD模式的导出中不使用6抽头插值滤波器。
2.17.4.TIMD模式导出中MPM列表构造的修改在MPM列表的构建过程中,相邻块的帧内预测模式在其被帧间编解码时被导出为平面。为了提高MPM列表的准确性,当相邻块被帧间编解码时,使用运动矢量和参考图片来导出传播的帧内预测模式,并用于MPM列表的构建。此修改仅适用于TIMD模式的导出。
3.问题
在解码器侧帧内预测模式导出(DIMD)中,帧内预测模式是使用先前解码的块被导出的,并用于当前块的正常帧内预测。然而,DIMD和多参考行(MRL)的帧内预测的结合需要进一步探索。
4.详细描述
下面的详细实施例应被视为解释一般概念的示例,不应以狭隘的方式解释这些实施例,此外,这些实施例可以以任何方式组合。
在本公开中,术语解码器侧帧内模式导出(DIMD)表示使用先前解码的块/样本导出帧内预测模式的编解码工具。在一个示例中,DIMD还可以被解释为基于模板的帧内预测模式(TIMD)方法。术语块可以表示编解码块(CB)、或编解码单元(CU)、或预测块(PB)、或预测单元(PU)、或变换块(TB)、或变换单元(TU)、或编解码树块(CTB)、或编解码树单元(CTU)、或矩形区域的样本/像素。
intra_luma_ref_idx指定帧内预测参考行索引。当intra_luma_ref_idx等于0时,帧内预测使用最近邻参考行,当前块用非MRL模式编码。当intra_luma_ref_idx大于0时,intra_luma_ref_idx指示的参考行用于帧内预测,当前块用MRL模式编码。
DIMD与MRL的组合模式
1.提出在解码器侧导出帧内预测模式(IPM),并且该导出模式连同相对于当前块的至少一个非相邻行/列样本可用于重构当前块(例如,导出当前块的预测块)。这种组合模式被表示为DIMD_MRL模式。
a.在一个示例中,提出使用从DIMD导出的一个或多个帧内预测模式(IPM)来生成用MRL模式编解码的块的帧内预测(例如,intra_luma_ref_idx大于0)。
b.在一个示例中,一个IPM可以从DIMD导出并且一个或多个参考行可以用于以DIMD_MRL模式编解码的块的帧内预测。
i.在一个示例中,从DIMD导出的IPM和一个非相邻行/列中的样本(例如,由intra_luma_ref_idx指示的参考行)可被用于块的帧内预测。
c.在一个示例中,多于一个IPM可从DIMD被导出并被用于利用组合模式编解码的块的帧内预测。
i.在一个示例中,从DIMD导出的多于一个IPM和由intra_luma_ref_idx指示的参考行可用于块的帧内预测。
1)在一个示例中,使用多于一个IPM(例如,N2)和/或一个或多个预定义IPM(例如,N3)生成多于一个预测样本集(例如,N1个组),通过加权混合所有组的预测样本来生成块的帧内预测,其中N1=N2+N3。
a)在一个示例中,N3等于0。
b)在一个示例中,N1=3,N2=2,N3=1。
c)在一个示例中,预定义的IPM可以指平面、和/或DC、和/或水平模式、和/或垂直模式。
ii.在一个示例中,从DIMD导出的多于一个IPM和/或一个或多个预定义IPM以及多于一个参考行可以用于块的帧内预测。
d.在一个示例中,当当前块用DIMD_MRL模式编解码时,可以仅使用一个附加参考行。
i.在一个示例中,一个附加参考行可以指第X行,其中X大于0,并且第0行表示在以非MRL模式编解码的块中使用的第0个参考行。
1)在一个示例中,X=1,或X=2,或X=3。X1,2,3,4,5,6 7,8,9,10,11,12
ii.备选地,此外,相邻参考行或一个附加参考行的指示可以在比特流中被编解码(例如,通过1位标志)。
e.在一个示例中,要在组合模式中使用的参考行可被即时导出,而不是被信号通知。
2.在一个示例中,使用N个参考行生成多于一组预测样本(例如,N组)。
a.在一个示例中,可以使用从DIMD导出的IPM和在多于一个非相邻行/列(即,多于一个参考行)中的样本来生成组合模式编解码的块的帧内预测块。
i.在一个示例中,使用导出的IPM和N个参考行生成多于一组预测样本(例如,N组),并且可以对N组预测样本进行加权混合以生成块的帧内预测。
ii.在一个实例中,可以使用两个参考行(例如,参考行0和由intra_luma_ref_idx指示的参考行)。
b.在一个示例中,可以使用导出的IPM和一个或多个预定义的IPM以及给定的参考行来生成组合模式编解码的块的帧内预测块。
i.在一个示例中,一个或多个预定义IPM可以是平面和/或DC和/或水平模式和/或垂直模式。
ii.在一个示例中,可以通过加权混合使用不同IPM生成的预测样本来生成帧内预测。
3.在一个示例中,可以基于帧内预测的参考行(诸如由intra_luma_ref_idx指示)获得DIMD导出的IPM。
a.例如,用于生成预测样本以获得DIMD导出的IPM的参考行可以与intra_luma_ref_idx所指示的行相同。
b.例如,在TIMD中的参考样本和目标样本之间的距离可以取决于intra_luma_ref_idx。
4.在一个示例中,帧内预测的参考行可以在解码器处隐式导出,而不是被指示(诸如由intra_luma_ref_idx指示)。
a.例如,可以使用不同的参考行计算不同的成本,以得出最佳的帧内预测参考行。
关于与其他编解码工具的交互
5.在一个示例中,编解码工具是否被使用,和/或编解码工具如何被用于以DIMD_MRL模式编解码的块,可以与以MRL模式编解码的块相同或不同。
a.在一个示例中,编解码工具可以指是否对参考样本进行滤波,和/或使用哪个插值滤波器,和/或位置相关的帧内预测组合(PDPC),和/或梯度PDPC。
b.备选地,一个或多个编解码工具不可用于以DIMD_MRL模式编解码的块。
c.备选地,编解码工具是否被使用,和/或编解码工具如何被用于以DIMD_MRL模式编解码的块,可以不同于以MRL模式编解码的块。
d.备选地,一个或多个编解码工具可用于以DIMD_MRL模式编解码的块。
i.在一个示例中,PDPC和/或梯度PDPC可以在以DIMD_MRL模式编解码的块中使用。
e.在一个示例中,PDPC和/或梯度PDPC可以在以MRL模式编解码的块中使用。
6.在一个示例中,对于用DIMD_MRL模式编解码的块,是否使用一个或多个变换,和/或使用哪种类型的变换的确定可以与以MRL模式编解码的块相同或不同。
a.在一个示例中,显式MTS可以用于以DIMD_MRL模式编解码的块,并且MTS的索引被信号通知。
b.在一个示例中,隐式MTS可用于以DIMD_MRL模式编解码的块。
c.备选地,一组或多组MTS可用于以DIMD_MRL模式编解码的块。
i.在一个示例中,当只有一组MTS被用于以DIMD_MRL模式编解码的块时,MTS索引可以不被信号通知。
d.在一个示例中,用于以DIMD_MRL模式编解码的块,可以禁用MTS,并且MTS的索引不被信号通知。
7.在一个示例中,对于以DIMD_MRL模式编解码的块,是否使用辅变换(例如,LFNST)和/或使用哪组辅变换的确定可以与以MRL模式编解码的块相同或不同。
a.在一个示例中,辅变换的索引(例如,LFNST)可以被信号通知以指示用于以DIMD_MRL模式编解码的块的LFNST组。
b.在一个示例中,用于以DIMD_MRL模式编解码的块可以禁用辅变换(例如,LFNST),并且辅变换索引不被信号通知。
c.在一个示例中,一组或多组辅变换(例如,LFNST)可用于以DIMD_MRL模式编解码的块。
i.在一个示例中,当只有一组辅变换(例如,LFNST)被用于以DIMD_MRL模式编解码的块时,辅变换索引可以不用信号通知。
关于启用组合模式的控制
8.是否允许用DIMD_MRL模式对块进行编码的确定可以取决于编码信息。
a.在一个示例中,已编解码信息可以指是否允许DIMD和/或MRL。
i.在一个示例中,当不允许DIMD或MRL用于当前块时,不允许当前块以DIMD_MRL模式被编解码。
b.在一个示例中,已编码信息可以指块维度和/或块尺寸。
c.在一个示例中,已编码信息可以指块的深度。
d.在一个示例中,已编码信息可以指块位置,例如,当前块是否是CTU的第一行/行。
e.在一个示例中,已编码信息可以指分配/图片类型。
f.在一个示例中,已编码信息可以指时间层的信息(例如,时间层索引)。
g.在一个示例中,已编码信息可以指颜色分量的信息。
h.在一个示例中,已编码信息可以指帧内预测的参考行。
组合模式的信令
9.组合模式的指示可以有条件地信号通知,其中条件可以包括:
a.是否允许DIMD和/或MRL
b.块维度和/或块尺寸
c.已编码信息可以指块的深度。
d.分片/图片类型和/或划分树类型(单树、双树或本地双树)
e.块位置
f.颜色分量
g.帧内预测的参考行
10.当前块是否以DIMD_MRL模式编解码可以使用一个或多个语法元素来信号通知。
a.在一个示例中,以DIMD_MRL模式编解码的当前块的确定可以取决于两个语法元素,其中第一语法元素指示当前块是否以DIMD模式编解码(例如,SE_DIMD等于X1(X1=0或X1=1)指示当前块用DIMD模式编解码)并且第二语法元素指示参考行索引(例如,SE_MRL等于X2(X2>0,例如,X2=1或X2=2)指示当前块用MRL模式编解码)。
i.在一个示例中,SE_MRL可以指VVC规范中的intra_luma_ref_idx。
ii.在一个示例中,当SE_DIMD等于X1且SE_MRL等于X2时,当前块用DIMD_MRL模式编解码。
iii.在一个示例中,SE_DIMD在SE_MRL之前被信号通知。
1)在一个示例中,当不允许当前块以DIMD_MRL模式编解码并且当前块以DIMD模式编解码(即,SE_DIMD等于X1)时,SE_MRL可以不用信号通知并且被推断为Y,例如Y=0。
a)备选地,当当前块不允许以DIMD_MRL模式编解码并且当前块用DIMD模式编解码(即,SE_DIMD等于X1)时,SE_MRL总是被信号通知为0。
2)在一个示例中,当SE_MRL被上下文编解码时,SE_MRL的一个或多个仓的上下文可以取决于SE_DIMD。
a)在一个示例中,当SE_DIMD等于X1时,N1个上下文用于SE_MRL,当SE_DIMD等于1-X1时,N2个上下文用于SE_MRL。N1可能等于N2,N1个上下文中没有一个等于任何N2个上下文。
b)备选地,N1个上下文中的一个或多个可以等于N2个上下文中的一个或多个。
3)备选地,SE_MRL的任何仓的上下文可以不取决于SE_DIMD。
iv.在一个示例中,SE_MRL在SE_DIMD之前被发信号。
1)在一个示例中,当不允许当前块以DIMD_MRL模式编解码并且当前块被用MRL模式编解码(即,SE_MRL等于X2)时,SE_DIMD可以不被信号通知并且被推断为1-X1。
a)备选地,当当前块不允许用DIMD_MRL模式编解码并且当前块用MRL模式编解码(即,SE_MRL等于X2)时,SE_DIMD总是用信号通知为1-X1。
2)在一个示例中,当SE_DIMD被上下文编解码时,SE_DIMD的上下文可以取决于SE_MRL。
a)在一个示例中,当SE_MRL等于X2时,N1个上下文用于SE_DIMD,并且当SE_MRL等于0时,N2个上下文用于SE_DIMD。N1可以等于N2并且没有一个N1上下文等于任何N2上下文。
b)备选地,N1个上下文中的一个或多个可以等于N2个上下文中的一个或多个。
3)备选地,SE_DIMD的上下文可以不取决于SE_MRL。
4)在一个示例中,当在DIMD中使用多个模式和/或多组模式并且语法元素(例如,DIMD索引)被发信号通知以指示使用哪个模式和/或哪组模式并且被上下文编解码时,语法元素的上下文可以取决于SE_MRL。
a)在一个示例中,当SE_MRL等于X2时,N3个上下文用于语法元素,当SE_MRL等于0时,N4个上下文用于语法元素。
b)备选地,一个或多个N3上下文可以等于一个或多个N4上下文。
b.在一个示例中,以DIMD_MRL模式编解码的当前块的确定可以取决于一个语法元素。
i.在一个示例中,语法元素等于X(例如,X=0或X=1)表示当前块以DIMD_MRL模式编解码。
1)在一个示例中,语法元素可以在SE_DIMD和/或SE_MRL之前被信号通知。
2)在一个示例中,SE_DIMD和/或SE_MRL可以在语法元素等于X时不被信号通知。
ii.在一个示例中,语法元素可以用定长编解码、或截断的一元编解码、或一元编解码、或EG编解码、或标记编解码被二值化。
iii.在一个示例中,语法元素可以被旁路编解码。
iv.备选地,语法元素可以是上下文编解码的。
1)上下文可取决于已编码信息,例如块维度和/或块尺寸,和/或分片/图片类型,和/或临近块(相邻或非相邻)的信息,和/或用于当前块的其他编解码工具的信息,和/或时间层信息。
c.在一个示例中,是否允许以DIMD_MRL模式对块进行编解码可取决于一个或多个语法元素。
i.在一个示例中,一个或多个语法元素可以作为一般约束信息被信号通知。
1)在一个示例中,当指示DIMD_MRL的一般约束的语法元素(例如,gci_no_dimd_mrl_constraint_flag)等于X(例如,X=0或X=1)时,DIMD_MRL将不被允许。
2)在一个示例中,当指示关于DIMD的一般约束的语法元素(例如,gci_no_dimd_constraint_flag)等于X1(例如,X1=0或X1=1),或指示关于MRL的一般约束的语法元素(例如,gci_no_mrl_constraint_flag)等于X2(例如,X2=0或X2=1)时,DIMD_MRL将不被允许。
ii.在一个示例中,一个或多个语法元素可以在序列报头/图片报头/SPS/VPS/DPS/DCI/PPS/APS/分配报头/图块组报头处被信号通知。
一般性要求
11.是否和/或如何应用上面公开的方法可以在序列级/图片组级/图片级/分片级/图块组级发出信号,诸如在序列首部/图片首部/SPS/VPS/DPS/DCI/PPS/APS/分片首部/拼贴组首部。
12.是否和/或如何应用上面公开的方法可以用信令通知PB/TB/CB/PU/TU/CU/VPDU/CTU/CTU行/分片/图块/子图片/包含多于一个样本或像素的其它种类的区域。
13.是否和/或如何应用上述公开的方法可能取决于已编解码信息,例如块尺寸、颜色格式、单/双树分割、颜色分量、分片/图片类型。
5.本公开的实施例
5.1.实施例1
工作草案可以更改如下。
/>
/>
sps_dimd_enabled_flag等于1指定对编码层视频序列(CLVS)启用解码器端帧内预测模式导出。sps_dimd_enabled_flag等于0指定对CLVS禁用解码器端帧内预测模式导出。
cu_dimd_flag等于1指定亮度帧内预测模式在解码器端导出。
cu_dimd_flag等于0指定亮度帧内预测模式不在解码器端导出。
当cu_dimd_flag不存在时,推断为等于0。
当treeType不等于DUAL_TREE_CHROMA时,变量CuDimdFlag[x][y]设置为等于cu_dimd_flagx=x0…x0+cbWidth-1和y=y0…y0+cbHeight-1。
intra_luma_ref_idx指定帧内预测参考行索引。
当intra_luma_ref_idx不存在时,推断为等于0。
-对于x=x0…x0+cbWidth-1和y=y0…y0+cbHeight-1,变量IntraLumaRefLineIdx[x][y]设置为等于intra_luma_ref_idx。
-用于指定当前编码块是否启用(TRUE)或未启用(FALSE)DIMD和MRL的组合模式的变量DimdMRlEnable。
5.2实施例2
工作草案可以更改如下。
/>
/>
sps_dimd_enabled_flag等于1指定为CLVS启用解码器端帧内预测模式导出。sps_dimd_enabled_flag等于0指定为CLVS禁用解码器端帧内预测模式导出。
cu_dimd_flag等于1指定亮度帧内预测模式在解码器端导出。
cu_dimd_flag等于0指定亮度帧内预测模式不在解码器端导出。
当cu_dimd_flag不存在时,推断为等于0。
当treeType不等于DUAL_TREE_CHROMA时,变量CuDimdFlag[x][y]设置为等于cu_dimd_flagx=x0…x0+cbWidth-1和y=y0…y0+cbHeight-1。
intra_luma_ref_idx指定帧内预测参考行索引。
当intra_luma_ref_idx不存在时,推断为等于0。
-对于x=x0…x0+cbWidth-1和y=y0…y0+cbHeight-1,变量IntraLumaRefLineIdx[x][y]设置为等于intra_luma_ref_idx。
用于指定当前编码块是否启用(TRUE)或未启用(FALSE)DIMD和MRL的组合模式的变量DimdMRlEnable。
5.3实施例3
工作草案可以更改如下。
/>
/>
/>
/>
/>
sps_dimd_enabled_flag等于1指定为CLVS启用解码器端帧内预测模式导出。sps_dimd_enabled_flag等于0指定为CLVS禁用解码器端帧内预测模式导出。
cu_dimd_flag等于1指定亮度帧内预测模式在解码器端导出。
cu_dimd_flag等于0指定亮度帧内预测模式不在解码器端导出。
当cu_dimd_flag不存在时,推断为等于0。
当treeType不等于DUAL_TREE_CHROMA时,变量CuDimdFlag[x][y]设置为等于cu_dimd_flagx=x0…x0+cbWidth-1和y=y0…y0+cbHeight-1。
intra_luma_ref_idx指定帧内预测参考行索引。
当intra_luma_ref_idx不存在时,推断为等于0。
-对于x=x0…x0+cbWidth-1和y=y0…y0+cbHeight-1,变量IntraLumaRefLineIdx[x][y]设置为等于intra_luma_ref_idx。
用于指定当前编码块是否启用(TRUE)或未启用(FALSE)DIMD和MRL的组合模式的变量DimdMRlEnable。
5.4实施例4
JVET-T2001-v2中指定的工作草案可以更改如下。
/>
/>
sps_dimd_enabled_flag等于1指定为CLVS启用解码器端帧内预测模式导出。sps_dimd_enabled_flag等于0指定为CLVS禁用解码器端帧内预测模式导出。
sps_dimd_mrl_enabled_flag等于1指定CLVS启用解码器端帧内预测模式导出和多参考行帧内预测的组合模式。sps_dimd_mrl_enabled_flag等于0指定CLVS禁用解码器端帧内预测模式导出和多参考行帧内预测的组合模式。
cu_dimd_flag等于1指定亮度帧内预测模式在解码器端导出。
cu_dimd_flag等于0指定亮度帧内预测模式不在解码器端导出。
当cu_dimd_flag不存在时,推断为等于0。
当treeType不等于DUAL_TREE_CHROMA时,变量CuDimdFlag[x][y]设置为等于cu_dimd_flagx=x0…x0+cbWidth-1和y=y0…y0+cbHeight-1。
intra_luma_ref_idx指定帧内预测参考行索引。
当intra_luma_ref_idx不存在时,推断为等于0。
-对于x=x0…x0+cbWidth-1和y=y0…y0+cbHeight-1,变量IntraLumaRefLineIdx[x][y]设置为等于intra_luma_ref_idx。
该变量指定当前编码块的DIMD和MRL的组合模式是否启用(TRUE)或未启用(FALSE)。当sps_dimd_mrl_enabled_flag等于0时,DimdMutlEnable应等于0。
5.5实施例5
JVET-T2001-v2中指定的工作草案可以更改如下。
/>
/>
sps_dimd_enabled_flag等于1指定为CLVS启用解码器端帧内预测模式导出。sps_dimd_enabled_flag等于0指定为CLVS禁用解码器端帧内预测模式导出。
cu_dimd_flag等于1指定亮度帧内预测模式在解码器端导出。
cu_dimd_flag等于0指定亮度帧内预测模式不在解码器端导出。
当cu_dimd_flag不存在时,推断为等于0。
当treeType不等于DUAL_TREE_CHROMA时,变量CuDimdFlag[x][y]设置为等于cu_dimd_flagx=x0…x0+cbWidth-1和y=y0…y0+cbHeight-1。
intra_luma_ref_idx指定帧内预测参考行索引。
当intra_luma_ref_idx不存在时,推断为等于0。
-对于x=x0…x0+cbWidth-1和y=y0…y0+cbHeight-1,变量IntraLumaRefLineIdx[x][y]设置为等于intra_luma_ref_idx。
用于指定当前编码块是否启用(TRUE)或未启用(FALSE)DIMD和MRL的组合模式的变量DimdMRlEnable。
图24示出了根据本公开的一些实施例的用于视频处理的方法2400的流程图。该方法2400可以在视频的图片和视频的比特流之间的转换期间实现。如图24所示,该方法2400开始于2410,其中基于解码器侧帧内预测模式导出(DIMD)和多参考行(MRL)的组合确定图片中的第一视频块,DIMD用于导出至少一个帧内预测模式(IPM),并且针对第一视频块的重构样本的至少一个不相邻参考行在DIMD和MRL的组合中被使用。在2420,基于第一视频块执行转换。
在实施例的上下文中,术语"DIMD和MRL的组合"、"DIMD和MRL的组合模式"或"DIMD_MRL模式"可指基于从DIMD和MRL模式导出的至少一个IPM对当前块的帧内预测。
该方法2400使得在重构当前块时能够利用在解码器侧导出的IPM以及相对于当前块的至少一个不相邻参考行,这样的组合模式可以表示为DIMD_MRL模式。与传统方案相比,可以减少帧内预测的信令开销,提高编码效率和性能。
在一些实施例中,在2410,处理第一视频块可以包括:响应于MRL参考行索引的值大于0,基于IPM和重构样本的至少一个不相邻参考行处理第一视频块。举例来说,如果intra_luma_ref_idx的值大于0,则通过使用从DIMD导出的一个或多个IPM来生成用MRL模式编码的块的帧内预测。
在一些实施例中,至少一个不相邻参考行可以包括以下各项中的至少一项:相对于第一视频块的重构样本的至少一个不相邻行,或者重构样本的至少一列。
在一些实施例中,至少一条非相邻的参考行由MRL参考行索引指示。作为示例,参考行可以由intra_luma_ref_idx指示。
在一些实施例中,在2410,处理第一视频块可以包括:基于从DIMD导出的第二数目的IPM来生成用于第一视频块的第一数目的组的预测样本,第一数目和第二数目是大于或等于1的整数,并且第一数目等于第二数目;以及通过加权混合第一数目的组的预测样本来处理第一视频块。
在一些实施例中,在2410,处理第一视频块可以包括:基于第三数目的预定义IPM和从DIMD导出的第二数目的IPM,生成用于第一视频块的第一数目的组的预测样本,第二数目和第三数目是大于或等于1的整数,第一数目等于第二数目与第三数目之和;以及通过加权混合第一数目的组的预测样本来处理第一视频块。
举例来说,第一数目可以用N1表示,第二数目可以用N2表示,第三数目可以用N3表示。通过加权混合所有预测样本集来生成块的帧内预测,其中N1=N2+N3。
在一些实施例中,第一数目可以等于3,第二数目可以等于2,第三数目可以等于1。在上述示例中,N1=3,N2=2,N3=1。
在一些实施例中,第三数目的预定义IPM包括平面模式、DC模式、水平模式或垂直模式中的至少一项。在这种情况下,视频纹理相对简单,因此可以进一步降低帧内预测的复杂性。
在一些实施例中,从DIMD导出的至少一个IPM可以包括从DIMD导出的多个IPM,并且其中处理第一视频块可以包括:基于从DIMD导出的多个IPM、至少一个预定义IPM和包括至少一个不相邻参考行的多个参考行来处理第一视频块。
在一些实施例中,从DIMD导出的至少一个IPM包括从DIMD导出的多个IPM,并且在2410,处理第一视频块可以包括:基于从DIMD导出的多个IPM、包括至少一个不相邻参考行的多个参考行,处理第一视频块。
在一些实施例中,至少一个不相邻参考行包括重构样本的第X参考行,X的值大于0,并且用于第一视频块的重构样本的第0参考行在非MRL模式中被使用。
在一些实施例中,X的值是范围从1到12的整数。例如,X的值可以是1、2或3。
在一些实施例中,可以在比特流中包括对于第一视频块的重构样本的相邻参考行或重构样本的第X参考行的指示。例如,可以通过1位标志指示该指示。
在一些实施例中,可以通过使用视频的编码信息来导出重构样本的至少一条不相邻参考行的指示。在这种情况下,动态地导出至少一条不相邻参考行的指示。
在一些实施例中,可以隐式地在解码器处导出重构样本的至少一个不相邻参考行的指示,并且该方法还可以包括:从用于第一视频块的多个参考行,基于用于多个参考行的转换的各自的计算代价,确定至少一个不相邻参考行。取代信号通知显式的指示,例如intra_luma_ref_idx,参考行在解码器处导出。通过这种方式,可以降低帧内模式信令的开销。
在一些实施例中,在2410,处理第一视频块可以包括:基于包括重构样本的至少一个不相邻参考行的重构样本的第一数目的参考行,生成用于第一视频块的第一数目的组的预测样本。作为示例,第一数量用N表示,并且可以通过使用N条参考行来生成N组预测样本。
例如,可以基于从DIMD导出的IPM和多于一个非相邻行或列(即,多于一个参考行)中的样本来生成使用组合模式编码的块的帧内预测。
在一些实施例中,在2410,处理第一视频块可以包括:基于至少一个IPM模式和重构样本的第一数目的参考行,生成第一数目的组的预测样本;以及通过加权混合第一数目的组的预测样本,来处理第一视频块。作为示例,通过使用导出的IPM和N个参考行来生成N组预测样本,其中N是大于1的整数。然后可以对N组预测样本进行加权混合,以生成块的帧内预测。
在一些实施例中,在2410,处理第一视频块可以包括:基于用于第一视频块的预测样本的两个参考行来处理第一视频块,两个参考行包括第0参考行和由MRL参考行索引值指示的不相邻参考行。
在一些实施例中,在2410,处理第一视频块可以包括:基于由MRL参考行索引的值指示的多个不相邻参考行来处理第一视频块。
在一些实施例中,在2410,处理第一视频块可包括:基于从DIMD导出的IPM、至少一个预定义IPM以及重构样本的预定义不相邻参考行,来处理第一视频块。
在一些实施例中,至少一个预定义IPM可以包括平面模式、DC模式、水平模式或垂直模式中的至少一个。
在一些实施例中,在2410,处理第一视频块可以包括:基于从DIMD导出的IPM、至少一个预定义IPM以及重构样本的预定义不相邻参考行,生成多个预测样本;以及通过加权混合多个预测样本来处理第一视频块。
在一些实施例中,至少一个IPM可以基于由MRL参考行指示的至少一个不相邻参考行来导出索引。
在一些实施例中,用于导出至少一个IPM的重构样本的至少一个参考行与由MRL参考行索引指示的至少一个不相邻参考行是相同的。
在一些实施例中,DIMD可以包括基于模板的帧内模式导出(TIMD),并且TIMD中的参考样本和目标样本之间的距离与MRL参考行索引相关联。
在上述实施例中,帧内预测的基准线可以用intra_luma_ref_idx来指示。
在一些实施例中,至少一个编解码工具是否和/或如何被用于利用DIMD和MRL的组合来编解码的第一视频块与对于利用MRL模式编解码的第二视频块是相同的。
在一些实施例中,其中至少一个编解码工具是否和/或如何被用于第一视频块包括以下至少之一:是否滤波参考样本,或是否使用插值滤波器、位置相关的帧内预测组合(PDPC)或梯度PDPC中的至少一个。
在一些实施例中,至少一个编解码工具可以不被允许用于利用DIMD和MRL的组合来编解码的第一视频块。在这种情况下,可以不使用一个或多个编码工具用于用DIMD_MRL模式编解码的块。
在一些实施例中,编解码工具是否和/或如何被用于利用DIMD和MRL的组合来编解码的第一视频块不同于对于利用MRL模式编解码的第二视频块。
在一些实施例中,至少一个编解码工具被用于利用DIMD和MRL的组合编解码的第一视频块。
在一些实施例中,至少一个编解码工具包括位置相关的帧内预测组合(PDPC)或梯度PDPC中的至少一个。
在一些实施例中,被用于利用MRL模式编解码的第二视频块的至少一个编解码工具包括位置相关的帧内预测组合(PDPC)或梯度PDPC中的至少一个。
在一些实施例中,对于利用从DIMD和MRL的组合导出的至少一个IPM编解码的第一视频块是否使用至少一个变换和/或使用哪种类型的变换,与对于利用MRL模式编解码的第二视频块是相同的,或者与对于利用MRL模式编解码的第二视频块是不同的。
在一些实施例中,显式多重变换选择(MTS)被用于第一视频块,并且MTS的索引被包括在比特流中。
在一些实施例中,隐式多重变换选择(MTS)被预定义为用于利用DIMD和MRL的组合编解码的第一视频块。
在一些实施例中,至少一组多重变换选择(MTS)被用于利用DIMD和MRL的组合编解码的第一视频块。
在一些实施例中,单组多重变换选择(MTS)被用于利用DIMD和MRL的组合编解码的第一视频块,并且组MTS的索引不包括在比特流中。在只有一组MTS被用于用DIMD_MRL模式编解码的块的情况下,可以不信号通知该MTS索引。
在一些实施例中,多重变换选择(MTS)针对利用DIMD和MRL的组合编解码的第一视频块被禁用,并且MTS的索引不包括在比特流中。
在一些实施例中,对于利用DIMD和MRL的组合编解码的第一视频块是否使用辅变换和/或使用哪组辅变换,与对于利用MRL模式编解码的第二视频块是相同的,或者与对于利用MRL模式编解码的第二视频块是不同的。例如,辅变换可以是低频不可分离变换(LFNST)。
在一些实施例中,包括在比特流中的辅变换的索引指示被用于利用DIMD和MRL的组合编解码的第一视频块的一组低频不可分离变换(LFNST)。
在一些实施例中,对于利用DIMD和MRL的组合编解码的第一视频块,辅变换可以被禁用,并且辅变换的索引不包括在比特流中。
在一些实施例中,至少一组辅变换用于利用DIMD和MRL的组合编解码的第一视频块。
在一些实施例中,对于用DIMD和MRL的组合编解码的第一视频块,使用单组辅变换,并且在比特流中不指示该组辅变换的索引。在仅使用一组辅变换(例如,LFNST)用于以DIMD_MRL模式编解码的块的情况下,可以不信号通知辅变换索引。
在一些实施例中,视频的已编解码信息被用于确定是否允许利用DIMD和MRL的组合对第一视频块编解码。
在一些实施例中,已编码信息指示DIMD和MRL的组合是否被允许,并且如果已编码信息指示至少一个IPM或MRL模式中的至少一个不被允许,则不允许利用DIMD和MRL的组合对第一视频块编解码。
在一些实施例中,已编码信息指示DIMD或MRL中的至少一个是否被允许。
在一些实施例中,如果DIMD或MRL中的至少一个不被允许,则不允许利用DIMD和MRL的组合对第一视频块编解码。
在一些实施例中,已编码信息包括以下至少一项:块维度、块尺寸、深度、块位置、分片类型、图片类型、时间层信息、颜色分量信息、或帧内预测的至少一个参考行,其中块位置指示第一视频块是否是图片中的编解码树单元(CTU)的第一列或者第一行,并且其中时间层信息包括时间层索引。
在一些实施例中,DIMD和MRL的组合的指示可以被包括在比特流中。
在一些实施例中,指示是否被包括在比特流中基于以下至少之一:针对第一视频块是否允许DIMD和MRL的组合,针对第一视频块是否允许DIMD模式,针对第一视频块是否允许MRL模式,第一视频块的块维度,第一视频块的块尺寸,第一视频块的深度,分片类型,图片类型,分区树类型,包括单树、双树或局部双树之一,第一视频块的块位置,颜色分量,或至少一个帧内预测参考行。
在一些实施例中,至少一个语法元素指示是否基于DIMD和MRL的组合来处理第一视频块。
在一些实施例中,至少一个语法元素包括第一语法元素和第二语法元素,第一语法元素指示第一视频块是否利用从DIMD导出的至少一个IPM编解码,并且第二语法元素指示第一视频块的参考行索引。
在一些实施例中,第二语法元素包括在通用视频编解码中定义的MRL参考行索引。例如,SE_MRL可以intra_luma_ref_idx在VVC规范中定义。
在一些实施例中,第一语法元素的第一值指示第一视频块利用从DIMD导出的至少一个IPM编解码,并且第一语法元素的第二值指示第一视频块不是利用从DIMD导出的至少一个IPM编解码,并且第一值不同于第二值,并且第二语法元素的第三值指示第一视频块以MRL模式编解码,第二语法元素的第四值指示第一视频块未以MRL模式编解码,第三值是大于0的整数,并且第四值等于0。
举例来说,第一语法元素可以指SE_DIMD,第一值可以是X1,其中X1=0或1,第二值可以是1-X1。第二语法元素可以指SE_MRL,第三值可以是X2,其中X2>0,例如X2=1、2,等等。
在一些实施例中,在2410,处理第一视频块可以包括:响应于第一语法元素被设置为第一值并且第二语法元素被设置为第三值,基于DIMD和MRL的组合处理第一视频块。
在一些实施例中,第一语法元素在第二语法元素之前被包括在比特流中。在上述示例中,SE_DIMD在SE_MRL之前被信号通知。
在一些实施例中,方法2400还可以包括:响应于第一语法元素被设置为第一值,并且第二语法元素未被包括在比特流中,基于至少一个IPM处理第一视频块。
在上述实施例中,方法2400还可以包括:响应于第二语法元素未被包括在比特流中,推断第二语法元素被设置为第四值。
举例来说,在不允许当前块以DIMD_MRL模式编解码并且当前块以DIMD模式编解码的情况下,例如,SE_DIMD等于X1,可以不信号通知SE_MRL。在这种情况下,SE_MRL可以被推断为第四个值,用Y表示,例如Y=0。
在一些实施例中,方法2400还可以包括:响应于第一语法元素被设置为第一值,并且第二语法元素被设置为第四值,基于至少一个IPM处理第一视频块。
作为示例,在当前块不允许以DIMD_MRL模式编解码并且当前块用DIMD模式编解码的情况下,例如SE_DIMD等于X1,SE_MRL总是被信号通知为0。
在一些实施例中,如果第二语法元素是上下文编解码的,则第二语法元素的至少一个仓的至少一个上下文取决于第一语法元素。
在一些实施例中,如果第一语法元素被设置为第一值,则第二语法元素利用第一数目的上下文被上下文编解码,并且如果第一语法元素被设置为第二值,则第二语法元素利用第二数目的上下文被上下文编解码。作为示例,第一数目用N1表示,第二数目用N2表示。在SE_DIMD等于X1的情况下,N1个上下文用于SE_MRL,并且在SE_DIMD等于1-X1的情况下,N2个上下文用于SE_MRL。
附加地,或者备选地,在上述实施例中,第一数目可以等于第二数目,并且第一数目的上下文可以不同于第二数目的上下文。在该示例中,N1可以等于N2,并且N1个上下文中没有一个等于N2个上下文中的任何一个。
附加地或者备选地,在一些实施例中,第一数目可以等于第二数目,并且第一数目的上下文中的至少一个可以与第二数目的上下文中的至少一个相同。换句话说,N1个上下文中的一个或多个可以等于N2个上下文中的一个或多个。
在一些实施例中,如果第二语法元素是上下文编解码的,则第二语法元素的至少一个仓的至少一个上下文独立于第一语法元素。在这种情况下,SE_DIMD的上下文可以不取决于SE_MRL。
在一些实施例中第二语法元素在第一语法元素之前被包括在比特流中。例如,SE_MRL在SE_DIMD之前被信号通知。
在一些实施例中,方法2400还可以包括:响应于第二语法元素被设置为第三值,并且第一语法元素未被包括在比特流中,基于MRL模式处理第一视频块。
在上述实施例中,方法2400还可以包括:响应于第一语法元素未被包括在比特流中,推断第一语法元素被设置为第二值。
作为示例,在不允许当前块以DIMD_MRL模式编解码并且当前块用MRL模式编解码的情况下,例如,SE_MRL等于X2,可以不信号通知SE_DIMD。在这种情况下,可以推断SE_DIMD为1-X1。
在一些实施例中,方法2400还可以包括:响应于第二语法元素被设置为第三值,并且第一语法元素被设置为第二值,基于MRL模式处理第一视频块。在不允许当前块以DIMD_MRL模式编解码并且当前块以MRL模式编解码的情况下,例如,SE_MRL等于X2,SE_DIMD总是被信号通知为1-X1。
在一些实施例中,如果第一语法元素是上下文编解码的,则第一语法元素的至少一个仓的至少一个上下文取决于第二语法元素。因此,在SE_DIMD是上下文编码的情况下,SE_DIMD的上下文可以取决于SE_MRL。
在一些实施例中,如果第二语法元素被设置为第三值,则第一语法元素利用第一数目的上下文被上下文编解码,并且如果第二语法元素被设置为第四值,则第一语法元素利用第二数目的上下文被上下文编解码。作为示例,在SE_MRL等于X2的情况下,N1个上下文用于SE_DIMD。备选地,在SE_MRL等于0的情况下,N2个上下文用于SE_DIMD。
附加地或备选地,在上述实施例中,第一数目等于第二数目,并且第一数目的上下文不同于第二数目的上下文。在上述示例中,N1可以等于N2,并且N1个上下文中没有一个等于N2个上下文中的任何一个。
附加地或备选地,在上述实施例中,第一数目等于第二数目,并且第一数目的上下文中的至少一个与第二数目的上下文中的至少一个相同。在上述示例中,N1个上下文中的一个或多个可以等于N2个上下文中的至少一个。
在一些实施例中,如果第一语法元素是上下文编解码的,则第一语法元素的至少一个仓的至少一个上下文独立于第二语法元素。在这种情况下,SE_DIMD的上下文可以不取决于SE_MRL。
在一些实施例中,在DIMD中使用多个IPM和/或多组IPM,并且第三语法元素被上下文编解码并且指示哪个IPM和/或哪组IPM被用于第一视频块,并且第三语法元素的上下文取决于第二语法元素。
作为示例,第三语法元素可以是DIMD索引,在DIMD中使用多个模式和/或多组模式并且用信号通知DIMD索引以指示使用哪个模式和/或哪组模式以及上下文编解码的情况下,第三语法元素的上下文可以取决于SE_MRL。
在一些实施例中,如果第二语法元素被设置为第三值,则第三语法元素利用第三数目的上下文被上下文编码,并且如果第二语法元素被设置为第四值,则第三语法元素利用第四数目的上下文被上下文编解码。
举例来说,第三数目用N3表示,第四数目用N4表示。在SE_MRL等于X2的情况下,N3个上下文用于第三语法元素。在SE_MRL等于0的情况下,N4个上下文用于第三语法元素。
在一些实施例中,第三数目等于第四数目,并且第三数目的上下文不同于第四数目的上下文。在上述示例中,N3可以等于N4,并且N3个上下文中没有一个等于N4个上下文中的任何一个。
在一些实施例中,第三数目等于第四数目,并且第三数目的上下文中的至少一个与第四数目的上下文中的至少一个相同。在上述示例中,N3可以等于N4,N3个上下文中的一个或多个可以等于N4个上下文中的至少一个。
在一些实施例中,至少一个语法元素包括第五语法元素,其指示第一视频块是否利用DIMD和MRL的组合被编解码。在这种情况下,第五语法元素特定于DIMD和MRL的组合,即DIMD_MRL模式。
附加地或备选地,在上述实施例中,第五语法元素的第五值指示第一视频块利用DIMD和MRL的组合被编解码,并且第五语法元素的第六值指示第一视频块没有利用DIMD和MRL的组合被编解码,第五值不同于第六值。
作为示例,第五语法元素的第五值可以用X表示,并且指示当前块是以DIMD_MRL模式编解码的,其中X=0或X=1。第五语法元素的第六值可以表示为1-X。
在一些实施例中,第五语法元素在第一语法元素或第二语法元素中的至少一个之前被包括在比特流中,第一语法元素指示第一视频块是否利用从DIMD导出的至少一个IPM编解码,并且第二语法元素指示用于第一视频块的参考行索引。在这种情况下,特定于DIMD_MRL模式的语法元素可以在SE_DIMD或SE_MRL中的至少一个之前被信号通知。
在一些实施例中,如果第五语法元素被设置为第五值,则第一语法元素或第二语法元素中的至少一个不包括在比特流中。例如,如果语法元素等于X,则可以不用信号通知SE_DIMD和/或SE_MRL。
在一些实施例中,第五语法元素利用以下编解码技术之一被二值化::固定长度编解码、截断的一元编解码、一元编解码或EG编解码,或者第五语法元素用标志被编解码。
在一些实施例中,第五语法元素可以被旁路编解码。
在一些实施例中,第五语法元素基于已编解码信息被上下文编解码,已编解码信息包括以下至少之一:第一视频块的块维度,第一视频块的块大小,分片类型,图片类型,包括相对于第一视频块的至少一个相邻或非相邻视频块的邻近视频块的信息,用于第一视频块的编解码工具的信息,或时间层信息。
在一些实施例中,第一视频块是否被允许利用DIMD和MRL的组合来编解码是基于至少一个语法元素来处理的。在这种情况下,可以将至少一个语法元素作为作为一般约束信息来信号通知。
在一些实施例中,至少一个语法元素包括第六语法元素,其指示关于DIMD和MRL的组合的约束信息。例如,第六语法元素可以gci_no_dimd_mrl_constraint_flag指示关于DIMD_MRL模式的一般约束。
此外,在上述实施例中,第六语法元素的第七值指示允许DIMD和MRL的组合被用于处理第一视频块,并且第六语法元素的第八值指示不允许DIMD和MRL的组合被用于处理第一视频块,并且第七值不同于第八值。在上述示例中,第六语法元素的第八个值可以用X表示,其中X=0或1。如果将第六语法元素设置为X,则不允许DIMD_MRL。
在一些实施例中,至少一个语法元素包括指示关于DIMD的约束信息的第七语法元素,以及指示关于MRL的约束信息的第八语法元素。例如,第七语法元素可以gci_no_dimd_constraint_flag指示关于DIMD的一般约束。此外,第八语法元素可以gci_no_mrl_constraint_flag指示关于MRL模式的一般约束。
另外,在上述实施例中,如果第七语法元素被设置为第九值,或者如果第八语法元素被设置为第十值,则DIMD和MRL的组合不允许用于处理第一视频块。在上述示例中,第九值用X1表示,第十值用X2表示,其中X1=0或1,X2=0或1。如果gci_no_dimd_constraint_flag设置为X1,或者gci_no_mrl_constraint_flag设置为X2,则不允许DIMD_MRL模式。
在一些实施例中,至少一个语法元素可以被包括在以下之一中:序列报头、图片报头、序列参数集(SPS)、视频参数集(VPS)、解码参数集(DPS)、解码能力信息(DCI)、图片参数集(PPS)、适配参数集(APS)、分片报头、或图块组报头。
在一些实施例中,转换可以包括从视频的比特流解码图像。
在一些实施例中,转换可以包括将图像编码成视频的比特流。
应当理解,上述实施例中给出的值、参数或配置是为了说明的目的,任何其他合适的值、参数或配置也适用于本公开的实施方式,因此,本公开的范围在这方面不受限制。
可以根据以下条款来描述本公开的实施方式,这些条款的特征可以以任何合理的方式进行组合。
条款1.一种视频处理的方法,包括:在视频的图片和视频的比特流之间的转换期间,基于解码器侧帧内预测模式导出(DIMD)和多参考行(MRL)的组合处理图片中的第一视频块,至少一个帧内预测模式(IPM)从DIMD被导出,并且针对第一视频块的重构样本的至少一个不相邻参考行在DIMD和MRL的组合中被使用;以及基于第一视频块执行转换。
条款2.根据条款1所述的方法,其中处理第一视频块包括:响应于MRL参考行索引的值大于0,基于IPM和重构样本的至少一个不相邻参考行处理第一视频块。
条款3.根据条款1所述的方法,其中至少一条不相邻参考行包括以下至少一项:相对于第一视频块的重构样本的至少一个不相邻行,或者重构样本的至少一列。
条款4.根据条款3所述的方法,其中至少一个不相邻参考行由MRL参考行索引指示。
条款5.根据条款1所述的方法,其中处理第一视频块包括:基于从DIMD导出的第二数目的IPM来生成用于第一视频块的第一数目的组的预测样本,第一数目和第二数目是大于或等于1的整数,并且第一数目等于第二数目;以及通过加权混合第一数目的组的预测样本来处理第一视频块。
条款6.根据条款1所述的方法,其中处理第一视频块包括:基于第三数目的预定义IPM和从DIMD导出的第二数目的IPM,生成用于第一视频块的第一数目的组的预测样本,第二数目和第三数目是大于或等于1的整数,第一数目等于第二数目与第三数目之和;以及通过加权混合第一数目的组的预测样本来处理第一视频块。
条款7.根据条款6所述的方法,其中第一数目等于3,第二数目等于2,并且第三数目等于1。
条款8.根据条款6所述的方法,其中第三数目的预定义IPM包括平面模式、DC模式、水平模式或垂直模式中的至少一项。
条款9.根据条款1所述的方法,其中从DIMD导出的至少一个IPM包括从DIMD导出的多个IPM,并且其中处理第一视频块包括:基于从DIMD导出的多个IPM、至少一个预定义IPM和包括至少一个不相邻参考行的多个参考行来处理第一视频块。
条款10.根据条款1所述的方法,其中从DIMD导出的至少一个IPM包括从DIMD导出的多个IPM,并且其中处理第一视频块包括:基于从DIMD导出的多个IPM、包括至少一个不相邻参考行的多个参考行,处理第一视频块。
条款11.根据条款1所述的方法,其中至少一个不相邻参考行包括重构样本的第X参考行,X的值大于0,并且用于第一视频块的重构样本的第0参考行在非MRL模式中被使用。
条款12.根据条款11所述的方法,其中X的值是范围从1到12的整数。
条款13.根据条款11所述的方法,其中在比特流中包括对于第一视频块的重构样本的相邻参考行或重构样本的第X参考行的指示。
条款14.根据条款1所述的方法,其中重构样本的至少一个不相邻参考行的指示通过使用视频的已编解码信息而被导出。
条款15.根据条款1所述的方法,其中重构样本的至少一个不相邻参考行的指示在解码器处被隐式导出,并且方法进一步包括:从用于第一视频块的多个参考行,基于用于多个参考行的转换的各自的计算代价,确定至少一个不相邻参考行。
条款16.根据条款1所述的方法,其中处理第一视频块包括:基于包括重构样本的至少一个不相邻参考行的重构样本的第一数目的参考行,生成用于第一视频块的第一数目的组的预测样本。
条款17.根据条款16所述的方法,其中至少一个不相邻参考行包括第一数目的参考行。
条款18.根据条款17所述的方法,其中处理第一视频块包括:基于至少一个IPM模式和重构样本的第一数目的参考行,生成第一数目的组的预测样本;以及通过加权混合第一数目的组的预测样本,来处理第一视频块。
条款19.根据条款16所述的方法,其中处理第一视频块包括:基于用于第一视频块的预测样本的两个参考行来处理第一视频块,两个参考行包括第0参考行和由MRL参考行索引值指示的不相邻参考行。
条款20.根据条款16所述的方法,其中处理第一视频块包括:基于由MRL参考行索引的值指示的多个不相邻参考行来处理第一视频块。
条款21.根据条款1所述的方法,其中处理第一视频块包括:基于从DIMD导出的IPM、至少一个预定义IPM以及重构样本的预定义不相邻参考行,来处理第一视频块。
条款22.根据条款21所述的方法,其中至少一个预定义IPM包括平面模式、DC模式、水平模式或垂直模式中的至少一个。
条款23.根据条款21所述的方法,其中处理第一视频块包括:基于从DIMD导出的IPM、至少一个预定义IPM以及重构样本的预定义不相邻参考行,生成多个预测样本;以及通过加权混合多个预测样本来处理第一视频块。
条款24.根据条款1所述的方法,其中至少一个IPM基于由MRL参考行索引指示的至少一个不相邻参考行被导出。
条款25.根据条款24所述的方法,其中用于导出至少一个IPM的重构样本的至少一个参考行与由MRL参考行索引指示的至少一个不相邻参考行是相同的。
条款26.根据条款24所述的方法,其中DIMD包括基于模板的帧内模式导出(TIMD),并且TIMD中的参考样本和目标样本之间的距离与MRL参考行索引相关联。
条款27.根据条款1所述的方法,其中至少一个编解码工具是否和/或如何被用于利用DIMD和MRL的组合来编解码的第一视频块与对于利用MRL模式编解码的第二视频块是相同的。
条款28.根据条款27所述的方法,其中至少一个编解码工具是否和/或如何被用于第一视频块包括以下至少之一:是否滤波参考样本,或是否使用插值滤波器、位置相关的帧内预测组合(PDPC)或梯度PDPC中的至少一个。
条款29.根据条款1所述的方法,其中至少一个编解码工具不被允许用于利用DIMD和MRL的组合来编解码的第一视频块。
条款30.根据条款1所述的方法,其中编解码工具是否和/或如何被用于利用DIMD和MRL的组合来编解码的第一视频块不同于对于利用MRL模式编解码的第二视频块。
条款31.根据条款31所述的方法,其中至少一个编解码工具被用于利用DIMD和MRL的组合编解码的第一视频块。
条款32.根据条款31所述的方法,其中至少一个编解码工具包括位置相关的帧内预测组合(PDPC)或梯度PDPC中的至少一个。
条款33.根据条款27或30所述的方法,其中被用于利用MRL模式编解码的第二视频块的至少一个编解码工具包括位置相关的帧内预测组合(PDPC)或梯度PDPC中的至少一个。
条款34.根据条款1所述的方法,其中对于利用从DIMD和MRL的组合导出的至少一个IPM编解码的第一视频块是否使用至少一个变换和/或使用哪种类型的变换,与对于利用MRL模式编解码的第二视频块是相同的,或者与对于利用MRL模式编解码的第二视频块是不同的。
条款35.根据条款34所述的方法,其中显式多重变换选择(MTS)被用于第一视频块,并且MTS的索引被包括在比特流中。
条款36.根据条款34所述的方法,其中隐式多重变换选择(MTS)被预定义为用于利用DIMD和MRL的组合编解码的第一视频块。
条款37.根据条款34所述的方法,其中至少一组多重变换选择(MTS)被用于利用DIMD和MRL的组合编解码的第一视频块。
条款38.根据条款34所述的方法,其中单组多重变换选择(MTS)被用于利用DIMD和MRL的组合编解码的第一视频块,并且组MTS的索引不包括在比特流中。
条款39.根据条款34所述的方法,其中多重变换选择(MTS)针对利用DIMD和MRL的组合编解码的第一视频块被禁用,并且MTS的索引不包括在比特流中。
条款40.根据条款1所述的方法,其中对于利用DIMD和MRL的组合编解码的第一视频块是否使用辅变换和/或使用哪组辅变换,与对于利用MRL模式编解码的第二视频块是相同的,或者与对于利用MRL模式编解码的第二视频块是不同的。
条款41.根据条款40所述的方法,其中包括在比特流中的辅变换的索引指示被用于利用DIMD和MRL的组合编解码的第一视频块的一组低频不可分离变换(LFNST)。
条款42.根据条款40所述的方法,其中对于利用DIMD和MRL的组合编解码的第一视频块,辅变换被禁用,并且辅变换的索引不包括在比特流中。
条款43.根据条款40所述的方法,其中至少一组辅变换用于利用DIMD和MRL的组合编解码的第一视频块。
条款44.根据条款40所述的方法,其中单组辅变换被用于利用DIMD和MRL的组合编解码的第一视频块,并且组辅变换的索引不包括在比特流中。
条款45.根据条款1所述的方法,其中视频的已编解码信息被用于确定是否允许利用DIMD和MRL的组合对第一视频块编解码。
条款46.根据条款45所述的方法,其中已编码信息指示DIMD和MRL的组合是否被允许,并且如果已编码信息指示至少一个IPM或MRL模式中的至少一个不被允许,则不允许利用DIMD和MRL的组合对第一视频块编解码。
条款47.根据条款45所述的方法,其中已编码信息指示DIMD或MRL中的至少一个是否被允许。
条款48.根据条款47所述的方法,其中如果DIMD或MRL中的至少一个不被允许,则不允许利用DIMD和MRL的组合对第一视频块编解码。
条款49.根据条款45所述的方法,其中已编码信息包括以下至少一项:块维度、块尺寸、深度、块位置、分片类型、图片类型、时间层信息、颜色分量信息、或帧内预测的至少一个参考行,其中块位置指示第一视频块是否是图片中的编解码树单元(CTU)的第一列或者第一行,以及其中时间层信息包括时间层索引。
条款50.根据条款1所述的方法,其中DIMD和MRL的组合的指示被包括在比特流中。
条款51.根据条款48所述的方法,其中指示是否被包括在比特流中基于以下至少之一:针对第一视频块是否允许DIMD和MRL的组合,针对第一视频块是否允许DIMD模式,针对第一视频块是否允许MRL模式,第一视频块的块维度,第一视频块的块尺寸,第一视频块的深度,分片类型,图片类型,分区树类型,包括单树、双树或局部双树之一,第一视频块的块位置,颜色分量,或至少一个帧内预测参考行。
条款52.根据条款1所述的方法,其中至少一个语法元素指示是否基于DIMD和MRL的组合来处理第一视频块。
条款53.根据条款52所述的方法,其中至少一个语法元素包括第一语法元素和第二语法元素,第一语法元素指示第一视频块是否利用从DIMD导出的至少一个IPM编解码,并且第二语法元素指示第一视频块的参考行索引。
条款54.根据条款53所述的方法,其中第二语法元素包括在通用视频编解码中定义的MRL参考行索引。
条款55.根据条款53所述的方法,其中第一语法元素的第一值指示第一视频块利用从DIMD导出的至少一个IPM编解码,并且第一语法元素的第二值指示第一视频块不是利用从DIMD导出的至少一个IPM编解码,并且第一值不同于第二值,以及其中第二语法元素的第三值指示第一视频块以MRL模式编解码,第二语法元素的第四值指示第一视频块未以MRL模式编解码,第三值是大于0的整数,并且第四值等于0。
条款56.根据条款55所述的方法,其中处理第一视频块包括:响应于第一语法元素被设置为第一值并且第二语法元素被设置为第三值,基于DIMD和MRL的组合处理第一视频块。
条款57.根据条款53所述的方法,其中第一语法元素在第二语法元素之前被包括在比特流中。
条款58.根据条款55所述的方法,还包括:响应于第一语法元素被设置为第一值,并且第二语法元素未被包括在比特流中,基于至少一个IPM处理第一视频块。
条款59.根据条款58所述的方法,还包括:响应于第二语法元素未被包括在比特流中,推断第二语法元素被设置为第四值。
条款60.根据条款55所述的方法,还包括:响应于第一语法元素被设置为第一值,并且第二语法元素被设置为第四值,基于至少一个IPM处理第一视频块。
条款61.根据条款55所述的方法,其中如果第二语法元素是上下文编解码的,则第二语法元素的至少一个仓的至少一个上下文取决于第一语法元素。
条款62.根据条款61所述的方法,其中如果第一语法元素被设置为第一值,则第二语法元素利用第一数目的上下文被上下文编解码,并且如果第一语法元素被设置为第二值,则第二语法元素利用第二数目的上下文被上下文编解码。
条款63.根据条款62所述的方法,其中第一数目等于第二数目,并且第一数目的上下文不同于第二数目的上下文。
条款64.根据条款62所述的方法,其中第一数目等于第二数目,并且第一数目的上下文中的至少一个与第二数目的上下文中的至少一个相同。
条款65.根据条款55所述的方法,其中如果第二语法元素是上下文编解码的,则第二语法元素的至少一个仓的至少一个上下文独立于第一语法元素。
条款66.根据条款53所述的方法,其中第二语法元素在第一语法元素之前被包括在比特流中。
条款67.根据条款55所述的方法,还包括:响应于第二语法元素被设置为第三值,并且第一语法元素未被包括在比特流中,基于MRL模式处理第一视频块。
条款68.根据条款67所述的方法,还包括:响应于第一语法元素未被包括在比特流中,推断第一语法元素被设置为第二值。
条款69.根据条款55所述的方法,还包括:响应于第二语法元素被设置为第三值,并且第一语法元素被设置为第二值,基于MRL模式处理第一视频块。
条款70.根据条款55所述的方法,其中如果第一语法元素是上下文编解码的,则第一语法元素的至少一个仓的至少一个上下文取决于第二语法元素。
条款71.根据条款70所述的方法,其中如果第二语法元素被设置为第三值,则第一语法元素利用第一数目的上下文被上下文编解码,并且如果第二语法元素被设置为第四值,则第一语法元素利用第二数目的上下文被上下文编解码。
条款72.根据条款71所述的方法,其中第一数目等于第二数目,并且第一数目的上下文不同于第二数目的上下文。
条款73.根据条款71所述的方法,其中第一数目等于第二数目,并且第一数目的上下文中的至少一个与第二数目的上下文中的至少一个相同。
条款74.根据条款55所述的方法,其中如果第一语法元素是上下文编解码的,则第一语法元素的至少一个仓的至少一个上下文独立于第二语法元素。
条款75.根据条款66所述的方法,其中在DIMD中使用多个IPM和/或多组IPM,并且第三语法元素被上下文编解码并且指示哪个IPM和/或哪组IPM被用于第一视频块,并且第三语法元素的上下文取决于第二语法元素。
条款76.根据条款75所述的方法,其中如果第二语法元素被设置为第三值,则第三语法元素利用第三数目的上下文被上下文编码,并且如果第二语法元素被设置为第四值,则第三语法元素利用第四数目的上下文被上下文编解码。
条款77.根据条款76所述的方法,其中第三数目等于第四数目,并且第三数目的上下文不同于第四数目的上下文。
条款78.根据条款76所述的方法,其中第三数目等于第四数目,并且第三数目的上下文中的至少一个与第四数目的上下文中的至少一个相同。
条款79.根据条款52所述的方法,其中至少一个语法元素包括第五语法元素,其指示第一视频块是否利用DIMD和MRL的组合被编解码。
条款80.根据条款79所述的方法,其中第五语法元素的第五值指示第一视频块利用DIMD和MRL的组合被编解码,并且第五语法元素的第六值指示第一视频块没有利用DIMD和MRL的组合被编解码,第五值不同于第六值。
条款81.根据条款80所述的方法,其中第五语法元素在第一语法元素或第二语法元素中的至少一个之前被包括在比特流中,第一语法元素指示第一视频块是否利用从DIMD导出的至少一个IPM编解码,并且第二语法元素指示用于第一视频块的参考行索引。
条款82.根据条款80所述的方法,其中如果第五语法元素被设置为第五值,则第一语法元素或第二语法元素中的至少一个不包括在比特流中。
条款83.根据条款79所述的方法,其中第五语法元素利用以下编解码技术之一被二值化:定长编解码、截断的一元编解码、一元编解码或EG编解码,或第五语法元素利用标志被编解码。
条款84.根据条款79所述的方法,其中第五语法元素是旁路编解码的。
条款85.根据条款79所述的方法,其中第五语法元素基于已编解码信息被上下文编解码,已编解码信息包括以下至少之一:第一视频块的块维度,第一视频块的块大小,分片类型,图片类型,包括相对于第一视频块的至少一个相邻或非相邻视频块的邻近视频块的信息,用于第一视频块的编解码工具的信息,或时间层信息。
条款86.根据条款52所述的方法,其中第一视频块是否被允许利用DIMD和MRL的组合来编解码是基于至少一个语法元素来处理的。
条款87.根据条款86所述的方法,其中至少一个语法元素包括第六语法元素,其指示关于DIMD和MRL的组合的约束信息。
条款88.根据条款87所述的方法,其中第六语法元素的第七值指示允许DIMD和MRL的组合被用于处理第一视频块,并且第六语法元素的第八值指示不允许DIMD和MRL的组合被用于处理第一视频块,并且第七值不同于第八值。
条款89.根据条款84所述的方法,其中至少一个语法元素包括指示关于DIMD的约束信息的第七语法元素,以及指示关于MRL的约束信息的第八语法元素。
条款90.根据条款86所述的方法,其中如果第七语法元素被设置为第九值,或者如果第八语法元素被设置为第十值,则DIMD和MRL的组合不允许用于处理第一视频块。
条款91.根据条款86所述的方法,其中至少一个语法元素被包括在以下之一中:序列报头、图片报头、序列参数集(SPS)、视频参数集(VPS)、解码参数集(DPS)、解码能力信息(DCI)、图片参数集(PPS)、适配参数集(APS)、分片报头、或图块组报头。
条款92.根据条款1至91中任一项所述的方法,其中转换包括从视频的比特流解码图片。
条款93.根据条款1至91中任一项所述的方法,其中转换包括将图片编码到视频的比特流中。
条款94.一种用于视频处理的装置,包括处理器和耦合到处理器并具有存储于其上的指令的非瞬态存储器,其中指令在被处理器执行时使处理器:在视频的图片和视频的比特流之间的转换期间,基于解码器侧帧内预测模式导出(DIMD)和多参考行(MRL)的组合处理图片中的第一视频块,至少一个帧内预测模式(IPM)从DIMD被导出,并且针对第一视频块的重构样本的至少一个不相邻参考行在DIMD和MRL的组合中被使用;以及基于第一视频块执行转换。
条款95.一种非瞬态计算机可读存储介质,存储有指令,使得处理器执行根据条款1至93中任一项所述的方法。
条款96.一种非瞬态计算机可读记录介质,存储有视频的比特流,比特流由用于视频处理的装置执行的方法生成,其中方法包括:基于解码器侧帧内预测模式导出(DIMD)和多参考行(MRL)的组合处理视频的图片中的第一视频块,至少一个帧内预测模式(IPM)从DIMD被导出,并且针对第一视频块的重构样本的至少一个不相邻参考行在DIMD和MRL的组合中被使用;基于第一视频块生成比特流。
条款97.一种用于存储视频比特流的方法,包括:基于解码器侧帧内预测模式导出(DIMD)和多参考行(MRL)的组合处理视频的图片中的第一视频块,至少一个帧内预测模式(IPM)从DIMD被导出,并且针对第一视频块的重构样本的至少一个不相邻参考行在DIMD和MRL的组合中被使用;基于第一视频块生成比特流;以及将比特流存储在非瞬态计算机可读记录介质中。
示例设备
图25示出了可以在其中实现本公开的各种实施例的计算设备2500的框图。计算设备2500可以被实现为源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300),或者可以被包括在源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300)中。
应当理解的是,图25中示出的计算设备2500仅为了说明的目的,而不是以任何方式暗示对本公开实施例的功能和范围的任何限制。
如图25所示,计算设备2500包括通用计算设备2500。计算设备2500可以至少包括一个或多个处理器或处理单元2510、存储器2520、存储单元2530、一个或多个通信单元2540、一个或多个输入设备2550以及一个或多个输出设备2560。
在一些实施例中,计算设备2500可以被实现为具有计算能力的任何用户终端或服务器终端。服务器终端可以是由服务提供商提供的服务器、大型计算设备等。用户终端例如可以是任何类型的移动终端、固定终端或便携式终端,包括移动电话、站、单元、设备、多媒体计算机、多媒体平板计算机、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或其任何组合,并且包括这些设备的附件和外围设备或其任何组合。可以设想的是,计算设备2500可以支持到用户的任何类型的接口(诸如“可穿戴”电路装置等)。
处理单元2510可以是物理处理器或虚拟处理器,并且可以基于存储在存储器2520中的程序实现各种处理。在多处理器系统中,多个处理单元并行地执行计算机可执行指令,以便改善计算设备2500的并行处理能力。处理单元2510也可以被称为中央处理单元(CPU)、微处理器、控制器或微控制器。
计算设备2500通常包括各种计算机存储介质。这样的介质可以是由计算设备2500可访问的任何介质,包括但不限于易失性介质和非易失性介质、或可拆卸介质和不可拆卸介质。存储器2520可以是易失性存储器(例如,寄存器、高速缓存、随机存取存储器(RAM))、非易失性存储器(诸如只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)或闪存)或其任何组合。存储单元2530可以是任何可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如存储器、闪存驱动器、磁盘或其他可以被用于存储信息和/或数据并且可以在计算设备2500中被访问的介质。
计算设备2500还可以包括附加的可拆卸/不可拆卸存储介质、易失性/非易失性存储介质。尽管在图25中未示出,但是可以提供用于从可拆卸的非易失性磁盘读取和/或写入可拆卸的非易失性磁盘的磁盘驱动器,以及用于从可拆卸的非易失性光盘读取和/或写入可拆卸的非易失性光盘的光盘驱动器。在这种情况下,每个驱动器可以经由一个或多个数据介质接口连接到总线(未示出)。
通信单元2540经由通信介质与另一计算设备通信。另外,计算设备2500中的组件的功能可以由可以经由通信连接进行通信的单个计算集群或多个计算机器来实现。因此,计算设备2500可以使用与一个或多个其他服务器、联网个人计算机(PC)或其他通用网络节点的逻辑连接来在联网环境中运行。
输入设备2550可以是各种输入设备中的一种或多种输入设备,诸如鼠标、键盘、轨迹球、语音输入设备等。输出设备2560可以是各种输出设备中的一种或多种输出设备,诸如显示器、扬声器、打印机等。借助于通信单元2540,计算设备2500还可以与一个或多个外部设备(未示出)通信,外部设备诸如是存储设备和显示设备,计算设备2500还可以与一个或多个使用户能够与计算设备2500交互的设备通信,或任何使计算设备2500能够与一个或多个其他计算设备通信的设备(例如网卡、调制解调器等)通信,如果需要的话。这种通信可以经由输入/输出(I/O)接口(未示出)进行。
在一些实施例中,计算设备2500的一些或所有组件也可以被布置在云计算架构中,而不是被集成在单个设备中。在云计算架构中,组件可以被远程提供并且共同工作,以实现本公开中描述的功能。在一些实施例中,云计算提供计算、软件、数据访问和存储服务,这将不要求最终用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实施例中,云计算使用合适的协议经由广域网(例如互联网)提供服务。例如,云计算提供商通过广域网提供应用程序,可以通过网络浏览器或任何其他计算组件访问这些应用程序。云计算架构的软件或组件以及对应的数据可以存储在远程服务器上。云计算环境中的计算资源可以被合并或分布在远程数据中心的位置。云计算基础设施可以通过共享数据中心提供服务,尽管它们表现为作为用户的单一接入点。因此,云计算架构可与被用于从远程位置的服务提供商处提供本文所述的组件和功能。备选地,它们可以由常规服务器提供,或者直接或以其他方式安装在客户端设备上。
在本公开的实施例中,计算设备2500可以被用于实现视频编码/解码。存储器2520可以包括具有一个或多个程序指令的一个或多个视频编解码模块2525。这些模块能够由处理单元2510访问和执行,以执行本文描述的各种实施例的功能。
在执行视频编码的示例实施例中,输入设备2550可以接收视频数据作为待编码的输入2570。视频数据可以由例如视频编解码模块2525处理,以生成经编码的码流。经编码的码流可以经由输出设备2560作为输出2580被提供。
在执行视频解码的示例实施例中,输入设备2550可以接收经编码的码流作为输入2570。经编码的码流可以由例如视频编解码模块2525处理,以生成经解码的视频数据。经解码的视频数据可以经由输出设备2560作为输出2580被提供。
虽然已经参考本公开的优选实施例具体示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求限定的本申请的精神和范围的情况下,可以在形式和细节上进行各种改变。这些变化旨在由本申请的范围所涵盖。因此,本申请的实施例的前述描述不旨在是限制性的。
Claims (97)
1.一种视频处理的方法,包括:
在视频的图片和所述视频的比特流之间的转换期间,基于解码器侧帧内预测模式导出(DIMD)和多参考行(MRL)的组合处理所述图片中的第一视频块,至少一个帧内预测模式(IPM)从所述DIMD被导出,并且针对所述第一视频块的重构样本的至少一个不相邻参考行在所述DIMD和MRL的所述组合中被使用;以及
基于所述第一视频块执行所述转换。
2.根据权利要求1所述的方法,其中处理所述第一视频块包括:
响应于MRL参考行索引的值大于0,基于所述IPM和重构样本的所述至少一个不相邻参考行处理所述第一视频块。
3.根据权利要求1所述的方法,其中所述至少一条不相邻参考行包括以下至少一项:
相对于所述第一视频块的重构样本的至少一个不相邻行,或者
所述重构样本的至少一列。
4.根据权利要求3所述的方法,其中所述至少一个不相邻参考行由MRL参考行索引指示。
5.根据权利要求1所述的方法,其中处理所述第一视频块包括:
基于从所述DIMD导出的第二数目的IPM来生成用于所述第一视频块的第一数目的组的预测样本,所述第一数目和所述第二数目是大于或等于1的整数,并且所述第一数目等于所述第二数目;以及
通过加权混合所述第一数目的组的预测样本来处理所述第一视频块。
6.根据权利要求1所述的方法,其中处理所述第一视频块包括:
基于第三数目的预定义IPM和从所述DIMD导出的第二数目的IPM,生成用于所述第一视频块的第一数目的组的预测样本,所述第二数目和所述第三数目是大于或等于1的整数,所述第一数目等于所述第二数目与所述第三数目之和;以及
通过加权混合所述第一数目的组的预测样本来处理所述第一视频块。
7.根据权利要求6所述的方法,其中所述第一数目等于3,所述第二数目等于2,并且所述第三数目等于1。
8.根据权利要求6所述的方法,其中所述第三数目的预定义IPM包括平面模式、DC模式、水平模式或垂直模式中的至少一项。
9.根据权利要求1所述的方法,其中从所述DIMD导出的所述至少一个IPM包括从所述DIMD导出的多个IPM,并且其中处理所述第一视频块包括:
基于从所述DIMD导出的所述多个IPM、至少一个预定义IPM和包括所述至少一个不相邻参考行的多个参考行来处理所述第一视频块。
10.根据权利要求1所述的方法,其中从所述DIMD导出的所述至少一个IPM包括从所述DIMD导出的多个IPM,并且其中处理所述第一视频块包括:
基于从所述DIMD导出的所述多个IPM、包括所述至少一个不相邻参考行的多个参考行,处理所述第一视频块。
11.根据权利要求1所述的方法,其中所述至少一个不相邻参考行包括重构样本的第X参考行,X的值大于0,并且用于所述第一视频块的重构样本的第0参考行在非MRL模式中被使用。
12.根据权利要求11所述的方法,其中X的值是范围从1到12的整数。
13.根据权利要求11所述的方法,其中在所述比特流中包括对于所述第一视频块的重构样本的相邻参考行或重构样本的所述第X参考行的指示。
14.根据权利要求1所述的方法,其中重构样本的所述至少一个不相邻参考行的指示通过使用所述视频的已编解码信息而被导出。
15.根据权利要求1所述的方法,其中重构样本的所述至少一个不相邻参考行的指示在解码器处被隐式导出,并且所述方法进一步包括:
从用于所述第一视频块的多个参考行,基于用于所述多个参考行的所述转换的各自的计算代价,确定所述至少一个不相邻参考行。
16.根据权利要求1所述的方法,其中处理所述第一视频块包括:
基于包括重构样本的所述至少一个不相邻参考行的重构样本的第一数目的参考行,生成用于所述第一视频块的所述第一数目的组的预测样本。
17.根据权利要求16所述的方法,其中所述至少一个不相邻参考行包括所述第一数目的参考行。
18.根据权利要求17所述的方法,其中处理所述第一视频块包括:
基于所述至少一个IPM模式和重构样本的所述第一数目的参考行,生成所述第一数目的组的预测样本;以及
通过加权混合所述第一数目的组的预测样本,来处理所述第一视频块。
19.根据权利要求16所述的方法,其中处理所述第一视频块包括:
基于用于所述第一视频块的预测样本的两个参考行来处理所述第一视频块,所述两个参考行包括第0参考行和由MRL参考行索引值指示的不相邻参考行。
20.根据权利要求16所述的方法,其中处理所述第一视频块包括:
基于由MRL参考行索引的值指示的多个不相邻参考行来处理所述第一视频块。
21.根据权利要求1所述的方法,其中处理所述第一视频块包括:
基于从所述DIMD导出的IPM、至少一个预定义IPM以及重构样本的预定义不相邻参考行,来处理所述第一视频块。
22.根据权利要求21所述的方法,其中所述至少一个预定义IPM包括平面模式、DC模式、水平模式或垂直模式中的至少一个。
23.根据权利要求21所述的方法,其中处理所述第一视频块包括:
基于从所述DIMD导出的所述IPM、所述至少一个预定义IPM以及所述重构样本的预定义不相邻参考行,生成多个预测样本;以及
通过加权混合所述多个预测样本来处理所述第一视频块。
24.根据权利要求1所述的方法,其中所述至少一个IPM基于由MRL参考行索引指示的所述至少一个不相邻参考行被导出。
25.根据权利要求24的方法,其中用于导出所述至少一个IPM的重构样本的至少一个参考行与由MRL参考行索引指示的所述至少一个不相邻参考行是相同的。
26.根据权利要求24的方法,其中所述DIMD包括基于模板的帧内模式导出(TIMD),并且所述TIMD中的参考样本和目标样本之间的距离与所述MRL参考行索引相关联。
27.根据权利要求1所述的方法,其中至少一个编解码工具是否和/或如何被用于利用所述DIMD和所述MRL的所述组合来编解码的所述第一视频块与对于利用MRL模式编解码的第二视频块是相同的。
28.根据权利要求27的方法,其中所述至少一个编解码工具是否和/或如何被用于所述第一视频块包括以下至少之一:
是否滤波参考样本,或
是否使用插值滤波器、位置相关的帧内预测组合(PDPC)或梯度PDPC中的至少一个。
29.根据权利要求1所述的方法,其中至少一个编解码工具不被允许用于利用所述DIMD和所述MRL的所述组合来编解码的所述第一视频块。
30.根据权利要求1所述的方法,其中编解码工具是否和/或如何被用于利用所述DIMD和所述MRL的所述组合来编解码的所述第一视频块不同于对于利用MRL模式编解码的第二视频块。
31.根据权利要求31所述的方法,其中至少一个编解码工具被用于利用所述DIMD和所述MRL的所述组合编解码的所述第一视频块。
32.根据权利要求31所述的方法,其中所述至少一个编解码工具包括位置相关的帧内预测组合(PDPC)或梯度PDPC中的至少一个。
33.根据权利要求27或30所述的方法,其中被用于利用所述MRL模式编解码的所述第二视频块的至少一个编解码工具包括位置相关的帧内预测组合(PDPC)或梯度PDPC中的至少一个。
34.根据权利要求1所述的方法,其中对于利用从所述DIMD和所述MRL的所述组合导出的所述至少一个IPM编解码的所述第一视频块是否使用至少一个变换和/或使用哪种类型的变换,与对于利用MRL模式编解码的第二视频块是相同的,或者与对于利用所述MRL模式编解码的所述第二视频块是不同的。
35.根据权利要求34所述的方法,其中显式多重变换选择(MTS)被用于所述第一视频块,并且所述MTS的索引被包括在所述比特流中。
36.根据权利要求34的方法,其中隐式多重变换选择(MTS)被预定义为用于利用所述DIMD和所述MRL的所述组合编解码的所述第一视频块。
37.根据权利要求34的方法,其中至少一组多重变换选择(MTS)被用于利用所述DIMD和所述MRL的所述组合编解码的所述第一视频块。
38.根据权利要求34所述的方法,其中单组多重变换选择(MTS)被用于利用所述DIMD和所述MRL的所述组合编解码的所述第一视频块,并且所述组MTS的索引不包括在所述比特流中。
39.根据权利要求34所述的方法,其中多重变换选择(MTS)针对利用所述DIMD和所述MRL的所述组合编解码的所述第一视频块被禁用,并且所述MTS的索引不包括在所述比特流中。
40.根据权利要求1所述的方法,其中对于利用所述DIMD和所述MRL的所述组合编解码的所述第一视频块是否使用辅变换和/或使用哪组辅变换,与对于利用MRL模式编解码的第二视频块是相同的,或者与对于利用所述MRL模式编解码的所述第二视频块是不同的。
41.根据权利要求40所述的方法,其中包括在所述比特流中的辅变换的索引指示被用于利用所述DIMD和所述MRL的所述组合编解码的所述第一视频块的一组低频不可分离变换(LFNST)。
42.根据权利要求40所述的方法,其中对于利用所述DIMD和所述MRL的所述组合编解码的所述第一视频块,辅变换被禁用,并且所述辅变换的索引不包括在所述比特流中。
43.根据权利要求40所述的方法,其中至少一组辅变换用于利用所述DIMD和所述MRL的所述组合编解码的第一视频块。
44.根据权利要求40所述的方法,其中单组辅变换被用于利用所述DIMD和所述MRL的所述组合编解码的所述第一视频块,并且所述组辅变换的索引不包括在所述比特流中。
45.根据权利要求1所述的方法,其中所述视频的已编解码信息被用于确定是否允许利用所述DIMD和所述MRL的所述组合对所述第一视频块编解码。
46.根据权利要求45所述的方法,其中所述已编码信息指示所述DIMD和所述MRL的所述组合是否被允许,并且如果所述已编码信息指示所述至少一个IPM或所述MRL模式中的至少一个不被允许,则不允许利用所述DIMD和所述MRL的所述组合对所述第一视频块编解码。
47.根据权利要求45所述的方法,其中所述已编码信息指示所述DIMD或所述MRL中的至少一个是否被允许。
48.根据权利要求47所述的方法,其中如果所述DIMD或所述MRL中的至少一个不被允许,则不允许利用所述DIMD和所述MRL的所述组合对所述第一视频块编解码。
49.根据权利要求45所述的方法,其中所述已编码信息包括以下至少一项:
块维度、块尺寸、深度、块位置、分片类型、图片类型、时间层信息、颜色分量信息、或帧内预测的至少一个参考行,
其中所述块位置指示所述第一视频块是否是所述图片中的编解码树单元(CTU)的第一列或者第一行,以及
其中所述时间层信息包括时间层索引。
50.根据权利要求1所述的方法,其中所述DIMD和所述MRL的所述组合的指示被包括在所述比特流中。
51.根据权利要求48所述的方法,其中所述指示是否被包括在所述比特流中基于以下至少之一:
针对所述第一视频块是否允许所述DIMD和所述MRL的所述组合,
针对所述第一视频块是否允许所述DIMD模式,
针对所述第一视频块是否允许所述MRL模式,
所述第一视频块的块维度,
所述第一视频块的块尺寸,
所述第一视频块的深度,
分片类型,
图片类型,
分区树类型,包括单树、双树或局部双树之一,
所述第一视频块的块位置,
颜色分量,或
至少一个帧内预测参考行。
52.根据权利要求1所述的方法,其中至少一个语法元素指示是否基于所述DIMD和所述MRL的所述组合来处理所述第一视频块。
53.根据权利要求52所述的方法,其中所述至少一个语法元素包括第一语法元素和第二语法元素,所述第一语法元素指示所述第一视频块是否利用从所述DIMD导出的所述至少一个IPM编解码,并且所述第二语法元素指示所述第一视频块的参考行索引。
54.根据权利要求53所述的方法,其中第二语法元素包括在通用视频编解码中定义的MRL参考行索引。
55.根据权利要求53所述的方法,其中所述第一语法元素的第一值指示所述第一视频块利用从所述DIMD导出的所述至少一个IPM编解码,并且所述第一语法元素的第二值指示所述第一视频块不是利用从所述DIMD导出的所述至少一个IPM编解码,并且所述第一值不同于所述第二值,以及
其中所述第二语法元素的第三值指示所述第一视频块以MRL模式编解码,所述第二语法元素的第四值指示所述第一视频块未以所述MRL模式编解码,所述第三值是大于0的整数,并且所述第四值等于0。
56.根据权利要求55所述的方法,其中处理所述第一视频块包括:
响应于所述第一语法元素被设置为所述第一值并且所述第二语法元素被设置为所述第三值,基于所述DIMD和所述MRL的所述组合处理所述第一视频块。
57.根据权利要求53所述的方法,其中所述第一语法元素在所述第二语法元素之前被包括在所述比特流中。
58.根据权利要求55所述的方法,还包括:
响应于所述第一语法元素被设置为所述第一值,并且所述第二语法元素未被包括在所述比特流中,基于所述至少一个IPM处理所述第一视频块。
59.根据权利要求58所述的方法,还包括:
响应于所述第二语法元素未被包括在所述比特流中,推断所述第二语法元素被设置为所述第四值。
60.根据权利要求55所述的方法,还包括:
响应于所述第一语法元素被设置为所述第一值,并且所述第二语法元素被设置为所述第四值,基于所述至少一个IPM处理所述第一视频块。
61.根据权利要求55所述的方法,其中如果所述第二语法元素是上下文编解码的,则所述第二语法元素的至少一个仓的至少一个上下文取决于所述第一语法元素。
62.根据权利要求61所述的方法,其中如果所述第一语法元素被设置为所述第一值,则所述第二语法元素利用第一数目的上下文被上下文编解码,并且如果所述第一语法元素被设置为所述第二值,则所述第二语法元素利用第二数目的上下文被上下文编解码。
63.根据权利要求62所述的方法,其中第一数目等于第二数目,并且所述第一数目的上下文不同于所述第二数目的上下文。
64.根据权利要求62所述的方法,其中所述第一数目等于所述第二数目,并且所述第一数目的上下文中的至少一个与所述第二数目的上下文中的至少一个相同。
65.根据权利要求55所述的方法,其中如果所述第二语法元素是上下文编解码的,则所述第二语法元素的至少一个仓的至少一个上下文独立于所述第一语法元素。
66.根据权利要求53所述的方法,其中所述第二语法元素在所述第一语法元素之前被包括在所述比特流中。
67.根据权利要求55所述的方法,还包括:
响应于所述第二语法元素被设置为所述第三值,并且所述第一语法元素未被包括在所述比特流中,基于所述MRL模式处理所述第一视频块。
68.根据权利要求67所述的方法,还包括:
响应于所述第一语法元素未被包括在所述比特流中,推断所述第一语法元素被设置为所述第二值。
69.根据权利要求55所述的方法,还包括:
响应于所述第二语法元素被设置为所述第三值,并且所述第一语法元素被设置为所述第二值,基于所述MRL模式处理所述第一视频块。
70.根据权利要求55所述的方法,其中如果所述第一语法元素是上下文编解码的,则所述第一语法元素的至少一个仓的至少一个上下文取决于所述第二语法元素。
71.根据权利要求70所述的方法,其中如果所述第二语法元素被设置为所述第三值,则所述第一语法元素利用第一数目的上下文被上下文编解码,并且如果所述第二语法元素被设置为所述第四值,则所述第一语法元素利用第二数目的上下文被上下文编解码。
72.根据权利要求71所述的方法,其中所述第一数目等于所述第二数目,并且所述第一数目的上下文不同于所述第二数目的上下文。
73.根据权利要求71所述的方法,其中所述第一数目等于所述第二数目,并且所述第一数目的上下文中的至少一个与所述第二数目的上下文中的至少一个相同。
74.根据权利要求55所述的方法,其中如果所述第一语法元素是上下文编解码的,则所述第一语法元素的至少一个仓的至少一个上下文独立于所述第二语法元素。
75.根据权利要求66所述的方法,其中在所述DIMD中使用多个IPM和/或多组IPM,并且所述第三语法元素被上下文编解码并且指示哪个IPM和/或哪组IPM被用于所述第一视频块,并且所述第三语法元素的上下文取决于所述第二语法元素。
76.根据权利要求75所述的方法,其中如果所述第二语法元素被设置为所述第三值,则所述第三语法元素利用第三数目的上下文被上下文编码,并且如果所述第二语法元素被设置为所述第四值,则所述第三语法元素利用第四数目的上下文被上下文编解码。
77.根据权利要求76所述的方法,其中所述第三数目等于所述第四数目,并且所述第三数目的上下文不同于所述第四数目的上下文。
78.根据权利要求76所述的方法,其中所述第三数目等于所述第四数目,并且所述第三数目的上下文中的至少一个与所述第四数目的上下文中的至少一个相同。
79.根据权利要求52所述的方法,其中所述至少一个语法元素包括第五语法元素,其指示所述第一视频块是否利用所述DIMD和所述MRL的所述组合被编解码。
80.根据权利要求79所述的方法,其中所述第五语法元素的第五值指示所述第一视频块利用所述DIMD和所述MRL的所述组合被编解码,并且所述第五语法元素的第六值指示所述第一视频块没有利用所述DIMD和所述MRL的所述组合被编解码,所述第五值不同于所述第六值。
81.根据权利要求80所述的方法,其中所述第五语法元素在第一语法元素或第二语法元素中的至少一个之前被包括在所述比特流中,所述第一语法元素指示所述第一视频块是否利用从所述DIMD导出的所述至少一个IPM编解码,并且所述第二语法元素指示用于所述第一视频块的参考行索引。
82.根据权利要求80所述的方法,其中如果所述第五语法元素被设置为所述第五值,则所述第一语法元素或所述第二语法元素中的至少一个不包括在所述比特流中。
83.根据权利要求79所述的方法,其中所述第五语法元素利用以下编解码技术之一被二值化:
定长编解码、截断的一元编解码、一元编解码或EG编解码,或
所述第五语法元素利用标志被编解码。
84.根据权利要求79所述的方法,其中所述第五语法元素是旁路编解码的。
85.根据权利要求79所述的方法,其中所述第五语法元素基于已编解码信息被上下文编解码,所述已编解码信息包括以下至少之一:
所述第一视频块的块维度,
所述第一视频块的块大小,
分片类型,
图片类型,
包括相对于所述第一视频块的至少一个相邻或非相邻视频块的邻近视频块的信息,
用于所述第一视频块的编解码工具的信息,或
时间层信息。
86.根据权利要求52所述的方法,其中所述第一视频块是否被允许利用所述DIMD和所述MRL的所述组合来编解码是基于至少一个语法元素来处理的。
87.根据权利要求86所述的方法,其中所述至少一个语法元素包括第六语法元素,其指示关于所述DIMD和所述MRL的所述组合的约束信息。
88.根据权利要求87所述的方法,其中所述第六语法元素的第七值指示允许所述DIMD和所述MRL的所述组合被用于处理所述第一视频块,并且所述第六语法元素的第八值指示不允许所述DIMD和所述MRL的所述组合被用于处理所述第一视频块,并且所述第七值不同于所述第八值。
89.根据权利要求84所述的方法,其中所述至少一个语法元素包括指示关于所述DIMD的约束信息的第七语法元素,以及指示关于所述MRL的约束信息的第八语法元素。
90.根据权利要求86所述的方法,其中如果所述第七语法元素被设置为第九值,或者如果所述第八语法元素被设置为第十值,则所述DIMD和所述MRL的所述组合不允许用于处理所述第一视频块。
91.根据权利要求86所述的方法,其中至少一个语法元素被包括在以下之一中:
序列报头、图片报头、序列参数集(SPS)、视频参数集(VPS)、解码参数集(DPS)、解码能力信息(DCI)、图片参数集(PPS)、适配参数集(APS)、分片报头、或图块组报头。
92.根据权利要求1至91中任一项所述的方法,其中所述转换包括从所述视频的所述比特流解码所述图片。
93.根据权利要求1至91中任一项所述的方法,其中所述转换包括将所述图片编码到所述视频的所述比特流中。
94.一种用于视频处理的装置,包括处理器和耦合到所述处理器并具有存储于其上的指令的非瞬态存储器,其中所述指令在被所述处理器执行时使所述处理器:
在视频的图片和所述视频的比特流之间的转换期间,基于解码器侧帧内预测模式导出(DIMD)和多参考行(MRL)的组合处理所述图片中的第一视频块,至少一个帧内预测模式(IPM)从所述DIMD被导出,并且针对所述第一视频块的重构样本的至少一个不相邻参考行在所述DIMD和MRL的所述组合中被使用;以及
基于所述第一视频块执行所述转换。
95.一种非瞬态计算机可读存储介质,存储有指令,使得处理器执行根据权利要求1至93中任一项所述的方法。
96.一种非瞬态计算机可读记录介质,存储有视频的比特流,所述比特流由用于视频处理的装置执行的方法生成,其中所述方法包括:
基于解码器侧帧内预测模式导出(DIMD)和多参考行(MRL)的组合处理所述视频的图片中的第一视频块,至少一个帧内预测模式(IPM)从所述DIMD被导出,并且针对所述第一视频块的重构样本的至少一个不相邻参考行在所述DIMD和MRL的所述组合中被使用;
基于所述第一视频块生成所述比特流。
97.一种用于存储视频的比特流的方法,包括:
基于解码器侧帧内预测模式导出(DIMD)和多参考行(MRL)的组合处理所述视频的图片中的第一视频块,至少一个帧内预测模式(IPM)从所述DIMD被导出,并且针对所述第一视频块的重构样本的至少一个不相邻参考行在所述DIMD和所述MRL的所述组合中被使用;
基于所述第一视频块生成所述比特流;以及
将所述比特流存储在非瞬态计算机可读记录介质中。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021094728 | 2021-05-19 | ||
CNPCT/CN2021/094728 | 2021-05-19 | ||
PCT/CN2022/093991 WO2022242727A1 (en) | 2021-05-19 | 2022-05-19 | Method, device, and medium for video processing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117581536A true CN117581536A (zh) | 2024-02-20 |
Family
ID=84140255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280036199.6A Pending CN117581536A (zh) | 2021-05-19 | 2022-05-19 | 用于视频处理的方法、设备和介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117581536A (zh) |
WO (1) | WO2022242727A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3453174A1 (en) * | 2016-05-06 | 2019-03-13 | VID SCALE, Inc. | Method and system for decoder-side intra mode derivation for block-based video coding |
US20170374369A1 (en) * | 2016-06-24 | 2017-12-28 | Mediatek Inc. | Methods and Apparatuses of Decoder Side Intra Mode Derivation |
WO2018132380A1 (en) * | 2017-01-13 | 2018-07-19 | Vid Scale, Inc. | Prediction approaches for intra planar coding |
WO2019007490A1 (en) * | 2017-07-04 | 2019-01-10 | Huawei Technologies Co., Ltd. | DECODER INTEGRATED MODE (DIMD) INTEGRATED DEVICE TOOL CALCULATION COMPLEXITY REDUCTION |
WO2019245261A1 (ko) * | 2018-06-18 | 2019-12-26 | 세종대학교 산학협력단 | 영상 부호화/복호화 방법 및 장치 |
-
2022
- 2022-05-19 WO PCT/CN2022/093991 patent/WO2022242727A1/en unknown
- 2022-05-19 CN CN202280036199.6A patent/CN117581536A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022242727A1 (en) | 2022-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022526991A (ja) | ビデオ処理方法、装置、記憶媒体、及び記録媒体 | |
WO2020182207A1 (en) | Partitions on sub-block transform mode | |
CN113728642A (zh) | 编解码视频的量化残差差分脉冲编解码调制表示 | |
JP2023164589A (ja) | フィルタリングを用いた行列ベースイントラ予測 | |
CN113796069B (zh) | 使用量化残差差分脉冲编解码调制编解码的帧内编解码视频 | |
CN114765686A (zh) | 基于多个帧内预测模式的解码或编解码图像的技术 | |
WO2022214028A1 (en) | Method, device, and medium for video processing | |
CN115668923A (zh) | 编解码视频中多重变换矩阵的指示 | |
JPWO2020211807A5 (zh) | ||
WO2023016408A1 (en) | Method, apparatus, and medium for video processing | |
CN115606182A (zh) | 使用增强二次变换的编解码视频处理 | |
CN117581536A (zh) | 用于视频处理的方法、设备和介质 | |
CN117581544A (zh) | 用于视频处理所述的方法、设备和介质 | |
WO2022218316A1 (en) | Method, device, and medium for video processing | |
CN117769836A (zh) | 用于视频处理的方法、设备和介质 | |
WO2022247884A1 (en) | Method, device, and medium for video processing | |
WO2023016424A1 (en) | Method, apparatus, and medium for video processing | |
WO2023016439A1 (en) | Method, apparatus, and medium for video processing | |
CN118044182A (zh) | 用于视频处理的方法、设备和介质 | |
WO2023051532A1 (en) | Method, device, and medium for video processing | |
US20240137529A1 (en) | Method, device, and medium for video processing | |
WO2023030504A1 (en) | Method, device, and medium for video processing | |
WO2024030926A9 (en) | Method, apparatus, and medium for video processing | |
WO2023208057A1 (en) | Method, apparatus, and medium for video processing | |
WO2024061331A1 (en) | Method, apparatus, and medium for video processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |