CN114641996A

CN114641996A - 上下文自适应变换集合

Info

Publication number: CN114641996A
Application number: CN202180006246.8A
Authority: CN
Inventors: 赵欣; 马杜·柏林加色·克里什南; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2020-09-10
Filing date: 2021-06-29
Publication date: 2022-06-17
Also published as: US20230118056A1; EP4042688A4; JP2023508364A; JP7500732B2; WO2022055599A1; EP4042688A1; US11683490B2; US20220078423A1; KR20220077931A

Abstract

提供已编码比特流的编解码方法、系统。方法包括：从已编码比特流中，解码得到图片的块。所述解码包括：基于至少一个相邻已重建样本，选择变换集合，其中，所述至少一个相邻已重建样本来自至少一个先前已解码的相邻块，或者来自先前已解码的图片；及，使用所述变换集合中的变换，对所述块的系数执行逆变换。

Description

上下文自适应变换集合

交叉引用

本申请要求于2021年6月22日提交美国专利局、申请号为17/354,731的美国正式申请的优先权，于2020年9月10日提交美国专利局、申请号为63/076,817的美国临时申请的优先权，以及于2020年9月11日提交美国专利局、申请号为63/077,381的美国临时申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及先进的视频编解码技术，尤其涉及主变换和二次变换的集合选择方案。

背景技术

AOMedia Video 1(AV1)是为因特网上传输的视频而设计的开放视频编解码格式。它作为VP9的后继者，是由开放媒体联盟(AOMedia)开发的，该联盟是在2015年创立的联合企业，包括半导体公司、视频点播提供商、视频内容制作商、软件开发公司和web浏览器供应商。AV1项目的许多组成部分，来源于联盟成员先前的研究工作。个体贡献者在几年前开始开发实验技术平台：Xiph/Mozilla的Daala于2010年公布代码，谷歌(Google)的实验性VP9进化项目VP10于2014年9月12日宣布，思科(Cisco)的Thor于2015年8月11日公布。建立在VP9的代码库上，AV1结合了附加的技术，其中的几种是以上述这些实验的形式开发的。AV1参考编解码器的第一个版本(版本0.1.0)于2016年4月7日公布。该联盟于2018年3月28日发行了AV1码流的规范以及基于软件的编码器和解码器，作为参考。2018年6月25日，发行了规范的确认版本1.0.0。2019年1月8日，发行了“AV1码流和解码过程规范”，其是规范的确认版本1.0.0，其中包含勘误表1。AV1码流规范包括参考视频编解码器。开放媒体联盟(2019年1月8日)的“AV1码流和解码过程规范”(版本1.0.0，其中包含勘误表1)通过引用整体并入本文。

高效率视频编解码(HEVC)标准由ITU-T视频编解码专家组(VCEG)和ISO/IEC运动图像专家组(MPEG)标准化组织联合开发。为了开发HEVC标准，这两个标准化组织以合伙关系一起工作，被称为视频编解码联合协作小组(JCT-VC)。HEVC标准的第一版于2013年1月完成，由ITU-T和ISO/IEC两者公布了统一文本。此后，组织附加工作来扩展标准以支持若干附加应用场景，包括具有增强精度和色彩格式支持的扩展范围使用、可伸缩视频编解码和3-D/立体/多视图视频编解码。在ISO/IEC中，HEVC标准变成MPEG-H第2部分(ISO/IEC 23008-2)，并且在ITU-T中其变成ITU-T建议H.265。HEVC标准的规范“H系列：视听和多媒体系统、视听业务的基础设施-运动视频的编解码”、ITU-T H.265、国际电信联盟(2015年4月)通过引用整体并入本文。

ITU-T VCEG(Q6/16)和ISO/IEC MPEG(JTC 1/SC 29/WG 11)在2013年(版本1)、2014年(版本2)、2015年(版本3)和2016年(版本4)中公布了H.265/HEVC(高效率视频编解码)标准。从那时起，他们一直在研究对未来视频编解码技术标准化的潜在需要，该技术在压缩能力方面明显优于HEVC。2017年10月，他们发布了关于性能超过HEVC的视频压缩的联合提案(CfP)。截至2018年2月15日，分别提交了22份标准动态范围(SDR)的CfP响应、12份高动态范围(HDR)的CfP响应和12份360视频类别的CfP响应。2018年4月，在122MPEG/10th联合视频探索小组-联合视频专家小组(JVET)会议中评估所有接收到的CfP响应。通过仔细评估，JVET正式推出了超出HEVC的下一代视频编解码(即所谓的通用视频编解码(VVC))的标准化。VVC标准的规范，“通用视频编解码(草案7)”，JVET-P2001-vE，联合视频专家小组(2019年10月)，通过引用整体并入本文。另一个VVC标准的规范，“通用视频编解码(草案10)”，JVET-S2001-vE，联合视频专家小组(2020年7月)，通过引用整体并入本文。

发明内容

根据本申请实施例，提供了使用相邻已重建样本进行主变换和二次变换的集合选择方案。根据本申请实施例，针对图片和视频压缩，提供了基于神经网络的变换集合选择方案。

根据本申请实施例，一种方法，由至少一个处理器执行，包括：

接收已编码比特流；

对所述已编码比特流中图片的块进行解码，具体包括：

基于至少一个相邻已重建样本，选择变换集合，其中，所述至少一个相邻已重建样本来自至少一个先前已解码的相邻块，或者来自先前已解码的图片；及，

使用所述变换集合中的变换，对所述块的系数执行逆变换。

根据本申请实施例，所述选择变换集合，进一步基于预测模式的已编码信息。

根据本申请实施例，所述已编码信息是指帧间预测模式的已编码信息。

根据本申请实施例，所述选择变换集合，包括：基于第一已编码信息，从一组变换集合中选择变换集合的子组；从所述子组中，选择所述变换集合。

根据本申请实施例，所述从所述子组中，选择所述变换集合，包括：基于第二已编码信息，选择所述变换集合；所述方法进一步包括：基于在所述已编码比特流中标识的索引值，从所述变换集合中，选择变换候选。

根据本申请实施例，所述至少一个相邻已重建样本包括来自所述至少一个先前已解码的相邻块的已重建样本。

根据本申请实施例，所述选择变换集合，包括：从一组变换集合中选择所述变换集合，其中，所述一组变换集合仅包括二次变换核。

根据本申请实施例，所述二次变换核是不可分离的。

根据本申请实施例，所述选择变换集合，包括：将所述至少一个相邻已重建样本的信息，输入到神经网络；基于所述神经网络输出的索引，对所述变换集合进行标识。

根据本申请实施例，所述变换集合为二次变换。

根据本申请实施例，一种系统，包括：

至少一个存储器，用于存储程序代码；

至少一个处理器，用于读取所述程序代码，并且根据所述程序代码的指令进行操作，所述程序代码包括解码代码，用于使得所述至少一个处理器，对接收到的已编码比特流中图片的块进行解码；

所述解码代码包括：

变换集合选择代码，用于使得所述至少一个处理器，基于至少一个相邻已重建样本，选择变换集合，其中，所述至少一个相邻已重建样本来自至少一个先前已解码的相邻块，或者来自先前已解码的图片；

变换代码，用于使得所述至少一个处理器，使用所述变换集合中的变换，对所述块的系数执行逆变换。

根据本申请实施例，所述变换集合选择代码用于，使得所述至少一个处理器，基于第一已编码信息，从一组变换集合中选择变换集合的子组；从所述子组中，选择所述变换集合。

根据本申请实施例，所述变换集合选择代码用于，使得所述至少一个处理器，基于第二已编码信息，选择所述变换集合；

所述解码代码进一步包括变换选择代码，用于使得所述至少一个处理器，基于在所述已编码比特流中标识的索引值，从所述变换集合中，选择变换候选。

根据本申请实施例，所述变换集合选择代码用于，使得所述至少一个处理器，从一组变换集合中选择所述变换集合，其中，所述一组变换集合仅包括二次变换核。

根据本申请实施例，所述二次变换核是不可分离的。

根据本申请实施例，所述变换集合选择代码用于，使得所述至少一个处理器，将所述至少一个相邻已重建样本的信息，输入到神经网络；基于所述神经网络输出的索引，对所述变换集合进行标识。

根据本申请实施例，一种非暂时性计算机可读介质，其上存储有计算机指令，所述计算机指令由至少一个处理器执行时，使得所述至少一个处理器，对接收到的已编码比特流中图片的块进行解码，具体包括：

使用所述变换集合中的变换，对所述块的系数执行逆变换。

附图说明

根据以下详细描述和附图，所公开的主题的其他特征、性质和各种优点将进一步明确，其中：

图1示出了根据本申请实施例的通信系统的简化示意图；

图2示出了根据本申请实施例的通信系统的简化示意图；

图3示出了根据本申请实施例的关于解码器的简化框图；

图4示出了根据本申请实施例的关于编码器的简化框图；

图5A示出了VP9的第一示例分区结构的示意图；

图5B示出了VP9的第二示例分区结构的示意图；

图5C示出了VP9的第三示例分区结构的示意图；

图5D示出了VP9的第四示例分区结构的示意图；

图6A示出了AV1的第一示例分区结构的示意图；

图6B示出了AV1的第二示例分区结构的示意图；

图6C示出了AV1的第三示例分区结构的示意图；

图6D示出了AV1的第四示例分区结构的示意图；

图6E示出了AV1的第五示例分区结构的示意图；

图6F示出了AV1的第六示例分区结构的示意图；

图6G示出了AV1的第七示例分区结构的示意图；

图6H示出了AV1的第八示例分区结构的示意图；

图6I示出了AV1的第九示例分区结构的示意图；

图6J示出了AV1的第十示例分区结构的示意图；

图7示出了AV1的八个标称角度的示意图；

图8示出了当前块和样本的示意图；

图9示出了示例递归帧内滤波模式的示意图；

图10示出了与编码块单元相邻的参考线的示意图；

图11示出了AV1混合变换核及其可用性的表格的示意图；

图12示出了低频不可分离变换过程的示意图；

图13示出了矩阵的示例；

图14示出了解释核和图片的二维卷积的示意图；

图15示出了图像的小块的最大池化的示意图；

图16A示出了第一帧间解码过程的示意图；

图16B示出了第二帧间解码过程的示意图；

图17示出了卷积神经网络滤波器结构示例的示意图；

图18示出了深度残差网络示例的示意图；

图19示出了深度残差单元结构示例的示意图；

图20示出了第一过程的示意图；

图21示出了第二过程的示意图；

图22示出了从帧间预测模式到变换集合索引的映射表；

图23A示出了根据比较示例的第一残差模式的示例；

图23B示出了根据比较示例的第二残差模式的示例；

图23C示出了根据比较示例的第三残差模式的示例；

图23D示出了根据比较示例的第四残差模式的示例；

图24示出了根据本申请实施例的解码器的框图；以及

图25示出了根据本申请实施例的计算机系统的框图。

具体实施方式

在本申请中，术语“块”可以被理解为预测块、编码块或编码单元(CU)。术语“块”在这里也可以用于指变换块。

在本申请中，术语“变换集合”是指一组变换核(或候选)选项。变换集合可以包括一个或多个变换核(或候选)选项。根据本申请的实施例，当多于一个变换选项可用时，可以发信号通知索引，以指示变换集合中的变换选项中的哪一个应用于当前块。

在本申请中，术语“预测模式集合”是指一组预测模式选项。预测模式集合可以包括一个或多个预测模式选项。根据本申请的实施例，当多于一个预测模式选项可用时，可以进一步发信号通知索引，以指示预测模式集合中的预测模式选项中的哪一个应用于当前块以执行预测。

在本申请中，术语“相邻已重建样本集合”是指来自先前已解码的相邻块的一组重建样本或先前已解码的图片中的重建样本。

在本申请中，术语“神经网络”是指具有一个或多个层的数据处理结构的一般概念，如本文中“视频编解码的深度学习”所描述的。根据本申请的实施例，任何神经网络可以被配置为实施这些实施例。

图1是根据本申请公开的实施例的通信系统(100)的简化框图。通信系统(100)包括至少两个终端装置(110，120)，经由网络(150)互相连接。对于单向数据传输，第一终端(110)在本地位置上对视频数据进行编码，然后通过网络(150)传输到另一终端(120)。第二终端102从网络(150)接收另一终端已编码的视频数据，对已编码视频数据进行解码，并显示恢复的视频数据。单向数据传输在媒体服务等应用中是较常见的。

图1示出能够支持已编码视频的双向传输的第二对终端(130，140)，所述双向传输例如发生在视频会议期间。对于双向数据传输，每个终端(130，140)在本地位置上对采集的视频数据进行编码，然后通过网络(150)传输到另一终端。每个终端(130，140)还可接收由另一终端发送的已编码视频数据，对已编码视频数据进行解码，并在本地显示设备上显示恢复的视频数据。

在图1中，终端(110-140)可为服务器、个人计算机和智能电话，和/或其他类型的终端。例如，终端(110-140)为膝上型计算机、平板电脑、媒体播放器和/或专用视频会议设备。网络(150)表示在终端(110-140)之间传送已编码视频数据的任何数目的网络，包括例如有线和/或无线通信网络。通信网络(150)可在电路交换和/或分组交换信道中交换数据。代表性网络可包括电信网络、局域网、广域网和/或互联网。出于本申请的目的，除非在下文中有所解释，否则网络(150)的架构和拓扑对于本申请公开的操作来说可能是无关紧要的。

作为本申请所公开的主题的一个示例，图2示出视频编码器和视频解码器在流式环境中的放置方式。本申请所公开主题可同等地适用于其它支持视频的应用，包括例如视频会议、数字TV、在包括CD、DVD、存储棒等的数字介质上存储压缩视频等等。

如图2所示，流式传输系统(200)可包括采集子系统(213)，所述采集子系统可包括视频源(201)和编码器(203)。视频源(201)例如为数码相机，可以用于创建未压缩的视频样本流(202)。相较于已编码的视频码流，样本流(202)可以提供高的数据量，并且可以由耦接到摄像机(201)的编码器(203)来处理。编码器(203)可包括硬件、软件或软硬件组合以实现或实施如下文更详细地描述的所公开主题的各方面。相较于样本流，已编码的视频码流204包括较低的数据量，其可存储在流式传输服务器(205)上以供将来使用。至少一个流式传输客户端(206)可访问流式传输服务器(205)以检索已编码的视频比特流(204)的副本209。

在本申请实施例中，流式传输服务器(205)还可以在功能上作为媒体感知网络单元(MANE)。例如，流式传输服务器(205)可以被配置为删减(prune)已编码的视频比特流(204)以适应发送给流式传输客户端(206)的可能不同的比特流。在本申请实施例中，在流式传输系统(200)中，可以分别提供MANE和流式传输服务器(205)。

流式传输客户端(206)包括视频解码器(210)和显示器(212)。视频解码器(210)，例如，可以对视频比特流(209)进行解码，视频比特流(209)是已编码的视频比特流(204)的传入副本，且产生可在显示器(212)或另一呈现装置(未描绘)上呈现的输出视频样本流(211)。在一些流式传输系统中，可根据某些视频编码/压缩标准，对视频比特流(204、209)进行编码。该些标准的示例包括，但不限于，ITU-T建议H.265。正在进行的视频编解码标准，通俗地被称为通用视频编解码(VVC)。本申请实施例将用于VVC的上下文中。

图3是根据本申请公开的实施例的附属于显示器(212)的视频解码器(210)的框图。

视频解码器(210)包括信道(312)、接收器(310)、缓冲存储器(315)、熵解码器/解析器(320)、缩放器/逆变换单元(351)、帧内预测单元(352)、运动补偿预测单元(353)、聚合器(355)、环路滤波(356)、参考图片存储器(357)、和当前图片存储器(358)。在至少一个实施例中，视频解码器(210)包括集成电路、集成电路集合，和/或其他电子线路。视频解码器(210)也可以部分或全部地由运行在与存储器相关联的至少一个CPU上的软件来体现。

在本实施例以及其他实施例中，接收器(310)可接收将由解码器(210)解码的至少一个已编码视频序列；一次接收一个已编码视频序列，其中，每个已编码视频序列的解码独立于其它已编码视频序列。可从信道(312)接收已编码视频序列，所述信道可以是通向存储已编码的视频数据的存储装置的硬件/软件链路。接收器(310)可接收已编码的视频数据以及其它数据，例如，可转发到它们各自的使用实体(未标示)的已编码音频数据和/或辅助数据流。接收器(310)可将已编码视频序列与其它数据分开。为了防止网络抖动，缓冲存储器(315)可耦接在接收器(310)与熵解码器/解析器(320)(此后称为“解析器(320)”)之间。当接收器(310)从具有足够带宽和可控性的存储/转发装置或从等时同步网络接收数据时，也可能不需要配置缓冲存储器(315)，或可以将所述缓冲存储器做得较小。为了在互联网等业务分组网络上使用，也可能需要缓冲存储器(315)，所述缓冲存储器可相对较大且可具有自适应性大小。

视频解码器(210)可包括解析器(320)以根据已编码视频序列重建符号(321)。这些符号的类别包括用于管理解码器(210)的操作的信息，以及用以控制显示器(212)等显示装置的潜在信息，所述显示装置可耦接到解码器，如图2所示。用于显示装置的控制信息可以是辅助增强信息(Supplemental Enhancement Information，SEI消息)或视频可用性信息(Video Usability Information，VUI)的参数集片段(未标示)。解析器(320)可对接收到的已编码视频序列进行解析/熵解码。已编码视频序列的编码可根据视频编码技术或标准进行，且可遵循本领域技术人员熟知的各种原理，包括可变长度编码、霍夫曼编码(Huffmancoding)、具有或不具有上下文灵敏度的算术编码等等。解析器(320)可基于对应于群组的至少一个参数，从已编码视频序列提取用于视频解码器中的像素的子群中的至少一个子群的子群参数集。子群可包括图片群组(Group of Pictures，GOP)、图片、图块、分片、宏块、编码单元(Coding Unit，CU)、块、变换单元(Transform Unit，TU)、预测单元(PredictionUnit，PU)等等。解析器(320)还可从已编码视频序列提取信息，例如变换系数、量化器参数值、运动矢量等等。

解析器(320)可对从缓冲存储器(315)接收的视频序列执行熵解码/解析操作，从而创建符号(321)。

符号(321)的重建可涉及多个不同的单元，依赖于已编码视频图片的类型，或者部分已编码视频图片(诸如，帧内图片、帧间图片、帧内块、帧间块)，以及其他因素。涉及哪些单元以及涉及方式可由解析器(320)从已编码视频序列解析出的子群控制信息控制。为了简洁起见，未描述解析器(320)与下文多个单元之间的此类子群控制信息流。

除已经提及的功能块以外，解码器(210)可在概念上细分成如下文所描述的数个功能单元。在商业约束下运行的实际实施中，这些单元中的许多单元彼此紧密交互，并且，至少可以部分地，彼此集成在一起。然而，出于描述所公开主题的目的，概念上细分成下文的功能单元是适当的。

一个单元是缩放器/逆变换单元(351)。缩放器/逆变换单元(351)从解析器(320)接收作为符号(321)的量化变换系数以及控制信息，包括使用哪种变换方式、块大小、量化因子、量化缩放矩阵等。缩放器/逆变换单元(351)可输出包括样本值的块，所述样本值可输入到聚合器(355)中。

在一些情况下，缩放器/逆变换单元(351)的输出样本可属于帧内编码块；即：不使用来自先前已重建的图片的预测性信息，但可使用来自当前图片的先前已重建部分的预测性信息的块。此类预测性信息可由帧内图片预测单元(352)提供。在一些情况下，帧内图片预测单元(352)采用从来自当前图片存储器(358)的当前(已部分重建)图片309提取的已重建信息，生成大小和形状与正在重建的块相同的周围块。在一些情况下，聚合器(355)基于每个样本，将帧内预测单元(352)生成的预测信息添加到由缩放器/逆变换单元(351)提供的输出样本信息中。

在其它情况下，缩放器/逆变换单元(351)的输出样本可属于帧间编码和潜在运动补偿块。在此情况下，运动补偿预测单元(353)可访问参考图片存储器(357)以提取用于预测的样本。在根据符号(321)对提取的样本进行运动补偿之后，这些样本可由聚合器(355)添加到缩放器/逆变换单元(351)的输出(在这种情况下被称作残差样本或残差信号)，从而生成输出样本信息。运动补偿预测单元(353)从参考图片存储器(357)内的地址获取预测样本可由运动矢量控制，且所述运动矢量以所述符号(321)的形式而供运动补偿预测单元(353)使用，所述符号(321)例如是包括X、Y和参考图片分量。运动补偿还可包括在使用子样本精确运动矢量时，从参考图片存储器(357)提取的样本值的内插、运动矢量预测机制等等。

聚合器(355)的输出样本可在环路滤波器单元(356)中被各种环路滤波技术采用。视频压缩技术可包括环路内滤波器技术，所述环路内滤波器技术受控于包括在已编码视频序列(也称作已编码视频码流)中的参数，且所述参数作为来自解析器(320)的符号(321)可用于环路滤波器单元(356)。然而，在其他实施例中，视频压缩技术还可响应于在解码已编码图片或已编码视频序列的先前(按解码次序)部分期间获得的元信息，以及响应于先前已重建且经过环路滤波的样本值。

环路滤波器单元(356)的输出可以是样本流，所述样本流可输出到显示器(212)312以及存储在参考图片存储器(357)，以用于后续的帧间图片预测。

一旦完全重建，某些已编码图片就可用作参考图片以用于将来预测。举例来说，一旦对应于当前图片的已编码图片被完全重建，且已编码图片(通过例如解析器(320))被识别为参考图片，则当前参考图片可变为参考图片存储器(357)的一部分，且可在开始重建后续已编码图片之前重新分配新的当前图片缓冲器。

视频解码器(210)可根据例如ITU-T H.265标准中的预定视频压缩技术执行解码操作。在已编码视频序列遵循视频压缩技术或标准的语法以及视频压缩技术或标准中记录的配置文件的意义上，已编码视频序列可符合所使用的视频压缩技术或标准指定的语法。具体地说，配置文件可从视频压缩技术或标准中可用的所有工具中选择某些工具作为在所述配置文件下可供使用的仅有工具。对于合规性，还要求已编码视频序列的复杂度处于视频压缩技术或标准的层级所限定的范围内。在一些情况下，层级限制最大图片大小、最大帧率、最大重建取样率(以例如每秒兆(mega)个样本为单位进行测量)、最大参考图片大小等。在一些情况下，由层级设定的限制可通过假想参考解码器(Hypothetical ReferenceDecoder，HRD)规范和在已编码视频序列中用信号表示的HRD缓冲器管理的元数据来进一步限定。

在一实施例中，接收器(310)可连同已编码视频一起接收附加(冗余)数据。所述附加数据可以是已编码视频序列的一部分。所述附加数据可由视频解码器(210)用以对数据进行适当解码和/或较准确地重建原始视频数据。附加数据可呈例如时间、空间或信噪比(signal noise ratio，SNR)增强层、冗余分片、冗余图片、前向纠错码等形式。

图4是根据本申请公开的实施例的与视频源(201)相关联的视频编码器(203)的框图。

视频编码器(203)可以包括，例如，作为源编码器(430)的编码器、编码引擎(432)、(本地)解码器(433)、参考图片存储器(434)、预测器(435)、传输器(440)、熵编码器(445)、控制器(450)和信道(460)。

视频编码器(203)可从视频源(201)(并非编码器的一部分)接收视频样本，所述视频源可采集将由编码器(203)编码的视频图像。

视频源(201)可提供将由编码器(203)编码的呈数字视频样本流形式的源视频序列，所述数字视频样本流可具有任何合适位深度(例如：8位、10位、12位……)、任何色彩空间(例如BT.601 Y CrCB、RGB……)和任何合适取样结构(例如Y CrCb 4:2:0、Y CrCb 4:4:4)。在媒体服务系统中，视频源(201)可以是存储先前已准备的视频的存储装置。在视频会议系统中，视频源(201)可以是采集本地图像信息作为视频序列的相机。可将视频数据提供为至少两个单独的图片，当按顺序观看时，这些图片被赋予运动。图片自身可构建为空间像素阵列，其中取决于所用的取样结构、色彩空间等，每个像素可包括至少一个样本。所属领域的技术人员可以很容易理解像素与样本之间的关系。下文侧重于描述样本。

根据本申请实施例，编码器(203)可实时或在由应用所要求的任何其它时间约束下，将源视频序列的图片编码且压缩成已编码视频序列(443)。施行适当的编码速度是控制器(450)的一个功能。控制器(450)还可以控制其他的功能单元，如下所述，并且可以在功能上与这些单元相耦接。为了简洁起见，图中未标示耦接。由控制器(450)设置的参数可包括速率控制相关参数(图片跳过、量化器、率失真优化技术的λ值等)、图片大小、图片群组(group of pictures，GOP)布局，最大运动矢量搜索范围等。控制器(450)可用于具有其它合适的功能，这些功能涉及针对某一系统设计优化的视频编码器(203)。

一些视频编码器在本领域技术人员所称的“编码环路”中进行操作。作为简单的描述，在一实施例中，编码环路可包括源编码器(430)中的编码部分(之后称为“源编码器”)(负责基于待编码的输入图片和参考图片创建符号)和嵌入于编码器(203)中的(本地)解码器(433)。解码器(433)以类似于(远程)解码器创建样本数据的方式重建符号以创建样本数据(因为在本申请所考虑的视频压缩技术中，符号与已编码视频码流之间的任何压缩是无损的)。将重建的样本流(样本数据)输入到参考图片存储器(434)。由于符号流的解码产生与解码器位置(本地或远程)无关的位精确结果，因此参考图片存储器内容在本地编码器与远程编码器之间也是按比特位精确对应的。换句话说，编码器的预测部分“看到”的参考图片样本与解码器将在解码期间使用预测时所“看到”的样本值完全相同。这种参考图片同步性的基本原理(以及在例如因信道误差而无法维持同步性的情况下产生的漂移)是本领域技术人员所熟知的。

“本地”解码器(433)的操作可与例如已在上文结合图3详细描述的“远程”解码器(210)相同。然而，当符号可用、且熵编码器(445)和解析器(320)能够无损地将符号编码/解码为已编码视频序列时，解码器(210)的熵解码部分，包括信道(312)、接收器(310)、缓冲存储器(315)和解析器(320)，可能无法完全在本地解码器(433)中实施。

此时可以观察到，除存在于解码器中的解析/熵解码之外的任何解码器技术，也必定以基本上相同的功能形式存在于对应的编码器中。出于此原因，本申请侧重于解码器操作。可简化编码器技术的描述，因为编码器技术与全面地描述的解码器技术互逆。仅在某些区域中需要更详细的描述，并且在下文提供。

在操作期间，在一些实施例中，源编码器(430)可执行运动补偿预测编码。参考来自视频序列中被指定为“参考图片”的至少一个先前已编码图片，所述运动补偿预测编码对输入图片进行预测性编码。以此方式，编码引擎(432)对输入图片的像素块与参考图片的像素块之间的差异进行编码，所述参考图片可被选作所述输入图片的预测参考。

本地视频解码器(433)可基于源编码器(430)创建的符号，对可指定为参考图片的图片的已编码视频数据进行解码。编码引擎(432)的操作可为有损过程。当已编码视频数据可在视频解码器(图4中未示)处被解码时，重建的视频序列通常可以是带有一些误差的源视频序列的副本。本地视频解码器(433)复制解码过程，所述解码过程可由视频解码器对参考图片执行，且可使重建的参考图片存储在参考图片存储器(434)中。以此方式，视频编码器(203)可在本地存储重建的参考图片的副本，所述副本与将由远端视频解码器获得的重建参考图片具有共同内容(不存在传输误差)。

预测器(435)可针对编码引擎(432)执行预测搜索。即，对于将要编码的新图片，预测器(435)可在参考图片存储器(434)中搜索可作为所述新图片的适当预测参考的样本数据(作为候选参考像素块)或某些元数据，例如参考图片运动矢量、块形状等。预测器(435)可基于样本块逐像素块操作，以找到合适的预测参考。在一些情况下，根据预测器(435)获得的搜索结果，可确定输入图片可具有从参考图片存储器(434)中存储的至少两个参考图片取得的预测参考。

控制器(450)可管理源编码器(430)的编码操作，包括例如设置用于对视频数据进行编码的参数和子群参数。

可在熵编码器(445)中对所有上述功能单元的输出进行熵编码。熵编码器根据本领域技术人员所熟知的技术，例如霍夫曼编码、可变长度编码、算术编码等，对各种功能单元生成的符号进行无损压缩，从而将各种功能单元生成的符号转换成已编码视频序列。

传输器(440)可缓冲由熵编码器(445)创建的已编码视频序列，从而为通过通信信道(460)进行传输做准备，所述通信信道可以是通向将存储已编码的视频数据的存储设备的硬件/软件链路。传输器(440)可将来自视频编码器(430)的已编码视频数据与要传输的其它数据合并，所述其它数据例如是已编码音频数据和/或辅助数据流(未示出来源)。

控制器(450)可管理编码器(203)的操作。在编码期间，控制器(450)可以为每个已编码图片分配某一已编码图片类型，但这可能影响可应用于相应的图片的编码技术。例如，通常可将图片分配为帧内图片(I图片)、预测性图片(P图片)，或双向预测性图片(B图片)。

帧内图片(I图片)，其可以是不将序列中的任何其它图片用作预测源就可被编码和解码的图片。一些视频编解码器容许不同类型的帧内图片，包括例如独立解码器刷新(Independent Decoder Refresh，“IDR”)图片。所属领域的技术人员了解I图片的变体及其相应的应用和特征。

预测性图片(P图片)，其可以是可使用帧内预测或帧间预测进行编码和解码的图片，所述帧内预测或帧间预测使用至多一个运动矢量和参考索引来预测每个块的样本值。

双向预测性图片(B图片)，其可以是可使用帧内预测或帧间预测进行编码和解码的图片，所述帧内预测或帧间预测使用至多两个运动矢量和参考索引来预测每个块的样本值。类似地，至少两个预测性图片可使用多于两个参考图片和相关联元数据以用于重建单个块。

源图片通常可在空间上细分成至少两个样本块(例如，4×4、8×8、4×8或16×16个样本的块)，且逐块进行编码。这些块可参考其它(已编码)块进行预测编码，根据应用于块的相应图片的编码分配来确定所述其它块。举例来说，I图片的块可进行非预测编码，或所述块可参考同一图片的已编码的块来进行预测编码(空间预测或帧内预测)。P图片的像素块可参考一个先前编码的参考图片通过空间预测或通过时域预测进行预测编码。B图片的块可参考一个或两个先前编码的参考图片通过空间预测或通过时域预测进行预测编码。

视频编码器(203)可根据例如ITU-T H.265建议书的预定视频编码技术或标准执行编码操作。在操作中，视频编码器(203)可执行各种压缩操作，包括利用输入视频序列中的时间和空间冗余的预测编码操作。因此，已编码视频数据可符合所用视频编码技术或标准指定的语法。

在实施例中，传输器(440)可以发送已编码的视频以及附加数据。视频编码器(430)可以包括这些数据，作为已编码视频序列的一部分。所述附加数据可以包括时/空/信噪比(signal noise ratio，SNR)增强层、其他类型的冗余数据，诸如冗余冗余和分片、辅助增强信息(Supplemental Enhancement Information，SEI消息)或视频可用性信息(VideoUsability Information，VUI)，等等。

[在VP9和AV1中的编码块分区}

参考图5A至图5D的分区结构(502)至(508)，VP9使用4路分区树，从64×64级开始向下到4×4级，对块8×8有一些附加限制。注意，图5D中表示为R的分区是指递归，其中，以较低的比例重复相同的分区树，直到达到最低的4×4级。

参考图6A至图6J的分区结构(511)至(520)，AV1不仅将分区树扩展为10路结构，而且将最大尺寸(在VP9/AV1用语中称为超级块)增大，从128×128开始。注意，这包括VP9中不存在的4:1/1:4矩形分区。如图6C至图6F所示，具有3个子分区的分区类型被称为“T型”分区。没有一个矩形分区可以被进一步细分。除了编码块尺寸之外，可以定义编码树深度以指示从根节点进行分割的深度。具体地，将根节点的编码树深度(例如128×128)设置为0，并且在将树块进一步分割一次之后，将编码树深度增加1。

代替如VP9中那样强制固定的变换单元尺寸，AV1允许将亮度编码块分区成多个尺寸的变换单元，该多个尺寸的变换单元可以表示为由向下递归分区，直到2级。为了合并AV1的扩展编码块分区，可以支持正方形，2:1/1:2，和4:1/1:4，变换尺寸从4×4到64×64。对于色度块，仅允许最大可能的变换单元。

[在HEVC中的块分区]

在HEVC中，可以使用表示为编码树的四叉树(QT)结构，将编码树单元(CTU)分割成编码单元(CU)，以适应各种局部特性。可以在CU级作出决策：是否使用图片间(时间)预测或图片内(空间)预测来对图片区域进行编码。可以根据PU分割类型，将每个CU进一步分割成一个、两个或四个预测单元(PU)。在一个PU内，可以应用相同的预测过程，并且在PU的基础上，将相关信息发送到解码器。在应用基于PU分割类型的预测过程来获取残差块之后，可以根据另一四叉树结构(如CU的编码树)，将CU分区成变换单元(TU)。HEVC结构的关键特征之一是其具有包括CU、PU和TU的多个分区概念。在HEVC中，CU或TU可以仅具有正方形形状，而PU可以具有用于帧间预测块的正方形或矩形形状。在HEVC中，可以将一个编码块进一步分割成四个正方形子块，并且对每个子块(即TU)执行变换。每个TU可以被进一步递归地分割(使用四叉树分割)成更小的TU，其被称为残差四叉树(RQT)。

在图片边界处，HEVC采用隐式四叉树分割，使得块将保持四叉树分割，直到尺寸适合该图片边界。

[具有在VVC中嵌套多类型树编码块结构的四叉树]

在VVC中，四叉树，具有使用二元和三元分割结构的嵌套多类型树，代替了多个分区单元类型的概念。即，VVC不包括CU、PU和TU概念的分离，除了对于一些CU，其尺寸对于最大变换长度来说太大之外，并且VVC支持CU分区形状具备更多的灵活性。在编码树结构中，CU可以具有正方形形状或矩形形状。编码树单元(CTU)首先被四叉树(quaternary tree)(又称作四叉树(quad tree))结构分区。然后，可以通过多类型树结构进一步对四叉树叶节点进行分区。在多类型树结构中存在四种分割类型：垂直二元分割(SPLIT_BT_VER)、水平二元分割(SPLIT_BT_HOR)、垂直三元分割(SPLIT_TT_VER)和水平三元分割(SPLIT_TT_HOR)。多类型树叶节点可以被称为编码单元(CU)，除非对于最大变换长度来说CU太大，否则该分段可以用于预测和变换处理，而无需任何进一步的分区。这意味着，在大多数情况下，在具有嵌套多类型树编码块结构的四叉树中，CU、PU和TU具有相同的块尺寸。有一个例外是，当最大支持变换长度小于CU的颜色分量的宽度或高度。块分区的一个示例是，使用四叉树分区和多类型树分区，将CTU划分为具有四叉树和嵌套多类型树编码块结构的多个CU。具有嵌套多类型树分区的四叉树，提供包括CU的内容自适应编码树结构。

在VVC中，最大支持亮度变换尺寸是64×64，最大支持色度变换尺寸是32×32。当CB的宽度或高度大于最大变换宽度或高度时，CB可以在水平和/或垂直方向上自动分割，以满足该方向上的变换尺寸限制。

在VTM7中，编码树方案支持亮度和色度具有单独的块树结构的能力。对于P条带和B条带，一个CTU中的亮度CTB和色度CTB必须共享相同的编码树结构。然而，对于I条带，亮度和色度可以具有单独的块树结构。当应用单独的块树模式时，亮度CTB通过一种编码树结构被分区成CU，并且色度CTB通过另一种编码树结构被分区成色度CU。这意味着I条带中的CU可以由亮度分量的编码块或两个色度分量的编码块组成，并且P或B条带中的CU可以由所有三个颜色分量的编码块组成，除非视频是单色的。

[在AV1中的定向帧内预测]

VP9支持对应于角度的八个定向模式，角度从45度到207度。为了在定向纹理中利用更多种类的空间冗余，在AV1中，定向帧内模式被扩展到具有更精细粒度的角度集合。原始的八个角度被稍微改变，并且被设为标称角度，这8个标称角度被命名为V_PRED(542)、H_PRED(543)、D45_PRED(544)、D135_PRED(545)、D113_PRED(5446)、D157_PRED(547)、D203_PRED(548)、和D67_PRED(549)，如在图7中当前块(541)所示。对于每个标称角度，存在七个更小的角度，因此AV1总共具有56个定向角度。预测角度由标称内角度(nominal intraangle)加上增量角度表示，该增量角度是3度步长的-3～3倍。在AV1中，首先发信号通知八个标称模式以及五个非角度平滑模式。然后，如果当前模式是角度模式，则进一步发信号通知索引以指示相对于对应标称角度的角度增量。为了经由通用方式在AV1中实施定向预测模式，AV1中的所有56个定向帧内预测模式均使用统一定向预测器来实现，该统一定向预测器将每个像素投影到参考子像素位置，并且通过2抽头双线性滤波器来内插参考像素。

[在AV1中的非定向平滑帧内预测器]

在AV1中，存在五个非定向平滑帧内预测模式，其为DC、PAETH、SMOOTH、SMOOTH_V和SMOOTH_H。对于DC预测，左侧相邻样本和上方相邻样本的平均值被用作要预测的块的预测值。对于PAETH预测器，首先取回顶部参考样本、左侧参考样本和左上参考样本，然后将最接近(顶部+左侧–左上)的值设置为要预测的像素的预测值。图8示出当前块(550)中的像素(552)的顶部样本(554)、左侧样本(556)和左上样本(558)的位置。对于SMOOTH、SMOOTH_V和SMOOTH_H模式，在垂直或水平方向或这两个方向的平均方向上，使用二次插值来预测当前块(550)。

[基于递归滤波的帧内预测器]

为了捕获边缘上衰减的空间相关性，为亮度块设计了滤波器帧内模式。为AV1定义了五个滤波器帧内模式，每个由一组八个7抽头滤波器表示，反映了4×2小块(patch)中的像素和与其相邻的7个邻居之间的相关性。换句话说，7抽头滤波器的加权因子是位置相关的。例如，8×8块(560)可以被分成8个4×2小块，如图9所示。这些小块在图9中指示为B0、B1、B2、B3、B4、B5、B6和B7。对于每个小块，由R0至R6指示的其7个邻居可以用于预测当前小块中的像素。对于小块B0，所有邻居可能已经被重建。但是对于其它小块，一些邻居可能没有被重建，然后直接邻居的预测值被用作参考。例如，小块B7的所有邻居都没有被重建，因此使用邻居的预测样本作为替代。

[从亮度预测的色度]

来自亮度的色度(CfL)是仅色度帧内预测器，其将色度像素建模为重合的已重建亮度像素的线性函数。CfL预测可以表示为如下等式(1)所示：

CfL(α)＝α×L^AC+DC (等式1)

其中，L^AC表示亮度分量的AC贡献，α表示线性模型的参数，DC表示色度分量的DC贡献。具体而言，将已重建亮度像素子采样为色度分辨率，然后减去平均值以形成AC贡献。为了从AC贡献中近似得到色度AC分量，不需要解码器计算缩放参数，如在一些背景技术中那样，而是AV1 CfL可以基于原始色度像素来确定参数α，并且在码流中标识的它们。这降低了解码器复杂度，并且产生更精确的预测。对于色度分量的DC贡献，其可以使用帧内DC模式来计算，该帧内DC模式对于大多数色度内容是足够的，并且具有成熟的快速实现方式。

[多线帧内预测]

多线帧内预测可以使用更多参考线用于帧内预测，其中编码器决定并且发信号通知哪个参考线用于生成帧内预测值。可以在帧内预测模式之前发信号通知参考线索引，并且在发信号通知非零参考线索引的情况下，可以仅允许最可能模式。在图10中，描绘了四个参考线(570)的示例，其中每个参考线(570)由六个片段(即片段A至F)以及左上参考样本组成。此外，片段A和F分别用来自片段B和E的最近样本填充。

[在AV1中的主变换(primary transform)]

为了支持扩展编码块分区，多个变换尺寸(例如，每个维度范围从4点到64点)和变换形状(例如，正方形；具有2:1/1:2和4:1/1:4的宽度/高度比的矩形)被引入到AV1中。

2D变换处理可以涉及混合变换核的使用(例如，针对已编码残差块的每个维度，由不同的一维(1D)变换组成)。根据一个实施例，初级1D变换是：(a)4点、8点、16点、32点或64点DCT-2；(b)4点、8点或16点非对称DST(DST-4、DST-7)及其翻转版本；以及(c)4点、8点、16点或32点恒等变换。用于AV1中的DCT-2和非对称DST的基函数列于下表1中。表1示出了用于N点输入的AV1主变换基函数DCT-2、DST-4和DST-7。

表1：AV1主变换基函数

混合变换核的可用性可以基于变换块尺寸和预测模式。这种相关性在图11的表580中列出。表580示出了基于预测模式和块尺寸的AV1混合变换核及其可用性。在表580中，符号“→”和“↓”分别表示水平和垂直维度，“√”和“x”分别表示用于块尺寸和预测模式的核的可用性和不可用性。

对于色度分量，变换类型选择可以以隐式方式进行。对于帧内预测残差，可以根据帧内预测模式来选择变换类型，如下表2中所指定的。对于帧间预测残差，可以根据同位亮度块的变换类型选择来选择变换类型。因此，对于色度分量，在码流中可能不存在变换类型信令。

表2：用于色度分量帧内预测残差的变换类型选择。

帧内预测	垂直变换	水平变换
			DC_PRED	DCT	DCT
V_PRED	ADST	DCT
			H_PRED	DCT	ADST
D45_PRED	DCT	DCT
			D135_PRED	ADST	ADST
D113_PRED	ADST	DCT
			D157_PRED	DCT	ADST
D203_PRED	DCT	ADST
			D67_PRED	ADST	DCT
SMOOTH_PRED	ADST	ADST
			SMOOTH_V_PRED	ADST	DCT
SMOOTH_H_PRED	DCT	ADST
			PAETH_PRED	ADST	ADST

[在VVC中的二次变换(secondary transform)]

参考图12，在VVC中，低频不可分离变换(LFNST)，其被称为缩减的二次变换，可以在正主(forward primary)变换(591)和量化(593)(在编码器处)之间以及在去量化(594)和逆主变换(596)(在解码器侧)之间应用，以进一步对主变换系数进行解相关。例如，正向LFNST(592)可以由编码器应用，而反向LFNST(595)可以由解码器应用。在LFNST中，可以根据块尺寸，应用4×4不可分离变换或8×8不可分离变换。例如，4×4LFNST可以应用于小块(例如，min(宽度，高度)<8)，而8×8LFNST可以应用于较大块(例如，min(宽度，高度)>4)。对于4×4正向LFNST和8×8正向LFNST，正向LFNST(592)可以分别具有16和64个输入系数。对于4×4逆向LFNST和8×8逆向LFNST，逆向LFNST(595)可以分别具有8和16个输入系数。

在LFNST中使用的不可分离变换，如下使用输入作为示例来描述。为了应用4×4LFNST，下面在等式(2)中示出的4×4输入块X可以首先被表示为矢量

如下等式(3)所示：

不可分离变换可以被计算为

其中

指示变换系数矢量，T是16×16变换矩阵。随后可以使用该块的扫描顺序(例如水平、垂直或对角)，将16×1系数矢量

重新组织为4×4块。可以将具有较小索引的系数与较小扫描索引一起放置在4×4系数块中。

A.缩减的不可分离变换

LFNST可以基于直接矩阵相乘方法来应用不可分离变换，使得它在单程(singlepass)中实现，而无需多次迭代。然而，需要缩减不可分离变换矩阵维度，以最小化计算复杂度和存储变换系数的存储器空间。因此，在LFNST中可以使用缩减的不可分离变换(RST)方法。缩减的不可分离变换的主要思路是将N(对于8×8NSST，N通常等于64)维矢量映射到不同空间中的R维矢量，其中N/R(R<N)是缩减因子。因此，代替N×N矩阵，RST矩阵变成如图13所示的R×N矩阵(600)。

在R×N矩阵(600)中，存在R行变换，该R行变换是N维空间的R个基(bases)。RT的逆变换矩阵可以是其正变换的转置。对于8×8LFNST，缩减因子可以为4，并且可以将作为常规8×8不可分离变换矩阵尺寸的64×64直接矩阵缩减为16×48直接矩阵。因此，可以在解码器侧使用48×16逆RST矩阵，以在8×8左上区域中生成核心(初级)变换系数。当应用16×48矩阵而不是具有相同变换集合配置的16×64矩阵时，每个矩阵可以从除了右下4×4块之外的左上8×8块中的三个4×4块取得48个输入数据。借助于缩减的维度，用于存储所有LFNST矩阵的存储器，可以从10Kb缩减到8KB，并且性能下降合理。为了降低复杂度，LFNST可以被限制为仅在第一系数子组之外的所有系数均为非有效时适用。因此，当应用LFNST时，所有仅初级(primary-only)变换系数必须为零。这允许对在最后有效位置上的LFNST索引信令进行调节，因此避免了在当前LFNST设计中的额外系数扫描，这仅在特定位置处检查有效系数时需要。LFNST的最坏情况处理(按照每像素的乘法)，将4×4和8×8块的不可分离变换分别限制为8×16和8×48变换。在这些情况下，当应用LFNST时，对于小于16的其它尺寸，最后有效扫描位置必须小于8。对于具有4×N和N×4以及N>8的形状的块，限制可以意味着LFNST现在仅被应用一次，并且仅被应用到左上4×4区域。由于当应用LFNST时，所有仅初级系数可以为零，所以在这种情况下可以缩减主变换的操作次数。从编码器的角度来看，当测试LFNST变换时，显著简化了系数的量化。对于前16个系数(按扫描顺序)，可以最大程度地进行速率失真优化量化，并且剩余系数可以强制为零。

B.LFNST变换选择

LFNST中使用的每个变换集合，可以有四个变换集合和两个不可分离变换矩阵(核)。从帧内预测模式到变换集合的映射可以被预先定义，如下表3所示。如果三个CCLM模式(INTRA_LT_CCLM、INTRA_T_CCLM或INTRA_L_CCLM)中的一个用于当前块(81<＝predModeIntra<＝83)，则变换集合0可以被选择用于当前色度块。对于每个变换集合，所选择的不可分离二次变换候选可以进一步由显式地发信号通知的LFNST索引来指定。在变换系数之后，每个帧内CU可以在码流中标识的该索引一次。

表3：变换选择表

C.LFNST索引信令和与其它工具的交互

由于LFNST可以被限制为仅在第一系数子组之外的所有系数均为非有效时适用，因此LFNST索引编解码可以取决于最后有效系数的位置。另外，LFNST索引可以是上下文编码的，但可以不依赖于帧内预测模式，并且仅第一二进制数可以被上下文编码。此外，LFNST可以被应用于帧内和帧间条带中的帧内CU，以及用于亮度和色度。如果启用双树，则可以分别发信号通知亮度和色度的LFNST索引。对于帧间条带(双树被禁用)，可以发信号通知单个LFNST索引，并且将其用于亮度和色度。

当选择帧内子分区(ISP)模式时，可以禁用LFNST，并且可以不发信号通知RST索引，因为即使将RST应用于每一可行分区块，性能改进也可能是边际的。此外，对ISP预测的残差禁用RST可以降低编码复杂度。当选择基于矩阵的帧内预测(MIP)模式时，也可以禁用LFNST，并且可以不发信号通知索引。

考虑到大于64×64的大CU可能由于现有的最大变换尺寸限制(例如，64×64)而被隐式地分割(TU平铺)，LFNST索引搜索可以针对某一数目的解码流水线级，将数据缓冲增加四倍。因此，LFNST所允许的最大尺寸可以被限制为64×64。根据实施例，可以仅用DCT2来启用LFNST。

[在AV1中的残差编解码]

对于每个变换单元，AV1系数编解码可以从发信号通知跳过符号(skip sign)开始，之后当跳过符号为零时，跟随着变换核类型和结束块(end-of-block，eob)位置。然后，可以将每个系数值映射到多级映射和符号。

在对eob位置进行编码之后，可以以反向扫描顺序对低级映射和中级映射进行编码，前者可以指示系数幅度是否在0和2之间，而后者可以指示范围是否在3和14之间。在下一步骤中，系数的符号，以及通过指数哥伦布(Exp-Golomb)代码大于14的系数的残差值，可以按正向扫描顺序编码。

对于上下文建模的使用，较低级映射编解码可以结合变换尺寸和方向，以及多达五个相邻系数信息。另一方面，中级映射编解码可以遵循与较低级amp编解码类似的方法，除了相邻系数的数目低至2之外。残差级的指数哥伦布代码以及AC系数的符号可以在没有任何上下文模型的情况下被编码，而DC系数的符号使用其相邻变换单元的dc符号来编码。

[用于视频编解码的深度学习]

深度学习是一组结合不同非线性变换的复杂架构对数据建模的学习方法。深度学习的基本块是神经网络，其被结合以形成深度神经网络。

人工神经网络是非线性的应用，参数θ与条目x和输出y＝f(x,θ)相关联。从学习样本中估计得到参数θ。神经网络可以用于回归或分类。存在几种类型的神经网络架构：(a)多层感知器，其为最古老的神经网络形式；(b)卷积神经网络(CNN)，特别适用于图像处理；以及(c)用于诸如文本或时间序列的顺序数据的递归神经网络。

深度学习和神经网络可以用于视频编解码，主要是由于两个原因：首先，与传统的机器学习算法不同，深度学习算法将扫描数据以搜索特征，从而不需要特征工程。其次，深度学习模型很好地概括了新数据，尤其是在图像相关任务中。

A.CNN层

与多层感知器相比，CNN的强度是双倍的：CNN具有大量缩减的权重，因为层中的神经元仅被连接到其之前的层的小区域；此外，CNN是平移不变的，使得它特别适合于处理图像而不丢失空间信息。CNN由几种层组成，即卷积层、池化层和完全连接层。

(1)卷积层

两个函数f和g之间的离散卷积可以被定义，如下等式(4)所示：

(f*g)(x)＝∑_t f(t)g(x+t) (等式4)

对于诸如图像的2维信号，可以考虑用于2D卷积的以下等式(5)：

(K*I)(i,j)＝∑_m,n K(m,n)I(i+n,j+m) (等式5)

其中，K为应用于2D信号(或图像)I的卷积核。

参考图14，2D卷积的原理是在图像(610)上拖动卷积核(612)。在每个位置处，在卷积核和当前处理的图像的一部分(611)之间应用卷积。然后，卷积核移动s个像素，其中s被称为步幅。有时，添加零填充，这是在图像周围含有零值的余量，尺寸为p，以便控制输出的尺寸。假设应用C₀核(也称为滤波器)，图像上的每个尺寸为k×k。如果输入图像的尺寸为W_i×H_i×C_i(W_i表示通道的宽度，H_i表示通道的高度，C_i表示通道的数目，通常C_i＝3)，则输出的体积为W₀×H₀×C₀，其中，C₀对应于核的数目，W₀和H₀具有以下等式(6)和(7)中所示的关系。

卷积操作可以与激活函数

结合，以便向网络添加非线性：

其中b为偏差。一个示例是执行max(0,x)运算的整流线性单元(ReLU)激活函数。

(2)池化层

CNN还具有池化层，其允许通过在图像的小块上取平均值或最大值(平均池化或最大池化)来缩减网络维度，也称为子采样。类似于卷积层，池化层作用于图像的小小块上，使用步幅。在一个示例中，参考图15，考虑以步幅s＝2执行最大池化的4×4输入小块(620)，输出(622)的输出维度是水平和垂直方向上的输入维度的一半。还可以通过取大于1的步幅来缩减卷积层的维度，而不用零填充，但是池化的优点是它使网络对输入图像的小平移不太敏感。

(3)完全连接层

在几个卷积层和池化层之后，CNN通常以几个完全连接层结束。先前卷积层/池化层输出的张量被变换成单个矢量值。

B.在视频编解码中CNN的应用

(1)环路滤波

在JVET-I0022中，提供了用于内帧(intra frames)的卷积神经网络滤波器(CNNF)。CNNF作为用于内帧的环路滤波器工作，以代替联合探索模型(JEM)中的滤波器，即，双向滤波器(BF)、去块滤波器(DF)和样本自适应偏移(SAO)。图16A图示了JEM的帧内解码过程(630)，其包括熵解码(631)、逆量化(632，InvQ)、逆变换(633)、BF(634)、DF(635)、SAO(636)、预测(637)和自适应环路滤波器(ALF)(638)。图16B示出了帧内解码过程，包括CNNF(644)而不是BF(634)、DF(635)和SAO(636)。对于B帧和P帧，滤波器可以保持与JEM 7.0中的滤波器相同。

参考图16B和图17，CNNF(644)可以包括两个输入：重建参数(652)和量化参数(QP)(654)，其可以使用单个参数集合来适应不同质量的重建。为了在训练过程中更好的收敛，两个输入都可以被归一化。为了降低复杂度，可以采用10层的简单CNN。CNN可以由一个级联层(656)、七个卷积层(658A至658G)组成，其中每个卷积层后面是ReLU层、一个卷积层(660)和一个求和层(662)。这些层可以一个接一个地连接并且形成网络。可以理解，上述层参数可以包括在卷积层中。通过将重建的Y、U或V连接到求和层，网络被规则化，以学习重建图像和其原始图像之间的残差的特性。根据实施例，仿真结果报告了在AI配置下，JEM-7.0的亮度和两个色度分量的BD速率节省了-3.57％、-6.17％和-7.06％，并且与锚点相比，编码和解码时间分别为107％和12887％。

在JVET-N0254中，报告了基于环路内滤波器(DRNLF)的密集残差卷积神经网络的实验结果。现在参考图18，描绘了示例性密集残差网络(DRN)(670)的结构框图。网络结构可以包括N个密集残差单元(DRU)(672A至672N)，并且M可以表示卷积核的数目。例如，作为计算效率和性能之间的折衷，N可以被设置为4，并且M可以被设置为32。归一化QP映射(674)可以与重建帧连接作为DRN(670)的输入。

根据实施例，DRU(672A至672N)可以各自具有图19中所示的结构(680)。DRU可以通过快捷方式将输入直接传播到后续单元。为了进一步降低计算成本，可以在DRU中应用3×3深度方向可分离卷积(DSC)层。

网络的输出可以具有三个信道，其分别对应于Y、Cb、Cr。可以对帧内图片和帧间图片应用滤波器。可以为每个CTU发信号通知附加标志，以指示DRNLF是开/关。实施例的实验结果显示，在全帧内配置下，Y、Cb和Cr分量上的BD速率分别为-1.52％、-2.12％和-2.73％，在随机访问配置下，BD速率为-1.45％、-4.37％和-4.27％，以及在低延迟配置下，BD速率为-1.54％、-6.04％和-5.86％。在该实施例中，在AI、RA和LDB配置中，解码时间为4667％、7156％和9127％。

(2)帧内预测

现在参考图20和图21，描绘了用于帧内预测模式的第一过程(690A)和第二过程(690B)的示例。帧内预测模式可以用于在将来的视频编解码器中的矩形块上生成帧内图片预测信号。这些帧内预测模式执行以下两个主要步骤：首先，从已解码的样本中提取一组特征。其次，这些特征用于选择预定图像模式(pattern)的仿射线性组合作为预测信号。此外，特定的信号化方案可以用于帧内预测模式。

参考图20，在具有M≤32和N≤32的给定MxN块(692A)上，经由神经网络处理一组参考样本r，来生成亮度预测信号pred。参考样本r可以由块(692A)左边的尺寸为N+K的K行和尺寸为M的K列组成。数目K可以取决于M和N。例如，对于所有M和N，K可以被设置为2。

神经网络(696A)可以如下从重建样本r中提取特征矢量ftr。如果d₀＝K*(N+M+K)表示r的样本数目，则将r视为维度为d₀的实矢量空间中的矢量。对于行和列为d₀的固定积分平方矩阵A₁和A₂，以及对于维度为d₀的固定积分偏置矢量b₁和b₂，首先计算以下等式(8)。

t₁＝ρ(A₁·r+b₁) (等式8)

在等式(8)中，“·”表示普通矩阵矢量积。此外，函数ρ是ELU函数ρ₀的整数近似，其中后一函数在p维矢量v上定义，如下等式(9)所示。

其中，ρ₀(v)_i和v_i表示矢量的第i个分量。如下等式(10)所示，对t₁应用类似操作并且计算t₂。

t₂＝ρ(A₂·t₁+b₂) (等式10)

对于具有0≤d₁≤d0的固定整数d₁，可以预定义积分矩阵A₃，行为d₁，列为d₀，并且具有一个或多个偏置权重(694A)，诸如维度为d₁的预定义积分偏置矢量b₃，使得计算特征矢量ftr，如下等式(11)所示。

ftr＝ρ(A₃·t₂+b₃). (等式11)

d₁的值取决于M和N。现在，使d₁＝d₀。

在特征矢量ftr之外，使用仿射线性映射生成最终预测信号pred，随后是取决于位深度的标准剪切操作Clip。因此，预定义矩阵A₄具有M*N行和d₁列，预定义偏置矢量b₄维度为M*N，计算pred，如下等式(12)所示：

pred＝Clip(A₄·ftr+b₄) (等式12)

现在参考图21，将使用n不同的帧内预测模式(698B)，其中，当max(M，N)＜32时，n被设置为35，否则被设置为11。因此，具有0≤predmode＜n的索引predmode将由编码器发信号通知，并且由解码器解析，并且可以使用以下语法。具有n＝3+2^k，其中，如果max(M，N)＝32，k＝3，否则k＝5。在第一步骤中，使用以下代码来发信号通知索引predIdx，0≤predIdx＜n。首先，一个二进制数编码是否满足predIdx＜3。如果predIdx＜3，则第二个二进制数编码是否满足predIdx＝0，并且如果predIdx≠0，则另一个二进制数编码predIdx是否等于1或2。如果predIdx≥3，则使用k个二进制数，以标准的方式发信号通知predIdx的值。

根据索引predIdx，使用具有一个隐藏层的完全连接的神经网络(696B)来导出实际索引predmode，该隐藏层使用重建样本r′作为输入，重建样本r′位于在块(692B)的上面两行(尺寸为N+2)和左边两列(尺寸为M)。

重建样本r′被认为是维度为2*(M+N+2)的实矢量空间中的矢量。若有固定平方矩阵A₁′，行和列分别为2*(M+N+2)，以及存在一个或多个偏置权重(694B)，诸如维度为2*(M+N+2)的实矢量空间中的固定偏置矢量b₁′，计算t₁′，如下等式(13)所示。

t₁′＝ρ(A₁′·r′+b₁′) (等式13)

若有n行和2*(M+N+2)列的矩阵A₂′，在维度为n的实矢量空间中存在固定偏置矢量b₂′，则计算lgt，如下等式(14)所示。

lgt＝A′₂·t′₁+b′₂ (等式14)

现在将索引predmode导出为lgt的第predIdx个最大分量的位置。这里，如果当k≠1时，两个分量(lgt)_k和(lgt)_l相等，如果k＜l，则(lgt)_k被认为大于(lgt)_l，否则(lgt)_l被认为大于(lgt)_k。

[多变换选择]

除了已经在HEVC中采用的DCT-II之外，多变换选择(MTS)方案可以用于帧间和帧内已编码块的残差编解码。该方案可以包括来自DCT8/DST7的多个所选择的变换。根据实施例，可以包括DST-VII和DCT-VIII。表4示出了针对N点输入的所选择的DST/DCT的变换基函数。

表4：针对N点输入的DCT-II/VIII和DSTVII的变换基函数

为了保持变换矩阵的正交性，相比HEVC中的变换矩阵，变换矩阵被更量化地精确。为了将变换系数的中间值保持在16位范围内，在水平变换之后和垂直变换之后，要求所有系数具有10位。

为了控制MTS方案，可以在SPS级分别为帧内和帧间指定单独的启用标志。当在SPS处启用MTS时，可以发信号通知CU级标志以指示是否应用MTS。根据实施例，MTS可以仅应用于亮度。当应用以下条件中的一个时，可以跳过MTS信令：(1)亮度TB的最后有效系数的位置小于1(即，仅DC)，或者(2)亮度TB的最后有效系数位于MTS零输出区域内。

如果MTS CU标志等于零，则可以在两个方向上应用DCT2。然而，如果MTS CU标志等于1，则可以另外发信号通知两个其它标志以分别指示水平方向和垂直方向的变换类型。下面的表5示出了示例性变换和信令映射表。ISP和隐式MTS的变换选择可以通过去除帧内模式和块形状相关性来统一。如果当前块是ISP模式，或者如果当前块是帧内块并且帧内和帧间显式MTS都开启，则可以仅将DST7用于水平变换核心和垂直变换核心。当涉及变换矩阵精度时，可以使用8位主变换核心。因此，HEVC中使用的所有变换核心可以保持相同，包括4点DCT-2和DST-7、8点、16点和32点DCT-2。而且，其它变换核心，包括64点DCT-2、4点DCT-8、8点、16点、32点DST-7和DCT-8，可以使用8位主变换核心。

表5：变换和信令映射表

为了降低大尺寸DST-7和DCT-8的复杂度，对于尺寸(宽度或高度，或者宽度和高度两者)等于32的DST-7和DCT-8块，高频变换系数可以被清零。可以仅保留16×16低频区域内的系数。

如在HEVC中，可以以变换跳过模式对块的残差进行编码。为了避免语法编解码的冗余，当CU级MTS_CU_flag不等于零时，可以不发信号通知变换跳过标志。根据实施例，当为当前CU激活LFNST或MIP时，可以将隐式MTS变换设置为DCT2。此外，当针对帧间已编码块启用MTS时，仍可以启用隐式MTS。

[不可分离二次变换]

在JEM中，可以在正核心变换和量化(在编码器处)之间以及在去量化和逆核心变换(在解码器处)之间，应用模式相关的不可分离二次变换(NSST)。为了保持低复杂度，NSST可以仅应用于主变换之后的低频系数。如果变换系数块的宽度(W)和高度(H)均大于或等于8，则可以将8×8不可分离二次变换应用于变换系数块的左上8×8区域。否则，如果变换系数块的W或H等于4，则可以应用4×4不可分离二次变换，并且可以对变换系数块的左上min(8，W)×min(8，H)区域执行4×4不可分离变换。上述变换选择规则可以应用于亮度和色度分量。

不可分离变换的矩阵乘法实现，可以按照上面“在VVC中的二次变换”子部分中描述的那样执行，参考等式(2)至等式(3)。根据实施例，可以使用直接矩阵乘法来实现不可分离二次变换。

[模式相关变换核心选择]

对于4×4和8×8块尺寸，可以存在35×3不可分离二次变换，其中35是由帧内预测模式指定的变换集合的数目，3是用于每个帧内预测模式的不可分离二次变换(NSST)候选的数目。定义从帧内预测模式到变换集合的映射，如图22中表700所示。根据表700，应用于亮度/色度变换系数的变换集合，可以由对应的亮度/色度帧内预测模式指定。对于大于34(对角预测方向)的帧内预测模式，可以在编码器/解码器处、在二次变换之前/之后，转置变换系数块。

对于每个变换集合，所选择的不可分离二次变换候选，可以进一步由显式地发信号通知的CU级NSST索引来指定。在使用变换系数和截断的一元二值化之后，可以对每帧内CU在码流中标识的索引一次。在平面模式或DC模式的情况下，截断值可以为2，而在角度帧内预测模式的情况下，截断值可以为3。可以仅在CU中存在一个以上非零系数时，发信号通知该NSST索引。当未发信号通知时，默认值可以为零。该语法元素的零值可以指示二次变换不应用于当前CU，值1至3可以指示应用来自集合的哪个二次变换。

在JEM中，NSST可以不应用于以变换跳过模式编码的块。当针对CU发信号通知NSST索引并且NSST索引不等于零时，NSST可以不用于CU中以变换跳过模式编码的分量的块。当具有所有分量的块的CU以变换跳过模式编码或者非变换跳过模式CB的非零系数的数目小于2时，可以不针对CU发信号通知NSST索引。

[比较实施例的变换方案中的问题]

在比较实施例中，可分离变换方案对于捕获定向纹理图案(例如，在45/135度方向上的边缘)不是非常有效。不可分离变换方案可以有助于提高那些情况下的编解码效率。为了降低计算复杂度和存储器占用面积，通常将不可分离变换方案设计为应用在主变换的低频系数之上的二次变换。在现有实现中，基于预测模式信息选择要使用的变换核(从一组变换核中，初级/次级和可分离/不可分离)。但仅凭预测模式信息只能提供对该预测模式所观察到的整个残差模式空间的粗略表示，如图23A至图23D的表示710、720、730和740所示。表示710、720、730和740示出了在AV1中观察到的D45(45°)帧内预测模式的残差模式。相邻已重建样本可以提供用于更有效的表示那些残差模式的附加信息。

对于具有多个变换核候选的变换方案，可能需要使用可用于编码器和解码器两者的已编码信息来标识变换集合。在诸如MTS和NSST的现有多个变换方案中，基于诸如帧内预测模式的编解码预测模式信息来选择变换集合。然而，预测模式确实完全覆盖预测残差的所有统计，并且相邻已重建样本可以提供用于预测残差的更有效分类的额外信息。基于神经网络的方法可以被应用于预测残差的有效分类，并且因此提供更有效的变换集合选择。

[本申请的实施例的示例方面]

本申请的实施例可以单独使用或以任何顺序组合使用。此外，实施例中的每一个(例如，方法、编码器和解码器)可以由处理电路(例如，一个或多个处理器或一个或多个集成电路)实现。在一个示例中，一个或多个处理器执行存储在非易失性计算机可读介质中的程序。

本申请的实施例可以并入如上面所描述的任何数目的方面。本申请的实施例还可以并入下面所描述的一个或多个方面，并且解决上面所论述的问题和/或其它问题。

A.第一方面

根据实施例，相邻已重建样本可以用于选择变换集合。

在一个或多个实施例中，使用已编码信息，诸如预测模式，(例如，帧内预测模式或帧间预测模式)，从一组变换集合中选择变换集合的子组。在一个实施例中，使用其它已编码信息，诸如帧内预测模式/帧间预测模式的类型、块尺寸、当前块的预测块样本和当前块的相邻已重建样本，从所选择的变换集合子组中标识一个变换集合。最后，使用在码流中标识的相关联的索引，从所标识的变换集合中选择当前块的变换候选。在一个实施例中，使用其它已编码信息，诸如帧内预测模式/帧间预测模式的类型、块尺寸、当前块的预测块样本和当前块的相邻已重建样本，从所选择的变换集合子组中隐式地标识最终变换候选。

在一个或多个实施例中，相邻已重建样本集合可以包括来自先前已重建相邻块的样本。在一个实施例中，相邻已重建样本集合可以包括一个或多个顶部相邻已重建样本线和左侧相邻已重建样本线。在一个示例中，顶部相邻已重建样本线和/或左侧相邻已重建样本线的数目，与用于帧内预测的相邻已重建样本线的最大数目相同。在一个示例中，顶部相邻已重建样本线和/或左侧相邻已重建样本线的数目，与用于CfL预测模式的相邻已重建样本线的最大数目相同。在一个实施例中，相邻已重建样本集合可以包括来自相邻重建块的所有样本。

在一个或多个实施例中，变换集合组仅包括主变换核、仅包括二次变换核，或者包括主变换核和二次变换核的组合。在变换集合组仅包括主变换核的情况下，主变换核可以是可分离的，可以是不可分离的，可以使用不同类型的DCT/DST，或使用具有不同自循环速率的不同线图变换。在变换集合组仅包括二次变换核的情况下，二次变换核可以是不可分离的，或使用具有不同自循环速率的不同的不可分离线图变换。

在一个或多个实施例中，可以处理相邻已重建样本以导出与特定变换集合相关联的索引。在一个实施例中，将相邻已重建样本输入到变换过程，变换系数用于标识与特定变换集合相关联的索引。在一个实施例中，将相邻已重建样本输入到多个变换过程，并且使用成本函数来评估每个变换过程的成本值。然后，使用成本值来选择变换集合索引。示例性成本值包括但不限于沿某一扫描顺序的前N个(例如1、2、3、4、……、16)变换系数的幅度之和。在一个实施例中，预先定义分类器，将相邻已重建样本输入到分类器，以标识变换集合索引。

B.第二方面

根据实施例，可以提供基于神经网络的变换集合选择方案。神经网络的输入包括但不限于当前块的预测块样本、当前块的相邻已重建样本，输出可以是用于标识变换集合的索引。

在一个或多个实施例中，定义一组变换集合，并且使用已编码信息，诸如预测模式(例如，帧内预测模式或帧间预测模式)，来选择变换集合的子组，然后使用诸如当前块的预测块样本、当前块的相邻已重建样本的其它代码信息，来标识所选择的变换集合的子组的一个变换集合。然后，使用在码流中标识的相关联的索引，从所标识的变换集合中选择当前块的变换候选。

在一个或多个实施例中，相邻已重建样本可以包括一个或多个顶部相邻已重建样本线和左侧相邻已重建样本线。在一个示例中，顶部相邻已重建样本线和/或左侧相邻已重建样本线的数目，与用于帧内预测的相邻已重建样本线的最大数目相同。在一个示例中，顶部相邻已重建样本线和/或左侧相邻已重建样本线的数目，与用于CfL预测模式的相邻已重建样本线的最大数目相同。

在一个或多个实施例中，当前块的相邻已重建样本和/或预测块样本是神经网络的输入，输出不仅包括变换集合的标识符，还包括预测模式集合的标识符。换句话说，神经网络使用当前块的相邻已重建样本和/或预测块样本，来标识变换集合和预测模式的某些组合。

在一个或多个实施例中，神经网络用于标识用于二次变换的变换集合。可选地，神经网络用于标识用于主变换的变换集合。可选地，神经网络用于标识用于指定二次变换和主变换的组合的变换集合。在一个实施例中，二次变换使用不可分离变换方案。在一个实施例中，主变换可以使用不同类型的DCT/DST。在另一个实施例中，主变换可以使用具有不同自循环速率的不同线图变换。

在一个或多个实施例中，对于不同的块尺寸，当前块的相邻已重建样本和/或预测块样本，可以在被用作神经网络的输入之前，进一步进行上采样或下采样。

在一个或多个实施例中，对于不同的内部位深度，当前块的相邻已重建样本和/或预测块样本可以在被用作神经网络的输入之前，根据内部位深度值被进一步缩放(或量化)。

在一个或多个实施例中，神经网络中使用的参数取决于已编码信息，其包括但不限于：块是否被帧内编码、块宽度和/或块高度、量化参数、当前图片是否被编码为帧内(关键)帧、以及帧内预测模式。

根据实施例，可以提供至少一个处理器和存储计算机程序指令的存储器。计算机程序指令在由至少一个处理器执行时可以实现编码器或解码器并且可执行本申请中所描述的任何数目的功能。例如，参考图24，至少一个处理器可以实现解码器(800)。计算机程序指令可以包括例如解码代码(810)，该解码代码(810)被配置为使至少一个处理器，从接收(例如从编码器)的已编码比特流中，解码得到图片的块。解码代码(810)可以包括例如变换集合选择代码(820)、变换选择代码(830)和变换代码(840)。

变换集合选择代码(820)可以使至少一个处理器，根据本申请的实施例，选择变换集合。例如，变换集合选择代码(820)可以使至少一个处理器，基于至少一个相邻已重建样本，选择变换集合，其中，所述至少一个相邻已重建样本来自至少一个先前已解码的相邻块，或者来自先前已解码的图片。根据实施例，根据本申请的实施例，变换集合选择代码(820)可以被配置为，使至少一个处理器，基于第一已编码信息，从一组变换集合中选择变换集合的子组，并且从该子组中选择变换集合。

变换选择代码(830)可以使至少一个处理器，根据本申请的实施例，从变换集合中选择变换候选。例如，根据本申请的实施例，变换选择代码(830)可以使至少一个处理器，基于在已编码码流中标识的索引值，从变换集合中选择变换候选。

根据本申请的实施例，变换代码(840)可以使至少一个处理器，使用来自变换集合的变换(例如，变换候选)，对块的系数执行逆变换。

根据本申请的实施例，解码代码810可以使神经网络用于选择变换组、变换子组、变换集合和/或变换，或以其它方式执行解码的至少一部分。根据实施例，根据本申请的实施例，解码器(800)可以进一步包括神经网络代码(850)，该神经网络代码(850)被配置为使至少一个处理器实现神经网络。

根据实施例，上述过程的编码器侧的过程，可以基于上述描述，通过编码代码来对图片进行编码，如本领域技术人员所能理解的。

上述本申请实施例中的技术，可以使用计算机可读指令实现为计算机软件，并且物理地存储在至少一个计算机可读介质中。例如，图25示出了计算机系统2500，其适于实现所公开主题的某些实施例。

所述计算机软件可通过任何合适的机器代码或计算机语言进行编码，通过汇编、编译、链接等机制创建包括指令的代码，所述指令可由至少一个计算机中央处理单元(CPU)，图形处理单元(GPU)等直接执行或通过译码、微代码等方式执行。

所述指令可以在各种类型的计算机或其组件上执行，包括例如个人计算机、平板电脑、服务器、智能手机、游戏设备、物联网设备等。

图25所示的用于计算机系统(900)的组件本质上是示例性的，并不用于对实现本申请实施例的计算机软件的使用范围或功能进行任何限制。也不应将组件的配置解释为与计算机系统(900)的示例性实施例中所示的任一组件或其组合具有任何依赖性或要求。

计算机系统(900)可以包括某些人机界面输入设备。这种人机界面输入设备可以通过触觉输入(如：键盘输入、滑动、数据手套移动)、音频输入(如：声音、掌声)、视觉输入(如：手势)、嗅觉输入(未示出)，对至少一个人类用户的输入做出响应。所述人机界面设备还可用于捕获某些媒体，气与人类有意识的输入不必直接相关，如音频(例如：语音、音乐、环境声音)、图像(例如：扫描图像、从静止影像相机获得的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。

人机界面输入设备可包括以下中的至少一个(仅绘出其中一个)：键盘(901)、鼠标(902)、触控板(903)、触摸屏(910)、数据手套、操纵杆(905)、麦克风(906)、扫描仪(907)、照相机(908)。

计算机系统(900)还可以包括某些人机界面输出设备。这种人机界面输出设备可以通过例如触觉输出、声音、光和嗅觉/味觉来刺激至少一个人类用户的感觉。这样的人机界面输出设备可包括触觉输出设备(例如通过触摸屏(910)、数据手套或操纵杆(905)的触觉反馈，但也可以有不用作输入设备的触觉反馈设备)、音频输出设备(例如，扬声器(909)、耳机(未示出))、视觉输出设备(例如，屏幕(910)，包括阴极射线管(CRT)屏幕、液晶显示(LCD)屏幕、等离子屏幕、有机发光二极管(OLED)屏幕)，其中每一个都具有或没有触摸屏输入功能、每一个都具有或没有触觉反馈功能——其中一些可通过诸如立体画面输出的手段输出二维视觉输出或三维以上的输出；虚拟现实眼镜(未示出)、全息显示器和放烟箱(未示出))以及打印机(未示出)。

计算机系统(900)还可以包括人可访问的存储设备及其相关介质，如包括具有CD/DVD的高密度只读/可重写式光盘(CD/DVD ROM/RW)(920)或类似介质(921)的光学介质、拇指驱动器(922)、可移动硬盘驱动器或固体状态驱动器(923)，诸如磁带和软盘(未示出)的传统磁介质，诸如安全软件保护器(未示出)等的基于ROM/ASIC/PLD的专用设备，等等。

本领域技术人员还应当理解，结合所公开的主题使用的术语“计算机可读介质”不包括传输介质、载波或其它瞬时信号。

计算机系统(900)还可以包括通往至少一个通信网络的接口。例如，网络可以是无线的、有线的、光学的。网络还可为局域网、广域网、城域网、车载网络和工业网络、实时网络、延迟容忍网络等等。网络还包括以太网、无线局域网、蜂窝网络(GSM、3G、4G、5G、LTE等)等局域网、电视有线或无线广域数字网络(包括有线电视、卫星电视、和地面广播电视)、车载和工业网络(包括CANBus)等等。某些网络通常需要外部网络接口适配器，用于连接到某些通用数据端口或外围总线(949)(例如，计算机系统(900)的USB端口)；其它系统通常通过连接到如下所述的系统总线集成到计算机系统(900)的核心(例如，以太网接口集成到PC计算机系统或蜂窝网络接口集成到智能电话计算机系统)。通过使用这些网络中的任何一个，计算机系统(900)可以与其它实体进行通信。所述通信可以是单向的，仅用于接收(例如，无线电视)，单向的仅用于发送(例如CAN总线到某些CAN总线设备)，或双向的，例如通过局域或广域数字网络到其它计算机系统。这些通信包括与云计算环境(955)的通信。上述的每个网络和网络接口可使用某些协议和协议栈。

上述的人机界面设备、人可访问的存储设备以及网络接口(954)可以连接到计算机系统(900)的核心(940)。

核心(940)可包括至少一个中央处理单元(CPU)(941)、图形处理单元(GPU)(942)、以现场可编程门阵列(FPGA)(943)形式的专用可编程处理单元、用于特定任务的硬件加速器(944)等。这些设备以及只读存储器(ROM)(945)、随机存取存储器(946)、内部大容量存储器(例如内部非用户可存取硬盘驱动器、固态硬盘等)(947)等可通过系统总线(948)进行连接。在某些计算机系统中，可以以至少一个物理插头的形式访问系统总线(948)，以便可通过额外的中央处理单元、图形处理单元等进行扩展。外围装置可直接附接到核心的系统总线(948)，或通过外围总线(949)进行连接。外围总线的体系结构包括外部控制器接口PCI、通用串行总线USB等。图像适配器可以包括在核心(940)中。

CPU(941)、GPU(942)、FPGA(943)和加速器(944)可以执行某些指令，这些指令组合起来可以构成上述计算机代码。该计算机代码可以存储在ROM(945)或RAM(946)中。过渡数据也可以存储在RAM(946)中，而永久数据可以存储在例如内部大容量存储器(947)中。通过使用高速缓冲存储器可实现对任何存储器设备的快速存储和检索，高速缓冲存储器可与至少一个CPU(941)、GPU(942)、大容量存储器(947)、ROM(945)、RAM(946)等紧密关联。

所述计算机可读介质上可具有计算机代码，用于执行各种计算机实现的操作。介质和计算机代码可以是为本申请的目的而特别设计和构造的，也可以是计算机软件领域的技术人员所熟知和可用的介质和代码。

作为实施例而非限制，具有体系结构的计算机系统(900)，特别是核心(940)，可以作为处理器(包括CPU、GPU、FPGA、加速器等)提供执行包含在至少一个有形的计算机可读介质中的软件的功能。这种计算机可读介质可以是与上述的用户可访问的大容量存储器相关联的介质，以及具有非易失性的核心(940)的特定存储器，例如核心内部大容量存储器(947)或ROM(945)。实现本申请的各种实施例的软件可以存储在这种设备中并且由核心(940)执行。根据特定需要，计算机可读介质可包括一个或一个以上存储设备或芯片。该软件可以使得核心(940)特别是其中的处理器(包括CPU、GPU、FPGA等)执行本申请所述的特定过程或特定过程的特定部分，包括定义存储在RAM(946)中的数据结构以及根据软件定义的过程来修改这种数据结构。另外或作为替代，计算机系统可以提供逻辑硬连线或以其它方式包含在电路(例如，加速器(944))中的功能，该电路可以代替软件或与软件一起运行以执行本申请所述的特定过程或特定过程的特定部分。在适当的情况下，对软件的引用可以包括逻辑，反之亦然。在适当的情况下，对计算机可读介质的引用可包括存储执行软件的电路(如集成电路(IC))，包含执行逻辑的电路，或两者兼备。本申请包括任何合适的硬件和软件组合。

虽然本申请已对至少两个示例性实施例进行了描述，但实施例的各种变更、排列和各种等同替换均属于本申请的范围内。因此应理解，本领域技术人员能够设计多种系统和方法，所述系统和方法虽然未在本申请中明确示出或描述，但其体现了本申请的原则，因此属于本申请的精神和范围之内。

Claims

1.一种方法，由至少一个处理器执行，所述方法包括：

接收已编码比特流；

对所述已编码比特流中图片的块进行解码，具体包括：

使用所述变换集合中的变换，对所述块的系数执行逆变换。

2.根据权利要求1所述的方法，其中，所述选择变换集合，进一步基于预测模式的已编码信息。

3.根据权利要求2所述的方法，其中，所述已编码信息是指帧间预测模式的已编码信息。

4.根据权利要求1所述的方法，其中，所述选择变换集合，包括：

基于第一已编码信息，从一组变换集合中选择变换集合的子组；

从所述子组中，选择所述变换集合。

5.根据权利要求4所述的方法，其中，所述从所述子组中，选择所述变换集合，包括：

基于第二已编码信息，选择所述变换集合；

所述方法进一步包括：

基于在所述已编码比特流中标识的索引值，从所述变换集合中，选择变换候选。

6.根据权利要求1所述的方法，其中，所述至少一个相邻已重建样本包括来自所述至少一个先前已解码的相邻块的已重建样本。

7.根据权利要求1所述的方法，其中，所述选择变换集合，包括：

从一组变换集合中选择所述变换集合，其中，所述一组变换集合仅包括二次变换核。

8.根据权利要求7所述的方法，其中，所述二次变换核是不可分离的。

9.根据权利要求1所述的方法，其中，所述选择变换集合，包括：

将所述至少一个相邻已重建样本的信息，输入到神经网络；

基于所述神经网络输出的索引，对所述变换集合进行标识。

10.根据权利要求1所述的方法，其中，所述变换集合为二次变换。

11.一种系统，包括：

至少一个存储器，用于存储程序代码；

所述解码代码包括：

12.根据权利要求11所述的系统，其中，所述选择变换集合，进一步基于预测模式的已编码信息。

13.根据权利要求12所述的系统，其中，所述已编码信息是指帧间预测模式的已编码信息。

14.根据权利要求11所述的系统，其中，所述变换集合选择代码用于，使得所述至少一个处理器，基于第一已编码信息，从一组变换集合中选择变换集合的子组；从所述子组中，选择所述变换集合。

15.根据权利要求14所述的系统，其中，所述变换集合选择代码用于，使得所述至少一个处理器，基于第二已编码信息，选择所述变换集合；

16.根据权利要求11所述的系统，其中，所述至少一个相邻已重建样本包括来自所述至少一个先前已解码的相邻块的已重建样本。

17.根据权利要求11所述的系统，其中，所述变换集合选择代码用于，使得所述至少一个处理器，从一组变换集合中选择所述变换集合，其中，所述一组变换集合仅包括二次变换核。

18.根据权利要求17所述的系统，其中，所述二次变换核是不可分离的。

19.根据权利要求11所述的系统，其中，所述变换集合选择代码用于，使得所述至少一个处理器，将所述至少一个相邻已重建样本的信息，输入到神经网络；基于所述神经网络输出的索引，对所述变换集合进行标识。

20.一种非暂时性计算机可读介质，其上存储有计算机指令，所述计算机指令由至少一个处理器执行时，使得所述至少一个处理器，对接收到的已编码比特流中图片的块进行解码，具体包括：

使用所述变换集合中的变换，对所述块的系数执行逆变换。