CN113785565B

CN113785565B - 视频编解码的方法和系统

Info

Publication number: CN113785565B
Application number: CN202080033560.0A
Authority: CN
Inventors: 赵亮; 赵欣; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2019-11-27
Filing date: 2020-11-26
Publication date: 2024-04-26
Anticipated expiration: 2040-11-26
Also published as: WO2021108733A1; US11553208B2; US20230089932A1; CN118317079A; JP2022531759A; US20210160539A1; EP4066489A1; KR20210141724A; JP7250163B2; WO2021108733A8; CN113785565A; EP4066489A4

Abstract

本公开实施例提供了视频编解码的方法和系统。一种视频解码的方法包括：获取比特流，所述比特流包括视频信号的多个已编码帧；将所述多个已编码帧中的每一个解码为多个编码树单元(CTU)，并将所述多个CTU中的每一个解码为多个残差块；基于包括在每个已编码帧中的多参考行帧内预测(MRLP)标志和参考样本，恢复所述多个残差块中的每个残差块的编码块，其中基于编解码效率和压缩性能，为所选择的用于帧内预测的多个参考行中的每个参考行确定所有可用的帧内预测模式的子集，并且所述多个参考行中的每个参考行由索引号标识；通过将所述多个残差块中的每个残差块的所述恢复的编码块存储在帧缓冲器中，重建所述视频信号的每一帧；以及连续地输出所述重建的帧，以恢复所述视频信号。

Description

视频编解码的方法和系统

相关申请的交叉引用

本申请要求于2020年10月23日提交的、申请号为17/079,417的美国专利申请的优先权，其要求于2019年11月27日提交的、申请号为62/941,342的美国临时专利申请的优先权，两者的内容通过引用整体并入本文。

技术领域

本申请涉及视频编解码技术领域，具体地，涉及采用多参考行帧内预测的视频编解码的方法和系统。

背景技术

AOMedia Video 1(AV1)是为因特网上的视频传输设计的一种开放式视频编解码格式。AV1是由开放媒体联盟(AOMedia)开发的VP9的后续产品，该联盟成立于2015年，包括半导体公司、视频点播提供商、视频内容生产商、软件开发公司和网页浏览器供应商。AV1以VP9的代码库为基础，结合了其他技术，其中一些技术是以这些实验性格式开发的。AV1参考编解码器的第一版0.1.0于2016年4月7日发布。该联盟于2018年3月28日宣布发布AV1比特流规范、以及基于软件的参考编码器和解码器。2018年6月25日，发布了该规范经过验证的版本1.0.0。2019年1月8日，发布了带有规范勘误表1的经过验证的版本1.0.0。AV1比特流规范包括参考视频编解码器。

ITU-T VCEG(Q6/16)和ISO/IEC MPEG(JTC 1/SC 29/WG 11)于2013年(版本1)、2014年(版本2)、2015年(版本3)和2016年(版本4)发布了H.265/HEVC(高效视频编解码)标准。2015年，这两个标准组织共同组建了JVET(联合视频探索组)，以探索开发超越HEVC的下一个视频编解码标准的潜力。2017年10月，他们发布了关于具有超越HEVC能力的视频压缩提案的联合征集(CfP)。截至2018年2月15日，分别提交了22个关于标准动态范围(SDR)的CfP回复、12个关于高动态范围(HDR)的CfP回复和12个关于360视频类别的的CfP回复。2018年4月，在第122MPEG/第10次JVET会议上对所有收到的CfP回复都进行了评估。这次会议的结果是，JVET正式启动了超越HEVC的下一代视频编解码的标准化过程。新标准被命名为通用视频编解码(VVC)，并且JVET被更名为联合视频专家组。

在基于AV1标准的视频编解码方案中，可用的帧内预测模式的数量为62，其中包括56个角度(或定向(directional))帧内预测模式、5个平滑模式和一个从亮度预测色度(chroma-from-luma)模式。在本公开的说明书中，角度(或定向)帧内预测模式也称为角度(或定向)模式。当在帧内预测中应用多个参考行并且针对多个参考行包括所有帧内预测模式时，视频编解码的复杂度是相当大的。多个参考行包括索引号等于零的零参考行和索引号大于零的一个或多个非零参考行。期望限制每个非零参考行所允许的帧内预测模式的数量。在基于VVC标准的视频编解码方案中，帧内预测模式被确定为包括允许的帧内预测模式(AIPM)集中的最可能模式(MPM)。然而，AV1并没有定义类似的最可能模式(MPM)，并且基于VVC标准的视频编解码方案的多参考行帧内预测不能直接应用于基于AV1标准的视频编解码方案。

所公开的方法和系统旨在解决上述一个或多个问题以及其他问题。

发明内容

本公开的一个方面包括一种视频解码的方法。该方法包括：获取比特流，所述比特流包括视频信号的多个已编码帧；将所述多个已编码帧中的每一个解码为多个编码树单元(CTU)，并将所述多个CTU中的每一个解码为多个残差块；基于包括在每个已编码帧中的多参考行帧内预测(MRLP)标志和参考样本，恢复所述多个残差块中的每个残差块的编码块，其中基于编解码效率和压缩性能，为所选择的用于帧内预测的多个参考行中的每个参考行确定所有可用的帧内预测模式的子集，也称为允许的帧内预测模式(AIPM)集，并且所述多个参考行中的每个参考行由索引号标识，所述索引号是大于或等于零的整数；通过将所述多个残差块中的每个残差块的所述恢复的编码块存储在帧缓冲器中，重建所述视频信号的每一帧；以及连续地输出所述重建的帧，以恢复所述视频信号。

本公开的另一方面包括一种视频编码的方法。该方法包括：获取视频输入的当前帧；将所述获取的当前帧划分成多个块；通过结合多参考行帧内预测，预测每个划分的块的符号级别，其中，基于相邻块的多个参考行导出帧内预测模式；基于编解码效率和压缩性能，为所述多个参考行中的每个参考行确定所有可用的帧内预测模式的子集，也称为允许的帧内预测模式集(AIPM)；并且所述多个参考行中的每个参考行由索引号标识，所述索引号是大于或等于零的整数；对通过从当前符号级别减去预测符号级别导出的残差符号级别进行变换和量化；对所述变换和量化后的残差符号级别进行熵编码；以及生成包括所述熵编码的残差符号级别的比特流。

根据本公开的说明书、权利要求和附图，本领域技术人员可以理解本公开的其他方面。

附图说明

图1示出了结合本公开某些实施例的运行环境；

图2示出了根据本公开实施例的电子设备；

图3示出了根据本公开实施例的计算机系统；

图4示出了根据本公开实施例的视频编码器；

图5示出了根据本公开实施例的示例性视频编码方法；

图6示出了基于AV1标准的视频编解码方案中帧内预测模式的8个标称角度；

图7示出了根据本公开实施例的PAETH模式的顶部、左侧和左上位置；

图8示出了根据本公开实施例的递归帧内滤波模式的示例；

图9示出了根据本公开实施例的4个参考行的示例；

图10示出了根据本公开实施例的确定包括在S1中的帧内预测模式的流程图；以及

图11示出了根据本公开实施例的示例性视频解码的方法。

具体实施方式

下面结合附图描述本发明实施例的技术方案。在所有附图中，将尽可能使用相同的附图标号表示相同或相似的部件。很显然，所描述的实施例仅仅是本公开的一些实施例，而非全部实施例。基于本公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都属于本公开的保护范围。下面首先解释本公开中使用的某些术语。

通用视频编解码(VVC)：VVC是由联合视频探索组(JVET)开发的一种视频解码标准，以取代HEVC(也称为ITU-T H.265)。VVC规定了一种视频编解码技术，其压缩能力大大超越了此类标准的前几代，并且具有高度通用性，可在更广泛的应用中有效使用。VVC标准通过引用并入本文。

AOMedia视频1(AV1)：AV1是由开放媒体联盟(AOMedia)开发的开源视频编解码标准，用于因特网上的视频传输。AV1标准通过引用并入本文。

允许的帧内预测模式(AIPM)：定义为一个模式集，其模式可用于根据相邻块的帧内预测模式导出的当前块的帧内预测。

不允许的帧内预测模式(DIPM)：定义为一个模式集，其模式不能用信号通知或不能用于根据相邻块的帧内预测模式导出的当前块的帧内预测。

基于上下文的自适应二进制算术编码(CABAC)：CABAC是在各种视频编解码标准中使用的一种熵编码的形式。

通用视频编码测试模型(VTM)：VTM提供了VVC算法和测试程序的编码器侧描述。

Bjontegaard增量率(BDR或BD-rate)：BDR是一种通过测量视频信号的相同峰值信噪比(PSNR)的比特率变化来评估编解码效率的方法。

图1示出了结合本公开某些实施例的运行环境100。如图1所示，运行环境100可以包括具有视频功能的各种设备。例如，运行环境100可以包括移动设备102、相机设备104和物联网(IoT)设备106。运行环境100还可以包括其他类型的设备。

运行环境100还可以包括服务器122、人类视觉应用124、机器视觉应用126、以及将各种设备连接到服务器122的通信链接140。用户130可以使用、访问或控制各种设备中的一个或多个。

终端设备102可以包括任何用户终端，例如个人数字助理(PDA)、移动电话、智能电话、集成消息收发设备(IMD)、平板计算机、笔记本计算机、台式计算机、和其他计算设备。相机设备104可以包括任何图像或视频捕获设备，例如数码相机、摄像机、安全摄像机、车载摄像机、和立体摄像机等。IoT设备106可以包括具有相机功能的任何类型的IoT设备，例如数字门铃、自动驾驶传感器、数字语音助手、智能扬声器、智能家电，和任何工业或商业IoT系统。各种设备102、104和106中的任何一个在被移动的个人携带时可以是静止的或移动的，并且还可以作为运输的一部分或以运输模式来放置，该运输模式包括汽车、卡车、出租车、公共汽车、火车、轮船、飞机、自行车、摩托车或任何类似的合适运输模式。

图2示出了用于实现各种设备102、104和/或106中的任一个的电子设备。如图2所示，电子设备200可以包括硬件处理器202、存储器204、读卡器206、显示器208、键盘210、射频(RF)接口212、基带214、天线216、编码器222、解码器224、照相机226、扬声器232和麦克风234等。图2所示的组件是说明性的，可以省略某些组件，并且可以添加其他组件。

可以提供处理器202以控制电子设备200。处理器202可以通过一个或多个总线或其他电连接连接到其他组件，以向其他组件发送数据和从其他组件接收数据。处理器202可以包括一个或多个处理核，例如四核处理器或八核处理器。处理器202可以使用数字信号处理(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和可编程逻辑阵列(PLA)的至少一种硬件形式来实现。处理器202还可以包括主处理器和协处理器。主处理器可以是中央处理单元(CPU)，协处理器可以是图形处理单元(GPU)，该图形处理单元被配置为负责渲染和绘制显示屏幕需要显示的内容。在一些实施例中，处理器202可以进一步包括人工智能(AI)处理器。AI处理器被配置为处理与机器学习有关的计算操作。

存储器204可以包括诸如高速随机存取存储器和非易失性存储器的一个或多个计算机可读存储介质，例如，一个或多个磁盘存储设备或闪存设备。存储器204既可以存储图像和音频数据形式的数据，还可以存储用于处理器202的指令。读卡器206可以包括任何类型的便携式卡接口，例如智能卡接口、通信卡接口(例如，近场通信(NFC)卡)、用户识别模块(SIM)卡、或其他用于提供用户信息并适于为用户130的认证和授权提供认证信息的卡接口。

此外，显示器208可以是适于显示图像或视频的任何合适的显示技术。例如，显示器208可以包括液晶显示器(LCD)屏幕、有机发光二极管(OLED)屏幕等，并且可以是触摸屏。键盘210可以包括物理或虚拟键盘，以便用户130输入信息，并且还可以包括其他类型的输入/输出设备。扬声器232和麦克风234可以用于为电子设备200输入和输出音频。

RF接口212(连同天线216)可以包括用于接收和发送RF信号的RF电路。RF接口212可以将电信号转换成用于发送的电磁信号，或者将接收到的电磁信号转换成用于接收的电信号。RF接口212可以通过至少一种无线通信协议与其他电子设备通信。无线通信协议可以包括城域网、各代移动通信网络(2G、3G、4G和5G)、无线局域网(LAN)和/或无线保真(WiFi)网络。在一些实施例中，RF接口212还可以包括与近场通信(NFC)相关的电路。基带214可以包括电路，用于处理去往和来自RF接口212的信号。

此外，照相机226可以包括用于收集图像或视频的任何类型的成像或视频捕获设备。当电子设备200是由用户130携带的便携式设备时，照相机226可以包括前置摄像头和后置摄像头。前置摄像头可以设置在电子设备的前面板上，后置摄像头可以设置在电子设备的后表面上。在一些实施例中，至少有两个后置摄像头，每个摄像头都是主摄像头、景深摄像头、广角摄像头和长焦摄像头中的任何一个，以便通过融合主摄像头与景深摄像头来实现背景模糊功能，并且通过融合主摄像头与广角摄像头来实现全景拍摄和虚拟现实(VR)拍摄功能或其他融合拍摄功能。在一些实施例中，照相机226可以进一步包括闪光灯。

编码器222和解码器224可以被称为电子设备的编解码器电路，该编解码器电路适于执行音频和/或视频数据的编码和解码，或者辅助处理器202执行编码和解码。

图2所示的电子设备200还可以包括与无线通信系统中的移动终端或用户设备类似的结构。然而，可以包括可能需要编码和解码、或者需要编码、或者需要解码视频的任何电子设备或装置。

返回图1，电子设备200(即，各种设备102、104和/或106中的任何一个或多个)可以捕获或收集各种数据(例如，音频数据、环境/操作数据、图像数据和/或视频数据)，并通过通信链接140将数据发送到服务器122。电子设备200可以在将数据发送到服务器122之前处理或预处理数据，或者可以将未处理的数据发送到服务器122。

通信链路140可以包括任何适当类型的通信网络，并且可以包括有线或无线网络的任意组合，包括但不限于无线蜂窝电话网络、无线局域网(WLAN)、蓝牙个域网、以太网局域网、令牌环局域网、广域网和因特网。通信链路140还可以包括用于语音/数据通信的私有或公共云计算平台。当包括因特网或其它类型的网络时，到因特网的连通性可以包括长距离无线连接、短距离无线连接和各种有线连接，包括电话线、电缆线、电力线和类似的通信路径。

服务器122可以包括配置在服务器集群中或分布在不同位置的任何类型的服务器计算机系统或多个计算机系统。服务器122还可以包括云计算平台上的云服务器。图3示出了实现服务器122的某些方面的示例性计算机系统。

如图3所示，计算机系统300可以包括处理器302、存储介质304、监视器306、通信模块308、数据库310和外围设备312。可以省略某些设备，并且可以包括其它设备。

处理器302可以包括任何合适的一个或多个处理器。此外，处理器302可以包括用于多线程或并行处理的多个核。存储介质304可以包括存储器模块，例如只读存储器(ROM)、随机存取存储器(RAM)、闪存模块、可擦除和可重写存储器、以及大容量存储器，例如CD-ROM、U盘和硬盘等。存储介质304可以存储计算机程序，用于在由处理器302执行时实现各种过程。

此外，外围设备312可以包括I/O设备，例如键盘和鼠标。通信模块308可以包括网络设备，用于通过通信网络建立连接。数据库310可以包括一个或多个数据库，用于存储某些数据并对存储的数据执行某些操作，例如数据库搜索。

返回图2，编码器222可以是实现帧内模式编码方法的编码器。在这种情况下，还可以考虑电子设备200来实现帧内模式编码方法。也就是说，编码器222可以被实现为电子设备200中的硬件电路，或者可以被电子设备200实现为软件程序，或者硬件电路和软件程序的组合。图4示出了与本公开所公开的实施例一致的示例性视频编码器。

如图4所示，视频编码器400包括块分区单元410、减法单元420、预测单元430、变换/量化单元440、逆量化/逆变换单元450、加法单元460、环路内滤波器470和熵编码器480。输入视频被输入到编码器400中，作为响应，编码器400输出比特流。

输入视频包括多个图片帧。块分区单元410将每个图片帧划分为编码树单元(CTU)序列。对于具有三个样本阵列的图片帧，CTU由一个N×N亮度样本块以及两个相应的N×N色度样本块组成。块分区单元410通过使用表示为编码树的四叉树结构进一步将CTU分割成多个编码单元(CU)，以适应各种局部特性。在叶CU级别做出是否使用帧间图片(时间)或帧内图片(空间)预测来编码图片区域的决定。根据PU分割类型，每个叶CU可以进一步分割成一个、两个或四个预测单元(PU)。在一个PU内，应用相同的预测过程，并且基于PU将相关信息传输到视频解码器。在通过应用基于PU分割类型的预测过程获得残差块之后，可以根据与CU的编码树类似的另一四叉树结构将叶CU划分成多个变换单元(TU)。

预测单元430支持帧内预测、帧间预测以及组合的帧间和帧内预测。帧内预测也称为帧内模式编码。为了捕获自然视频中呈现的任意边缘方向，除了平面(表面拟合)帧内预测模式和DC(平坦(flat))帧内预测模式之外，预测单元430还支持65个定向(或角度)帧内预测模式。预测单元430还支持基于运动参数的帧间预测样本的生成，运动参数包括运动矢量、参考图片索引和参考图片列表使用索引、以及视频编码特征所需的附加信息。预测单元430还支持变换跳过模式，其中以变换跳过模式或利用变换跳过编码的CU与一个PU相关联，并且没有显著的残差系数，没有编码的运动矢量增量(delta)或参考图片索引。预测单元430还支持合并模式，其中从相邻CU获取当前CU的运动参数，包括空间和时间候选以及附加调度(schedule)。合并模式可以应用于任何帧间预测CU，而不仅仅用于变换跳过模式。预测单元430还通过显式地传输运动参数来支持合并模式的替代方案，其中运动矢量、每个参考图片列表和参考图片列表使用标志的对应参考图片索引、以及其它所需信息针对每个CU显式地发信号通知。

减法单元420将CU和PU之间的差(或残差)输出到变换/量化单元440。

变换/量化单元440支持高达64×64大小的大的块大小变换。对于大小等于64的变换块，高频变换系数被清零，从而只保留低频系数。当以变换跳过模式对大块进行变换时，变换/量化单元440使用整个块而不将任何值清零。变换/量化单元440还支持用于核心变换的多变换选择(MTS)。为了控制MTS，变换/量化单元440在序列参数集(SPS)级别分别使用单独的启用标志进行帧内和帧间预测。当在SPS级别启用MTS时，发信号通知CU级别标志，以指示是否应用MTS。变换/量化单元440还支持VVC和AV1草案标准中描述的其它变换特征，例如低频不可分离变换(LFNST)和子块变换(SBT)。

此外，变换/量化单元440支持最大63个量化参数(QP)。变换/量化单元440还通过在SPS中发信号通知从亮度到色度的映射关系来支持灵活的从亮度到色度的QP映射。变换/量化单元440还支持CU级别的QP自适应，其中用于亮度分量和色度分量的增量QP值可以分别发信号通知。变换/量化单元440还支持VVC和AV1标准中描述的其它量化特征，例如依赖性量化(dependent quantization)。

变换/量化单元440还支持色度残差的联合编码，其由TU级别标志指示。

基于上下文的自适应二进制算术编码(CABAC)可以被描述为熵编码算法。熵编码器480包括CABAC编码引擎，用于对变换/量化单元440输出的语法元素进行编码。CABAC编码引擎支持算术编码算法，例如Golomb-Rice编码算法。熵编码器480支持用于变换块和变换跳过块的单独的残差编码结构。熵编码器480通过使用非重叠系数组(CG或子块)对编码块的变换系数进行编码，并且每个CG包含可变大小的编码块的变换系数。系数组的大小仅基于变换块大小来选择，与信道类型无关。CG的大小可以包括1×16、2×8、8×2、2×4、4×2和16×1。根据预定义的扫描顺序对每个编码块内的CG和每个CG内的变换系数进行编码。

变换单元中的每个编码块被分割成多个子块，并且每个子块被分割成多个像素。多个子块包括4×4或2×2子块。

在算术编码算法中，根据局部邻域中语法元素的绝对级别(absolute level)或语法元素的部分重建的绝对级别，为每个语法元素动态地选择概率模型。

逆量化/逆变换单元450反转变换/量化单元440执行的量化过程和变换过程，并将输出馈送到加法单元460，以重建图片帧。加法单元460还将预测单元430的输出作为另一输入。重建的图片将由环路内滤波器470进行滤波。环路内滤波器470包括去块滤波器、样本自适应偏移(SAO)滤波器和自适应环路滤波器(ALF)，它们按此顺序级联。环路内滤波器470的输出被输入到预测单元430。

本公开提供了一种视频编解码的方法。图5示出了根据本公开实施例的示例性视频编解码的方法的流程图。如图5所示，视频编解码的方法包括获取视频输入的当前帧(在S510)。在获取当前帧之后，可以根据分区树结构将当前视频帧划分成多个块。

在S520，将获取的当前帧划分成多个块。当前视频帧可以被划分成各种方形和矩形分区。方形分区可以进一步被划分成更小的分区。但矩形分区不能进一步划分。

在S530，在将当前帧划分成多个块之后，通过结合多参考行帧内预测，预测每个划分的块的符号级别。对于每个块，基于相邻块的多个参考行导出帧内预测模式。为多个参考行中的每一个确定基于AV1标准的视频编解码方案中定义的所有可用的帧内预测模式的子集。所有可用的帧内预测模式的子集也称为允许的帧内预测模式(AIPM)集。多个参考行中的每一个都由索引号标识。索引号是大于或等于零的整数。

在基于AV1标准的视频编解码方案中，可用的帧内预测模式的数量为62，其中包括56个角度帧内预测模式、5个平滑模式和一个从亮度预测色度模式。当在帧内预测中应用多个参考行并且针对多个参考行包括所有帧内预测模式时，视频编解码的复杂度是相当大的。多个参考行包括索引号等于零的零参考行和索引号大于零的一个或多个非零参考行。需要限制每个参考行所允许的帧内预测模式的数量，以降低视频编解码的复杂性。

可以对多参考行帧内预测应用某些限制。对窄(narrow block)块，可以禁用多参考行帧内预测。窄块具有宽度W、高度H，并且abs(log₂W-log₂H)>1。对于小块，可以禁用多参考行帧内预测。小块的大小为8×8或更小。对于编码树单元(CTU)内的块的第一行，可以禁用多参考行帧内预测，以防止使用当前CTU行之外的扩展参考样本。也可以应用其他限制。

本公开提供了一种采用多参考行帧内预测的视频编解码的方法，以改进编解码效率和压缩性能。基于编解码效率和压缩性能为多个参考行中的每一个确定的相应帧内预测模式是基于AV1标准的视频编解码方案中定义的所有可用的帧内预测模式的子集。该子集也称为AIPM集。包括在AIPM集中的帧内预测模式由视频编码设备(例如图4所示的视频编码器400)发信号通知。因为包括在AIPM集中的帧内预测模式的数量小于相应视频编解码方案中定义的所有可用的帧内预测模式的数量，因此需要较少的比特来发信号通知包括在AIPM集中的帧内预测模式。此外，除了帧内预测模式之外，还可以以帧间预测模式为每个块预测符号级别。

在预测符号级别之后，对残差符号级别进行变换和量化。残差符号级别是当前符号级别和预测符号级别之间的差。

基于AV1标准的视频编解码方案中的帧内预测模式包括56个角度(定向)帧内预测模式、5个非角度平滑帧内预测模式、一个仅色度帧内预测模式和一些其它帧内预测模式。8个定向(或角度)模式对应45度到207度的角度。为了利用定向纹理中更多种类的空间冗余，将定向帧内预测模式扩展到具有更细粒度的角度集。8个定向模式的角度略有变化，并作为标称角度，这8个标称角度也称为标称帧内角度，并被命名为V_PRED、H_PRED、D45_PRED、D135_PRED、D113_PRED、D157_PRED、D203_PRED和D67_PRED，对应于90°、180°、45°、135°、113°、157°、203°和67°，如图6所示。每个标称角度扩展到7个更细的角度。总共定义了56个定向角度(也称为帧内角度或预测角度)。每个预测角度由标称帧内角度加上角度增量来表示，即-3～3乘以3度的步长。为了通过通用方式实现定向帧内预测模式，所有56个定向帧内预测模式均使用统一的定向预测器来实现，该统一定向预测器将每个像素投影到参考子像素位置，并通过2抽头双线性滤波器对参考像素进行插值。

帧内预测模式还包括5个非定向平滑帧内预测模式，它们是DC模式、PAETH模式、SMOOTH模式、SMOOTH_V模式和SMOOTH_H模式。对于DC模式，使用左侧相邻样本和上方相邻样本的平均值作为待预测块的预测值。对于PAETH模式，首先获取顶部参考样本、左侧参考样本和左上参考样本，然后将最接近(顶部+左侧-左上)的值设置为待预测像素的预测值。图7示出了当前块中一个像素的顶部样本、左侧样本和左上样本的位置。对于SMOOTH模式、SMOOTH_V模式和SMOOTH_H模式，它们在垂直方向或水平方向或这两个方向的平均值上使用二次内插来预测块。

为了捕获与边缘上的参考的衰减空间相关性(decaying spatial correlation)，为亮度块设计了滤波器帧内模式。定义了五种滤波器帧内模式。这五种滤波器帧内模式中的每一种都由一组八个7抽头滤波器表示，这一组八个7抽头滤波器反映了4×2补丁(patch)中的像素和7个相邻像素之间的相关性。换句话说，7抽头滤波器的加权因子是位置相关的。以一个8×8块为例，将其分割成8个4×2补丁，如图8所示。这些补丁在图8中用B0、B1、B2、B3、B4、B5、B6和B7表示。对于每个补丁，使用7个相邻的邻居(用R0～R7表示)来预测当前补丁中的像素。对于补丁B0，所有相邻的邻居已经重建。但是对于其它补丁，不是所有相邻的邻居都被重建。相邻邻居的预测值用作参考。例如，补丁B7的所有相邻的邻居都没有重建，因此使用相邻的邻居(即B5和B6)的预测样本代替。

从亮度预测色度(CfL)是一种仅色度帧内预测器，它将色度像素建模为重合重建亮度像素的线性函数。CfL预测表示如下：

CfL(α)＝α×L_AC+DC

其中，L_AC表示亮度分量的AC贡献，α表示线性模型的参数，DC表示色度分量的DC贡献。具体地，将重建的亮度像素子采样为色度分辨率，然后减去平均值，形成AC贡献。为了从AC贡献中近似出色度AC分量，CfL不需要解码器计算缩放参数，而是基于原始色度像素确定参数α，并在比特流中发信号通知它们。该方法降低了解码器的复杂度并产生了更精确的预测。对于色度分量的DC贡献，其使用帧内DC模式来计算，这对于大多数色度内容来说已经足够了，并且具有成熟的快速实施方式。

多参考行帧内预测使用多个参考行进行帧内预测，并且如图4所示的视频编码器400决定并发信号通知使用哪个参考行生成帧内预测值。在帧内预测模式之前发信号通知参考行的索引号，并且在发信号通知非零参考行的索引号的情况下，仅允许最可能模式(MPM)或等效模式。如图9所示，描绘了4个参考行的示例，其中每个参考行由六个段(即，段A至段F)以及左上参考样本组成。此外，段A和段F分别用来自段B和段E的最接近的样本填充。

如图9所示，参考行的索引号随着参考行离当前块越远而依次增加。紧邻当前块的参考行称为零参考行，其索引号等于零，即图9中的参考行0。与零参考行对应的AIPM集合表示为S2。索引号大于零的参考行称为非零参考行。与任何非零参考行对应的AIPM集合表示为S1。S2至少包括S1中的所有帧内预测模式。S1是S2的子集。

返回到图5，在S540，对通过从当前符号级别减去预测符号级别导出的残差符号级别进行变换和量化。大的块大小变换包括高达64×64的大小。对于大小等于64的变换块，高频变换系数被清零，以便仅保留低频系数。当以变换跳过模式对大块进行变换时，使用整个块而不将任何值清零。此外，对于核心变换，支持多变换选择(MTS)。为了控制MTS，在序列参数集(SPS)级别分别使用单独的启用标志进行帧内和帧间预测。当在SPS级别启用MTS时，发信号通知CU级别标志，以指示是否应用MTS。可以支持其它变换特征，例如低频不可分离变换(LFNST)和子块变换(SBT)。

此外，变换和量化过程支持最多63个量化参数(QP)。通过在SPS中发信号通知从亮度到色度的映射关系，还支持灵活的从亮度到色度的QP映射。还可以支持CU级别的QP自适应，其中亮度分量和色度分量的增量QP值可以分别发信号通知。还可以支持其它量化特征，例如依赖性量化。

返回图5，在S550，对变换和量化后的残差符号级别进行熵编码。熵编码算法可以是基于上下文的自适应二进制算术编码(CABAC)。CABAC编码引擎可用于对变换和量化过程输出的语法元素进行编码。CABAC编码引擎支持算术编码算法，例如Golomb-Rice编码算法。可以为变换块和变换跳过块支持单独的残差编码结构。编码块的变换系数可以使用非重叠系数组(CG或子块)进行编码，并且每个CG包含可变大小的编码块的变换系数。系数组的大小仅基于变换块大小来选择，与信道类型无关。CG的大小可以包括1×16、2×8、8×2、2×4、4×2和16×1。根据预定义的扫描顺序对每个编码块内的CG和每个CG内的变换系数进行编码。

如图5所示，在S560，生成包括熵编码的残差符号级别的比特流。作为熵编码的结果，生成包括熵编码的残差符号级别的比特流。可以传输和/或存储比特流。解码器可以执行与本公开的视频编码方法相对应的视频解码方法，以恢复原始视频。

因此，本公开提供了一种视频编解码的方法。该方法包括帧内预测中的多条参考线，并为每个参考线确定AIPM集，从而限制多个参考线的帧内预测模式的总数。通过减少多个参考线的帧内预测模式的总数，需要更少的比特来编码帧内预测模式的信令标志和索引号，从而提高视频编解码方案的编解码效率和压缩性能。

本公开的编码器和解码器的实施例可以由处理电路(例如，一个或多个处理器或一个或多个集成电路)来实现，该处理电路执行存储在非易失性计算机可读存储介质中的程序指令。

图10示出了根据本公开实施例的确定包括在S1中的帧内预测模式的流程图。在一个实施例中，如图10所示，在S1010，无论当前块的大小或相邻块的帧内预测模式如何，S1都包括标称角度的角度帧内预测模式。无论当前块的大小或相邻块的帧内预测模式如何，S1都包括八个标称角度的角度帧内预测模式，其中，八个标称角度是45°、67°、90°、113°、135°、157°、180°和203°。

在S1020，无论当前块的大小和相邻块的帧内预测模式如何，S1中都包括SMOOTH_V模式或SMOOTH_H模式。SMOOTH_V模式和SMOOTH_H模式分别是在垂直方向或水平方向上使用二次插值的帧内预测模式。

当当前块的高度大于或等于当前块的宽度时，SMOOTH_V模式包括在S1中。当当前块的宽度大于当前块的高度时，SMOOTH_H模式包括在S1中。

或者，当当前块的宽度大于或等于当前块的高度时，SMOOTH_V模式包括在S1中。当当前块的高度大于当前块的宽度时，SMOOTH_H模式包括在S1中。

在S1030，在S1中排除除SMOOTH_V模式或SMOOTH_H模式之外的任何非角度帧内预测模式。通过排除不太可能的帧内预测模式，限制包括在S1中的帧内预测模式的数量，以提高编解码效率和压缩性能。

在一个实施例中，包括在S1和S2中的帧内预测模式可以通过以下方式确定：将S2分割成第一级别和第二级别；在S2的第一级别包括2^L个帧内预测模式，在S2的第二级别包括2^M个帧内预测模式，其中L和M是大于1的整数；以及在S1中的S2的第一级别包括角度帧内预测模式。因此，包括在S1和S2中的帧内预测模式可以被有效地编码。

类似地，在另一个实施例中，包括在S1和S2中的帧内预测模式可以通过以下方式确定：将S2分割成第一级别、第二级别和第三级别；在S2的第一级别包括2^L个帧内预测模式，在S2的第二级别包括2^M个帧内预测模式，在S2的第三级别包括2^N个帧内预测模式，其中L、M和N是大于1的整数；以及在S1中包括S2的第一级别和第二级别的角度帧内预测模式。因此，包括在S1和S2中的帧内预测模式可以被有效地编码。

在一些实施例中，当相邻块的帧内预测模式之一是角度帧内预测模式时，根据本公开的视频编解码方法还可以包括S1中的非标称角度的至少一个角度帧内预测模式。

因为零参考行比非零参考行更接近当前块，所以在多参考行帧内预测中S2比S1具有更大的影响。因此，S1是S2的子集。然而，包括在S2中的最可能帧内预测模式也包括在S1中。在一个示例中，S2的所有角度帧内预测模式也可以包括在S1中。另一方面，本公开并不阻止S1和S2完全相同。

在另一示例中，角度帧内预测模式被视为是比非角度帧内预测模式更可能的帧内预测模式。S2的所有角度帧内预测模式也包括在S1中，但是S1中排除了S2的所有非角度帧内预测模式。或者，S1中可以包括比S2更多的角度帧内预测模式。

此外，包括在S1中的帧内预测模式的数量可以取决于对应参考行的相邻块的帧内预测模式。包括在S1和S2中的帧内预测模式是从N个相邻块导出的。当N个相邻块中的M个相邻块包括某些帧内预测模式时，可以减少包括在S1中的帧内预测模式的数量。在这种情况下，M和N是正整数，并且M小于或等于N。某些帧内预测模式包括非角度帧内预测模式，例如DC模式、递归模式、PAETH模式、SMOOTH模式、SMOOTH_H模式和SMOOTH_V模式，这些模式在之前的一些实施例中已经描述过。在一个示例中，M＝2并且N＝2。包括在S1中的帧内预测模式的数量减少到零。在这种情况下，从导出当前块的帧内预测模式中排除对应参考行的相邻块，并且在视频编码过程中不发信号通知对应参考行的索引号。

在另一示例中，包括在S1中的帧内预测模式的数量可以取决于相邻块的帧内预测模式和对应参考行的索引号。参考行的索引号反映了相邻块与当前块的接近程度。当确定包括在S1中的帧内预测模式时，包括对应参考行的索引号考虑接近程度信息。例如，索引号越小，包括在S1中的帧内预测模式的数量就越大。

在另一示例中，对于色度分量，仅当非零参考行的每个相邻块包括至少一个角度帧内预测模式时，对应的非零参考行才可以包括在多参考行帧内预测过程中以用于导出帧内预测模式。

在另一示例中，对于色度分量，仅当非零参考行的每个相邻块包括相同的角度帧内预测模式时，对应的非零参考行才可以包括在多参考行帧内预测过程中以用于导出帧内预测模式。

在本公开的实施例中，视频编解码方法支持基于AV1标准的视频编解码方案中的多参考行帧内预测。限制包括在每个参考行中的帧内预测模式的数量，以提高编解码效率和压缩性能。

本公开还提供了一种视频解码的方法。图11示出了根据本公开实施例的示例性视频解码的方法。如图11所示，获取比特流，该比特流包括视频输入的多个编码帧(在S1110)。该比特流可以由执行图5所示的视频编码方法的视频编码系统生成。

在S1120，将多个已编码帧中的每一个解码为多个CTU，并将多个CTU中的每一个解码为多个残差块。比特流包括头信息，以指示多个CTU的边界和包括在多个CTU中的每一个中的多个残差块的边界。可以对多个残差块中的每一个进行熵编码。可以执行熵解码过程，随后执行逆变换和逆量化过程，以获得多个残差块中的每一个。熵解码过程以及逆变换和逆量化过程反转在图5所示的视频编码方法的S540和S550处执行的熵编码过程以及变换和量化过程。

在S1130，基于包括在每个已编码帧中的MRLP标志和参考样本，恢复多个残差块中的每个残差块的编码块。具体地，通过基于包括在每个已编码帧中的MRLP标志和参考样本(其是在图5所示的视频编码方法的S530处确定的)反转MRLP过程，从对应的残差块解码编码块。

然后，将多个CTU中的每一个中的多个残差块的每个残差块的恢复的编码块存储在帧缓冲器中，以重建视频信号的每一帧(在S1140)。该过程通过反转图5所示的视频编码方法的S520，将多个编码块组合成一个CTU，并将多个CTU组合成视频信号的一个帧。

最后，连续地输出组合的帧，以恢复视频信号(在S1150)。该过程反转了图5所示的视频编码方法的S510。

尽管通过说明书中的具体实施例描述了本公开的原理和实施方式，但是前面所述的实施例仅用于帮助理解本公开的方法及其核心思想。同时，本领域普通技术人员可以根据本公开的思想对具体的实施方式和应用范围进行修改。总之，说明书的内容不应解释为对本公开的限制。

Claims

1.一种视频解码的方法，其特征在于，包括：

获取比特流，所述比特流包括视频信号的多个已编码帧；

将所述多个已编码帧中的每一个解码为多个编码树单元CTU，并将所述多个CTU中的每一个解码为多个残差块；

基于包括在每个已编码帧中的多参考行帧内预测MRLP标志和参考样本，恢复所述多个残差块中的每个残差块的编码块，其中基于编解码效率和压缩性能，为所选择的用于帧内预测的多个参考行中的每个参考行确定所有可用的帧内预测模式的子集，也称为允许的帧内预测模式AIPM集，并且所述多个参考行中的每个参考行由索引号标识，所述索引号是大于或等于零的整数；

其中，所述参考行的索引号随着所述参考行离当前块越远而依次增加；

紧邻所述当前块的参考行称为零参考行，并且索引号等于零，对应的AIPM集表示为S2；

所述索引号大于零的参考行称为非零参考行，对应的AIPM集表示为S1；并且

S1是S2的子集；

S1和S2的大小是2的幂或2的幂的倍数之和，以减少编码所述MRLP标志所用的比特数量，并且S1是通过排除S2中的部分非角度帧内预测模式而获得的；

通过将所述多个残差块中的每个残差块的所述恢复的编码块存储在帧缓冲器中，重建所述视频信号的每一帧；以及

连续地输出所述重建的帧，以恢复所述视频信号。

2.根据权利要求1所述的方法，其特征在于，包括在S1中的帧内预测模式通过以下方式确定：

无论所述当前块的大小和相邻块的帧内预测模式如何，S1都包括具有标称角度的角度帧内预测模式；

无论所述当前块的大小和所述相邻块的帧内预测模式如何，S1都包括SMOOTH_V模式或SMOOTH_H模式；以及

S1排除除所述SMOOTH_V模式或所述SMOOTH_H模式之外的任何非角度帧内预测模式，

其中：

所述标称角度为45°、67°、90°、113°、135°、157°、180°和203°；并且

所述SMOOTH_V模式和所述SMOOTH_H模式分别是在垂直方向或水平方向上使用二次插值的帧内预测模式。

3.根据权利要求2所述的方法，其特征在于：

当所述当前块的高度大于或等于所述当前块的宽度时，所述SMOOTH_V模式包括在S1中；并且

当所述当前块的宽度大于所述当前块的高度时，所述SMOOTH_H模式包括在S1中。

4.根据权利要求2所述的方法，其特征在于：

当所述当前块的宽度大于或等于所述当前块的高度时，所述SMOOTH_V模式包括在S1中；并且

当所述当前块的高度大于所述当前块的宽度时，所述SMOOTH_H模式包括在S1中。

5.根据权利要求1-4中任一项所述的方法，其特征在于，包括在S1和S2中的帧内预测模式通过以下方式确定：

将S2分割为第一级别和第二级别；

在S2的所述第一级别包括2^L个帧内预测模式，在S2的所述第二级别包括2^M个帧内预测模式，其中L和M是大于1的整数；以及

在S1中包括S2的所述第一级别的角度帧内预测模式。

6.根据权利要求1-4中任一项所述的方法，其特征在于，包括在S1和S2中的帧内预测模式通过以下方式确定：

将S2分割为第一级别、第二级别和第三级别；

在S2的所述第一级别包括2^L个帧内预测模式，在S2的所述第二级别包括2^M个帧内预测模式，在S2的所述第三级别包括2^N个帧内预测模式，其中L、M和N是大于1的整数；以及

在S1中包括S2的所述第一级别和所述第二级别的角度帧内预测模式。

7.根据权利要求1-4中任一项所述的方法，其特征在于，包括在S1中的帧内预测模式通过以下方式确定：

当相邻块的帧内预测模式之一是角度帧内预测模式时，S1包括非标称角度的至少一个角度帧内预测模式。

8.根据权利要求1-4中任一项所述的方法，其特征在于，包括在S1和S2中的帧内预测模式通过以下方式确定：

在S1中包括S2的所有角度帧内预测模式。

9.根据权利要求1-4中任一项所述的方法，其特征在于，包括在S1和S2中的帧内预测模式通过以下方式确定：

在S1中包括S2的所有帧内预测模式。

10.根据权利要求1-4中任一项所述的方法，其特征在于，包括在S1和S2中的帧内预测模式通过以下方式确定：

在S1中包括S2的所有角度帧内预测模式；以及

在S1中排除S2的所有非角度帧内预测模式。

11.根据权利要求1-4中任一项所述的方法，其特征在于，包括在S1和S2中的帧内预测模式通过以下方式确定：

在S1中包括比S2更多的角度帧内预测模式。

12.一种视频编码的方法，其特征在于，包括：

获取视频输入的当前帧；

将所述获取的当前帧划分成多个块；

通过结合多参考行帧内预测，预测每个划分的块的符号级别，其中，

基于相邻块的多个参考行导出帧内预测模式；

基于编解码效率和压缩性能，为所述多个参考行中的每个参考行确定所有可用的帧内预测模式的子集，也称为允许的帧内预测模式集AIPM；并且

所述多个参考行中的每个参考行由索引号标识，所述索引号是大于或等于零的整数；

S1是S2的子集；

对通过从当前符号级别减去预测符号级别导出的残差符号级别进行变换和量化；

对所述变换和量化后的残差符号级别进行熵编码；以及

生成包括所述熵编码的残差符号级别的比特流。

13.根据权利要求12所述的方法，其特征在于，包括在S1中的帧内预测模式通过以下方式确定：

无论所述当前块的大小和相邻块的帧内预测模式如何，S1都包括具有标称角度的角度帧内预测模式；以及

无论所述当前块的大小和所述相邻块的帧内预测模式如何，S1都包括SMOOTH_V模式或SMOOTH_H模式，

其中：

14.根据权利要求13所述的方法，其特征在于，

15.根据权利要求13所述的方法，其特征在于，

16.根据权利要求12-15中任一项所述的方法，其特征在于，包括在S1和S2中的帧内预测模式通过以下方式确定：

将S2分割为第一级别和第二级别；

在S1中包括S2的所述第一级别的角度帧内预测模式。

17.根据权利要求12-15中任一项所述的方法，其特征在于，包括在S1和S2中的帧内预测模式通过以下方式确定：

将S2分割为第一级别、第二级别和第三级别；

18.根据权利要求12-15中任一项所述的方法，其特征在于，包括在S1中的帧内预测模式通过以下方式确定：

19.一种视频解码的系统，其特征在于，包括：

存储器，用于存储计算机程序指令；以及

耦合到所述存储器的处理器，当执行所述计算机程序指令时，被配置为执行权利要求1-11任一项所述的视频解码的方法和权利要求12-18任一项所述的视频编码的方法。

20.一种非易失性计算机可读存储介质，其特征在于，用于存储计算机程序指令，当所述计算机程序指令由用于视频编解码的计算机执行时，使所述计算机执行权利要求1-11任一项所述的视频解码的方法和权利要求12-18任一项所述的视频编码的方法。

21.一种计算机设备，其特征在于，所述设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器用于存储计算机程序指令，当所述计算机程序指令由所述一个或多个处理器执行时，使所述一个或多个处理器执行权利要求1-11任一项所述的视频解码的方法和权利要求12-18任一项所述的视频编码的方法。