CN114270826A

CN114270826A - 用于视频数据的帧内预测编码的方法和装置

Info

Publication number: CN114270826A
Application number: CN202080054504.5A
Authority: CN
Inventors: 沈东圭; 边柱衡; 朴时奈; 朴俊泽; 朴胜煜; 林和平
Original assignee: Hyundai Motor Co; Industry Academic Collaboration Foundation of Kwangwoon University; Kia Corp
Current assignee: Hyundai Motor Co; Industry Academic Collaboration Foundation of Kwangwoon University; Kia Corp
Priority date: 2019-08-06
Filing date: 2020-08-06
Publication date: 2022-04-01
Anticipated expiration: 2040-08-06
Also published as: US20240171747A1; US20220279187A1; US11930180B2; US20240163444A1; US20240214573A1; CN118741106A; CN114270826B; US20240205410A1; EP4009632A1; CN118741109A; WO2021025478A1; CN118741105A; EP4009632A4; CN118741108A; CN118741107A; US20240187600A1

Abstract

公开了用于视频数据的帧内预测编码的方法和装置。根据本发明的一个方面，一种用于对视频数据解码的装置包括解码单元和帧内预测单元，所述解码单元从比特流获得关于当前编码块的亮度预测模式的信息和关于当前编码块的色度预测模式的信息；所述帧内预测单元生成当前编码块的亮度预测样本和色度预测样本。所述帧内预测单元基于关于亮度预测模式的信息来推导当前编码块的亮度帧内预测类型和亮度帧内预测模式，并且基于当前编码块的亮度帧内预测类型和亮度帧内预测模式以及关于色度预测模式的信息来确定当前编码块的亮度帧内预测模式。

Description

用于视频数据的帧内预测编码的方法和装置

技术领域

本发明涉及视频数据的编码和解码。

背景技术

由于视频数据量通常大于语音数据量或静止影像数据量，因此在不进行压缩处理的情况下存储或传输视频数据需要大量的硬件资源(包括存储器)。

相应地，在存储或传输视频数据时，通常利用编码器来压缩视频数据，以便于进行存储或传输。然后，解码器接收压缩的视频数据，解压并再现视频数据。用于视频的压缩技术包括H.264/AVC和高效率视频编码(High Efficiency Video Coding，HEVC)，所述高效率视频编码(HEVC)比H.264/AVC的编码效率提高了大约40％。

然而，对于视频数据，图像大小、分辨率和帧速率逐渐增加，并且相应地，要编码的数据量也在增多。因此，需要一种与现有压缩技术相比具有更好的编码效率和更高的影像质量的新压缩技术。

发明内容

本发明公开了一种用于视频数据的块的帧内预测编码的改进技术。

根据本发明的一个方面，一种用于对视频数据解码的方法包括：从比特流获取关于当前编码块的亮度预测模式的信息和关于当前编码块的色度预测模式的信息；基于关于亮度预测模式的信息来推导当前编码块的亮度帧内预测类型和亮度帧内预测模式，所述亮度帧内预测类型包括基于矩阵的帧内预测(matrix-based intra prediction，MIP)和常规帧内预测；基于当前编码块的亮度帧内预测类型和亮度帧内预测模式以及关于色度预测模式的信息，确定当前编码块的色度帧内预测模式；基于当前编码块的色度帧内预测模式来生成当前编码块的色度预测样本。

确定当前编码块的色度帧内预测模式包括：如果关于色度预测模式的信息指示直接模式(Direct mode，DM)，当前编码块的亮度帧内预测类型是基于矩阵的帧内预测，并且视频数据的采样格式是4:4:4，则确定出当前编码块的色度帧内预测类型是基于矩阵的帧内预测，并且确定出与当前编码块的色度帧内预测类型相对应的色度帧内预测模式与推导为当前编码块的亮度帧内预测模式的基于矩阵的帧内预测模式相同。

确定当前编码块的色度帧内预测模式包括：如果关于色度预测模式的信息指示直接模式(DM)，当前编码块的亮度帧内预测类型为基于矩阵的帧内预测，并且视频数据的采样格式为4:2:0或4:2:2，则确定出当前编码块的色度帧内预测模式为平面(PLANAR)模式。

确定当前编码块的色度帧内预测模式包括：如果关于色度预测模式的信息指示直接模式(DM)并且当前编码块的亮度帧内预测类型是常规帧内预测类型，则确定出当前编码块的色度帧内预测模式与推导为当前编码块的亮度帧内预测模式的常规帧内预测模式相同。

根据本发明的另一方面，一种用于对视频数据解码的装置包括解码单元和帧内预测单元，所述解码单元从比特流获取关于当前编码块的亮度预测模式的信息和关于当前编码块的色度预测模式的信息；所述帧内预测单元基于关于亮度预测模式的信息来推导当前编码块的亮度帧内预测类型和亮度帧内预测模式，基于当前编码块的亮度帧内预测类型和亮度帧内预测模式以及关于色度预测模式的信息来确定当前编码块的色度帧内预测模式，并且基于当前编码块的色度帧内预测模式来生成当前编码块的色度预测样本，其中所述亮度帧内预测类型包括基于矩阵的帧内预测(MIP)和常规帧内预测。

在确定当前编码块的色度帧内预测模式时，如果关于色度预测模式的信息指示直接模式(DM)，当前编码块的亮度帧内预测类型是基于矩阵的帧内预测，并且视频数据的采样格式是4:4:4，则帧内预测单元确定出当前编码块的色度帧内预测类型是基于矩阵的帧内预测，并且确定出与当前编码块的色度帧内预测类型相对应的色度帧内预测模式与推导为当前编码块的亮度帧内预测模式的基于矩阵的帧内预测模式相同。

附图说明

图1是能够实现本发明的技术的视频编码装置的示例性框图。

图2示例性地示出利用QTBTTT结构的块分区结构。

图3a示例性地示出多个帧内预测模式。

图3b示例性地示出包括宽角度帧内预测模式的多个帧内预测模式。

图4是能够实现本发明的技术的视频解码装置的示例性框图。

图5是示出可以在本发明的技术中使用的MIP技术的主要过程的概念图。

图6是示出根据本发明实施方案的对视频数据解码的方法的流程图。

具体实施方式

在下文中，将参考所附附图对本发明的一些实施方案进行详细描述。应当注意，在将附图标记添加到各个附图中的组成元件时，尽管元件在不同的附图中示出，但是相同的附图标记也表示相同的元件。此外，在本发明的以下描述中，将省略并入本文的已知功能和配置的详细描述，以避免模糊本发明的主题。

图1是能够实现本发明的技术的视频编码装置的示例性框图。在下文中，将参考图1来描述视频编码装置以及该装置的元件。

视频编码装置包括：图像分割器110、预测器120、减法器130、变换器140、量化器145、重排单元150、熵编码器155、逆量化器160、逆变换器165、加法器170、滤波单元180和存储器190。

视频编码装置的每个元件可以以硬件或软件、或者硬件和软件的组合来实现。各个元件的功能可以实现为软件，并且微处理器可以实现为执行对应于各个元件的软件功能。

一个视频包括多个图像。每个图像分割为多个区域，并且对每个区域执行编码。例如，一个图像分割为一个或更多个瓦片(tile)或/和切片(slice)。这里，一个或更多个瓦片可以被定义为瓦片组。每个瓦片或切片分割为一个或更多个编码树单元(coding treeunit，CTU)。每个CTU通过树结构分割为一个或更多个编码单元(coding unit，CU)。应用于每个CU的信息被编码为CU的语法，并且共同应用于包括在一个CTU中的CU的信息被编码为CTU的语法。另外，共同应用于一个切片中的所有块的信息被编码为切片头的语法，而应用于构成图像的所有块的信息被编码在图像参数集(Picture Parameter Set，PPS)或图像头中。此外，由多个图像共同参考的信息被编码在序列参数集(Sequence Parameter Set，SPS)中。另外，由一个或更多个SPS共同参考的信息被编码在视频参数集(Video ParameterSet，VPS)中。共同应用于一个瓦片或瓦片组的信息可以被编码为瓦片头或瓦片组头的语法。

图像分割器110配置为确定编码树单元(CTU)的大小。关于CTU的大小(CTU尺寸)的信息被编码为SPS或PPS的语法，并且被传输至视频解码装置。

图像分割器110配置为将构成视频的每个图像分割为具有预定大小的多个CTU，然后利用树结构递归地分割CTU。在树结构中，叶节点用作编码单元(CU)，所述编码单元(CU)是编码的基本单元。

树结构可以是四叉树(QuadTree，QT)、二叉树(BinaryTree，BT)、三叉树(TernaryTree，TT)、或者由两个或更多个QT结构、BT结构和TT结构的组合形成的结构，所述四叉树(QT)即节点(或父节点)被分割为相同大小的四个从节点(或子节点)，所述二叉树(BT)即节点被分割为两个从节点，所述三叉树(TT)即节点以1:2:1的比率被分割为三个从节点。例如，可以利用四叉树加二叉树(QuadTree plus BinaryTree，QTBT)结构，或者可以利用四叉树加二叉树三叉树(QuadTree plus BinaryTree TernaryTree，QTBTTT)结构。这里，BTTT可以统称为多类型树(multiple-type tree，MTT)。

图2示例性地示出了QTBTTT分割树结构。如图2所示，CTU可以首先分割为QT结构。可以重复QT分割，直到分割块的大小达到QT中允许的叶节点的最小块大小MinQTSize。由熵编码器155对指示QT结构的每个节点是否被分割为下层的四个节点的第一标志(QT_split_flag)进行编码，并将其用信号通知视频解码装置。当QT的叶节点不大于BT中允许的根节点的最大块大小(MaxBTSize)时，可以进一步将其分割为一个或更多个BT结构或TT结构。BT结构和/或TT结构可以具有多个分割方向。例如，可以存在两个方向，即，水平地分割节点的块的方向和竖直地分割块的方向。如图2所示，当MTT分割开始时，通过熵编码器155对指示节点是否被分割的第二标志(mtt_split_flag)、指示分割情况下的分割方向(竖直或水平)的标志、和/或指示分割类型(二叉或三叉)的标志进行编码，并将其用信号发送至视频解码装置。替选地，在对指示每个节点是否被分割为下层的4个节点的第一标志(QT_split_flag)进行编码之前，可以对指示节点是否被分割的CU分割标志(split_cu_flag)进行编码。当CU分割标志(split_cu_flag)的值指示出没有执行分割时，节点的块成为分割树结构中的叶节点，并用作编码单元(CU)，所述编码单元(CU)是编码的基本单元。当CU分割标志(split_cu_flag)的值指示出执行分割时，视频编码装置开始以上述方式从第一标志起对标志进行编码。

当利用QTBT作为树结构的另一个示例时，可以存在两种分割类型，即将块水平地分割为相同大小的两个块的类型(即，对称水平分割)和将块竖直地分割为相同大小的两个块的类型(即，对称竖直分割)。由熵编码器155对指示BT结构的每个节点是否被分割为下层的块的分割标志(split_flag)和指示分割类型的分割类型信息进行编码，并将其传输至视频解码装置。可以存在将节点的块分割为两个非对称块的额外类型。非对称分割类型可以包括以1:3的大小比率将块分割为两个矩形块的类型，或者对角线地分割节点的块的类型。

CU可以根据CTU的QTBT或QTBTTT分割而具有各种大小。在下文中，与要编码或解码的CU(即，QTBTTT的叶节点)相对应的块被称为“当前块”。在采用QTBTTT分割时，当前块的形状可以是正方形或矩形。

预测器120配置为对当前块进行预测以生成预测块。预测器120包括帧内预测器122和帧间预测器124。

通常，图像中的每个当前块可以被预测地编码。通常，利用帧内预测技术(其利用来自包括当前块的图像的数据)或帧间预测技术(其利用在包括当前块的图像之前被编码的图像的数据)来执行当前块的预测。帧间预测包括单向预测和双向预测两者。

帧内预测器122配置为利用在包括当前块的当前图像中位于当前块周围的像素(参考像素)来预测当前块中的像素。根据预测方向，存在多个帧内预测模式。例如，如图3a所示，多个帧内预测模式可以包括含有平面模式和DC模式的两种非方向模式以及65种方向模式。针对每种预测模式不同地定义要使用的相邻像素和等式。下表列出帧内预测模式编号及其名称。

表1

帧内预测模式	相关名称
		0	INTRA_PLANAR
1	INTRA_DC
		2…66	INTRA_ANGULAR2…INTRA_ANGULAR66

为了对矩形形状的当前块进行有效的方向预测，可以额外地利用由图3b中的虚线箭头指示的方向模式(帧内预测模式67至80和-1至-14)。这些模式可以称为“宽角度帧内预测模式(wide angle intra-prediction modes)”。在图3b中，箭头指示用于预测的相应参考样本，而非指示预测方向。预测方向与由箭头指示的方向相反。宽角度帧内预测模式是在当前块具有矩形形状时在与特定方向模式相反的方向上执行预测而无需额外的比特传输的模式。在这种情况下，在宽角度帧内预测模式中，可以基于矩形当前块的宽度与高度的比率来确定可用于当前块的一些宽角度帧内预测模式。例如，在当前块的矩形形状的高度小于其宽度时，可以利用角度小于45度的宽角度帧内预测模式(帧内预测模式67至80)。在当前块的矩形形状的高度大于其宽度时，可以利用角度大于-135度的宽角度帧内预测模式(帧内预测模式-1至-14)。

帧内预测器122可以确定对当前块进行编码时要使用的帧内预测模式。在一些示例中，帧内预测器122可以利用若干帧内预测模式来对当前块进行编码，并且从测试的模式中选择要使用的适当的帧内预测模式。例如，帧内预测器122可以利用若干测试的帧内预测模式的率失真(rate-distortion)分析来计算率失真值，并且可以在测试的模式中选择具有最佳率失真特性的帧内预测模式。

帧内预测器122配置为从多个帧内预测模式中选择一个帧内预测模式，并且利用根据选择的帧内预测模式所确定的相邻像素(参考像素)和等式来预测当前块。由熵编码器155对关于选择的帧内预测模式的信息进行编码，并将其传输至视频解码装置。

此外，帧内预测器122可以利用基于矩阵的帧内预测(MIP)来生成当前块的预测块，这将在后面描述。帧内预测器122利用从在当前块的左侧重构的样本和在当前块上方重构的样本推导的边界向量、预定义矩阵以及偏移向量来生成当前块的预测块。

帧间预测器124配置为通过运动补偿来生成当前块的预测块。帧间预测器124可以在比当前图像更早已被编码和解码的参考图像中搜索与当前块最相似的块，并且利用搜索到的块来生成当前块的预测块。然后，帧间预测器配置为生成与当前图像中的当前块和参考图像中的预测块之间的位移(displacement)相对应的运动向量(motion vector)。通常，对亮度(luma)分量执行运动估计，并且基于亮度分量计算的运动向量用于亮度分量和色度分量两者。由熵编码器155对包括关于参考图像的信息和有关用于预测当前块的运动向量的信息的运动信息进行编码，并将其传输至视频解码装置。

减法器130配置为将当前块减去由帧内预测器122或帧间预测器124生成的预测块以生成残差块。

变换器140可以将残差块分割为一个或更多个变换块，并且对一个或更多个变换块应用变换，从而将变换块的残差值从像素域变换到频域。在频域中，变换块被称为包含一个或更多个变换系数值的系数块。二维变换核可以用于变换，而一维变换核可以分别用于水平变换和竖直变换。变换核可以基于离散余弦变换(DCT)、离散正弦变换(DST)等。

变换器140可以利用残差块的整个大小作为变换单元来变换残差块中的残差信号。另外，变换器140可以将残差块在水平方向或竖直方向上分区为两个子块，并且可以仅变换两个子块的一个。相应地，变换块的大小可以与残差块的大小(进而预测块的大小)不同。非零残差样本值在未变换子块中可能不存在或者可能非常罕见。不用信号通知未变换子块的残差样本，并且未变换子块的残差样本可以被视频解码装置推断为“0”。根据分区方向和分区比率可以存在多种分区类型。变换器140可以向熵编码器155提供关于残差块的编码模式(或变换模式)的信息(例如，指示是变换残差块还是变换残差子块的信息，指示选择为将残差块分区为子块的分区类型的信息，以及识别被执行变换的子块的信息)。熵编码器155可以对关于残差块的编码模式(或变换模式)的信息进行编码。

量化器145配置为对从变换器140输出的变换系数进行量化，并且将量化的变换系数输出到熵编码器155。对于一些块或帧，量化器145可以不经变换直接对相关残差块进行量化。

重排单元150可以对量化的残差值的系数值进行重组。重排单元150可以通过系数扫描(coefficient scanning)来将2维系数阵列改变为1维系数序列。例如，重排单元150可以利用锯齿形扫描(zig-zag scan)或对角线扫描(diagonal scan)从直流(DC)系数向高频区域中的系数对系数进行扫描，以输出1维系数序列。根据变换单元的大小和帧内预测模式，可以利用竖直扫描或水平扫描代替锯齿形扫描，所述竖直扫描即在列方向上对二维系数阵列进行扫描，所述水平扫描即在行方向上对二维块形状的系数进行扫描。也就是说，可以根据变换单元的大小和帧内预测模式在锯齿形扫描、对角线扫描、竖直扫描和水平扫描中确定要利用的扫描模式。

熵编码器155配置为利用诸如基于上下文的自适应二进制算术编码(Context-based Adaptive Binary Arithmetic Code，CABAC)和指数哥伦布(exponential Golomb)的各种编码技术来对从重排单元150输出的一维量化的变换系数进行编码，以生成比特流。

熵编码器155可以对与块分割相关的信息(例如，CTU大小、CU分割标志、QT分割标志、MTT分割类型和MTT分割方向)进行编码，使得视频解码装置可以以与视频编码装置相同的方式来分割块。另外，熵编码器155可以对关于指示当前块是由帧内预测进行编码还是由帧间预测进行编码的预测类型的信息进行编码，并且根据预测类型来对帧内预测信息(即，关于帧内预测模式的信息)或帧间预测信息(关于参考图像索引和运动向量的信息)进行编码。

逆量化器160配置为对从量化器145输出的量化的变换系数进行逆量化，以生成变换系数。逆变换器165配置为将从逆量化器160输出的变换系数从频域变换到空域，并且重构残差块。

加法器170配置为将重构的残差块和由预测器120生成的预测块相加，以重构当前块。重构的当前块中的像素在执行后续块的帧内预测时用作参考像素。

滤波单元180配置为对重构的像素进行滤波，以减少由于基于块的预测和变换/量化而产生的块伪影(blocking artifacts)、振铃伪影(ringing artifacts)和模糊伪影(blurring artifacts)。滤波单元180可以包括去块滤波器182和样本自适应偏移(sampleadaptive offset，SAO)滤波器184。

去块滤波器182配置为对重构的块之间的边界进行滤波，以去除由逐块编码/解码而引起的块伪影，并且SAO滤波器184配置为对去块滤波的视频执行额外的滤波。SAO滤波器184是用于对由有损编码(lossy coding)引起的重构的像素与原始的像素之间的差进行补偿的滤波器。

通过去块滤波器182和SAO滤波器184滤波的重构的块存储在存储器190中。一旦一个图像中的所有块被重构，重构的图像就可以用作对后续要被编码的图像中的块进行帧间预测的参考图像。

图4是能够实现本发明的技术的视频解码装置的示例性功能框图。在下文中，将参考图4来描述视频解码装置和装置的元件。

视频解码装置可以包括：熵解码器410、重排单元415、逆量化器420、逆变换器430、预测器440、加法器450、滤波单元460和存储器470。

类似于图1的视频编码装置，视频解码装置的每个元件可以用硬件、软件、或者硬件和软件的组合来实现。此外，每个元件的功能可以用软件来实现，并且微处理器可以实现为执行对应于每个元件的软件功能。

熵解码器410配置为通过对由视频编码装置生成的比特流解码并提取与块分割相关的信息来确定要解码的当前块，并且提取重构当前块所需的预测信息和关于残差信号的信息等。

熵解码器410配置为从序列参数集(SPS)或图像参数集(PPS)中提取关于CTU大小的信息，确定CTU的大小，并且将图像分割为确定大小的CTU。然后，解码器配置为将CTU确定为树结构的最高层(即，根节点)，并且提取关于CTU的分割信息，以利用树结构来分割CTU。

例如，当利用QTBTTT结构来分割CTU时，提取与QT的分割相关的第一标志(QT_split_flag)，以将每个节点分割为子层的四个节点。对于与QT的叶节点相对应的节点，提取与MTT的分割有关的第二标志(MTT_split_flag)以及关于分割方向(竖直/水平)和/或分割类型(二叉/三叉)的信息，从而以MTT结构来分割对应的叶节点。由此，以BT或TT结构来递归地分割QT的叶节点下方的每个节点。

作为另一个示例，当利用QTBTTT结构来分割CTU时，可以提取指示是否分割CU的CU分割标志(split_cu_flag)。当分割对应块时，可以提取第一标志(QT_split_flag)。在分割操作中，在零个或更多个递归QT分割之后，每个节点都可能发生零个或更多个递归MTT分割。例如，CTU可以直接经历MTT分割而不经历QT分割，或者仅经历QT分割多次。

作为另一个示例，当利用QTBT结构来分割CTU时，提取与QT分割相关的第一标志(QT_split_flag)，并且将每个节点分割为下层的四个节点。然后，提取指示是否以BT进一步分割与QT的叶节点相对应的节点的分割标志(split_flag)以及分割方向信息。

一旦通过树结构分割来确定要解码的当前块，熵解码器410就配置为提取关于指示当前块是被帧内预测还是被帧间预测的预测类型的信息。当预测类型信息指示帧内预测时，熵解码器410配置为提取用于当前块的帧内预测信息(帧内预测模式)的语法元素。当预测类型信息指示帧间预测时，熵解码器410配置为提取用于帧间预测信息的语法元素，也就是说，指示运动向量和由运动向量参考的参考图像的信息。

熵解码器410配置为从比特流提取关于残差块的编码模式的信息(例如，关于是对残差块进行编码还是仅对残差块的子块进行编码的信息，指示选择为将残差块分区为子块的分区类型的信息，识别被编码的残差子块的信息，量化参数等)。熵解码器410还配置为提取关于量化的当前块的变换系数的信息作为关于残差信号的信息。

重排单元415可以以由视频编码装置执行的系数扫描的相反顺序，将由熵解码器410进行熵解码的一维量化的变换系数的序列改变为2维系数阵列(即，块)。

逆量化器420配置为对量化的变换系数进行逆量化。逆变换器430配置为基于关于残差块的编码模式的信息将逆量化的变换系数从频域逆变换到空域，以重构残差信号，从而生成重构的当前块的残差块。

当关于残差块的编码模式的信息指示出当前块的残差块已经被视频编码装置编码时，逆变换器430利用当前块的大小(以及从而要重构的残差块的大小)作为逆量化的变换系数的变换单元，以执行逆变换，从而生成重构的当前块的残差块。

当关于残差块的编码模式的信息指示出只有残差块的一个子块已经被视频编码装置编码时，逆变换器430利用变换的子块的大小作为逆量化的变换系数的变换单元，以执行逆变换，从而重构变换的子块的残差信号，并且用值“0”填充未变换子块的残差信号，以生成重构的当前块的残差块。

预测器440可以包括帧内预测器442和帧间预测器444。在当前块的预测类型是帧内预测时，激活帧内预测器442，而在当前块的预测类型是帧间预测时，激活帧间预测器444。

帧内预测器442配置为基于从熵解码器410提取的帧内预测模式的语法元素，在多个帧内预测模式中确定当前块的帧内预测模式，并且根据帧内预测模式，利用当前块周围的参考像素来预测当前块。另外，帧内预测器442可以利用基于矩阵的帧内预测(MIP)来生成当前块的预测块，这将在后面描述。帧内预测器422可以利用从在当前块的左侧重构的样本和在当前块的上方重构的样本所推导的边界向量、以及预定义矩阵和偏移向量来生成当前块的预测块。

帧间预测器444配置为利用由熵解码器410提取的帧内预测模式的语法元素来确定当前块的运动向量和由该运动向量参考的参考图像，并且基于运动向量和参考图像来预测当前块。

加法器450配置为通过将从逆变换器输出的残差块与从帧间预测器或帧内预测器输出的预测块相加来重构当前块。在对后续要被解码的块进行帧内预测时，重构的当前块中的像素用作参考像素。

滤波单元460可以包括去块滤波器462和SAO滤波器464。去块滤波器462配置为对重构的块之间的边界进行去块滤波，以去除由逐块解码引起的块伪影。SAO滤波器464可以在对相应偏移进行去块滤波之后对重构的块执行额外的滤波，以便补偿由有损编码引起的重构的像素与原始的像素之间的差。通过去块滤波器462和SAO滤波器464滤波的重构的块存储在存储器470中。当一个图像中的所有块被重构时，重构的图像用作对后续要被编码的图像中的块进行帧间预测的参考图像。

本发明的技术通常涉及帧内预测编码。下面的描述主要集中于解码技术，也就是说，视频解码器的操作。由于编码技术与全面描述的解码技术相反，因此简要地描述编码技术。

在讨论下一代视频编码标准(即，通用视频编码(Versatile Video Coding，VVC))时，引入了几种新的编码工具，这些编码工具能够实现比高效率视频编码(HEVC)更好的编码性能。

基于矩阵的帧内预测(MIP)是在VTM 5.0中引入的一种新的帧内预测技术。最初的想法是利用基于神经网络的帧内预测技术，也就是说，基于相邻的重构的像素，使用多层神经网络以预测当前PU像素值。然而，由于利用神经网络的预测方法的复杂性较高，引入了一种利用预训练矩阵的基于仿射线性变换的帧内预测技术。

为了预测具有宽度W和高度H的矩形块PU，MIP将块的左侧的H个重构的样本和块的上方的W个重构的样本作为输入。通过平均化、矩阵向量乘法、线性插值等来获得最终预测的像素。

应用了MIP的块的大小被分为以下三类。

根据idx(W，H)，MIP模式的数量(numModes)、边界大小(boundarySize)和预测块大小(predW，predH，predC)定义如下。在下表中，MipSizeId＝idx(W，H)。

表2

MipSizeId	numModes	boundarySize	predW	predH	predC
						0	35	2	4	4	4
1	19	4	4	4	4
						2	11	4	Min(nTbW，8)	Min(nTbH，8)	8

(1)平均化

该过程的主要目的是使参考样本归一化。根据块大小和形状(宽度和高度)(即，MipSizeId)，获得4个或8个样本。在当前块的宽度和高度两者均为4时(即，W＝H＝4)，总共获得4个样本，包括左侧的2个和上方的2个(boundarySize＝2)。在另一种情况下，总共获得8个样本，包括左侧的4个和上方的4个(boundarySize＝4)。

如图5所示，上方相邻样本用bdry^top表示，而左侧相邻样本用bdry^left表示。通过对bdry^top和bdry^left分别执行平均化，获得下采样的样本集

和

平均化是如下的下采样过程。

在上面的等式中，bDwn表示下采样缩放值(nTbs/boundarySize)，而refS表示原始参考样本。对于左侧相邻样本，将计算出的reds存储为

而对于上方相邻样本，将计算出的redS存储为

将下采样的参考样本拼接为长度为4或8的向量。输入到向量矩阵乘法的归约的边界向量bdry_red定义为如下等式。例如，当W＝H＝4且MIP模式小于18时，通过以

和

的顺序拼接来构建边界向量。当W＝H＝4且MIP模式大于或等于18时，以

和

的顺序来拼接

和

在下面的等式中，“模式”表示MIP模式。

(2)矩阵向量乘法

在此过程中，从归约的边界向量生成当前块的下采样预测信号pred_red。pred_red是矩阵向量乘积和偏移量的和，并且可以计算如下。

pred_red＝A·bdry_red+b

pred_red的大小为W_red×H_red。根据当前块的大小和形状来定义W_red和H_red，如下所示。矩阵A具有与W_red×H_red一样多的行数，并且当W＝H＝4时具有4列，或者其它情况下具有8列。偏移向量b是大小为W_red×H_red的向量。

对于每种类别的编码块大小，预定义可以用于编码块的矩阵A和偏移向量b的集合S₀、S₁和S₂。根据上述MipSizeId(即，idx(W，H))选择集合S的指数(0，1，2)，并且根据应用于当前块的MIP模式从集合S₀、S₁和S₂的一个提取矩阵A和偏移向量b。

集合S₀由18个矩阵A₀和18个16维偏移向量b₀组成，并且用于4×4块，每个矩阵A₀具有16行4列。集合S₁由10个矩阵A₁和10个16维偏移向量b₁组成，并且用于4×8、8×4和8×8大小的块，每个矩阵A₁具有16行8列。最后，集合S₂由6个矩阵A₂和6个64维偏移向量b₂组成，并且用于所有其他块形状，每个矩阵A₂具有64行8列。

(3)像素插值

插值是上采样过程。如上所述，pred_red是原始块的下采样的预测信号。在这种情况下，具有predW和predH大小的下采样的预测块定义如下。

pred_red[x][y]，其中x＝0..predW1，y＝0..predH-1

通过在每个方向上的剩余位置处线性地插值预测信号而生成的具有原始块大小(nTbW，nTbH)的预测块定义如下。

predSamples[x][y]，其中，x＝0..nTbW-1，y＝0..nTbH-1

根据水平上采样缩放因子upHor(＝nTbW/predW)和竖直上采样缩放因子upVer(＝nTbH/predH)，如下所述从pred_red填充predSample的部分或全部。

predSamples[(x+1)×upHor-1][(y+1)×upVer-1]＝pred_red[x][y]

当upHor＝1时，pred_red中的predSample的所有水平位置被填充。当upVer＝1时，pred_red中的predSample的所有竖直位置被填充。

然后，通过双线性插值来填充predSample的剩余的空白样本。水平方向上的插值和竖直方向上的插值是上采样过程。对于predSample中左侧和顶部样本的插值，将下采样的样本

分配给predSample[x][-1]的值，并且将左侧的原始参考样本分配给predSample[-1][y]的值。根据当前块的大小来确定插值顺序。也就是说，首先在短尺寸的方向上执行插值。随后，在长尺寸的方向上执行插值。

(4)用信号通知MIP帧内预测模式

对于经过帧内预测编码的每个编码单元(CU)，传输指示是否应用基于矩阵的帧内预测模式(即，MIP模式)的标志。在VVC草案5中，为了用信号通知MIP模式，类似于与基于矩阵的帧内预测不同的传统帧内预测模式(在下文中，称为“普通帧内预测模式”)，使用由3个MPM组成的MPM列表。例如，intra_mip_mpm_flag、intra_mip_mpm_idx和intra_mip_mpm_remainder用于用信号通知MIP模式。利用截断的二进制编码对intra_mip_mpm_idx进行编码，利用固定长度编码对intra_mip_mpm_remainder进行编码。

根据编码块(CU)的大小，可以支持多达35个MIP模式。例如，对于max(W，H)≤8且W×H＜32的CU，35个模式是可用的。另外，对于max(W，H)＝8和max(W，H)＞8的CU分别使用19个预测模式和11个预测模式。此外，一对模式(即，两个模式)可以共享矩阵和偏移向量，以减少存储器需求。具体的共享模式计算如下。例如，对于4×4编码块，模式19使用分配给模式2的矩阵的转置矩阵。

当在应用常规帧内预测模式而不是MIP的块(在下文中，称为“常规块”)附近存在应用MIP的块时，在MIP模式与常规模式之间定义的映射表可以用于常规块的MPM推导。映射表用于根据相邻块的MIP模式推导相似特性的常规模式。以这种方式推导的常规模式用于常规块的MPM推导。类似地，即使当MIP应用于在色度直接模式(DM)推导中使用的并置亮度块时，也能够利用映射表推导映射到并置亮度块的MIP模式的常规模式，以确定用于色度块的帧内预测模式。下面的等式表达常规模式与MIP模式之间的映射。

predmode_MIP＝map_regular_to_mip_idx[predmode_regular]

predmode_reqular＝map_mip_to_regular_idx[predmode_MIP]

本发明提出了几种修改，所述修改可以在改善预测性能的同时不会显著地增加基于矩阵的帧内预测(MIP)技术的实现的复杂性。

矩阵和偏移量的推导

根据本发明的一个方面，视频编码器和视频解码器可以根据为可用于给定块的大小的一些MIP模式显式定义的矩阵和偏移量的集合，创建要用于可用的MIP模式中的剩余模式的新的矩阵和偏移量的集合。

可以通过从两个(或更多个)显式定义的矩阵和偏移量的集合执行转置、平均化操作和加权平均化操作中的至少一个操作来获得新的矩阵和偏移量的集合。显式定义的矩阵和偏移量的集合可以由编码器传输至解码器，或者可以在视频编码器和视频解码器两者的存储器中预定义。据此，在不减少现有可用模式的数量的情况下，可以额外地减少用于存储MIP模式的矩阵和偏移量的集合的存储器要求。

为了进行说明性解释，假设在视频编码器和视频解码器中显式定义用于给定块的大小的M个矩阵。视频编码器可以以预定义的方式从M个矩阵推导(创建)K个新的矩阵，并且相应地，总共(M+K)个矩阵可以用于对给定块执行基于矩阵的帧内预测。包括(M+K)个矩阵的可用矩阵列表中的矩阵的每个可以通过它们的索引来识别。

如果将来自视频编码器的当前块的用信号通知的MIP模式定义为使用显式定义的矩阵，则视频解码器可以直接使用存储在存储器中的矩阵以对当前块执行基于矩阵的帧内预测。如果将来自视频编码器的当前块的用信号通知的MIP模式定义为使用推导的矩阵，则视频解码器可以以与视频编码器相同的方式为用信号通知的MIP模式创建推导的矩阵。

在一些实施方案中，推导的矩阵可以是两个显式定义的矩阵的平均矩阵或加权平均矩阵。例如，我们假设存在显式定义的矩阵A和B，其大小为M×N。对于

加权平均矩阵C可以定义如下。

其中，s1和s2是应用于矩阵A和B的权重。权重s1和s2可以由视频编码器预定义或在高级别语法处用信号通知。

也可以以与推导的矩阵相同的方式来推导新的偏移量。

在一些其他实施方案中，推导的矩阵可以是两个显式定义的矩阵的加权平均矩阵的转置矩阵。

色度分量的MIP预测

在VVC标准化的讨论中，考虑了五种基本预测模式(平面模式、DC模式、水平模式、竖直模式和直接模式(Direct Mode，DM))和三种线性模型(Linear Model，LM)模式用于色度块的帧内预测。LM也称为LM_Chroma模式或交叉分量线性模式(Cross Component LinearMode，CCLM)。

LM模式是通过利用亮度信号与色度信号之间的相关性根据亮度信号来预测色度信号的模式。在LM模式中，确定亮度信号与色度信号的像素值之间的线性模型(linearmodel，LM)，并且通过利用线性模型基于相应亮度块的重构的亮度信号来计算色度块的预测信号。在DM模式中，当前色度块使用与相应亮度块相同的预测模式。

如果LM模式(即，CCLM)未应用于色度块，则对指定用于色度块的帧内预测模式的语法元素(intra_chroma_pred_mode)进行编码。色度块的帧内预测模式根据intra_chroma_pred_mode和相应亮度块的帧内预测模式(lumaIntraPredMode)确定如下。例如，如果intra_chroma_pred_mode＝4，则将直接模式用作色度块的帧内预测模式，并且相应地，将相应亮度块的帧内预测模式应用于色度块。

[表3]

在VVC标准化的讨论中，以这样的方式引入基于矩阵的帧内预测(MIP)技术，即由于编码复杂性、由所需的矩阵和偏移量的集合引起的存储带宽等原因，只使用亮度分量而不使用色度分量。相应地，在VVC草案5中，在确定色度块的帧内预测模式的情况下，当由基于矩阵的帧内预测(MIP)对相应亮度块进行编码时，视频编码器和视频解码器配置为将应用于相应亮度块的MIP模式转换为映射表中定义的常规帧内预测模式。

在下文中，将提出把基于矩阵的帧内预测(MIP)应用于色度分量的几种方法。

根据本发明的一个方面，视频编码器和解码器可以根据由基于矩阵的帧内预测(MIP)预测的并置亮度分量的块(亮度块)的MIP模式来推导色度分量的块(色度块)的MIP模式。相应地，对于由基于矩阵的帧内预测(MIP)编码的色度块，可以省略用信号通知显式地指定由编码器使用的MIP模式的语法元素。

根据本发明的一个方面，代替为色度块和亮度块分别定义用于基于矩阵的帧内预测(MIP)的矩阵和偏移量的集合，根据视频采样格式(或色度格式)，为亮度块定义的矩阵和偏移量的集合还可以用于色度块，或者可以根据为亮度块定义的矩阵和偏移量的集合来推导要用于色度块的矩阵和偏移量的集合。表4示出由在SPS级别上用信号通知的语法元素(sps_chroma_format_idc；cIdx)指示的视频采样格式。

[表4]

例如，如果视频采样格式(或色度格式)是4:4:4，则视频编码器和视频解码器可以使用为亮度块、也为色度快定义的矩阵和偏移量的集合。

再例如，如果亮度分量和色度分量具有不同的分辨率(例如，色度格式是4:2:0)，则视频编码器和解码器可以以亮度块和色度块的大小比率对亮度块的矩阵和偏移量进行下采样，并且推导要应用于色度块的MIP矩阵和偏移量。如果视频色度格式是4:2:0，则色度块是亮度块的宽度和长度的一半，因此视频编码器和视频解码器可以对亮度块的矩阵和偏移量进行下采样，并且创建要应用于色度块的1/2大小的矩阵和偏移量。

作为下采样方法，可以对亮度块的矩阵中的特定位置的值进行二次采样(例如，根据偶数或奇数行和列中的值来创建归约的矩阵)，并且可以对亮度块的矩阵应用滤波。

在一些实施方案中，为了避免由于下采样的矩阵和偏移量的推导过程而引入的复杂性，仅当视频采样格式为4:4:4时，才允许对色度块进行基于矩阵的帧内预测。此外，在一些实施方案中，仅当由基于矩阵的帧内预测(MIP)来预测同位的亮度块时，才允许对色度分量的块(色度块)进行基于矩阵的帧内预测。在这种情况下，用于色度分量的块(色度块)的MIP模式可以认为与用于同位的亮度块的MIP模式相同。此外，用于亮度块的MIP模式的矩阵和偏移量的集合还可以用于色度块。

在一些实施方案中，仅当视频采样格式为4:4:4并且使用单个树来划分CTU时，才允许对色度块进行基于矩阵的帧内预测。

在一些其它的实施方案中，代替对色度块执行基于矩阵的帧内预测，可以允许CCLM(交叉分量线性模型)技术，其中通过利用线性模型根据由基于矩阵的帧内预测编码的亮度块的重构的值生成色度块的预测信号。

时间矩阵和偏移量

可以根据视频数据的特性自适应地选择可以用于基于矩阵的帧内预测(MIP)的矩阵和偏移量的集合的数量。根据本发明的一个方面，视频编码器可以通过RD代价计算来自适应地改变可以用于每个序列、图像或图像子组的基于矩阵的帧内预测(MIP)的矩阵和偏移量的集合的数量。

在一个实施方案中，在基于矩阵的帧内预测(MIP)中，可以定义能够始终在基于矩阵的帧内预测(MIP)中使用而不管视频数据的特性如何的矩阵和偏移量的N个集合。此外，可以定义可以选择性地在高级别上使用的矩阵和偏移量的L个集合。视频编码器可以从L个集合中选择要在当前高级别上使用的M个集合(M小于或等于L)。相应地，可以确定为可用于在高级别上基于矩阵的帧内预测(MIP)的矩阵和偏移量的集合数量最大为N+L。这里，高级别的单元可以是序列、图像或图像子组。可以选择性地使用的矩阵和偏移量的集合可以称为时间集合，可以选择性地使用的矩阵可以称为时间矩阵。始终可以使用的矩阵和偏移量的集合可以称为基本集合。

视频编码器可以在高级别上用信号通知指示除了基本集合之外是否进一步使用时间集合的1位标志。如果使用时间集合，则视频编码器可以用信号通知在当前高级别上要使用的时间集合的数量和比特流中选择的时间集合的索引信息。在始终使用相同数量的时间集合的实施方案中，可以省略用信号通知在当前高级别上要使用的时间集合的数量。

当以新的高级别(例如，新的序列)开始对块进行解码时，视频解码器可以以高级别语法来解析指示是否使用时间集合的1位标志。当1位标志指示出在当前高级别上使用时间集合时，视频解码器可以解析指示在当前高级别上使用的时间集合的数量的语法元素。此外，视频解码器可以基于在当前高级别上使用的时间集合的数量，解析指示预定义的可用的时间集合中在当前高级别上使用的每个时间集合的索引的语法元素。在对包括在高级别中的块执行基于矩阵的帧内预测时，视频解码器可以使用预定义的基本集合和在高级别上选择的时间集合。视频解码器可以构成由预定义的基本集合和选择的时间集合组成的矩阵和偏移量的列表。在矩阵和偏移量的列表中，每个时间集合可以由新的索引来识别。

用信号通知MIP模式

对于以帧内预测模式编码的编码单元(CU)，可以用信号通知指示帧内预测类型是否为基于矩阵的帧内预测(MIP)的标志。如果将基于矩阵的帧内预测(MIP)应用于编码单元，则可以额外地用信号通知指示多个可用的MIP模式中用于编码单元的MIP模式的一个或更多个语法元素。

类似于传统的帧内预测模式(在下文中，“常规帧内预测模式”)，MPM列表可以用于表示用于当前编码单元的MIP模式。在下文中，对于基于矩阵的帧内预测(MIP)，公开了用于推导基于历史的MIP_MPM列表的方法。在该方法中，在针对每个块大小的MPM列表中管理先前编码的块的MIP模式。在编码/解码过程期间保持并更新MIP_MPM列表。

可以根据块大小(宽度和高度)和块的信号特性的至少一个的信息来保持并使用多个MIP_MPM列表。例如，可用的MIP模式的数量可以随应用MIP的块的大小而变化，因此可以为每个MipSizeId＝{0，1，2}管理单独的候选MIP模式列表。

MIP_MPM列表由M个唯一的MIP模式组成，其中M可以由块宽度、高度、大小和信号特性中的至少一个信息来自适应地确定，或者可以具有固定值(例如，3)而不管这些信息如何。

每次以MIP模式对块进行编码时，将用于块的MIP模式添加到与块大小相对应的MIP_MPM列表的最后一项，并且当MIP_MPM列表中存在相同的模式时，可以从MIP_MPM列表消除所述用于块的MIP模式，或者可以从MIP_MPM列表消除MIP_MPM列表的第一项。

当遇到新的切片时，可以用预定义的MIP模式重新配置MIP_MPM列表。当开始当前CTU的编码/解码时，MIP_MPM列表可以从其他CTU的最后的块延续至当前CTU的左侧。在当前CTU在图像的左侧边界上时，表可以从当前CTU上方的其他CTU的最后的块延续。

如果在与当前块的大小相对应的MIP_MPM列表中存在为当前块选择的MIP模式，则视频编码器可以从与当前的编码块的大小相对应的MIP_MPM列表用信号通知指示出当前块的MIP模式是MPM的第一值的1位标志(例如，MIP_HMPM_flag)，并且可以进一步用信号通知指定一个MIP模式的语法元素(例如，MIP_HMPM_index)。可以用截断的二进制编码对MIP_HMPM_index进行编码。

如果为当前块选择的MIP模式不存在于与当前块的大小相对应的MIP_MPM列表中，则视频编码器可以用信号通知指示出当前块的MIP模式不是MPM的第二值的1位标志(例如，MIP_HMPM_flag)，并且可以进一步用信号通知指示除MPM之外的非MPM的一个的语法元素(例如，MIP_HMPM_remainder)。可以用固定长度的编码来对MIP_HMPM_remainder进行编码。

如果以MIP模式对当前块进行编码，则解码器解析指示当前块的MIP模式是否为MPM的1位标志(例如，MIP_HMPM_flag)。如果1位标志具有第一值，则解码器解析从与当前编码块的大小相对应的MIP_MPM列表中指定一个MIP模式的语法元素(例如，MIP_HMPM_index)。解码器将由MIP_MPM列表中的MIP_HMPM_index指示的MIP模式确定为当前块的MIP模式。

如果1位标志(例如，MIP_HMPM_flag)具有第二值，则解码器解析指示可用于当前块的大小的MIP模式中除MIP_MPM列表的MPM之外的剩余MIP模式(即，非MPM)的一个的语法元素(例如，MIP_HMPM_remainder)。解码器将由MIP_HMPM_remainder指示的非MPM确定为当前块的MIP模式。

在其他的实施方案中，与传统帧内预测模式(即，常规帧内预测模式)不同，MPM列表可能不会用于用信号通知MIP模式。反而，例如，可以使用这样一个语法元素(例如，intra_mip_mode)，所述语法元素指示在多个MIP模式中的当前CU中使用的MIP模式并且可以用截断的二进制编码进行编码。

下面提供基于VVC草案5提出的示例性编码单元语法的一部分。在下面的语法中，灰色的元素用于提供理解。

表5

当intra_mip_flag[x0][y0]为1时，指示出当前块的帧内预测类型为MIP。当intra_mip_flag[x0][y0]为0时，指示出当前块的帧内预测类型是常规帧内预测，而不是MIP。当intra_mip_flag[x0][y0]不存在时，可以被推断为等于0。intra_mip_mode[x0][y0]表示用于MIP中当前块的MIP模式，并且表达为截断的二进制编码。

MPM(最可能模式)

在传统方法中，可以使用采用最可能模式(Most Probable Mode，MPM)的帧内预测编码。例如，在HEVC中，根据左侧块和上方块的帧内预测模式来配置三个MPM的列表。这种方法的缺点是更多的模式(除MPM以外的帧内模式)属于需要用更多比特编码的非MPM。已经提出了数种方法来将MPM的数量扩展到3项或更多项(例如，6个MPM模式)。然而，用更多的项配置这样的MPM列表可能需要更多的检查和条件，这可能会使实现变得更加复杂。

为了保持MPM列表的配置的低复杂性，可以利用与当前块邻近的左侧相邻块和上方相邻块的帧内预测模式来配置包括六个MPM候选的MPM列表。MPM候选可以包括默认帧内预测模式(例如，平面模式)、相邻块的帧内预测模式、以及根据相邻块的帧内预测模式推导的帧内预测模式。当不使用相邻块的帧内预测模式时(例如，当对相邻块进行帧间预测时，或者相邻块位于不同的切片或另一个瓦片中时)，可以将相邻块的帧内预测模式设置为平面模式。

根据左侧块的模式(左侧模式)和上方块的模式(上方模式)的帧内预测模式的类型，大致分为4种情况。当左侧模式和上方模式彼此不同，并且两种模式为方向性模式时，可以根据左侧模式和上方模式的不同来进一步划分，以生成MPM列表。在下表中，Max是指左侧模式和上方模式之间的较大模式，而MIN是指左侧模式和上方模式之间的较小模式。

表6

视频编码器可以用信号通知指示当前块的帧内预测模式是否对应于MPM的1位标志(例如，mpm_flag)。通常，在当前块的帧内预测模式对应于MPM时，可以额外地用信号通知指示6个MPM的一个的MPM索引。

注意，在表6中，平面模式始终包括在MPM列表中。也就是说，6个MPM可以分为平面MPM和5个非平面MPM。因此，在当前块的帧内预测模式对应于MPM时，编码器首先用信号通知当前块的帧内预测模式是否为平面模式(例如，利用1位标志)，并且仅在当前块的帧内预测模式与其他五个非平面MPM的一个相同时，额外地用信号通知指示其他五个非平面MPM的一个的MPM索引会是有效的。如果比特标志(例如，mpm_flag)的值指示出当前块的帧内预测模式对应于MPM，则解码器可以解析指示当前块的帧内预测模式是否为平面模式的1位标志。

在当前块的帧内预测模式不对应于任何MPM时，可以利用截断的二进制编码对指示除6个MPM之外的剩余61个非MPM的一个的语法元素进行编码。

去除MIP模式与常规模式之间的映射表

如上所述，在VVC草案5中，MPM列表用于分别用信号通知MIP模式和常规模式，并且需要MIP模式与常规模式之间的映射表来构建MIP列表。例如，在推导以常规帧内预测模式编码的块(也就是说，常规块)的MPM列表的情况下，当以基于矩阵的帧内预测(MIP)对左侧块或上方块进行编码时，将左侧块的MIP模式或上方块的MIP模式转换为在映射表中定义的常规帧内预测模式。

根据本发明的一个方面，在推导用于常规块的MPM列表的情况下，如果以基于矩阵的帧内预测(MIP)对左侧块和上方块进行编码，则可以将左侧块的模式(左侧模式(Left))和上方块的模式(上方模式(Above))视为预定义的常规模式，而不管哪个MIP模式应用于相邻块。由此，消除了视频编码器和视频解码器将MIP模式与常规模式之间的映射表存储在存储器中的需要。

在一些实施方案中，如果以基于矩阵的帧内预测(MIP)对左侧块进行编码，则可以将左侧块的常规帧内预测模式视为第一模式(而不管左侧块的MIP模式如何)，并且如果以MIP模式对上方块进行编码，则可以将上方块的常规帧内预测模式视为第二模式(而不管上方块的MIP模式如何)。第一模式和第二模式可以预定义为相同或不同，并且可以在高级别语法处用信号通知。

在一些其它的实施方案中，在推导用于常规块的MPM列表的情况下，如果将MIP模式应用于相邻块，则可以将相邻块的常规帧内预测模式推断为平面模式(或DC模式)(而不管相邻块的MIP模式如何)。由于包括平均化操作和插值操作的基于矩阵的帧内预测(MIP)技术的特性，应用MIP的块的残差信号可以具有在变换域中占主导地位的低频分量。应当注意的是，残差信号的特性可能类似于应用平面模式(或DC模式)的块的残差信号。

类似地，当推导色度DM(直接模式)时，如果将基于矩阵的帧内预测(MIP)编码应用于同位的亮度块，则可以将亮度块的帧内预测模式推断为平面模式(或DC模式)，而不是利用MIP模式与常规模式之间的映射表。

相应地，视频解码器解析指定用于色度块的帧内预测模式的语法元素，并且所述语法元素可以指示出色度块的帧内预测模式采用同位的亮度块的帧内预测模式。在这样的情况下，当将MIP应用于同位的亮度块时，视频解码器可以推断出亮度块的帧内预测模式是平面模式(或DC模式)。也就是说，当将MIP以色度直接模式(DM)应用于同位的亮度块时，视频解码器可以确定出色度块的帧内预测模式是平面模式(或DC模式)。

然而，在色度DM(直接模式)中，如果视频采样格式是4:4:4，并且以基于矩阵的帧内预测(MIP)来预测同位的亮度块，则可以允许对色度块进行基于矩阵的帧内预测(MIP)。在这种情况下，可以将用于色度分量的块(色度块)的MIP模式推断为与用于同位的亮度块的MIP模式相同。

图6是示出根据本发明的一个实施方案的对采取上述几种改进的视频数据解码的方法的流程图。图6的方法可以由类似于图4所示的视频解码装置的视频解码器来执行。例如，熵解码单元410和帧内预测单元442可以涉及下面描述的一个或更多个步骤。

视频解码器可以从比特流获取关于当前编码块的亮度预测模式的信息和关于色度预测模式的信息(S610)。视频解码器可以对视频数据的编码的比特流进行解码，并且获取关于亮度预测模式的信息和关于色度预测模式的信息。

视频解码器可以基于关于亮度预测模式的信息来推导当前编码块的亮度帧内预测类型和亮度帧内预测模式(S620)。亮度帧内预测类型可以包括基于矩阵的帧内预测(MIP)和常规帧内预测。关于亮度预测模式的信息可以包括：指示当前编码块的亮度帧内预测类型的语法元素；指示为当前编码块选择的基于矩阵的帧内预测模式的语法元素；以及用于用信号通知为当前编码块选择的常规帧内预测模式的一个或更多个语法元素。

例如，视频解码器可以从比特流解析指示当前编码块的亮度帧内预测类型的语法元素(例如，intra_mip_flag)。如果语法元素指示出当前编码块的亮度帧内预测类型是基于矩阵的帧内预测，则视频解码器可以解析指示用于当前编码块的基于矩阵的帧内预测模式的语法元素。语法元素(例如，intra_mip_mode)表示为截断的二进制编码，并且指定对于当前编码块的宽度和高度所允许的多个基于矩阵的帧内预测模式的一个。

如果语法元素(例如，intra_mip_flag)指示出当前编码块的亮度帧内预测类型是常规帧内预测，则视频解码器可以基于与当前编码块邻近的相邻块的帧内预测模式来推导MPM(最可能模式)候选并构建用于当前编码块的MPM列表，并且基于MPM列表来推导用于当前编码块的亮度帧内预测模式。为此，视频解码器可以解析与MPM相关的一个或更多个语法元素。在基于与当前编码块邻近的相邻块的帧内预测模式来推导MPM候选的情况下，如果相邻块的帧内预测类型是基于矩阵的帧内预测，则视频解码器可以将相邻块的常规帧内预测模式推断为(设置为)平面模式。

视频解码器可以基于当前编码块的亮度帧内预测类型和亮度帧内预测模式以及关于色度预测模式的信息来确定当前编码块的色度帧内预测模式(S630)。关于色度预测模式的信息可以包括指定色度帧内预测模式并且具有0到4的值的语法元素(例如，intra_chroma_pred_mode)。此外，关于色度预测模式的信息可以包括指示是否将CCLM应用于色度块的标志(例如，cclm_mode_flag)和指示三种可用的CCLM模式的一个的索引信息(例如，cclm_mode_idx)。如果将CCLM应用于色度块，则intra_chroma_pred_mode可能不存在。

例如，如果关于色度预测模式的信息指示直接模式(DM)，当前编码块的亮度帧内预测类型是基于矩阵的帧内预测，并且视频数据的采样格式是4:4:4，则视频解码器可以确定出当前编码块的色度帧内预测类型是基于矩阵的帧内预测，并且可以确定出与当前编码块的色度帧内预测类型相对应的色度帧内预测模式与推导为当前编码块的亮度帧内预测模式的基于矩阵的帧内预测模式相同。

再例如，如果关于色度预测模式的信息指示DM(直接模式)，当前编码块的亮度帧内预测类型为基于矩阵的帧内预测类型，并且视频数据的采样格式为4:2:0或4:2:2，则视频解码器可以确定当前编码块的色度帧内预测模式为平面模式。

又例如，如果关于色度预测模式的信息指示DM(直接模式)并且当前编码块的亮度帧内预测类型是常规帧内预测类型，则视频解码器可以确定出当前编码块的色度帧内预测模式与推导为当前编码块的亮度帧内预测模式的常规帧内预测模式相同。

视频解码器可以基于当前编码块的色度帧内预测模式来生成当前编码块的色度预测样本(S640)。视频解码器可以通过选择性地执行基于矩阵的帧内预测或常规帧内预测来生成当前编码块的色度预测样本。

例如，响应于确定出当前编码块的色度帧内预测模式与推导为当前编码块的亮度帧内预测模式的基于矩阵的帧内预测模式相同，视频解码器可以通过根据推导的基于矩阵的帧内预测模式执行基于矩阵的帧内预测来生成当前编码块的色度预测样本。视频解码器可以通过基于当前编码块的宽度和高度，利用与当前编码块邻近的相邻色度样本来推导输入边界向量。视频解码器可以基于输入边界向量与为基于矩阵的帧内预测模式预定义的矩阵之间的矩阵向量乘法来生成用于当前编码块的色度预测样本。视频解码器可以基于色度预测样本来推导用于当前编码块的色度预测块。

再例如，响应于确定出当前编码块的色度帧内预测模式是平面模式，视频解码器可以通过根据平面模式执行常规帧内预测来生成当前编码块的色度预测样本。

又例如，响应于确定出当前编码块的色度帧内预测模式与推导为当前编码块的亮度帧内预测模式的常规帧内预测模式相同，视频解码器可以通过根据推导的常规帧内预测模式执行常规帧内预测来生成当前编码块的色度预测样本。

在下文中，将公开用于视频数据的帧间预测编码的几种改进技术。下面要描述的一些技术与有效地用信号通知运动信息有关，而其他技术与根据运动信息的自适应插值滤波有关。

运动向量是n个方向的向量：也就是说，它可以由n个方向分量组成。根据本发明的技术，可以针对每个方向对运动信息进行独立地编码。视频编码器可以用信号通知指示是否针对每个方向对编码块的运动信息进行独立地编码的信息。

运动信息可以是指由视频编码器显式地用信号通知的信息，例如针对每个方向的运动集合、针对运动向量的预测模式等。此外，运动信息可以是指或包括根据该信息推导的信息，也就是说，由解码器最终获得的实际运动向量的值或差分运动向量的精度。这里，精度描述用于表达向量的每个分量的小数点后的位数，并且可以称为运动向量的分辨率。运动集合可以包括诸如向量分量、精度等信息。所述向量分量可以包括实际运动向量或差分运动向量，并且所述精度信息可以包括运动向量的精度或差分运动向量的精度。

如果针对每个方向对运动信息进行独立地编码，这可能意味着针对每个方向单独地对运动集合进行编码或解码。例如，针对每个方向的向量分量可以由精度值单独地表示，并且被编码/解码为单独的运动集合。如果针对每个方向定义的运动信息从属地进行编码，这可能意味着针对n个方向的至少两个方向的每个的向量分量可以由一个精度值表达，并且被编码/解码为一个运动集合。

可以由视频编码器用信号通知指示针对每个方向对运动信息是独立地还是从属地进行编码的信息。例如，所述信息可以传输为诸如SEI(supplemental enhancementinformation，补充增强信息)消息、APS、SPS、PPS、切片/瓦片/瓦片组头等的高级别语法元素。作为另一示例，所述信息可以针对基本解码处理的每个单元或针对块分区的每个单元来传输，或者可以以高级别语法和块级别两者来传输。替选地，所述信息可以根据指示参考候选块的运动信息是否独立地编码的信息和这些参考候选块的运动信息来推导。

在作为二维图像的序列的视频数据中，运动向量可以包括两个方向(例如，x方向和y方向)分量。根据本发明的技术，可以对用于x方向和y方向的运动集合进行独立地编码。

在运动信息的编码中，可以在高级别上用信号通知指示是否可以对构成运动信息的每个元素进行独立地编码的语法元素。例如，sps_MV_independent_enable标志的值指示是否可以对构成运动信息的每个元素进行独立地编码。如果sps_MV_independent_enable等于1，则可以额外地用信号通知指示对于低级别(例如，图像/切片/瓦片级别)是否对运动信息的每个元素进行独立地解码的信息。例如，在切片头用信号通知的MV_independent_flag的值指定针对当前解码单元(例如，CU)是否对运动信息的每个元素进行独立地解码。如果MV_independent_flag等于0，则将针对x方向和y方向的运动信息编码为一个运动集合。如果MV_independent_flag＝1，则为针对x方向的运动集合和为针对y方向的运动集合分别编码运动信息。

在下文中，将公开利用运动信息的用于自适应插值滤波的技术，以提高编码效率。

插值滤波器是指在利用运动信息的编码技术(例如，帧间预测编码、帧内块复制、用于组合帧间预测信号和帧内预测信号的CIIP技术等)中用于改变参考图像的分辨率的滤波器。

在一些实施方案中，要用于插值的一个或更多个插值滤波器的每个的配置信息可以从视频编码器传输至视频解码器。插值滤波器的配置信息可以包括诸如插值滤波器的标签的数量、插值滤波器的系数、插值滤波器的方向和插值滤波器的形状的信息。

在其他的实施方案中，在视频编码器和视频解码器中可以使用具有关于多个插值滤波器的预定义信息的一个或更多个插值滤波器列表。每个列表包含列表中包括的每个插值滤波器的配置信息。关于插值滤波器的信息可以间接地从编码器传输至解码器。例如，可以将指示多个插值滤波器列表中可用的插值滤波器列表的索引传输为关于插值滤波器的信息。

如果可以使用多个插值滤波器，则可以由视频编码器显示地用信号通知在多个插值滤波器中要使用的插值滤波器的索引信息。例如，索引信息可以传输为诸如SEI消息、APS、SPS、PPS、切片/瓦片/瓦片组头等的高级别语法元素。作为另一示例，索引信息可以针对基本解码处理的每个单元或针对块分区的每个单元来传输，或者可以以高级别语法和块级别两者来传输。替选地，可以根据先前解码的相邻块、先前解码的参考块和先前解码的参考块的相邻块的至少一个来推导要用于当前块的插值滤波器的索引信息。

在一个实施方案中，视频编码器和视频解码器可以根据参考像素的位置从可用的插值滤波器中选择要使用的插值滤波器的类型。此外，可以通过诸如SEI消息、APS、SPS、PPS、切片/瓦片/瓦片组头等高级别语法来传输关于除预定义的插值滤波器之外的额外的插值滤波器的信息。

如果存在可以用于给定位置x的几种类型的插值滤波器，则编码器可以用信号通知指定在该位置处使用的插值滤波器的信息(例如，滤波器索引)。可以针对基本解码处理的每个单元或针对块分区的每个单元传输这样的滤波器索引。替选地，可以通过利用针对给定块、先前解码的相邻块、先前解码的参考块和先前解码的参考块的相邻块的至少一个的解码的信息来推导要用于给定块的插值滤波器的索引。这里，解码的信息可以是运动向量的精度、差分运动向量的精度和最终运动向量的精度。

在一些可能的实施方案中，可以在诸如APS、PPS和切片/瓦片头的高级别语法处用信号通知指示是否可以选择性地使用插值滤波器的语法元素。如果可以选择性地使用插值滤波器，则可以在高级别语法处进一步地用信号通知指定根据每个插值位置可以使用的滤波器集合的信息。视频解码器可以通过利用根据预定义的滤波器推导的滤波器信息和高级别语法信息来定义滤波器。视频编码器和视频解码器可以通过利用诸如运动向量的精度、差分运动向量的精度、最终运动向量的精度以及块的大小和位置的信息来推导插值滤波器。视频编码器可以通过对可以使用的多个插值滤波器的RD测试来选择合适的滤波器，并且将选择的滤波器的索引用信号发送至视频解码器。

此外，可以根据参考为推导当前块的运动预测模式和/或当前块的运动向量的相邻块推导要用于当前块的插值滤波器。

在示例性实施方案中，如果以合并模式对当前块进行编码，则视频解码器可以通过利用与用于运动信息由当前块参考的合并块的插值滤波器相同的滤波器来对当前块进行插值。替选地，解码器可以仅参考合并块的运动信息来解码插值滤波器的索引信息以使用在执行插值中。

在示例性实施方案中，如果以仿射模式对当前块进行编码，则视频解码器可以使用当前块的相邻参考块的运动信息来推导当前块的控制点运动向量(control pointmotion vector，CPMV)。在这种情况下，视频解码器可以通过利用在相邻参考块中使用的插值滤波器索引信息来推导当前块的插值滤波器索引。替选地，视频解码器可以解码针对当前块显式地用信号通知的插值滤波器索引信息。

在示例性实施方案中，如果以PMC(pair-wise average merge candidates，成对平均合并候选者)对当前块进行编码，则可以通过利用在用于获得运动向量的平均值的参考块中使用的插值滤波器索引信息来推导当前块的插值滤波器索引信息。替选地，解码器可以解码针对当前块显式地用信号通知的插值滤波器索引信息。

在示例性实施方案中，如果以HMVP(History based MV Prediction，基于历史的MV预测)对当前块进行编码，则可以通过利用针对选择性的HMVP候选的插值滤波器索引信息来推导当前块的插值滤波器索引。替选地，解码器可以解码针对当前块显式地用信号通知的插值滤波器索引信息。

应当理解的是，可以以许多不同的方式来实现上述示例性实施方案。在一个或更多个示例中描述的功能或方法可以实现为硬件、软件、固件、或者以上的任何组合。本说明书中描述的功能组件被标记为单元，以便更特别地强调它们的实现独立性。

另一方面，本发明中描述的各种方法或功能可以实现为存储在非易失性记录介质中的指令，所述指令可以由一个或更多个处理器读取和执行。非易失性记录介质包括例如以计算机系统可读取的形式存储数据的所有类型的记录装置。例如，非易失性记录介质包括诸如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存驱动器、光盘驱动器、磁性硬盘驱动器和固态驱动器(SSD)的存储介质。

尽管已经出于说明的目的描述了本发明的示例性实施方案，但是本领域的技术人员应当理解，在不脱离本发明思想和范围的情况下，各种修改和改变是可能的。为了简洁和清楚起见，已经描述了示例性实施方案。相应地，普通技术人员应当理解，实施方案的范围不受以上明确描述的实施方案限制，而是包括在权利要求书及其等同形式内。

Claims

1.一种用于对视频数据解码的方法，所述方法包括：

从比特流获取关于当前编码块的亮度预测模式的信息和关于当前编码块的色度预测模式的信息；

基于关于亮度预测模式的信息来推导当前编码块的亮度帧内预测类型和亮度帧内预测模式，所述亮度帧内预测类型包括基于矩阵的帧内预测MIP和常规帧内预测；

基于当前编码块的亮度帧内预测类型和亮度帧内预测模式以及关于色度预测模式的信息，确定当前编码块的色度帧内预测模式；以及

基于当前编码块的色度帧内预测模式来生成当前编码块的色度预测样本；

其中，确定当前编码块的色度帧内预测模式包括：

如果关于色度预测模式的信息指示直接模式DM，当前编码块的亮度帧内预测类型是基于矩阵的帧内预测，并且视频数据的采样格式是4:4:4，

则确定出当前编码块的色度帧内预测类型是基于矩阵的帧内预测，并且确定出与当前编码块的色度帧内预测类型相对应的色度帧内预测模式与推导为当前编码块的亮度帧内预测模式的基于矩阵的帧内预测模式相同。

2.根据权利要求1所述的方法，其中，基于色度帧内预测模式来生成当前编码块的色度预测样本包括：

响应于确定出当前编码块的色度帧内预测模式与推导为当前编码块的亮度帧内预测模式的基于矩阵的帧内预测模式相同，

基于当前编码块的宽度和高度，利用与当前编码块邻近的相邻色度样本来推导输入边界向量；

基于输入边界向量与为基于矩阵的帧内预测模式预定义的矩阵之间的矩阵向量乘法来生成用于当前编码块的色度预测样本；以及

基于色度预测样本来推导用于当前编码块的色度预测块。

3.根据权利要求2所述的方法，其中，为基于矩阵的帧内预测模式预定义的矩阵通常用于生成亮度预测样本和色度预测样本。

4.根据权利要求1所述的方法，其中，确定当前编码块的色度帧内预测模式包括：如果关于色度预测模式的信息指示直接模式DM，当前编码块的亮度帧内预测类型为基于矩阵的帧内预测，并且视频数据的采样格式为4:2:0或4:2:2，则确定出当前编码块的色度帧内预测模式为平面模式。

5.根据权利要求1所述的方法，其中，确定当前编码块的色度帧内预测模式包括：如果关于色度预测模式的信息指示直接模式DM并且当前编码块的亮度帧内预测类型是常规帧内预测类型，则确定出当前编码块的色度帧内预测模式与推导为当前编码块的亮度帧内预测模式的常规帧内预测模式相同。

6.根据权利要求1所述的方法，其中，推导当前编码块的亮度帧内预测类型和亮度帧内预测模式包括：

解析指示当前编码块的亮度帧内预测类型的第一语法元素；以及

如果所述语法元素指示出当前编码块的亮度帧内预测类型是基于矩阵的帧内预测，则解析指示用于当前编码块的基于矩阵的帧内预测模式的第二语法元素，其中，所述第二语法元素表示为截断的二进制编码，并且指定对于当前编码块的宽度和高度所允许的多个基于矩阵的帧内预测模式的一个。

7.根据权利要求1所述的方法，其中，推导当前编码块的亮度帧内预测类型和亮度帧内预测模式包括：

解析指示当前编码块的亮度帧内预测类型的语法元素；

如果语法元素指示出当前编码块的亮度帧内预测类型是常规帧内预测，则基于与当前编码块邻近的相邻块的帧内预测模式来推导最可能模式MPM候选，以及构建用于当前编码块的MPM列表；以及

基于MPM列表来推导用于当前编码块的亮度帧内预测模式，

其中，在基于与当前编码块邻近的相邻块的帧内预测模式来推导MPM候选时，如果相邻块的帧内预测类型是基于矩阵的帧内预测，则推断出相邻块的常规帧内预测模式为平面模式。

8.一种用于对视频数据解码的装置，所述装置包括：

解码单元，其配置为从比特流获取关于当前编码块的亮度预测模式的信息和关于当前编码块的色度预测模式的信息；以及

帧内预测单元，其配置为基于关于亮度预测模式的信息来推导当前编码块的亮度帧内预测类型和亮度帧内预测模式，基于当前编码块的亮度帧内预测类型和亮度帧内预测模式以及关于色度预测模式的信息来确定当前编码块的色度帧内预测模式，并且基于当前编码块的色度帧内预测模式来生成当前编码块的色度预测样本，其中，所述亮度帧内预测类型包括基于矩阵的帧内预测MIP和常规帧内预测，

其中，在确定当前编码块的色度帧内预测模式时，如果关于色度预测模式的信息指示直接模式DM，当前编码块的亮度帧内预测类型是基于矩阵的帧内预测，并且视频数据的采样格式是4:4:4，则所述帧内预测单元确定出当前编码块的色度帧内预测类型是基于矩阵的帧内预测，并且确定出与当前编码块的色度帧内预测类型相对应的色度帧内预测模式与推导为当前编码块的亮度帧内预测模式的基于矩阵的帧内预测模式相同。

9.根据权利要求8所述的装置，其中，在基于色度帧内预测模式来生成当前编码块的色度预测样本时，所述帧内预测单元执行：

基于输入边界向量与为基于矩阵的帧内预测模式预定义的矩阵之间的矩阵向量乘法，生成用于当前编码块的色度预测样本；以及

基于色度预测样本来推导用于当前编码块的色度预测块。

10.根据权利要求9所述的装置，其中，为基于矩阵的帧内预测模式预定义的矩阵通常用于生成亮度预测样本和色度预测样本。

11.根据权利要求8所述的装置，其中，如果关于色度预测模式的信息指示直接模式DM，当前编码块的亮度帧内预测类型为基于矩阵的帧内预测，并且视频数据的采样格式为4:2:0或4:2:2，则所述帧内预测单元确定出当前编码块的色度帧内预测模式为平面模式。

12.根据权利要求8所述的装置，其中，如果关于色度预测模式的信息指示直接模式DM并且当前编码块的亮度帧内预测类型是常规帧内预测类型，则所述帧内预测单元确定出当前编码块的色度帧内预测模式与推导为当前编码块的亮度帧内预测模式的常规帧内预测模式相同。

13.根据权利要求8所述的装置，其中，在推导当前编码块的亮度帧内预测类型和亮度帧内预测模式时，所述帧内预测单元执行：

14.根据权利要求8所述的装置，其中，在推导当前编码块的亮度帧内预测类型和亮度帧内预测模式时，所述帧内预测单元执行：

解析指示当前编码块的亮度帧内预测类型的语法元素；

如果所述语法元素指示出当前编码块的亮度帧内预测类型是常规帧内预测，则基于与当前编码块邻近的相邻块的帧内预测模式来推导最可能模式MPM候选，以及构建用于当前编码块的MPM列表；以及

基于MPM列表来推导用于当前编码块的亮度帧内预测模式，

其中，在基于与当前编码块邻近的相邻块的帧内预测模式来推导MPM候选时，如果相邻块的帧内预测类型是基于矩阵的帧内预测，则所述帧内预测单元推断为相邻块的常规帧内预测模式为平面模式。