CN116941241A - 利用基于矩阵的交叉分量预测的视频编解码方法和装置 - Google Patents

利用基于矩阵的交叉分量预测的视频编解码方法和装置 Download PDF

Info

Publication number
CN116941241A
CN116941241A CN202280017998.9A CN202280017998A CN116941241A CN 116941241 A CN116941241 A CN 116941241A CN 202280017998 A CN202280017998 A CN 202280017998A CN 116941241 A CN116941241 A CN 116941241A
Authority
CN
China
Prior art keywords
block
pixels
chroma
prediction
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280017998.9A
Other languages
English (en)
Inventor
安镕照
李钟石
朴胜煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Motor Co
Kia Corp
DigitalInsights Inc
Original Assignee
Hyundai Motor Co
Kia Corp
DigitalInsights Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Motor Co, Kia Corp, DigitalInsights Inc filed Critical Hyundai Motor Co
Priority claimed from PCT/KR2022/003214 external-priority patent/WO2022191553A1/ko
Publication of CN116941241A publication Critical patent/CN116941241A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Discrete Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

公开了利用基于矩阵的交叉分量预测的视频编解码方法和装置。本实施方案提供了一种视频编解码方法和装置,用于通过利用亮度分量来预测当前块的色度分量,其中,利用基于深度学习的矩阵运算,根据在空间上邻近于当前块的色度块的色度分量和在空间上邻近于与色度块相对应的亮度块的亮度分量来预测当前块的色度分量。

Description

利用基于矩阵的交叉分量预测的视频编解码方法和装置
技术领域
本发明涉及利用基于矩阵的交叉分量预测的视频编解码方法和装置。
背景技术
本部分中的陈述仅提供与本发明有关的背景技术信息,并不一定构成现有技术。
由于视频数据与音频数据或静止影像数据相比具有较大的数据量,视频数据需要大量的硬件资源(包括存储器)来存储或发送未经压缩处理的视频数据。
相应地,编码器通常用于压缩并存储或发送视频数据。解码器接收压缩的视频数据,解压接收到的压缩的视频数据,并且播放解压的视频数据。视频压缩技术包括H.264/AVC、高效率视频编解码(High Efficiency Video Coding,HEVC)和多功能视频编解码(Versatile Video Coding,VVC),所述多功能视频编解码(VVC)比HEVC的编解码效率提高了大约30%或更多。
然而,由于影像大小、分辨率和帧速率逐渐增加,要编码的数据量也在增多。相应地,需要一种与现有的压缩技术相比提供更高的编解码效率和改善的影像增强效果的新的压缩技术。
近年来,基于深度学习的图像处理技术已经应用于现有的编码基本技术。通过将基于深度学习的图像处理技术应用于现有的编码技术(特别是,诸如帧间预测、帧内预测、环内滤波、变换等的压缩技术),可以提高编解码效率。代表性的应用示例包括基于由深度学习模型生成的虚拟参考帧的帧间预测,并且包括基于去噪模型的环内滤波。因此,需要进一步采用基于深度学习的图像处理技术来提高图像编码/解码的编解码效率。
发明内容
技术问题
在一些实施方案中,本发明试图提供利用亮度分量预测当前块的色度分量的视频编解码方法和装置。该视频编解码方法和装置通过利用基于深度学习的矩阵运算,根据在空间上邻近于当前块的色度块的色度分量并且从空间上邻近于与色度块相对应的亮度块的亮度分量来预测当前块的色度分量。
技术方案
本发明的至少一个方面提供了由计算装置执行的用于利用亮度分量来预测当前块的色度分量的方法。该方法包括获得参考像素,所述参考像素包括在空间上邻近于当前块的色度块的色度参考像素,并且包括邻近于与色度块相对应的亮度块的亮度参考像素。该方法还包括通过对参考像素进行重排来生成输入块,所述输入块形成为一维(1D)矢量或二维(2D)矢量。该方法还包括通过将输入块输入到基于深度学习的模型的估计模型中来生成当前块的色度预测块。
本发明的另一个方面提供了一种交叉分量预测装置,用于通过利用亮度分量来预测当前块的色度分量。该装置包括输入单元,所述输入单元配置为获得参考像素,所述参考像素包括在空间上邻近于当前块的色度块的色度参考像素,并且包括邻近于与色度块相对应的亮度块的亮度参考像素。该装置还包括预处理器,所述预处理器配置为通过对参考像素进行重排来生成输入块,所述输入块形成为一维(1D)矢量或二维(2D)矢量。该装置还包括估计器,所述估计器包括基于深度学习的模型的估计模型,并且配置为通过将输入块输入到估计模型中来生成当前块的色度预测块。
本发明的又一个方面提供了由计算装置执行的用于利用亮度分量来预测当前块的色度分量的方法。该方法包括获得参考像素和重构的像素。参考像素包括在空间上邻近于当前块的色度块的色度参考像素,并且包括邻近于与色度块相对应的亮度块的亮度参考像素。重构的像素代表亮度块的重构的像素。该方法还包括通过对参考像素和重构的像素进行重排来生成输入块,所述输入块形成为一维(1D)矢量或二维(2D)矢量。该方法还包括通过将输入块输入到基于深度学习的模型的估计模型中来生成当前块的色度预测块。
有益效果
如上所述,本发明提供了一种视频编解码方法和装置,用于通过利用基于深度学习的矩阵运算,根据在空间上邻近于当前块的色度块的色度分量并且从在空间上邻近于与色度块相对应的亮度块的亮度分量来预测当前块的色度分量,以提高当前块的色度分量的编解码效率。
附图说明
图1是可以实现本发明技术的视频编码装置的框图。
图2示出利用四叉树加二叉树三叉树(QTBTTT)结构来对块进行分区的方法。
图3a和图3b示出包括宽角度帧内预测模式的多个帧内预测模式。
图4示出当前块的相邻块。
图5是可以实现本发明技术的视频解码装置的框图。
图6是示出交叉分量预测所参考的相邻像素的示意图。
图7是概念性地示出用于交叉分量预测的线性模型的推导的示例图。
图8是概念性地示出根据本发明的至少一个实施方案的基于矩阵的交叉分量预测装置的示例图。
图9是示出根据本发明的至少一个实施方案的预处理参考像素的示例图。
图10是概念性地示出根据本发明的另一个实施方案的基于矩阵的交叉分量预测装置的示例图。
图11是示出根据本发明的至少一个实施方案的缩小的色度预测块的示例。
图12是概念性地示出根据本发明的另一个实施方案的进一步利用重构的亮度像素的交叉分量预测装置的示例图。
图13是概念性地示出根据本发明的又一个实施方案的进一步利用重构的亮度像素的交叉分量预测装置的示例图。
图14是根据本发明的至少一个实施方案的交叉分量预测方法的流程图。
图15是根据本发明的另一个实施方案的交叉分量预测方法的流程图。
图16是根据本发明的至少一个实施方案的进一步利用亮度块中的重构的像素的交叉分量预测方法的流程图。
图17是根据本发明的另一个实施方案的进一步利用亮度块的重构的像素的交叉分量预测方法的流程图。
具体实施方式
在下文中,将参考所附说明性附图对本发明的一些实施方案进行详细描述。在下面的描述中,相同的附图标记表示相同的元件,尽管元件在不同的附图中示出。此外,在一些实施方案的以下描述中,当认为相关的已知组件和功能的详细描述模糊了本发明的主题时,为了清楚和简洁起见,已省略对相关的已知组件和功能的详细描述。
图1是可以实现本发明技术的视频编码装置的框图。在下文中,参考图1的图示,对视频编码装置以及该装置的组件进行描述。
编码装置可以包括:图像分割器110、预测器120、减法器130、变换器140、量化器145、重排单元150、熵编码器155、逆量化器160、逆变换器165、加法器170、环路滤波单元180和存储器190。
编码装置的每个组件可以实现为硬件或软件,或者实现为硬件和软件的组合。另外,每个组件的功能可以实现为软件,并且微处理器也可以实现为执行对应于每个组件的软件的功能。
一个视频由包括多个图像的一个或更多个序列组成。每个图像分割为多个区域,并且对每个区域执行编码。例如,一个图像分割为一个或更多个瓦片(tile)或/和切片(slice)。这里,一个或更多个瓦片可以定义为瓦片组。每个瓦片或/和切片分割为一个或更多个编码树单元(coding tree unit,CTU)。另外,每个CTU通过树结构分割为一个或更多个编码单元(coding unit,CU)。应用于每个CU的信息被编码为CU的语法,并且共同应用于包括在一个CTU中的CU的信息被编码为CTU的语法。另外,共同应用于一个切片中的所有块的信息被编码为切片头的语法,而应用于构成一个或更多个图像的所有块的信息被编码为图像参数集(Picture Parameter Set,PPS)或图像头。此外,多个图像共同参考的信息被编码为序列参数集(Sequence Parameter Set,SPS)。另外,一个或更多个SPS共同参考的信息被编码为视频参数集(Video Parameter Set,VPS)。此外,共同应用于一个瓦片或瓦片组的信息也可以被编码为瓦片或瓦片组头的语法。包括在SPS、PPS、切片头、瓦片或瓦片组头中的语法可以称为高级语法。
图像分割器110确定编码树单元(CTU)的大小。关于CTU的大小(CTU尺寸)的信息被编码为SPS或PPS的语法,并且被传送至视频解码装置。
图像分割器110将构成视频的每个图像分割为具有预定大小的多个编码树单元(CTU),然后通过利用树结构递归地分割CTU。树结构中的叶节点成为编码单元(CU),所述CU是编码的基本单元。
树结构可以是四叉树(quadtree,QT),其中较高节点(或父节点)被分割为具有相同大小的四个较低节点(或子节点)。树结构也可以是二叉树(binarytree,BT),其中较高的节点分割为两个较低的节点。树结构还可以是三叉树(ternarytree,TT),其中较高的节点以1:2:1的比率分割为三个较低的节点。树结构还可以是QT结构、BT结构和TT结构中的两个或更多个结构混合的结构。例如,可以使用四叉树加二叉树(quadtree plus binarytree,QTBT)结构,或者可以使用四叉树加二叉树三叉树(quadtree plus binarytreeternarytree,QTBTTT)结构。这里,BTTT被添加到树结构以称为多类型树(multiple-typetree,MTT)。
图2是用于描述通过利用QTBTTT结构来对块进行分割的方法的示意图。
如图2所示,CTU可以首先分割为QT结构。四叉树分割可以是递归的,直到分割块的大小达到QT中允许的叶节点的最小块大小(MinQTSize)。由熵编码器155对指示QT结构的每个节点是否被分割为下层的四个节点的第一标志(QT_split_flag)进行编码,并将其用信号通知视频解码装置。当QT的叶节点不大于BT中允许的根节点的最大块大小(MaxBTSize)时,可以将叶节点进一步分割为BT结构或TT结构的至少一个。在BT结构和/或TT结构中可以存在多个分割方向。例如,可以存在两个方向,即,水平地分割相应节点的块的方向以及竖直地分割相应节点的块的方向。如图2所示,当MTT分割开始时,由熵编码器155对指示节点是否被分割的第二标志(mtt_split_flag)、以及在节点被分割的情况下额外指示分割方向(竖直或水平)的标志和/或指示分割类型(二叉或三叉)的标志进行编码,并将其用信号通知视频解码装置。
替选地,在对指示每个节点是否被分割为下层的四个节点的第一标志(QT_split_flag)进行编码之前,还可以对指示节点是否被分割的CU分割标志(split_cu_flag)进行编码。当CU分割标志(split_cu_flag)的值指示出每个节点没有被分割时,相应节点的块成为分割树结构中的叶节点并成为CU,CU是编码的基本单元。当CU分割标志(split_cu_flag)的值指示出每个节点被分割时,视频编码装置以上述方案对第一标志首先开始编码。
当QTBT用作树结构的另一个示例时,可以存在两种类型,即,将相应节点的块水平地分割为具有相同大小的两个块的类型(即,对称水平分割)以及将相应节点的块竖直地分割为具有相同大小的两个块的类型(即,对称竖直分割)。由熵编码器155对指示BT结构的每个节点是否被分割为下层的块的分割标志(split_flag)和指示分割类型的分割类型信息进行编码,并将其传送至视频解码装置。另一方面,可以另外存在相应节点的块被分割为彼此非对称形式的两个块的类型。非对称形式可以包括相应节点的块被分割为大小比率为1:3的两个矩形块的形式,或者还可以包括相应节点的块在对角线方向上被分割的形式。
CU可以根据从CTU分割的QTBT或QTBTTT而具有各种大小。在下文中,与要编码或解码的CU(即,QTBTTT的叶节点)相对应的块称为“当前块”。当采用QTBTTT分割时,除了正方形形状之外,当前块的形状也可以是矩形形状。
预测器120对当前块进行预测以生成预测块。预测器120包括帧内预测器122和帧间预测器124。
通常,可以对图像中的当前块的每个进行预测地编码。通常,可以通过利用帧内预测技术(其利用来自包括当前块的图像的数据)或帧间预测技术(其利用来自在包括当前块的图像之前编码的图像的数据)执行当前块的预测。帧间预测包括单向预测和双向预测两者。
帧内预测器122通过利用在包括当前块的当前图像中位于当前块邻近的像素(参考像素)来预测当前块中的像素。根据预测方向,存在多个帧内预测模式。例如,如图3a所示,多个帧内预测模式可以包括包含平面(Planar)模式和DC模式的两种非方向模式,并且可以包括65种方向模式。根据每种预测模式不同地定义要使用的相邻像素和算法等式。
为了对具有矩形形状的当前块进行高效的方向预测,可以额外地使用图3b中虚线箭头所示的方向模式(#67至#80,帧内预测模式#-1至#-14)。方向模式可以称为“宽角度帧内预测模式(wide angle intra-prediction modes)”。在图3b中,箭头指示用于预测的相应参考样本,而非代表预测方向。预测方向与箭头指示的方向相反。在当前块具有矩形形状时,宽角度帧内预测模式是在没有额外比特传输的情况下在与特定方向模式相反的方向上执行预测的模式。在这种情况下,在宽角度帧内预测模式中,可以通过具有矩形形状的当前块的宽度与高度的比率来确定可用于当前块的一些宽角度帧内预测模式。例如,在当前块具有高度小于宽度的矩形形状时,具有小于45度的角度的宽角度帧内预测模式(帧内预测模式#67至#80)是可用的。在当前块具有宽度大于高度的矩形形状时,具有大于-135度的角度的宽角度帧内预测模式是可用的。
帧内预测器122可以确定要用于对当前块进行编码的帧内预测。在一些示例中,帧内预测器122可以通过利用多个帧内预测模式来对当前块进行编码,并且还可以从测试模式中选择要使用的适当的帧内预测模式。例如,帧内预测器122可以通过利用对多个测试的帧内预测模式的率失真(rate-distortion)分析来计算率失真值,并且还可以在测试模式中选择具有最佳率失真特性的帧内预测模式。
帧内预测器122在多个帧内预测模式中选择一个帧内预测模式,并且通过利用根据选择的帧内预测模式确定的相邻像素(参考像素)和算法等式来预测当前块。由熵编码器155对关于选择的帧内预测模式的信息进行编码并将其传送至视频解码装置。
帧间预测器124通过利用运动补偿处理生成当前块的预测块。帧间预测器124在比当前图像更早已被编码和解码的参考图像中搜索与当前块最相似的块,并且通过利用搜索到的块生成当前块的预测块。另外,生成运动矢量(motion vector,MV),所述运动矢量与当前图像中的当前块和参考图像中的预测块之间的位移(displacement)相对应。通常,对亮度(luma)分量执行运动估计,并且基于亮度分量计算的运动矢量用于亮度分量和色度分量两者。由熵编码器155对包括参考图像的信息和关于用于预测当前块的运动矢量的信息的运动信息进行编码,并将其传送至视频解码装置。
帧间预测器124还可以执行参考图像或参考块的插值,以增加预测的准确性。换句话说,通过向包括两个整数样本的多个连续整数样本应用滤波器系数来在两个连续整数样本之间插值子样本。在对插值的参考图像执行搜索与当前块最相似的块的处理时,对于运动矢量可以表示小数单位精度而不是整数样本单位精度。对于要编码的每个目标区域,例如,诸如切片、瓦片、CTU、CU等的单元,可以不同地设置运动矢量的精度或分辨率。当应用这种自适应运动矢量分辨率(adaptive motion vector resolution,AMVR)时,应该针对每个目标区域用信号通知关于要应用于每个目标区域的运动矢量分辨率的信息。例如,当目标区域是CU时,用信号通知关于应用于每个CU的运动矢量分辨率的信息。关于运动矢量分辨率的信息可以是代表要在以下描述的运动矢量差的精度的信息。
另一方面,帧间预测器124可以通过利用双向预测来执行帧间预测。在双向预测的情况下,使用两个参考图像和代表与每个参考图像中的当前块最相似的块位置的两个运动矢量。帧间预测器124分别从参考图像列表0(RefPicList0)和参考图像列表1(RefPicList1)选择第一参考图像和第二参考图像。帧间预测器124还搜索与相应参考图像中的当前块最相似的块,以生成第一参考块和第二参考块。此外,通过对第一参考块和第二参考块进行平均或加权平均来生成当前块的预测块。此外,包括关于用于预测当前块的两个参考图像的信息和关于两个运动矢量的信息的运动信息被传送至熵编码器155。这里,参考图像列表0可以由预恢复图像中按显示顺序在当前图像之前的图像构成,并且参考图像列表1可以由预恢复图像中按显示顺序在当前图像之后的图像构成。然而,尽管不特别限于此,但可以将显示顺序中在当前图像之后的预恢复图像额外地包括在参考图像列表0中。相反,在当前图像之前的预恢复图像也可以额外地包括在参考图像列表1中。
为了最小化用于编码运动信息所消耗的比特量,可以使用各种方法。
例如,在当前块的参考图像和运动矢量与相邻块的参考图像和运动矢量相同时,能够识别相邻块的信息被编码以将当前块的运动信息传送至视频解码装置。这种方法称为合并模式(merge mode)。
在合并模式中,帧间预测器124从当前块的相邻块选择预定数量的合并候选块(在下文中,称为“合并候选”)。
作为用于推导合并候选的相邻块,可以使用与当前图像中的当前块邻近的左侧块A0、左下侧块A1、上侧块B0、右上侧块B1和左上侧块B2的全部或一些,如图4所示。此外,除了当前块所在的当前图像之外,位于参考图像内的块(其可以与用于预测当前块的参考图像相同或不同)也可以用作合并候选。例如,参考图像内的当前块的同位块(co-locatedblock)或与该同位块邻近的块可以额外地用作合并候选。如果通过上述方法选择的合并候选的数量小于预设数量,则将零矢量添加到合并候选。
帧间预测器124通过利用相邻块来配置包括预定数量的合并候选的合并列表。从合并列表中包括的合并候选之中选择要用作当前块的运动信息的合并候选,并且生成用于识别选择的候选的合并索引信息。由熵编码器155对生成的合并索引信息进行编码并将其传送至视频解码装置。
合并跳过模式是合并模式的特例。在量化之后,在用于熵编码的所有变换系数都接近零时,仅传输相邻块选择信息而不传输残差信号。通过利用合并跳过模式,对于具有轻微运动的影像、静止影像、屏幕内容影像等可以实现相对较高的编码效率。
此后,合并模式和合并跳过模式统称为合并/跳过模式。
用于编码运动信息的另一种方法是高级运动矢量预测(advanced motion vectorprediction,AMVP)模式。
在AMVP模式中,帧间预测器124通过利用当前块的相邻块来推导用于当前块的运动矢量的运动矢量预测候选。作为用于推导运动矢量预测候选的相邻块,可以使用与图4所示的当前图像中的当前块邻近的左侧块A0、左下侧块A1、上侧块B0、右上侧块B1和左上侧块B2的全部或一些。此外,除了当前块所在的当前图像之外,位于参考图像(其可以与用于预测当前块的参考图像相同或不同)内的块也可以用作用于推导运动矢量预测候选的相邻块。例如,可以使用参考图像内的当前块的同位块或与该同位块邻近的块。如果通过上述方法选择的运动矢量候选的数量小于预设数量,则将零矢量添加到运动矢量候选。
帧间预测器124通过利用相邻块的运动矢量来推导运动矢量预测候选,并且通过利用运动矢量预测候选来确定当前块的运动矢量的运动矢量预测。另外,通过将当前块的运动矢量减去运动矢量预测来计算运动矢量差。
可以通过将预定义函数(例如,中值和平均值计算等)应用于运动矢量预测候选来获取运动矢量预测。在这种情况下,视频解码装置还知道预定义功能。此外,由于用于推导运动矢量预测候选的相邻块是已经完成编码和解码的块,所以视频解码装置也可能已经知道相邻块的运动矢量。因此,视频编码装置不需要对用于识别运动矢量预测候选的信息进行编码。相应地,在这种情况下,对关于运动矢量差的信息和关于用于预测当前块的参考图像的信息进行编码。
另一方面,还可以通过选择运动矢量预测候选的任何一个的方案来确定运动矢量预测。在这种情况下,用于识别选择的运动矢量预测候选的信息与用于预测当前块的关于运动矢量差的信息以及关于参考图像的信息共同进行额外的编码。
减法器130通过将当前块减去由帧内预测器122或帧间预测器124生成的预测块来生成残差块。
变换器140将具有空域的像素值的残差块中的残差信号变换为频域的变换系数。变换器140可以通过利用残差块的整个大小作为变换单元来变换残差块中的残差信号,或者也可以将残差块分割为多个子块,并且通过利用子块作为变换单元来执行变换。替选地,将残差块划分成两个子块,即变换区域和非变换区域,以通过仅利用变换区域子块作为变换单元来变换残差信号。这里,变换区域子块可以是基于水平轴线(或竖直轴线)的具有大小比率为1:1的两个矩形块的一个。在这种情况下,由熵编码器155对指示出仅变换子块的标志(cu_sbt_flag)、以及方向(竖直/水平)信息(cu_sbt_horizontal_flag)和/或位置信息(cu_sbt_pos_flag)进行编码,并将其用信号通知视频解码装置。另外,变换区域子块的大小基于水平轴线(或竖直轴线)可以具有1:3的大小比率。在这种情况下,由熵编码器155对划分相应分割的标志(cu_sbt_quad_flag)进行额外地编码,并将其用信号通知视频解码装置。
另一方面,变换器140可以在水平方向和竖直方向上单独地执行残差块的变换。对于该变换,可以使用各种类型的变换函数或变换矩阵。例如,用于水平变换和竖直变换的成对变换函数可以定义为多变换集(multiple transform set,MTS)。变换器140可以选择MTS中具有最高变换效率的一个变换函数对,并且在水平方向和竖直方向的每个上变换残差块。由熵编码器155对关于MTS中的变换函数对的信息(mts_idx)进行编码,并将其用信号通知视频解码装置。
量化器145利用量化参数对从变换器140输出的变换系数进行量化,并且将量化的变换系数输出到熵编码器155。量化器145还可以对相关的残差块立即进行量化,而无需对任何块或帧进行变换。量化器145还可以根据变换块中的变换系数的位置来应用不同的量化系数(缩放值)。可以对应用于布置为二维的量化的变换系数的量化矩阵进行编码,并将其用信号通知视频解码装置。
重排单元150可以对量化的残差值执行系数值的重新排列。
重排单元150可以通过利用系数扫描将2D系数阵列改变为1D系数序列。例如,重排单元150可以利用锯齿形扫描(zig-zag scan)或对角线扫描(diagonal scan)来扫描DC系数到高频区域的系数以输出1D系数序列。根据变换单元的大小和帧内预测模式,也可以利用在列方向上扫描2D系数阵列的竖直扫描和在行方向上扫描2D块类型系数的水平扫描来代替锯齿形扫描。换句话说,根据变换单元的大小和帧内预测模式,可以在锯齿形扫描、对角线扫描、竖直扫描和水平扫描中确定要使用的扫描方法。
熵编码器155通过利用包括基于上下文的自适应二进制算术编码(Context-basedAdaptive Binary Arithmetic Code,CABAC)、指数哥伦布(Exponential Golomb)等的各种编码方案来对从重排单元150输出的1D量化的变换系数的序列进行编码,以生成比特流。
此外,熵编码器155对与块分割相关的信息(例如,CTU大小、CTU分割标志、QT分割标志、MTT分割类型和MTT分割方向等)进行编码,以使得视频解码装置能够等同于视频编码装置来分割块。此外,熵编码器155对关于指示当前块是由帧内预测编码还是由帧间预测编码的预测类型的信息进行编码。熵编码器155根据预测类型对帧内预测信息(即,关于帧内预测模式的信息)或帧间预测信息(在合并模式的情况下的合并索引,以及在AMVP模式的情况下的关于参考图像索引和运动矢量差的信息)进行编码。此外,熵编码器155对与量化相关的信息(即,关于量化参数的信息和关于量化矩阵的信息)进行编码。
逆量化器160对从量化器145输出的量化的变换系数进行逆量化,以生成变换系数。逆变换器165将从逆量化器160输出的变换系数从频域变换到空域,以恢复残差块。
加法器170将恢复的残差块和由预测器120生成的预测块相加,以恢复当前块。在对下一个块进行帧内预测时,恢复的当前块中的像素可以用作参考像素。
环路滤波单元180对恢复的像素执行滤波,以减少由于基于块的预测和变换/量化而发生的块伪影(blocking artifacts)、振铃伪影(ringing artifacts)、模糊伪影(blurring artifacts)等。作为环内滤波器的环路滤波单元180可以包括去块滤波器182、样本自适应偏移(sample adaptive offset,SAO)滤波器184和自适应环路滤波器(adaptive loop filter,ALF)186的全部或一些。
去块滤波器182对恢复的块之间的边界进行滤波,以去除由于块单元编码/解码而发生的块伪影(blocking artifacts),并且SAO滤波器184和ALF 186对去块滤波的视频进行额外的滤波。SAO滤波器184和ALF 186是用于补偿由于有损编码(lossy coding)而发生的恢复的像素与原始像素之间的差异的滤波器。SAO滤波器184应用偏移作为CTU单位,以增强主观影像质量和编码效率。另一方面,ALF 186执行块单元滤波,并且通过划分相应块的边界和变化量的程度来应用不同的滤波器以补偿失真。可以对关于要用于ALF的滤波器系数的信息进行编码,并将其用信号通知视频解码装置。
通过去块滤波器182、SAO滤波器184和ALF 186滤波的恢复的块存储在存储器190中。当一个图像中的所有块被恢复时,恢复的图像可以用作用于对随后要被编码的图像内的块进行帧间预测的参考图像。
图5是可以实现本发明技术的视频解码装置的功能框图。在下文中,参考图5,描述了视频解码装置和该装置的组件。
视频解码装置可以包括熵解码器510、重排单元515、逆量化器520、逆变换器530、预测器540、加法器550、环路滤波单元560和存储器570。
类似于图1的视频编码装置,视频解码装置的每个组件可以实现为硬件或软件,或者实现为硬件和软件的组合。另外,每个组件的功能可以实现为软件,并且微处理器也可以实现为执行对应于每个组件的软件的功能。
熵解码器510通过解码由视频编码装置生成的比特流来提取与块分割相关的信息,以确定要解码的当前块,并且提取恢复当前块所需的预测信息和关于残差信号的信息。
熵解码器510通过从序列参数集(SPS)或图像参数集(PPS)提取关于CTU大小的信息来确定CTU的大小,并且将图像分割为具有确定大小的CTU。此外,CTU被确定为树结构的最高层(即,根节点),并且可以提取CTU的分割信息以通过利用树结构来分割CTU。
例如,当通过利用QTBTTT结构来分割CTU时,首先提取与QT的分割相关的第一标志(QT_split_flag),以将每个节点分割为下层的四个节点。另外,相对于与QT的叶节点相对应的节点来提取与MTT的分割相关的第二标志(mtt_split_flag)、分割方向(竖直/水平)和/或分割类型(二叉/三叉),以将相应的叶节点分割为MTT结构。结果,QT的叶节点下方的每个节点被递归地分割为BT或TT结构。
作为另一个示例,当通过利用QTBTTT结构来分割CTU时,提取指示是否分割CU的CU分割标志(split_cu_flag)。当分割相应块时,还可以提取第一标志(QT_split_flag)。在分割过程期间,对于每个节点,在递归QT分割0次或更多次之后可能发生0次或更多次的递归MTT分割。例如,对于CTU,MTT分割可以立即发生,或者相反,也可以仅发生多次QT分割。
作为另一个示例,当通过利用QTBT结构来分割CTU时,提取与QT的分割相关的第一标志(QT_split_flag),以将每个节点分割为下层的四个节点。另外,提取指示将与QT的叶节点相对应的节点是否进一步分割为BT的分割标志(split_flag)以及分割方向信息。
另一方面,当熵解码器510通过利用树结构的分割来确定要解码的当前块时,熵解码器510提取关于指示当前块是被帧内预测还是被帧间预测的预测类型的信息。当预测类型信息指示帧内预测时,熵解码器510提取用于当前块的帧内预测信息(帧内预测模式)的语法元素。当预测类型信息指示帧间预测时,熵解码器510提取代表帧间预测信息的语法元素的信息,即,运动矢量和运动矢量参考的参考图像。
此外,熵解码器510提取量化相关的信息并且提取关于量化的当前块的变换系数的信息作为关于残差信号的信息。
重排单元515可以以由视频编码装置执行的系数扫描次序的相反顺序,将由熵解码器510熵解码的1D量化的变换系数的序列再次改变为2D系数阵列(即,块)。
逆量化器520对量化的变换系数进行逆量化,并且通过利用量化参数对量化的变换系数进行逆量化。逆量化器520还可以向布置为2D的量化的变换系数应用不同的量化系数(缩放值)。逆量化器520可以通过将来自视频编码装置的量化系数(缩放值)的矩阵应用于量化的变换系数的2D阵列来执行逆量化。
逆变换器530通过将逆量化的变换系数从频域逆变换到空域来恢复残差信号,以生成当前块的残差块。
此外,当逆变换器530对变换块的部分区域(子块)进行逆变换时,逆变换器530提取仅对变换块的子块进行变换的标志(cu_sbt_flag)、子块的方向(竖直/水平)信息(cu_sbt_horizontal_flag)和/或子块的位置信息(cu_sbt_pos_flag)。逆变换器530还将相应子块的变换系数从频域逆变换到空域以恢复残差信号,并且用值“0”填充未被逆变换的区域作为残差信号,以生成当前块的最终残差块。
此外,当应用MTS时,逆变换器530通过利用从视频编码装置用信号通知的MTS信息(mts_idx)来确定在水平方向和竖直方向的每个上要应用的变换索引或变换矩阵。逆变换器530还通过利用确定的变换函数在水平方向和竖直方向上对变换块中的变换系数执行逆变换。
预测器540可以包括帧内预测器542和帧间预测器544。在当前块的预测类型是帧内预测时,激活帧内预测器542,而在当前块的预测类型是帧间预测时,激活帧间预测器544。
帧内预测器542根据从熵解码器510提取的帧内预测模式的语法元素来确定多个帧内预测模式中当前块的帧内预测模式。帧内预测器542还根据帧内预测模式通过利用当前块的相邻参考像素来预测当前块。
帧间预测器544通过利用从熵解码器510提取的帧间预测模式的语法元素来确定当前块的运动矢量和运动矢量参考的参考图像。
加法器550通过将从逆变换器530输出的残差块与从帧间预测器544或帧内预测器542输出的预测块相加来恢复当前块。在对后续要被解码的块进行帧内预测时,恢复的当前块内的像素用作参考像素。
作为环内滤波器的环路滤波单元560可以包括去块滤波器562、SAO滤波器564和ALF 566。去块滤波器562对恢复的块之间的边界执行去块滤波,以便去除由于块单元解码而发生的块伪影。SAO滤波器564和ALF 566在去块滤波之后对恢复的块执行额外的滤波,以便补偿由于有损编码而发生的恢复的像素与原始像素之间的差异。通过利用关于从比特流解码的滤波器系数的信息来确定ALF的滤波器系数。
通过去块滤波器562、SAO滤波器564和ALF 566滤波的恢复的块存储在存储器570中。当一个图像中的所有块被恢复时,恢复的图像可以用作用于对随后要被编码的图像内的块进行帧间预测的参考图像。
在一些实施方案中,本发明涉及如上所述的编码和解码视频影像。更具体地,本发明提供了一种视频编解码方法和装置,用于通过利用基于深度学习的矩阵运算,根据在空间上邻近于当前块的色度块的色度分量并且在空间上邻近于与色度块相对应的亮度块的亮度分量来预测当前块的色度分量。
以下实施方案可以共同应用于视频编码装置中的帧内预测器122和视频解码装置中的帧内预测器542。
在下面的描述中,术语待编码/解码的“目标块”可以与如上所述的当前块或编码单元(CU)互换使用,或者术语“目标块”可以指代编码单元的一些区域。
在下文中,目标块包括含有亮度分量的亮度块和含有色度分量的色度块。目标块的色度块由目标色度块或当前色度块代表。目标块的亮度块由目标亮度块或当前亮度块代表。
I.交叉分量预测
在视频编码/解码方法和装置中执行预测时,根据与要编码和解码的目标块的颜色分量不同的颜色分量来生成当前块的预测块的方法定义为交叉分量预测。在多功能视频编解码(VVC)技术中,交叉分量预测用于对当前色度块进行帧内预测,这称为交叉分量线性模型(cross-component linear model,CCLM)预测。下面描述CCLM预测,即利用线性模型的交叉分量预测。
图6是示出交叉分量预测所参考的相邻像素的示例图。
为了执行目标色度块的交叉分量预测,可以利用对应于目标色度块的亮度块的左侧参考像素和顶部参考像素,并且可以利用目标色度块的左侧参考像素和顶部参考像素,如图6所示。在下文中,左侧参考像素和顶部参考像素统称为参考像素、相邻像素或邻近像素。此外,色度分量的参考像素由色度参考像素代表,并且亮度分量的参考像素由亮度参考像素代表。在图6的示例中,色度块的尺寸(即,像素的数量)由N×N表示(其中,N是自然数)。
在CCLM预测中,通过推导亮度块的参考像素与色度块的参考像素之间的线性模型,然后将该线性模型应用于相应亮度块的重构的像素来生成作为目标色度块的预测器的预测块。
图7是概念性地示出用于交叉分量预测的线性模型的推导的示例图。
在一个示例中,可以基于相邻亮度像素的最小值、与相邻亮度像素同位的色度值、相邻亮度像素的最大值以及与相邻亮度像素同位的色度值来推导线性函数。在图7的示例中,点A是(相邻亮度像素的最小值,以及与相邻亮度像素同位的色度值)的有序对,并且点B是(相邻亮度像素的最大值,以及与相邻亮度像素同位的色度值)的有序对。
在另一个实施方案中,不是分别缩小仅利用一个最小值和一个最大值来推导线性模型,而是可以利用多个最小值的平均值并利用多个最大值的平均值来推导线性模型。在这种情况下,两个或更多个像素值可以用作多个最小值和最大值。
在另一个实施方案中,在推导一个或更多个线性模型之后,一个或更多个线性模型可以用于执行目标色度块的交叉分量估计。
例如,当利用两个线性模型时,点C设置为(相邻亮度像素的中间值,以及与周围亮度像素同位的色度值)。点A与点C之间的线性模型定义为第一线性模型,并且点C与点B之间的线性模型定义为第二线性模型,这使得能够根据覆盖的亮度像素值的范围将不同的线性模型应用于交叉分量预测。因此,根据中间值的数量,利用一个或更多个线性模型的交叉分量预测可以使用两个线性模型、三个线性模型或更多个线性模型。
另一方面,对于利用一个或更多个线性模型的交叉分量预测,视频编码装置可以将线性模型的数量直接用信号通知给视频解码装置,以指示要用于目标块的线性模型的数量。
替选地,可以基于当前块的尺寸来推导要应用于当前块的线性模型的数量。例如,对于具有32×32或更大尺寸的当前块,视频编码/解码装置可以使用两个线性模型以执行交叉分量预测。在这种情况下,32×32的尺寸是示例,并不一定限于此。即,根据本实施方案的视频编码/解码装置可以使用当前块的预设尺寸,例如32×16、16×16等,作为确定线性模型的数量的基础。
II.基于矩阵的帧内交叉分量预测
图8是概念性地示出根据本发明的至少一个实施方案的基于矩阵的帧内交叉分量预测装置的示例图。
根据该实施方案的基于矩阵的交叉分量预测装置(在下文中,称为“预测装置”)利用执行矩阵运算的基于深度学习的估计模型,用于根据在空间上邻近于目标色度块的相邻像素和邻近于与目标色度块相对应的亮度块的相邻像素来生成作为预测器的色度预测块。预测装置包括输入单元802、预处理器804和估计器806的全部或一些。如上所述,这种预测装置对于视频编码装置中的帧内预测器122和视频解码装置中的帧内预测器542可以是共用的。当包括在视频编码装置中的帧内预测器122中时,包括在根据本实施方案的视频编码装置中的预测装置组件不必限于所示的那些。例如,视频编码装置可以进一步包括用于训练包括在预测装置中的深度学习模型的训练单元(未示出),或者视频编码装置可以结合外部训练单元来实现。
输入单元802获得参考像素。对于目标色度块,这里的参考像素包括在空间上邻近于目标色度块的色度参考像素,并且包括邻近于与目标色度块相对应的亮度块的亮度参考像素。图8中所示的参考像素与图6中所示的参考像素相同。因此,如上所述,参考像素可以包括色度块或亮度块的左侧相邻像素和顶部相邻像素。将参考像素传递到预处理器804。
当输入单元802获得目标色度块的色度参考像素时,输入单元802可以根据当前块的尺寸,利用左侧相邻像素和顶部相邻像素的全部或一些。此时,当利用相邻像素的一些来选择它们时,输入单元802可以利用下采样方法、针对每个特定像素距离选择一个像素的方法等。
当获得亮度块的亮度参考像素时,输入单元802可以根据当前块的尺寸利用左侧相邻像素和顶部相邻像素的全部或一些。此外,输入单元802可以根据当前图像的颜色格式来确定亮度块的亮度参考像素的位置和值。例如,如图8所示,以YUV 4:2:0格式来获得参考像素。作为另一个示例,对于YUV 4:2:2或YUV 4:4:4格式,输入单元802可以选择在与图8中所示的位置不同的位置处的参考像素,并且确定它们的值。
在获得参考像素时,输入单元802不限于利用对应于一行或一列的像素,如图8所示。例如,输入单元802可以对顶部的像素使用两行、三行、四行或更多行,并且对左侧的像素使用两列、三列、四列或更多列。
预处理器804对目标色度块的参考像素和亮度块的参考像素进行预处理,以生成矢量化的参考像素。预处理器804可以对参考像素进行重排,以生成2D矢量的阵列,即矩阵。此时,预处理器804可以基于参考像素的位置对参考像素的色度分量和亮度分量分别重排以生成2D矢量,如图9所示。
替选地,并且与图9中的示例不同,预处理器804可以对参考像素的色度分量和亮度分量交替地重排以生成2D矢量。例如,预处理器804可以按照以下顺序对参考像素交替地重排:顶部色度分量、顶部亮度分量、左侧色度分量和左侧亮度分量。
在另一个实施方案中,预处理器804可以单独地连结参考像素的色度分量和亮度分量以生成1D矢量。替选地,预处理器804可以交替地连结参考像素的色度分量和亮度分量以生成1D矢量。
将作为2D矢量或1D矢量的重排的参考像素传递到估计器806。
估计器806通过利用基于深度学习的估计模型来执行交叉分量预测,以根据参考像素的2D矢量或1D矢量生成当前块的色度预测块。这里,估计模型代表包括一个或更多个神经层的深度神经网络。估计模型可以包括卷积层、全连接层和池化层的全部或一些作为神经层。估计模型可以以仅包括一种类型的神经层的形式来实现,或者估计模型可以进一步包括不同类型的层的组合。例如,在一个实施方案中,估计模型可以用三个卷积层、一个全连接层和一个池化层来实现。
估计模型可以将由预处理器804传送的2D矢量(即,矩阵)作为输入,并且可以生成矩阵形式的色度预测块,使得基于矩阵的运算在估计模型内执行。此外,即使当输入1D矢量时,也可以在估计模型内对估计模型执行基于矩阵的运算,以生成矩阵形式的色度预测块。在这种情况下,估计模型生成与当前色度块相同尺寸的色度预测块。
在另一个实施方案中,当利用估计模型执行基于深度学习的交叉分量预测时,可以对多个矩阵形式的核进行预训练,以降低估计操作的复杂性。利用多个核的一个,估计器806可以计算输入的参考像素的阵列与训练的核之间的矩阵乘法。在这种情况下,可以利用索引以指示多个核的一个。
如上所述,估计器806可以执行基于深度学习的交叉分量预测,以生成当前块的色度预测块。图8中的示例示出预测装置,其中输入的当前色度块具有8×8的尺寸,并且输出的色度预测块具有相同的8×8的尺寸。
另一方面,估计模型可以由训练单元进行预训练,以允许估计模型学习,从而根据输入的参考像素生成接近于原始色度块的色度预测块。在这种情况下,用于训练的损失函数的一个示例可以定义为色度预测块与原始色度块之间的L2度量。替选地,可以代表色度预测块与原始色度块之间的差的任何度量可以用作损失函数。
另一方面,训练的估计模型的参数可以在视频编码装置与视频解码装置之间共享。
通常,作为输出的色度预测块的尺寸(即,像素的数量)可以直接影响估计模型的复杂性和计算。因此,在减少估计模型的计算方面,不是生成与当前色度块具有相同尺寸的色度预测块,预测装置可以生成比当前色度块具有更小尺寸的缩小的色度预测块。然后,预测装置可以对缩小的色度预测块进行后处理,以生成被插值为与当前色度块相同尺寸的色度预测块。
图10是概念性地示出根据本发明的另一个实施方案的基于矩阵的交叉分量预测装置的示例图。
根据该实施方案的预测装置使用基于深度学习的估计模型,该估计模型执行矩阵运算以根据参考像素生成缩小的色度预测块,然后对缩小的色度预测块进行插值以生成最终的色度预测块。除了输入单元802、预处理器804或估计器806的全部或一些之外,预测装置可以进一步包括插值器1002。如上所述,这种预测装置对于视频编码装置中的帧内预测器122和视频解码装置中的帧内预测器542可以是共用的。当包括在视频编码装置中的帧内预测器122中时,包括在根据本实施方案的视频编码装置中的预测装置组件不必限于所示的那些。例如,视频编码装置可以进一步包括用于训练包括在预测装置中的深度学习模型的训练单元(未示出),或者视频编码装置可以结合外部训练单元来实现。
在下文中,仅针对与图8的示例的不同之处对图10中所示的预测装置进行描述。因此,输入单元802和预处理器804的操作保持相同,并且省略其详细描述。
估计器806通过利用基于深度学习的估计模型来执行交叉分量预测,以根据参考像素生成当前块的色度预测块。生成的色度预测块的尺寸(即,像素的数量)可以与输入的目标色度块中的像素的数量不同。例如,色度预测块中的像素的数量可以小于目标色度块中的像素的数量,以减少估计模型的计算。例如,如图10所示,色度预测块中的像素可以由估计器806生成,它们存在于目标色度块中的像素在行/列方向上分别被一半子采样的位置处。
估计器806将缩小的色度预测块传递到插值器1002。
图11是示出根据本发明的至少一个实施方案的缩小的色度预测块的示例图。
缩小的色度预测块中的像素可以是在目标色度块中的行或列方向上的子采样位置处存在的像素。如图11所示,缩小的色度预测块中的像素可以存在于目标色度块中在行和列方向上均被子采样的位置、仅在列方向上被子采样的位置和/或仅在行方向上被子采样的位置等。根据缩小的色度预测块的像素所处的位置,插值器1002可以使用不同的插值方法。
插值器1002根据预定义的操作生成像素到像素的值,使得插值的色度预测块的尺寸(或像素的数量)等于当前色度块的尺寸(或像素的数量)。因此,插值器1002生成插值的色度预测块。这里,预定义的操作是指通过利用插值滤波器对缩小的色度预测块的像素进行滤波。作为插值滤波器,插值器1002可以利用6抽头插值滤波器、8抽头插值滤波器、双线性插值滤波器等。
在执行上述插值滤波器时,插值器1002可以利用一个预定义的插值滤波器,或者可以通过利用邻近于当前块的块的信息来选择可用的插值滤波器的一个。在另一个实施方案中,视频编码装置可以通过特定编码单元的每个将指示插值滤波器的索引用信号通知给视频解码装置。
前述实施方案利用但不一定限于在空间上邻近于目标色度块的相邻像素作为参考像素,并且利用邻近于与目标色度块相对应的亮度块的相邻像素。例如,为了改善目标色度块的交叉分量预测性能,对应于目标色度块的亮度块的重构的像素可以额外地用作参考像素。
图12是概念性地示出根据本发明的另一个实施方案的进一步利用重构的亮度像素的交叉分量预测装置的示例图。
根据该实施方案的预测装置利用执行矩阵运算的基于深度学习的估计模型,以根据亮度块中的参考像素和重构的像素来生成色度预测块。图12中所示的预测装置包括与图8中的示例相同的组件。
然而,除了参考像素之外,输入单元802还可以获得对应于目标色度块的亮度块的重构的像素。这里的参考像素可以包括在空间上邻近于目标色度块的色度参考像素,以及邻近于与目标色度块相对应的亮度块的亮度参考像素。此外,亮度块的重构的像素代表在传递到环路滤波单元180、560之前的重构的像素。如图12所示,可以对重构的像素进行子采样。输入单元802将获得的参考像素和重构的像素传递到预处理器804。
预处理器804对接收到的参考像素和重构的像素进行重排,以生成二维(2D)矢量或一维(1D)矢量。预处理器804将2D矢量或1D矢量传递到估计器806。
如在图8的示例中,预测装置可以执行后续操作。
图13是概念性地示出根据本发明的又一个实施方案的进一步利用重构的亮度像素的交叉分量预测装置的示例图。
根据该实施方案的预测装置使用执行矩阵运算的基于深度学习的估计模型,以根据亮度块中的参考像素和重构的像素来生成缩小的色度预测块,然后对缩小的色度预测块进行插值以生成最终的色度预测块。图13中所示的预测装置包括与图10中的示例相同的组件。
然而,除了参考像素之外,输入单元802还可以获得对应于目标色度块的亮度块的重构的像素。这里的参考像素可以包括在空间上邻近于目标色度块的色度参考像素,并且可以包括邻近于与目标色度块相对应的亮度块的亮度参考像素。此外,亮度块中的重构的像素代表在传递到环路滤波单元180、560之前的重构的像素。如图13所示,可以对重构的像素进行子采样。输入单元802将所有获得的像素传递到预处理器804。
预处理器804对接收到的参考和重构的像素进行重排,以生成2D矢量或1D矢量。预处理器804将2D矢量或1D矢量传递到估计器806。
预测装置可以执行如图10的示例中的后续操作。
现在参考图14,对由预测装置执行的用于执行交叉分量预测以通过利用亮度分量来预测当前块的色度分量的方法进行描述。
图14是根据本发明的至少一个实施方案的交叉分量预测方法的流程图。
预测装置获得参考像素(S1400)。这里,参考像素包括在空间上邻近于当前块的色度块的色度参考像素,并且包括邻近于与色度块相对应的亮度块的亮度参考像素。
当获得色度块的色度参考像素时,预测装置可以根据当前块的尺寸,利用左侧相邻像素和顶部相邻像素的全部或一些。当获得亮度块的亮度参考像素时,预测装置可以根据当前块的尺寸,利用左侧相邻像素和顶部相邻像素的全部或一些。此外,预测装置可以基于当前图像的颜色格式来确定亮度块的亮度参考像素的位置和值。
预测装置可以根据邻近于色度块和亮度块的左侧的一个或更多个列以及邻近于色度块和亮度块的顶部的一个或更多个行来获得参考像素。
预测装置可以对参考像素进行重排,以生成1D矢量或2D矢量形式的输入块(S1402)。
预测装置可以基于参考像素的位置对参考像素的色度分量和亮度分量单独地重排以生成2D矢量(即,矩阵)。替选地,预测装置可以对参考像素的色度分量和亮度分量交替地重排以生成2D矢量。
在另一个实施方案中,预测装置可以单独地连结参考像素的色度分量和亮度分量以生成1D矢量。替选地,预测装置可以交替地连结参考像素的色度分量和亮度分量以生成1D矢量。
预测装置以2D矢量或1D矢量的形式将重排的输入块传递到估计模型。
预测装置将输入块输入到基于深度学习的估计模型中,以生成当前块的色度预测块(S1404)。预测装置可以将2D矢量或1D矢量形式的重排的输入块输入到估计模型中,以执行交叉分量预测。这里,估计模型代表包括一个或更多个神经层的深度神经网络。
估计模型可以接受2D矢量(即,矩阵)作为输入,以生成矩阵形式的色度预测块,从而允许在估计模型内部执行基于矩阵的运算。替选地,如果输入1D矢量,则可以在估计模型内部对用于生成矩阵形式的色度预测块的估计模型执行基于矩阵的运算。在这种情况下,估计模型生成具有与当前色度块相同尺寸的色度预测块。
另一方面,估计模型可以由训练单元进行预训练,以学习从而根据输入的参考像素来生成近似于原始色度块的色度预测块。训练的估计模型的参数可以在视频编码装置与视频解码装置之间共享。
在下文中,利用图15的图示,对由估计模型执行的在估计模型生成缩小的色度预测块时用于进行交叉分量预测的方法进行描述。
图15是根据本发明的另一个实施方案的交叉分量预测方法的流程图。
预测装置获得参考像素(S1500)。这里,参考像素包括在空间上邻近于当前块的色度块的色度参考像素,并且包括邻近于与色度块相对应的亮度块的亮度参考像素。
预测装置对参考像素进行重排,以生成1D矢量或2D矢量形式的输入块(S1502)。
预测装置将输入块输入到基于深度学习的估计模型中,以生成当前块的缩小的色度预测块(S1504)。预测装置可以将2D矢量或1D矢量形式的重排的输入块输入到估计模型中,以执行交叉分量预测。此时,在减少的计算方面,估计模型生成小于当前色度块的缩小的色度预测块。
缩小的色度预测块的像素可以是在当前色度块中在行或列方向上被子采样的位置处存在的像素。
预测装置对缩小的色度预测块的像素应用预定义的插值滤波,以生成插值的色度预测块(S1506)。预测装置可以通过根据插值滤波生成像素之间的值来生成插值的色度预测块,使得插值的色度预测块的尺寸(或像素的数量)与当前色度块的尺寸(或像素的数量)相同。这里,插值滤波是指通过利用插值滤波器对缩小的色度预测块的像素进行滤波的过程。
下面对由预测装置执行的用于进一步利用亮度块的重构的像素以执行交叉分量预测的方法进行描述。
图16是根据本发明的至少一个实施方案的进一步利用亮度块中的重构的像素的交叉分量预测方法的流程图。
预测装置获得参考像素和重构的像素(S1600)。这里,参考像素包括在空间上邻近于当前块的色度块的色度参考像素,并且包括邻近于与色度块相对应的亮度块的亮度参考像素。此外,重构的像素代表亮度块的重构的像素。
在获得亮度块的重构的像素时,预测装置可以利用亮度块的像素的全部或子采样部分。
预测装置对参考像素和重构的像素进行重排,以生成1D矢量或2D矢量形式的输入块(S1602)。
预测装置将输入块输入到基于深度学习的估计模型中,以生成当前块的色度预测块(S1604)。预测装置可以将2D矢量或1D矢量形式的重排的输入块输入到估计模型中,以执行交叉分量预测。这里,估计模型代表包括一个或更多个神经层的深度神经网络。
对于估计模型生成缩小的色度预测块的情况,下面对预测装置进一步利用亮度块的重构的像素以执行交叉分量预测的方法进行描述。
图17是根据本发明的另一个实施方案的进一步利用亮度块中的重构的像素的交叉分量预测方法的流程图。
预测装置获得参考像素和重构的像素(S1700)。这里,参考像素包括在空间上邻近于当前块的色度块的色度参考像素,并且包括邻近于与色度块相对应的亮度块的亮度参考像素。此外,重构的像素代表亮度块的重构的像素。
预测装置对参考像素和重构的像素进行重排,以生成1D矢量或2D矢量形式的输入块(S1702)。
预测装置将输入块输入到基于深度学习的估计模型中,以生成当前块的缩小的色度预测块(S1704)。预测装置可以将2D矢量或1D矢量形式的重排的输入块输入到估计模型中,以执行交叉分量预测。此时,在减少的计算方面,估计模型生成尺寸上小于当前色度块的缩小的色度预测块。
预测装置对缩小的色度预测块的像素应用预定义的插值滤波,以生成插值的色度预测块(S1706)。这里,插值滤波是指通过利用插值滤波器对缩小的色度预测块的像素进行滤波。
尽管描述了顺序执行的各个流程图中的步骤,但这些步骤仅仅例示了本发明的一些实施方案的技术思想。因此,本发明所属领域的普通技术人员可以通过改变在各个附图中描述的顺序或通过并行地执行两个或更多个步骤来执行步骤。因此,各个流程图中的步骤不限于所示的按发生时间排列的顺序。
应当理解,上述描述呈现了可以以各种其他方式实现的说明性实施方案。在一些实施方案中描述的功能可以通过硬件、软件、固件和/或它们的组合来实现。还应当理解,本说明书中描述的功能组件标记为“……单元”,以突出强调它们独立实现的可能性。
另一方面,在一些实施方案中描述的各种方法或功能可以实现为存储在非易失性记录介质中的指令,所述指令可以由一个或更多个处理器读取和执行。非易失性记录介质可以包括例如以计算机系统可读取的形式存储数据的各种类型的记录装置。例如,非易失性记录介质可以包括存储介质,例如可擦除可编程只读存储器(EPROM)、闪存驱动器、光盘驱动器、磁性硬盘驱动器和固态驱动器(SSD)等等。
尽管出于说明的目的描述了本发明的示例性实施方案,但是本发明所属领域的普通技术人员应当理解,在不脱离本发明的思想和范围的情况下,可以进行各种修改、添加和替换。因此,出于简洁和清楚起见描述了本发明的实施方案。本发明的实施方案的技术思想的范围不受例示的限制。相应地,本发明所属领域的普通技术人员应当理解,本发明的范围不应当受上述明确描述的实施方案的限制,而是受权利要求及其等同形式的限制。
(附图标记)
122:帧内预测器
542:帧内预测器
802:输入单元
804:预处理器
806:估计器
1002:插值器。
相关申请的交叉引用
本申请要求于2021年3月8日提交的韩国专利申请No.10-2021-0030284以及于2022年3月7日提交的韩国专利申请No.10-2022-0028498的优先权,其全部内容通过引用结合于本文中。

Claims (19)

1.一种由计算装置执行的用于利用亮度分量预测当前块的色度分量的方法,所述方法包括:
获得参考像素,所述参考像素包括在空间上邻近于当前块的色度块的色度参考像素,并且包括邻近于与色度块相对应的亮度块的亮度参考像素;
通过对参考像素进行重排来生成输入块,所述输入块形成为一维1D矢量或二维2D矢量;以及
通过将输入块输入到基于深度学习的模型的估计模型中来生成当前块的色度预测块。
2.根据权利要求1所述的方法,其中,获得参考像素包括:
获得色度块的左侧相邻像素和顶部相邻像素的全部或一些作为色度参考像素。
3.根据权利要求1所述的方法,其中,获得参考像素包括:
获得亮度块的左侧相邻像素和顶部相邻像素的全部或一些作为亮度参考像素。
4.根据权利要求3所述的方法,其中,获得参考像素包括:
根据包括当前块的当前图像的颜色格式来确定亮度参考像素的位置和值。
5.根据权利要求1所述的方法,其中,获得参考像素包括:
根据邻近于色度块的左侧和亮度块的左侧的一个或更多个列,以及邻近于色度块的顶部和亮度块的顶部的一个或更多个行来获得参考像素。
6.根据权利要求1所述的方法,其中,生成输入块包括:
基于参考像素的位置对参考像素的色度分量和亮度分量进行单独地和分别地重排。
7.根据权利要求1所述的方法,其中,所述估计模型实现为包括至少一个或更多个神经层的深度神经网络,并且所述估计模型配置为对输入块执行基于矩阵的运算。
8.根据权利要求1所述的方法,其中,生成色度预测块包括:
使估计模型生成色度预测块以包括等于色度块的像素数量的像素。
9.根据权利要求1所述的方法,其中,生成色度预测块包括:
使估计模型生成缩小的色度预测块以包括比色度块的像素更少的像素。
10.根据权利要求9所述的方法,其中,缩小的色度预测块的像素存在于色度块中在行或列方向上被子采样的位置处。
11.根据权利要求9所述的方法,进一步包括:
将预定义的插值滤波应用于缩小的色度预测块的像素,以生成具有等于色度块的像素数量的像素的插值的色度预测块。
12.一种交叉分量预测装置,用于通过利用亮度分量来预测当前块的色度分量,包括:
输入单元,其配置为获得参考像素,所述参考像素包括在空间上邻近于当前块的色度块的色度参考像素,以及邻近于与色度块相对应的亮度块的亮度参考像素;
预处理器,其配置为通过对参考像素进行重排来生成输入块,所述输入块形成为一维1D矢量或二维2D矢量;以及
估计器,其包括基于深度学习的模型的估计模型,并且配置为通过将输入块输入到估计模型中来生成当前块的色度预测块。
13.根据权利要求12所述的交叉分量预测装置,其中,所述输入单元配置为获得色度块的左侧参考像素和顶部参考像素的全部或一些作为色度参考像素。
14.根据权利要求12所述的交叉分量预测装置,其中,所述输入单元配置为获得亮度块的左侧参考像素和顶部参考像素的全部或一些作为亮度参考像素。
15.根据权利要求12所述的交叉分量预测装置,其中,所述预处理器配置为基于参考像素的位置对参考像素的色度分量和亮度分量进行独立地和分别地重排。
16.根据权利要求12所述的交叉分量预测装置,其中,所述估计模型实现为包括至少一个或更多个神经层的深度神经网络,并且配置为对输入块执行基于矩阵的运算。
17.根据权利要求12所述的交叉分量预测装置,其中,所述估计模型配置为生成色度预测块以包括等于色度块的像素数量的像素。
18.一种由计算装置执行的用于利用亮度分量预测当前块的色度分量的方法,所述方法包括:
获得参考像素和重构的像素,其中,所述参考像素包括在空间上邻近于当前块的色度块的色度参考像素,并且包括邻近于与色度块相对应的亮度块的亮度参考像素,并且其中,所述重构的像素代表亮度块的重构的像素;
通过对参考像素和重构的像素进行重排来生成输入块,所述输入块形成为一维1D矢量或二维2D矢量;以及
通过将输入块输入到基于深度学习的模型的估计模型中来生成当前块的色度预测块。
19.根据权利要求18所述的方法,其中,获得参考像素和重构的像素包括:
获得亮度块中的像素的全部或子采样部分作为重构的像素。
CN202280017998.9A 2021-03-08 2022-03-07 利用基于矩阵的交叉分量预测的视频编解码方法和装置 Pending CN116941241A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20210030284 2021-03-08
KR10-2021-0030284 2021-03-08
PCT/KR2022/003214 WO2022191553A1 (ko) 2021-03-08 2022-03-07 행렬 기반 크로스 컴포넌트 예측을 이용하는 비디오 코딩방법 및 장치

Publications (1)

Publication Number Publication Date
CN116941241A true CN116941241A (zh) 2023-10-24

Family

ID=83281699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280017998.9A Pending CN116941241A (zh) 2021-03-08 2022-03-07 利用基于矩阵的交叉分量预测的视频编解码方法和装置

Country Status (2)

Country Link
KR (1) KR20220126233A (zh)
CN (1) CN116941241A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024111820A1 (ko) * 2022-11-21 2024-05-30 현대자동차주식회사 기하학적 분할에 기반하여 크로마 블록을 인트라 예측하는 비디오 코딩을 위한 방법 및 장치

Also Published As

Publication number Publication date
KR20220126233A (ko) 2022-09-15

Similar Documents

Publication Publication Date Title
CN116472709A (zh) 用于视频编码和解码的装置和方法
CN116530082A (zh) 利用帧内预测的视频编码的方法和装置
CN113812147B (zh) 使用块内复制的图像编码和解码
CN116941241A (zh) 利用基于矩阵的交叉分量预测的视频编解码方法和装置
CN116636211A (zh) 利用块合并编码视频的方法和装置
CN116134812A (zh) 使用任意块划分的视频编码和解码
CN116194957A (zh) 基于可变系数深度学习的帧间预测方法
CN116113985A (zh) 利用基于深度学习的环内滤波器进行视频编码和解码
KR20210038377A (ko) 다른 해상도를 가지는 픽처들에 대한 인터 예측 방법 및 장치
US20230421752A1 (en) Method and apparatus for video coding using matrix based cross-component prediction
US20220417552A1 (en) Method and apparatus for inter-prediction of pictures with different resolutions
US20230283768A1 (en) Method for predicting quantization parameter used in a video encoding/decoding apparatus
US20230308662A1 (en) Method and apparatus for video coding using block merging
US20230055497A1 (en) Image encoding and decoding based on reference picture having different resolution
US20230396795A1 (en) Inter prediction-based video encoding and decoding
US20230291926A1 (en) Video encoding and decoding using deep learning based inter prediction
US20230179762A1 (en) Video encoding and decoding using arbitrary block partitioning
US20240114131A1 (en) Video encoding/decoding method and apparatus
EP4090027A1 (en) Image encoding and decoding based on reference picture having different resolution
CN116918323A (zh) 用于改善帧内预测的预测信号的视频编解码方法和装置
CN117044200A (zh) 利用螺旋扫描顺序的视频编解码的方法和装置
CN117693938A (zh) 基于深度学习的精细化帧内预测信号的视频编解码方法和装置
CN118251891A (zh) 利用基于模板匹配的帧内预测的视频编解码的方法和装置
KR20230036967A (ko) 서브블록 코딩 순서 변경 및 그에 따른 인트라 예측을 이용하는 비디오 코딩방법 및 장치
CN117917071A (zh) 利用子块编解码次序变化和根据子块编解码次序变化的帧内预测的视频编解码的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination