CN117730536A - 利用基于神经网络的环路滤波器的影像编码/解码方法、装置以及对比特流的进行存储的存储介质 - Google Patents

利用基于神经网络的环路滤波器的影像编码/解码方法、装置以及对比特流的进行存储的存储介质 Download PDF

Info

Publication number
CN117730536A
CN117730536A CN202280053026.5A CN202280053026A CN117730536A CN 117730536 A CN117730536 A CN 117730536A CN 202280053026 A CN202280053026 A CN 202280053026A CN 117730536 A CN117730536 A CN 117730536A
Authority
CN
China
Prior art keywords
block
image
information
feature
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280053026.5A
Other languages
English (en)
Inventor
金贤奎
金旲衍
李英烈
金亮宇
金明峻
金南煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industry Academy Cooperation Foundation of Sejong University
Original Assignee
Industry Academy Cooperation Foundation of Sejong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industry Academy Cooperation Foundation of Sejong University filed Critical Industry Academy Cooperation Foundation of Sejong University
Publication of CN117730536A publication Critical patent/CN117730536A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

根据本公开之实施例的利用基于神经网络的影像解码方法,可以包括:从输入影像获得第一影像特征的步骤;从所述输入影像的区块信息获得所述输入影像的区块信息特征的步骤;以所述区块信息特征为基础,排除所述第一影像特征的噪声以及扭曲,从而获得第二影像特征的步骤;以及,以所述第二影像特征为基础,对所述输入影像进行重建的步骤;所述区块信息可以包括用于表示所述输入影像的区块分割结构的区块边界映射以及用于表示所述输入影像的编码信息的区块分布映射中的至少一个。

Description

利用基于神经网络的环路滤波器的影像编码/解码方法、装置 以及对比特流的进行存储的存储介质
技术领域
本公开涉及一种影像编码/解码方法以及装置,尤其涉及一种利用基于神经网络的环路滤波器的影像编码/解码方法、装置以及对通过本公开的影像编码方法/装置生成的比特流进行存储的存储介质。
背景技术
伴随着对高分辨率、高品质影像的需求急剧增加,影像数据量以及帧率也在随之增加。影像数据量以及帧率的增加,会导致数据传送费用以及存储费用的增加。此外,伴随着影像编码/解码器的数据处理量的增加,还会导致其复杂度变大的问题发生。
因此,需要一种可以有效地对影像数据进行传送、存储和播放的高效的影像压缩技术。
发明内容
技术问题
本公开的目的在于提供一种编码/解码效率得到提升的影像编码/解码方法及装置。
此外,本公开的目的在于提供一种执行基于神经网络的环路滤波的影像编码/解码方法及装置。
此外,本公开的目的在于提供一种利用输入影像的区块信息执行环路滤波的影像编码/解码方法及装置。
此外,本公开的目的在于提供一种用于对通过根据本公开的影像编码方法或装置生成的比特流进行存储的存储介质。
技术方案
根据本公开之一形态的影像解码方法,可以包括:从输入影像获得第一影像特征的步骤;从所述输入影像的区块信息获得所述输入影像的区块信息特征的步骤;以所述区块信息特征为基础,排除所述第一影像特征的噪声以及扭曲,从而获得第二影像特征的步骤;以及,以所述第二影像特征为基础,对所述输入影像进行重建的步骤;所述区块信息,可以包括用于表示所述输入影像的区块分割结构的区块边界映射以及用于表示所述输入影像的编码信息的区块分布映射中的至少一个。
根据本公开之另一形态的影像解码方法,可以包括:从输入影像获得第一影像特征的步骤;从所述输入影像的区块信息获得所述输入影像的区块信息特征的步骤;以所述区块信息特征为基础,排除所述第一影像特征的噪声以及扭曲,从而获得第二影像特征的步骤;以及,以所述第二影像特征为基础,对所述输入影像进行重建的步骤;所述区块信息,可以包括用于表示所述输入影像的区块分割结构的区块边界映射以及用于表示所述输入影像的编码信息的区块分布映射中的至少一个。
根据本公开之又一形态的计算机可读取的存储介质,可以对通过根据本公开的影像编码方法或影像编码装置生成的比特流进行存储。
有益效果
在本公开中可以提供一种编码/解码效率得到提升的影像编码/解码方法及装置。
此外,在本公开中可以提供一种执行基于神经网络的环路滤波的影像编码/解码方法及装置。
此外,在本公开中可以提供一种利用输入影像的区块信息执行环路滤波的影像编码/解码方法及装置。
此外,在本公开中可以提供一种对通过根据本公开的影像编码方法或装置生成的比流进行存储的存储介质。
附图说明
图1是对可以适用根据本公开之实施例的影像编码装置进行概要性图示的示意图。
图2是对可以适用根据本公开之实施例的影像解码装置进行概要性图示的示意图。
图3是用于对影像分割结构进行说明的示意图。
图4是用于对画面内预测过程进行说明的示意图。
图5是用于对画面间预测过程进行说明的示意图。
图6是用于对变换以及量化过程进行说明的示意图。
图7是对输入影像的分割实例进行图示的示意图。
图8是对映射到输入影像内的各个下级区块中的区块信息的一实例进行图示的示意图。
图9以及图10是对通过图8的实例构成的区块边界映射的一实例进行图示的示意图。
图11是对通过图8的实例构成的区块边界映射的一实例进行图示的示意图。
图12对将区块边界映射以及区块分布映射按照通道单位分组的一实例进行了图示。
图13至图15是用于对将区块映射分组输入到神经网络的方法进行说明的示意图。
图16是对根据本公开之一实施例的环路滤波器模型的结构进行图示的示意图。
图17是对根据本公开之一实施例的影像编码/解码方法进行图示的流程图。
图18是对包括根据本公开之一实施例的影像编码/解码装置的电子设备进行概要性图示的块图。
具体实施方式
接下来,将参阅附图对本公开的实施例进行详细的说明。对于附图中的相同的构成要素将使用相同的参考符号,而且对相同构成要素的重复说明将被省略。
在本公开中,影像既可以是指构成动态影像的一个图像(picture),也可以是指动态影像本身。例如,“影像的编码和/或解码”既可以是指“对构成动态影像的影像中的一个影像进行编码和/或解码”,也可以是指“对动态影像进行编码和/或解码”。
在本公开中,术语“动态影像”以及“视频”可以以相同的含义使用,也可以彼此替换使用。
在本公开中,对象影像可以是编码的对象即编码对象影像和/或解码的对象即解码对象影像。此外,对象影像既可以是输入到编码装置的输入影像,也可以是输入到影像解码装置的输入影像。其中,对象影像可以具有与当前影像相同的含义。
在本公开中,术语“影像”、“图像”、“针(frame)”以及“屏幕(screen)”可以以相同的含义使用,也可以彼此替换使用。
在本公开中,对象区块可以是编码的对象即编码对象区块和/或解码的对象即解码对象区块。此外,对象区块可以是当前编码和/或解码的对象即当前区块。例如,术语“对象区块”以及“当前区块”可以以相同的含义使用,也可以彼此替换使用。
在本公开中,术语“区块”以及“单元”可以以相同的含义使用,也可以彼此替换使用。或者,“区块”可以是指特定单元。
在本公开中,术语“区域(region)”以及“片段(segment)”可以彼此替换使用。
在本公开中,特定信号可以是用于表示特定区块的信号。例如,原始(original)信号可以是用于表示对象区块的信号。预测(prediction)信号可以是用于表示预测区块的信号。残差(residual)信号可以是用于表示残差区块(residual block)的信号。
在实施例中,特定信息、数据、标记(flag)、索引(index)、要素(element)以及属性(attribute)等可以分别具有特定值。例如,信息、数据、标记、索引、要素以及属性等值“0”可以是指逻辑假(logical false)或第一预定义(predefined)值。此时,值“0”、假、逻辑假以及第一预定义值可以彼此替换使用。信息、数据、标记、索引、要素以及属性等值“1”可以是指逻辑真(logical true)或第二预定义值。换言之,值“1”、真、逻辑真以及第二预定义值可以彼此替换使用。
在为了表示行、列或索引(index)而使用如i或j等变量时,i的值可以是0以上的整数,也可以是1以上的整数。换言之,在实施例中,行、列以及索引等可以从0开始进行记数,也可以从1开始进行记数。
接下来,将对在本公开中使用的术语进行说明。
术语说明
-编码器(Encoder):是指执行编码(Encoding)的装置。即,可以是指影像编码装置。
-解码器(Decoder):是指执行解码(Decoding)的装置。即,可以是指影像解码装置。
-区块(Block):是样本(Sample)的M×N排列。其中,M以及N可以是指正整数值,区块通常可以是指2维形态的样本排列。区块可以是指单元。当前区块可以是指在执行编码时作为编码对象的编码对象区块、在执行解码时作为解码对象的解码对象区块。此外,当前区块可以是编码区块、预测区块、残差区块、变换区块中的至少一个。
-样本(Sample):是构成区块的基本单位。根据位深度(bit depth,Bd),可以表示为0至2Bd-1的值。在本发明中,样本可以以与像素相同的含义使用。即,样本以及像素可以具有相同的含义。
-单元(Unit):可以是指影像编码以及解码的单位。在影像的编码以及解码中,单元可以是对一个影像进行分割的区域。此外,单元可以是指在将一个影像分割成细分化的单元而执行编码或解码时的所述被分割的单元。即,一个影像可以被分割成多个单元。在影像的编码以及解码中,可以按照不同的单元执行预先定义的处理。一个单元可以被进一步分割成大小小于单元的下级单元。根据不同的功能,单元可以是指区块(Block)、宏区块(Macroblock)、编码树单元(Coding Tree Unit)、编码树区块(Coding Tree Block)、编码单元(Coding Unit)、编码区块(Coding Block)、预测单元(Prediction Unit)、预测区块(Prediction Block)、残差单元(Residual Unit)、残差区块(Residual Block)、变换单元(Transform Unit)、变换区块(Transform Block)等。此外,为了可以与区块进行区分,单元可以是指包括亮度(Luma)成分区块和与其对应的色差(Chroma)成分区块以及与各个区块相关的语法元素。单元可以采用多种不同的大小和形态,尤其是单元的形态不仅可以包括正方形,还可以包括如长方形、梯形、三角形、五角形等可以表示为2维形态的几何学图形。此外,单元信息可以包括表示编码单元、预测单元、残差单元、变换单元等的单元类型、单元大小、单元深度、单元编码及解码顺序等中的至少一个以上。
-编码树单元(Coding Tree Unit):由一个亮度成分(Y)编码树区块和与其相关的两个色差成分(Cb、Cr)编码树区块构成。此外,还可以是指包括所述区块以及与各个区块相关的语法元素。各个编码树单元可以为了构成如编码单元、预测单元、变换单元等下级单元而利用如四叉树(quad tree)、二叉树(binary tree)以及三叉树(ternary tree)等一个以上的分割方式进行分割。可以作为用于指示如输入影像的分割等影像编/解码过程中的处理单位即样本区块的术语使用。其中,四叉树可以是指四分树(quarternary tree)。
在编码区块的大小属于特定范围内的情况下,将只可以通过四叉树进行分割。其中,特定范围可以被定义为只可以通过四叉树进行分割的编码区块的最大大小以及最小大小中的至少一个。用于表示允许四叉树形态的分割的编码区块的最大/最小大小的信息可以通过比特流进行信令,相应信息可以以序列、图像参数、并行区块分组或条带(片段)中的至少一个单位进行心灵。或者,编码区块的最大/最小大小也可以是在编码器/解码器中预先设定的固定大小。例如,在编码区块的大小相当于256×256至64×64的情况下,可以只允许通过四叉树进行分割。或者,在编码区块的大小大于最大变换区块的大小的情况下,可以只允许通过四叉树进行分割。此时,所述所分割的区块可以是编码区块或变换区块中的至少一个。在如上所述的情况下,用于表示编码区块的分割的信息(例如split_flag)可以是用于表示四叉树分割与否的标记。在编码区块的大小属于特定范围内的情况下,将只可以通过二叉树或三叉树进行分割。在如上所述的情况下,关于四叉树的所述说明也可以同样适用于二叉树或三叉树。
-编码树区块(Coding Tree Block):可以作为用于指示Y编码树区块、Cb编码树区块、Cr编码树区块中的某一个的术语使用。
-周边区块(Neighboring block):可以是指与当前区块的相邻的区块。与当前区块相邻的区块可以是指边界与当前区块相邻的区块或位于从当前区块的一定距离内的区块。此外,周边区块可以是指与当前区块的顶点相邻的区块。其中,与当前区块的顶点相邻的区块可以是指与当前区块水平相邻的相邻区块的垂直相邻区块或与当前区块垂直相邻的相邻区块的水平相邻区块。周边区块还可以是指重建的周边区块。
-重建的周边区块(Reconstructed Neighboring Block):可以是指当前区块周边的已经在空间(Spatial)/时间(Temporal)上执行编码或解码的周边区块。此时,重建的周边区块可以是指重建的周边单元。重建的空间周边区块可以是当前图像内的已通过编码和/或解码进行重建的区块。重建的时间周边区块可以是参考影像内与当前图像的当前区块对应的位置上的重建的区块或其周边区块。
-单元深度(Depth):可以是指单元被分割的程度。树结构(Tree Structure)中的最上级节点(Root Node)可以相当于未被分割的最初的单元。最上级节点可以被称之为根节点。此外,最上级节点可以具有最小的深度值。此时,最上级节点可以具有级别(Level)0深度。具有级别1深度的节点可以是指在最初的单元被分割一次时所生成的单元。具有级别2深度的节点可以是指在最初的单元被分割两次时所生成的单元。具有级别n深度的节点可以是指在最初的单元被分割n次时所生成的单元。叶节点(Leaf Node)可以是最下级的节点,可以是无法继续进行分割的节点。叶节点的深度的可以是最大级别。例如,最大级别的预先定义的值可以是3。可以说根节点的深度最小,而叶节点的深度最大。此外,在将单元表示为树结构时,单元所处的级别可以是指单元深度。
-比特流(Bitstream):可以是指包括编码的影像信息的比特队列。
-参数集(Parameter Set):相当于比特流内的结构中的报头(header)信息。参数集可以包括视频参数集(video parameter set)、序列参数集(sequence parameter set)、图像参数集(picture parameter set)、适应参数集(adaptation parameter set)中的至少一个。此外,参数集还可以包括并行区块分组、条带(slice)报头以及并行区块(tile)报头信息。此外,所述并行区块分组可以是指包含多个并行区块的分组,可以是与条带相同的含义。
适应参数集可以是指可以在不同的图像、子图像、条带、并行区块分组、并行区块或砖块中参考并共享的参数集。此外,可以在图像内的子图像、条带、并行区块分组、并行区块或砖块中参考不同的适应参数集,从而使用适应参数分组内的信息。
此外,适应参数集可以在图像内的子图像、条带、并行区块分组、并行区块或砖块中使用不同的适应参数集的标识符参考不同的适应参数集。
此外,适应参数集可以在子图像内的条带、并行区块分组、并行区块或砖块中使用不同的适应参数集的标识符参考不同的适应参数集。
此外,适应参数集可以在条带内的并行区块或砖块中使用不同的适应参数集的标识符参考不同的适应参数集。
此外,适应参数集可以在并行区块内的砖块中使用不同的适应参数集的标识符参考不同的适应参数集。
所述子图像的参数集或报头包含与适应参数集标识符相关的信息,从而可以在子图像中使用与相应的适应参数集标识符对应的适应参数集。
所述并行区块的参数集或报头包含与适应参数集标识符相关的信息,从而可以在并行区块中使用与相应的适应参数集标识符对应的适应参数集。
所述砖块的报头包含与适应参数集标识符相关的信息,从而可以在砖块中使用与相应的适应参数集标识符对应的适应参数集。
所述图像可以被分割成一个以上的并行区块行以及一个以上的并行区块列。
所述子图像可以在图像内被分割成一个以上的并行区块行以及一个以上的并行区块列。所述子图像是在图像内具有长方形/正方形形态的区域,可以包含一个以上的编码树单元(CTU)。此外,一个子图像内可以包含至少一个以上的并行区块/砖块/条带。
所述并行区块是在图像内具有长方形/正方形形态的区域,可以包含一个以上的编码树单元(CTU)。此外,并行区块可以被分割成一个以上的砖块。
所述砖块在并行区块内可以是指一个以上的编码树单元(CTU)行。并行区块可以被分割成一个以上的砖块,而各个砖块可以具有至少一个以上的编码树单元(CTU)行。没有被分割成两个以上的并行区块也可以是指砖块。
所述条带可以在图像内包含一个以上的并行区块,可以包含并行区块内的一个以上的砖块。
-分析(Parsing):可以是指通过对比特流进行熵解码而决定语法元素(SyntaxElement)的值,或者是指熵解码本身。
-符号(Symbol):可以是指编码/解码对象单元的语法元素、编码参数(codingparameter)、变换系数(Transform Coefficient)值等中的至少一个。此外,符号可以是指熵编码的对象或熵解码的结果。
-预测模式(Prediction Mode):可以是用于指示通过画面内预测进行编码/解码的模式或通过画面间预测进行编码/解码的模式的信息。
-预测单元(Prediction Unit):可以是指执行如画面间预测、画面内预测、画面间补偿、画面内补偿、运动补偿等预测时的基本单位。一个预测单元还可以被分割成具有更小的大小的多个分区(Partition)或多个下级预测单元。多个分区也可以是执行预测或补偿时的基本单位。通过预测单元的分割生成的分区也可以是预测单元。
-预测单元分区(Prediction Unit Partition):可以是指预测单元被分割的形态。
-参考影像列表(Reference Picture List):可以是指包含在画面间预测或运动补偿中使用的一个以上的参考影像的列表。参考影像列表的类型,可以是如列表合并(LC,List Combined)、列表0(L0,List 0)、列表1(L1,List1)、列表2(L2,List 2)以及列表3(L3,List 3)等,在画面间预测时可以使用一个以上的参考影像列表。
-画面间预测指示符(Inter Prediction Indicator):可以是指当前区块的画面间预测方向(单向预测以及双向预测等)。或者,可以是指在生成当前区块的预测区块时使用的参考影像的数量。或者,可以是指在对当前区块执行画面间预测或运动补偿时使用的预测区块的数量。
-预测列表利用标记(prediction list utilization flag):用于表示是否利用特定参考影像列表内的至少一个参考影像生成预测区块。可以利用预测列表利用标记推导出画面间预测指示符,与此相反,也可以利用画面间预测指示符推导出预测列表应用标记。例如,在预测列表利用标记指示第一值即0的情况下,可以表示不利用相应参考影像列表内的参考影像生成预测区块,而在指示第二值即1的情况下,可以表示利用相应参考影像列表生成预测区块。
-参考影像索引(Reference Picture Index):可以是指用于在参考影像列表中指示特定参考影像的索引。
-参考影像(Reference Picture):可以是指特定区块为了画面间预测或运动补偿而参考的影像。或者,参考影像可以是包含当前区块为了画面间预测或运动补偿而参考的参考区块的影像。接下来,术语“参考图像”以及“参考影像”可以以相同的含义使用,也可以彼此替换使用。
-运动矢量(Motion Vector):可以是在画面间预测或运动补偿时使用的2维矢量。运动矢量可以是指编码/解码对象区块与参考区块之间的偏移。例如,(mvX,mvY)可以表示运动矢量。mvX可以表示水平(horizontal)成分,而mvY可以表示垂直(vertical)成分。
-检索区域(Search Range):检索区域可以是在画面间预测中执行对运动矢量的检索的2维区域。例如,检索区域的大小可以是M×N。M以及N可以分别为正整数。
-运动矢量候选(Motion Vector Candidate):可以是指在对运动矢量进行预测时作为预测候选的区块或所述区块的运动矢量。或者,运动矢量候选可以包含于运动矢量候选列表。
-运动矢量候选列表(Motion Vector Candidate List):可以是指利用一个以上的运动矢量候选构成的列表。
-运动矢量候选索引(Motion Vector Candidate Index):可以是指用于指示运动矢量候选列表内的运动矢量候选的指示符。可以是运动矢量预测器(Motion VectorPredictor)的索引(index)。
-运动信息(Motion Information):可以是指不仅包含运动矢量、参考影像索引、画面间预测指示符,还包含预测列表利用标记、参考影像列表信息、参考影像、运动矢量候选、运动矢量候选索引、合并候选以及合并索引等中的至少一个的信息。
-合并候选列表(Merge Candidate List):可以是指利用一个以上的合并候选构成的列表。
-合并候选(Merge Candidate):可以是指空间合并候选、时间合并候选、组合合并候选、组合双预测合并候选以及零合并候选等。合并候选可以包含画面间预测指示符、对各个列表的参考影像索引、运动矢量、预测列表利用标记以及画面间预测指示符等运动信息。
合并索引(Merge Index):可以是指用于表示合并候选列表内的合并候选的指示符。此外,合并索引可以指示在空间/时间上与当前区块相邻的复原区块中诱导合并候选的区块。此外,合并索引可以指示合并候选所具有的运动信息中的至少一个。
-变换单元(Transform Unit):可以是指如变换、逆变换、量化、逆量化、变换系数编码/解码等对残差信号(residual signal)执行编码/解码时的基本单位。一个变换单元可以被进一步分割成具有更小的大小的多个下级变换单元。其中,变换/逆变换可以包括第1次变换/逆变换以及第2次变换/逆变换中的至少一个以上。
-缩放(Scaling):可以是指向量化的级别乘以因数的过程。作为对量化的级别的缩放结果,可以生成变换系数。缩放也可以被称之为逆量化(dequantization)。
-量化参数(Quantization Parameter):可以是指在量化过程中利用变换系数生成量化的级别(quantized level)时所使用的值。或者,也可以是指在逆量化过程中通过对量化的级别进行缩放而生成变换系数时所使用的值。量化参数可以是映射到量化步长(step size)的值。
-残差量化参数(Delta Quantization Parameter):可以是指预测的量化参数与编码/解码对象单元的量化参数的差分(difference)值。
-扫描(Scan):可以是指对单元、区块或矩阵内的系数的顺序进行排序的方法。例如,将2维排列排序成1维排列形态的过程可以被称之为扫描。或者,将1维排列排序成2维排列形态的过程可以被称之为扫描或逆扫描(Inverse Scan)。
-变换系数(Transform Coefficient):可以是指在编码器中执行变换之后生成的系数值。或者,也可以是指在解码器中执行熵解码或逆量化中的至少一个之后生成的系数值。对变换系数或残差信号适用量化的已量化的级别或已量化的变换系数级别也可以被包含到变换系数的含义中。
-量化的级别(Quantized Level):可以是指在编码器中对变换系数或残差信号进行量化而生成的值。或者,也可以是指在解码器中执行逆量化之前作为量化对象的值。同理,变换以及量化的结果即量化的变换系数级别也可以被包含到量化的级别的含义中。
非零变换系数(Non-zero Transform Coefficient):可以是指值的大小不为0的变换系数或值的大小不为0的变换系数级别或量化的级别。
-量化矩阵(Quantization Matrix):可以是指为了提升影像的主观画质或客观画质而在量化或逆量化过程中利用的矩阵。量化矩阵也可以被称之为缩放列表(scalinglist)。
-量化矩阵系数(Quantization Matrix Coefficient):可以是指量化矩阵内的各个元素(element)。量化矩阵系数也可以被称之为矩阵系数(matrix coefficient)。
-默认矩阵(Default Matrix):可以是指在编码器以及解码器中预先定义的特定的量化矩阵。
-非默认矩阵(Non-default Matrix):可以是指没有在编码器以及解码器中预先定义,而是由使用者进行信令的量化矩阵。
-统计值(statistic value):具有可运算的特定值的与变量、编码参数、常数等中的至少一个相关的统计值,可以是相应特定值的平均值、加权平均值、加权和值、最小值、最大值、众数值、中值以及插值中的至少一个以上。
图1是对可以适用根据本公开之实施例的影像编码装置进行概要性图示的示意图。
参阅图1,影像编码装置100可以包括运动预测部111、运动补偿部112、帧内预测部120、开关115、减法运算器125、变换部130、量化部140、熵编码部150、逆量化部160、逆变换部170、加法运算器175、滤波器部180以及参考图像缓冲区190。
影像编码装置100可以对输入影像以帧内模式和/或帧间模式执行编码。此外,影像编码装置100可以通过对输入影像执行编码而生成包括编码的信息的比特流并对所生成的比特流进行输出。所生成的比特流可以被存储到计算机可读取的存储介质,或通过有线/无线传送介质进行流式传输。当作为预测模式使用帧内预测时开关115可以转换到帧内,而当作为预测模式使用帧间模式时开关115可以转换到帧间。其中,帧内模式可以是指画面内预测模式,帧间模式可以是指画面间预测模式。影像编码装置100可以生成与输入影像的输入区块相关的预测区块。此外,影像编码装置100可以在生成预测区块之后,使用输入区块以及预测区块的差分(residual)对残差区块进行编码。输入影像可以被称之为当前正在进行编码的对象即当前影像。输入影像可以被称之为当前正在进行编码的对象即当前区块或编码对象区块。
在预测模式为帧内模式的情况下,帧内预测部120可以将当前区块周边的已经编码/解码的区块的样本作为参考样本使用。帧内预测部120可以利用参考样本执行对当前区块的空间预测,而且可以通过空间预测生成与输入区块相关的预测样本。其中,帧内预测可以是指画面内预测。
当预测模式为帧间预测时,运动预测部111可以在运动预测过程中从参考影像检索出与输入区块最匹配的区域,而且可以利用所检索到的区域推导出运动矢量。此时,作为所述区域可以使用检索区域。参考影像可以被存储到参考图像缓冲区190。其中,在执行了对参考影像的编码/解码处理时,可以存储到参考图像缓冲区190。
运动补偿部112可以通过执行利用运动矢量的运动补偿而生成与当前区块相关的运动区块。其中,帧间预测可以是指画面间预测或运动补偿。
所述运动预测部111以及运动补偿部112可以在运动矢量的值不为整数值时通过对参考影像内的一部分区域适用插值滤波器(Interpolation Filter)而生成预测区块。为了执行画面间预测或运动补偿,可以以编码单元为基准判断包含于相应编码单元中的预测单元的运动预测以及运动补偿方法是跳过模式(Skip Mode)、合并模式(Merge Mode)、高级运动矢量预测(Advanced Motion Vector Prediction;AMVP)模式、当前图像参考模式中的哪一种方法,而且可以根据不同的模式执行画面间预测或运动补偿。
减法运算器125可以利用输入区块以及预测区块的差分生成残差区块(residualblock)。残差区块也可以被称之为残差信号。残差信号可以是指原始信号以及预测信号之间的差异(difference)。或者,残差信号可以是通过对原始信号以及预测信号之间的差异进行变换(transform)、量化或变换以及量化而生成的信号。残差区块可以是区块单位的残差信号。
变换部130可以通过对残差区块执行变换(transform)而生成变换系数(transform coefficient),并对所生成的变换系数进行输出。其中,变换系数可以是通过对残差区块执行变换而生成的系数值。当适用变换跳过(transform skip)模式时,变换部130还可以跳过对残差区块的变换。
通过对变换系数或残差信号适用量化,可以生成量化的级别(quantized level)。在接下来的实施例中,量化的级别也可以被称之为变换系数。
量化部140可以通过按照量化参数对变换系数或残差信号进行量化而生成量化的级别,并对量化的级别进行输出。此时,在量化部140中可以使用量化矩阵对变换系数进行量化。
熵编码部150可以通过对如在量化部140中计算出的值或在编码过程中计算出的编码参数(Coding Parameter)值等执行基于概率分布的熵编码而生成比特流(bitstream),并对比特流进行输出。熵编码部150可以对与影像的样本相关的信息以及用于对影像进行解码的信息执行熵编码。例如,用于对影像进行解码的信息可以包括如语法元素(syntax element)等。
在适用熵编码的情况下,可以通过以为出现概率较高的符号(symbol)分配较少的位并为出现概率较低的符号分配较多的位的方式表示符号,减小与编码对象符号相关的比特队列的大小。熵编码部150为了执行熵编码,可以使用如指数哥伦布码(exponentialGolomb)、基于上下文自适应的可变长编码(CAVLC,Context-Adaptive Variable LengthCoding)以及基于上下文自适应的二进制算术编码(CABAC,Context-Adaptive BinaryArithmetic Coding)等编码方法。例如,熵编码部150可以利用可变长编码(VariableLength Coding/Code;VLC)表执行熵编码。此外,熵编码部150也可以在推导出对象符号的二值化(binarization)方法以及对象符号/二进数(bin)的概率模型(probability model)之后,利用所推导出的二值化方法、概率模型以及上下文模型(Context Model)执行算术编码。
熵编码部150为了对变换系数级别(量化的级别)进行编码,可以通过变换系数扫描(Transform Coefficient Scanning)方法将2维的区块形态(fform)系数转换成1维的矢量形态。
编码参数(Coding Parameter)不仅可以包括如语法元素等在编码器中得到编码并向解码器进行信令的信息(标记、索引等),还可以包括在编码过程或解码过程中诱导的信息,可以是指在对影像进行编码或解码时所需要的信息。例如,编码参数可以包含单元/区块大小、单元/区块深度、单元/区块分割信息、单元/区块形态、单元/区块分割结构、四叉树形态的分割与否、二叉树形态的分割与否、二叉树形态的分割方向(水平方向或垂直方向)、二叉树形态的分割形态(对称分割或非对称分割)、三叉树形态的分割与否、三叉树形态的分割方向(水平方向或垂直方向)、三叉树形态的分割形态(对称分割或非对称分割)、复合树形态的分割与否、复合树形态的分割方向(水平方向或垂直方向)、复合树形态的分割形态(对称分割或非对称分割)、复合树形态的分割树(二叉树或三叉树)、预测模式(画面内预测或画面间预测)、画面内亮度预测模式/方向、画面内色差预测模式/方向、画面内分割信息、画面间分割信息、编码区块分割标记、预测区块分割标记、变换区块分割标记、参考像素滤波方法、参考像素对滤波器抽头、参考像素滤波器系数、预测区块滤波方法、预测区块滤波器轴头、预测区块滤波器系数、预测区块边界滤波方法、预测区块边界滤波器抽头、预测区块边界滤波器系数、画面内预测模式、画面间预测模式、运动信息、运动矢量、运动矢量差分、参考影像索引、画面间预测方向、画面间预测指示符、预测列表利用标记、参考影像列表、参考影像、运动矢量预测索引、运动矢量预测候选、运动矢量候选列表、合并模式使用与否、合并索引、合并候选、合并候选列表、跳过(skip)模式使用与否、插值滤波器类型、插值滤波器抽头、插值滤波器系数、运动矢量大小、运动矢量表示准确度、变换类型、变换大小、第一次变换使用与否信息、第二次变换使用与否信息、第一次变换索引、第二次变换索引、残差信号有无信息、编码区块模式(Coded Block Pattern)、编码区块标记(CodedBlock Flag)、量化参数、残差量化参数、量化矩阵、画面内环路滤波器适用与否、画面内环路滤波器系数、画面内环路滤波器抽头、画面内环路滤波器形状/形态、去块滤波器适用与否、去块滤波器系数、去块滤波器抽头、去块滤波器强度、去块滤波器形状/形态、自适应样本偏移适用与否、自适应样本偏移值、自适应样本偏移类别、自适应样本偏移种类、自适应环路滤波器适用与否、自适应环路滤波器系数、自适应环路滤波器抽头、自适应环路滤波器形状/形态、二值化/逆二值化方法、上下文模型确定方法、上下文模型更新方法、标准模式执行与否、旁路模式执行与否、上下文二进数、旁路二进数、重要系数标记、最后一个重要系数标记、系数分组单位编码标记、最后一个重要系数位置、与系数值是否大于1相关的标记、与系数值是否大于2相关的标记、与系数值是否大于3相关的标记、剩余系数值信息、符号(sign)信息、重建的亮度样本、重建的色差样本、残差亮度样本、残差色差样本、亮度变换系数、色差变换系数、亮度量化的级别、色差量化的级别、变换系数级别扫描方法、解码器方面运动矢量检索区域的大小、解码器方面运动矢量检索区域的形态、解码器方面运动矢量检索次数、编码树单元(CTU)大小信息、最小区块大小信息、最大区块大小信息、最大区块深度信息、最小区块深度信息、影像显示/输出顺序、条带识别信息、条带类型、条带分割信息、并行区块分组识别信息、并行区块分组类型、并行区块分组分割信息、并行区块识别信息、并行区块类型、并行区块分割信息、图像类型、输入样本位深度、重建样本位深度、残差样本位深度、变换系数位深度、量化的级别位深度、与亮度信号相关的信息以及与色差信号相关的信息中的至少一个值或其组合形态。
其中,对标记或索引进行信令(signaling),可以是指在编码器中对相应标记或索引进行熵编码(Entropy Encoding)并包含到比特流(Bitstream),也可以是指在解码器中从比特流对相应标记或索引进行熵解码(Entropy Decoding)。
在影像编码装置100执行通过帧间预测的编码的情况下,编码的当前影像可以作为接下来进行处理的其他影像的参考影像使用。因此,影像编码装置100可以对编码的当前影像重新进行重建或解码,而且可以将重建或解码的影像作为参考影像存储到参考图像缓冲区190。
量化的级别可以在逆量化部160中进行逆量化(dequantization),也可以在逆变换部170中进行逆变换(inverse transform)。逆量化和/或逆变换的系数可以通过加法运算器175与预测区块进行合并。通过将逆量化和/或逆变换的系数与预测区块进行合并,可以生成重建区块(reconstructed block)。其中,逆量化和/或逆变换的系数可以是指执行逆量化以及逆变换中的至少一个以上的系数,可以是指重建的残差区块。
重建区块可以通过滤波器部180。滤波器部180可以将去块滤波器(deblockingfilter)、样本自适应偏移(Sample Adaptive Offset;SAO)以及自适应环路滤波器(Adaptive Loop Filter;ALF)等横纵的至少一个适用于重建样本、重建区块或重建影像。滤波器部180也可以被称之为环路滤波器(in-loop filter)。
去块滤波器可以消除在区块之间的边界上发生的区块失真。为了判定是否需要执行去块滤波,可以以包含于区块中的若干个列或行中所包含的像样本为基础,判定是否需要对当前区块适用去块滤波器。在对区块适用去块滤波器时,可以根据所需要的去块滤波强度适用不同的滤波器。
为了利用样本自适应偏移对编码错误进行补偿,可以在样本值上加上适当的偏移(offset)值。样本自实行便宜可以以样本单位对执行去块的影像与原始影像之间的偏移进行补正。可以使用将影像中所包含的像素划分成一定数量的区域之后确定需要执行偏移的区域并对相应的区域适用偏移的方法,或者在考虑到各个样本的边缘信息的前提下适用偏移的方法。
自适应环路滤波器可以以对重建影像以及原始影像进行比较的值为基础执行滤波。可以在将影像中所包含的像样本划分成特定分组之后确定需要适用于特定分组的滤波器,从而对各个分组分别执行不同的滤波。与是否适用自适应环路滤波器相关的信息,可以按照各个编码单元(Coding Unit,CU)进行信令,而且可以根据各个区块对所适用的自适应环路滤波器的形状以及滤波系数进行变更。
通过滤波器部180的重建区块或重建影像可以被存储到参考图像缓冲区190中。通过滤波器部180的重建区块可以是参考影像的一部分。换言之,参考影像可以是由通过滤波器部180的重建区块构成的重建影像。所存储的参考影像可以在接下来适用于画面间预测或运动补偿。
图2是对可以适用根据本公开之实施例的影像解码装置进行概要性图示的示意图。
参阅图2,影像解码装置200可以包括熵解码部210、逆量化部220、逆变换部230、帧内预测部240、运动补偿部250、加法运算器255、滤波器部260以及参考图像缓冲区270。
影像解码装置200可以接收从影像编码装置输出的比特流。影像解码装置200可以接收存储于计算机可读取的存储介质中的比流,或者接收通过有线/无线传送介质进行流传输的比流流。影像解码装置200可以以帧内模式或帧间模式对比特流执行解码。此外,影像解码装置200可以通过解码生成重建的影像或解码的影像,并对重建的影像或解码的影像进行输出。
当在解码过程中使用的预测模式为帧内模式时,开关可以转换到帧内。当在解码过程中使用的预测模式为帧间模式时,开关可以转换到帧间。
影像解码装置200可以通过对所输入的流进行解码而获得重建的残差区块(reconstructed residual block),并生成预测区块。在获得重建的残差区块以及预测区块之后,影像解码装置200可以通过对重建的残差区块以及预测区块进行加法运算而生成作为解码对象的重建区块。解码对象区块也可以被称之为当前区块。
熵解码部210可以通过对比特流执行基于概率分布的熵解码而生成符号。所生成的符号可以包括量化的级别形态的符号。其中,熵解码方法可以是所述熵编码方法的逆向过程。
熵解码部210可以为了对变换系数级别(量化的级别)进行解码而通过变换系数扫描方法将1维的矢量形态系数转换成2维的区块形态。
量化的级别可以在逆量化部220中得到逆量化,也可以在逆变换部230中得到逆变换。量化的级别作为执行逆量化和/或逆变换的结果,可以生成为重建的残差区块。此时,逆量化部220可以对量化的级别适用量化矩阵。
在使用帧内模式的情况下,帧内预测部240可以通过对当前区块执行利用解码对象区块周边的已解码的区块的样本值的空间预测而生成预测区块。
在使用帧间模式的情况下,运动补偿部250可以通过对当前区块执行利用运动矢量以及存储于参考图像缓冲区270中的参考影像的运动补偿而生成预测区块。所述运动补偿部250可以在运动矢量的值不具有整数值的情况下,通过对参考影像内的一部分区域适用插值滤波器而生成预测区块。为了执行运动补偿,可以以编码单元为基准判断包含于相应编码单元中的运动单元的运动补偿方法是跳过模式、合并模式、高级运动矢量预测(AMVP)模式、当前图像参考模式中的哪一种方法,而且可以通过不同的模式执行运动补偿。
加法运算器255可以通过对重建的残差区块以及预测区块进行加法运算而生成预测区块。滤波器部260可以将去块滤波器、样本自适应偏移以及自适应环路滤波器等至少一个适用于重建区块或重建影像。滤波器部260可以对重建影像进行输出。重建区块或重建影像可以被存储到参考图像缓冲区270中并用于帧间预测。通过滤波器部260的重建区块可以是参考影像的一部分。换言之,参考影像可以是由通过滤波器部260的重建区块构成的重建影像。所存储的参考影像可以在接下来适用于画面间预测或运动补偿。
图3是用于对影像分割结构进行说明的示意图。
图3对一个单元被分割成多个下级单元的实例进行了图示。
用于有效地对影像进行分割,在编码以及解码时,可以使用编码单元(CodingUnit;CU)。作为影像编码/解码的基本单位,可以使用编码单元。此外,作为在影像编码/解码时对画面内预测模式以及画面间预测模式进行区分的单位,可以使用编码单元。编码单元可以是在预测、变换、量化、逆变换、逆量化或变换系数的编码/解码的过程中使用的基本单位。
参阅图3,影像300可以以最大编码单元(Largest Coding Unit;LCU)单位依次分割,并以最大编码单元(LCU)单位决定分割结构。其中,最大编码单元(LCU)可以以与编码树单元(Coding Tree Unit;CTU)相同的含义使用。单元的分割可以是指相当于单元的区块的分割。区块分割信息中可以包含与单元的深度(depth)相关的信息。深度信息可以表示出单元被分割的次数和/或程度。一个单元可以以树结构(tree structure)为基础具有深度信息,并被逐级分割成多个下级单元。换言之,单元以及通过所述单元的分割而生成的下级单元,可以分别对应于所述节点以及所述节点的子节点。各个所分割的下级单元可以具有深度信息。深度信息可以是表示编码单元(CU)的大小的信息,可以对各个编码单元(CU)进行存储。因为单元深度表示出单元被分割的次数和/或程度,因此下级单元的分割信息还可以包含与下级单元的大小相关的信息。
分割结构可以是指在编码树单元(CTU)310内的编码单元(Coding Unit;CU)的分布。如上所述的分布,可以根据是否将一个编码单元(CU)分割成多个(包括2、4、8、16等的2以上的正整数)编码单元(CU)而决定。通过分割而生成的编码单元(CU)的水平大小以及垂直大小,可以分别为分割前的编码单元(CU)的水平大小的一半以及垂直大小的一半,或者根据分割数量,具有小于分割前的编码单元(CU)的水平大小的大小以及小于垂直大小的大小。编码单元(CU)可以递归性地分割成多个编码单元(CU)。通过递归性分割,所分割的编码单元(CU)的水平大小以及垂直大小中的至少一个大小可以与分割前的编码单元(CU)的水平大小以及垂直大小中的某一个相比有所减小。编码单元(CU)的分割可以递归性地执行到预先定义的深度或预先定义的大小。例如,编码树单元(CTU)的深度可以是0,而最小编码单元(Smallest Coding Unit;SCU)的深度可以是预先定义的最大深度。其中,编码树单元(CTU)可以是如上所述的具有最大的编码单元大小的编码单元,而最小编码单元(SCU)可以是具有最小的编码单元大小的编码单元。分割是从编码树单元(CTU)310开始,在编码单元(CU)的水平大小和/或垂直大小伴随每一次分割而减小时编码单元(CU)的深度将增加1。例如,在各个深度上,没有被分割的编码单元(CU)可以具有2N×2N的大小。此外,对于被分割的编码单元(CU),可以将2N×2N大小的编码单元(CU)分割成4个具有N×N大小的编码单元(CU)。在深度每增加1时,N的大小可以减少至一半。
此外,与编码单元(CU)的分割与否相关的信息,可以通过编码单元(CU)的分割信息表示。分割信息可以是1位的信息。除最小编码单元(SCU)之外的所有编码单元(CU)可以包含分割信息。例如,当分割信息的值为第1值时,可以不对编码单元(CU)进行分割,而当分割信息的值为第2值时,可以对编码单元(CU)进行分割。
参阅图3,深度为0的编码树单元(LCU)可以是64×64的区块。0可以是最小深度。深度为3的最小编码单元(SCU)可以是8×8区块。3可以是最大深度。32×32区块以及16×16区块的编码单元(CU)可以分别以深度1以及深度2表示。
例如,在一个编码单元被分割成4个编码单元的情况下,所分割出来的4个编码单元的水平以及垂直大小与分割前的编码单元的水平以及垂直大小相比可以分别具有一半的大小。作为一实例,在32×32大小的编码单元被分割成4个编码单元的情况下,所分割出来的4个编码单元可以分别具有16×16的大小。在一个编码单元被分割成4个编码单元的情况下,可以说编码单元是以四叉树(quad-tree)形态进行了分割(四叉树分割,quad-treepartition)。
例如,在一个编码单元被分割成2个编码单元的情况下,所分割出来的2个编码单元的水平或垂直大小与分割前的编码单元的水平或垂直大小相比可以具有一半的大小。作为一实例,在32×32大小的编码单元被垂直分割成2个编码单元的情况下,所分割出来的2个编码单元可以分别具有16×32的大小。作为一实例,在8×32大小的编码单元被水平分割成2个编码单元的情况下,所分割出来的2个编码单元可以分别具有8×16的大小。在一个编码单元被分割成2个编码单元的情况下,可以说编码单元是以二叉树(binary-tree)形态进行了分割(二叉树分割,binary-tree partition)。
例如,在一个编码单元被分割成3个编码单元的情况下,可以通过将分割前的编码单元的水平或垂直大小以1:2:1的比例进行分割而将其分割成3个编码单元。作为一实例,在16×32大小的编码单元被水平分割成3个编码单元的情况下,所分割出来的3个编码单元从上侧开始可以分别具有16×8、16×16以及16×8的大小。作为一实例,在32×32大小的编码单元被垂直分割成3个编码单元的情况下,所分割出来的3个编码单元从左侧开始可以分别具有8×32、16×32以及8×32的大小。在一个编码单元被分割成3个编码单元的情况下,可以说编码单元是以三叉树(ternary-tree)形态进行了分割(三叉树分割,ternary-treepartition)。
图3中的编码树单元(CTU)320是同时适用了四叉树分割、二叉树分割以及三叉树分割的编码树单元(LCU)的一实例。
如上所述,为了对编码树单元(CTU)进行分割,可以适用四叉树分割、二叉树分割以及三叉树分割中的至少一个。各个分割可以以特定优先顺序为基础适用。例如,对编码树单元(CTU)可以优先适用四叉树分割。无法进一步执行四叉树分割的编码单元,可以相当于四叉树的叶节点。相当于四叉树的叶节点的编码单元,可以作为二叉树和/或三叉树的根节点。即,相当于四叉树的叶节点的编码单元,可以进行二叉树分割或进行三叉树分割或不再进行分割。此时,对于通过对相当于四叉树的叶节点的编码单元进行二叉树分割或三叉树分割而生成的编码单元将不再执行四叉树分割,从而可以有效地执行区块的分割和/或分割信息的信令。
相当于四叉树的各个节点的编码单元的分割,可以利用四叉树分割信息进行信令。具有第一值(例如“1”)的四叉树分割信息,可以指示对相应的编码单元进行四叉树分割。具有第二值(例如“0”)的四叉树分割信息,可以指示不对相应的编码单元进行四叉树分割。四叉树分割信息,可以是具有特定长度(例如1位)的标记。
在二叉树分割与三叉树分割之间可以不具有优先顺序。即,相当于四叉树的叶节点的编码单元,可以进行二叉树分割或进行三叉树分割。此外,通过二叉树分割或三叉树分割生成的编码单元,可以再次进行二叉树分割或进行三叉树分割或不再进行分割。
在二叉树分割与三叉树分割之间不具有优先顺序的情况下进行的分割,可以被称之为复合树分割(multi-type tree partition)。即,相当于四叉树的叶节点的编码单元,可以作为复合树(multi-type tree)的根节点。相当于复合树的各个节点的编码单元的分割,可以利用复合树的分割与否信息、分割方向信息以及分割树信息中的至少一个进行信令。为了所述相当于复合树的各个节点的编码单元的分割,也可以依次对分割与否信息、分割方向信息以及分割树信息进行信令。
具有第一值(例如“1”)的复合树的分割与否信息,可以指示对相应编码单元进行复合树分割。具有第二值(例如“0”)的复合树的分割与否信息,可以指示不对相应的编码单元进行复合树分割。
在对相当于复合树的各个节点的编码单元进行复合树分割的情况下,相应编码单元还可以包含分割方向信息。分割方向信息可以指示复合树分割的分割方向。具有第一值(例如“1”)的分割方向信息,可以指示对相应的编码单元进行垂直方向分割。具有第二值(例如“0”)的分割方向信息,可以指示对相应的编码单元进行水平方向分割。
在对相当于复合树的各个节点的编码单元进行复合树分割的情况下,相应编码单元还可以包含分割树信息。分割树信息可以指示为了执行复合树分割而使用的树。具有第一值(例如“1”)的分割树信息,可以指示对相应的编码单元进行二叉树分割。具有第二值(例如“0”)的分割树信息,可以指示对相应的编码单元进行三叉树分割。
分割与否信息、分割树信息以及分割方向信息可以分别是特定长度(例如1位)的标记。
可以对四叉树分割信息和复合树的分割与否信息、分割方向信息以及分割树信息中的至少一个进行熵编码/解码。为了所述信息的熵编码/解码,可以利用与当前编码单元相邻的周边编码单元的信息。例如,左侧编码单元和/或上侧编码单元的分割形态(分割与否、分割树和/或分割方向)与当前编码单元的分割形态类似的概率较高。因此,可以以周边编码单元的信息为基础诱导用于当前编码单元的信息的熵编码/解码的上下文信息。此时,周边编码单元的信息中可以包含相应编码单元的四叉树分割信息、复合树分割与否信息、分割方向信息以及分割树信息中的至少一个。
作为另一实施例,在二叉树分割以及三叉树分割中,可以优先执行二叉树分割。即,可以优先适用二叉树分割,并将相当于二叉树的叶节点的编码单元设定为三叉树的根节点。在如上所述的情况下,对相当于三叉树的节点的编码单元,可以不执行四叉树分割以及二叉树分割。
无法通过四叉树分割、二叉树分割和/或三叉树分割进一步进行分割的编码单元,可以作为编码、预测和/或变换的单位。即,为了预测和/或变换,可以不再进一步对编码单元进行分割。因此,在比特流中可以没有用于将编码单元分割成预测单元和/或变换单元的分割结构以及分割信息等存在。
但是,当作为分割单位的编码单元的大小大于最大变换区块的大小的情况下,相应编码单元可以被递归分割至等于或小于最大变换区块的大小。例如,在编码单元的的大小为64×64且最大变换区块的大小为32×32的情况下,为了所述编码单元的变换,可以分割成4个32×32的区块。例如,在编码单元的的大小为32×64且最大变换区块的大小为32×32的情况下,为了所述编码单元的变换,可以分割成2个32×32的区块。在如上所述的情况下,用于变换的编码单元的分割与否可以不单独进行信令,可以通过对所述编码单元的水平或垂直大小与最大变换区块的水平或垂直大小进行比较的方式确定。例如,在编码单元的水平大小大于最大变换区块的水平大小的情况下,可以将编码单元沿着垂直方向进行2等分。此外,在编码单元的垂直大小大于最大变换区块的垂直大小的情况下,可以将编码单元沿着水平方向进行2等分。
与编码单元的最大和/或最小大小相关的信息、变换区块的最大和/或最小大小相关的信息,可以在编码单元的上一个级别进行信令或确定。所述上一个级别可以是如序列级别、图像级别、并行区块级别、并行区块分组级别以及条带级别等。例如,编码单元的最小大小可以确定为4×4。例如,变换区块的最大大小可以确定为64×64。例如,变换区块的最小大小可以确定为4×4。
与相当于四叉树的叶节点的编码单元的最小大小(四叉树最小大小)相关的信息和/或与从复合树的根节点到叶节点的最大深度(复合树最大深度)相关的信息,可以在编码单元的上一个级别进行信令或确定。所述上一个级别可以是如序列级别、图像级别、条带级别、并行区块分组级别以及并行区块级别等。与所述四叉树最小大小相关的信息和/或与所述复合树最大深度相关的信息,可以对画面内条带以及画面间条带分别进行信令或确定。
与编码树单元(CTU)的大小以及变换区块的最大大小相关的差分信息,可以在编码单元的上一个级别进行信令或确定。所述上一个级别可以是如序列级别、图像级别、条带级别、并行区块分组级别以及并行区块级别等。与相当于二叉树的各个节点的编码单元的最大大小(二叉树的最大大小)相关的信息,可以基于编码树单元的大小以及所述差分信息进行确定。相当于三叉树的各个节点的编码单元的最大大小(三叉树最大大小)的条带可以根据其类型具有不同的值。例如,在画面内条带的情况下,三叉树最大大小可以是32×32。此外,例如,在画面间条带的情况下,三分树最大大小可以是128×128。例如,相当于二叉树的各个节点的编码单元的最小大小(二叉树最小大小)和/或相当于三叉树的各个节点的编码单元的最小大小(三叉树最小大小)可以被设定为编码区块的最小大小。
又例如,二叉树最大大小和/或三叉树最大大小可以在条带级别进行信令或确定。此外,二叉树最小大小和/或三叉树最小大小可以在条带级别进行信令或确定。
以如上所述的多种区块的大小以及深度信息为基础,四叉树分割信息、复合树分割与否信息、分割树信息和/或分割方向信息等可以存在于比特流中,也可以不存在。
例如,在编码单元的大小不大于四叉树最小大小时,所述编码单元可以不包含四叉树分割信息,相应的四叉树分割信息可以通过第二值推导得出。
例如,在相当于复合树的节点的编码单元的大小(水平以及垂直)大于二叉树最大大小(水平以及垂直)和/或三叉树最大大小(水平以及垂直)的情况下,所述编码单元可以不执行二叉树分割和/或三叉树分割。因此,可以不对所述复合树的分割与否信息进行信令,而是通过第二值推导得出。
或者,在相当于复合树的节点的编码单元的大小(水平以及垂直)等于二叉树最小大小(水平以及垂直)或编码单元的大小(水平以及垂直)等于三叉树最小大小(水平以及垂直)的两倍的情况下,所述编码单元可以不执行二叉树分割和/或三叉树分割。因此,可以不对所述复合树的分割与否信息进行信令,而是通过第二值推导得出。这是因为在对编码单元进行二叉树分割和/或三叉树分割的情况下,将生成小于二叉树最小大小和/或三叉树最小大小的编码单元。
或者,二叉树分割或三叉树分割可以以假想的管道数据单元的大小(以下称之为管道缓冲区大小)为基础进行限制。例如,通过二叉树分割或三叉树分割,在编码单元被分割成不适合于管道缓冲区大小的子编码单元的情况下,可以对相应的二叉树分割或三叉树分割进行限制。管道缓冲区大小可以是最大变换区块的大小(例如64×64)。例如,在管道缓冲区大小为64×64时,可以对下述分割进行限制。
-对N×M(N和/或M为128)编码单元的三叉树分割
-对128×N(N≤64)编码单元的水平方向二叉树分割
-对N×128(N≤64)编码单元的垂直方向二叉树分割
或者,在相当于复合树的节点的编码单元在复合树内的深度等于复合树的最大深度的情况下,所述编码单元可以不执行二叉树分割和/或三叉树分割。因此,可以不对所述复合树的分割与否信息进行信令,而是通过第二值推导得出。
或者,可以只有在可对相当于复合树的节点的编码单元进行垂直方向二叉树分割、水平方向二叉树分割、垂直方向三叉树分割以及水平方向三叉树分割中的至少一个的情况下,才对所述复合树的分割与否信息进行信令。否则,所述编码单元可以不执行二叉树分割和/或三叉树分割。因此,可以不对所述复合树的分割与否信息进行信令,而是通过第二值推导得出。
或者,可以只有在可对相当于复合树的节点的编码单元同时进行垂直方向二叉树分割以及水平方向二叉树分割,或可同时进行垂直方向三叉树分割以及水平方向三叉树分割的情况下,才对分割方向信息进行信令。否则,可以不对所述分割方向信息进行信令,而是通过用于指示可分割方向的值推导得出。
或者,可以只有在可对相当于复合树的节点的编码单元同时进行垂直方向二叉树分割以及垂直方向三叉树分割,或可同时进行水平方向二叉树分割以及水平方向三叉树分割的情况下,才对分割树信息进行信令。否则,可以不对所述分割树信息进行信令,而是通过用于指示可分割树的值推导得出。
图4是用于对画面内预测过程进行说明的示意图。
图4表示画面内预测模式的预测方向。具体来讲,图4中的实线方向可以表示扩展的定向画面内预测模式的预测方向,而虚线方向可以表示仅适用于非正方形区块的光脚(wide angle)模式的预测方向。
画面内预测可以利用当前区块的周边区块的参考样本执行。周边区块可以是重建的周边区块。例如,画面内预测可以利用重建的周边区块所包含的参考样本的值或编码参数执行。
预测区块可以是指作为画面内预测的执行结果生成的区块。预测区块可以相当于编码单元(CU)、预测单元(PU)以及变换单元(TU)中的至少一个。预测区块的单位可以是编码单元(CU)、预测单元(PU)以及变换单元(TU)中的至少一个的大小。预测区块可以是具有如2×2、4×4、16×16、32×32或64×64等大小的正方形形态的区块,也可以是具有如2×8、4×8、2×16、4×16以及8x16等大小的长方形形状的区块。
画面内预测可以按照与当前区块相关的画面内预测模式执行。当前区块可以具有的画面内预测模式的数量可以是预先定义的固定值,也可以是根据预测区块的属性确定的不同的值。例如,预测区块的属性可以包含预测区块的大小以及预测区块的形态等。
画面内预测模式的数量与区块的大小无关,可以被固定为N个。或者,画面内预测模式的数量可以是如3、5、9、17、34、35、36、65、67或95等。或者,画面内预测模式的数量可以根据区块的大小和/或颜色成分(color component)的类型而互不相同。例如,根据颜色成分是亮度(lume)成分还是色差(chrome)信号,画面内预测模式的数量可能有所不同。例如,区块的大小越大,画面内预测模式的数量可以越多。或者,亮度成分区块的画面内预测模式的数量可以大于色差成分区块的画面内预测模式的数量。
画面内预测模式可以是非定向模式或定向模式。非定向模式可以是均值(DC)模式或平面(Planar)模式,定向模式(angular mode)可以是具有特定的方向或角度的预测模式。所述画面内预测模式可以利用模式编号、模式值、模式数字、模式角度以及模式方向中的至少一个表现。画面内预测模式的数量可以是包括所述非定向以及定向模式的一个以上的M个。为了对当前区块执行画面内预测,可以执行对包含于重建的周边区块中的样本是否可以作为当前区块的参考样本使用进行检查的步骤。当有无法作为当前区块的参考样本使用的样本存在时,可以在利用对包含于重建的周边区块的样本中的至少一个样本值进行复制和/或插值的值替代无法作为参考样本使用的样本的样本值之后再作为当前区块的参考样本使用。
为了对自然视频(natural video)中呈现出的任意边缘方向(edge direction)进行捕获,如图4所示,画面内预测模式可以包含2个非定向模式以及93个定向模式。所述非定向模式可以包含平面模式以及均值(DC)模式。此外,所述定向模式如图4中的箭头所示,可以包含由2号至80号以及-1至-14号构成的画面内模式。所述平面模式可以标记为INTRA_PLANAR,而所述均值(DC)模式可以标记为INTRA_DC。此外,所述定向模式可以标记为INTRA_ANGULAR-14至INTRA_ANGULAR-1以及INTRA_ANGULAR2至INTRA_ANGULAR80。
影像编码装置可以对用于表示适用于当前区块的画面内预测模式的画面内预测模式/类型信息进行编码并通过比特流进行信令。作为一实例,所述画面内预测模式/类型信息,可以包含用于表示对所述当前区块适用最有可能模式(MPM,most probable mode),还是适用剩余模式(remaining mode)的标记信息(例如intra_luma_mpm_flag和/或intra_chroma_mpm_flag)。在对所述当前区块适用所述最有可能模式(MPM)的情况下,所述画面内预测模式/类型信息还可以包含用于指示画面内预测模式候选(最有可能模式(MPM)候选)中的某一个的索引信息(例如intra_luma_mpm_idx和/或intra_chroma_mpm_idx)。与此不同,在不对所述当前区块无法适用所述最有可能模式(MPM)的情况下,所述画面内预测模式/类型信息还可以包含用于指示除所述画面内预测模式候选(最有可能模式(MPM)候选)之外的剩余画面内预测模式中的某一个的剩余模式信息(例如intra_luma_mpm_remainder和/或intra_chroma_mpm_remainder)。影像解码装置可以基于通过所述比特流接收到的画面内预测模式/类型信息,确定当前区块的画面内预测模式。
所述画面内预测模式/类型信息,可以利用在本公开中进行说明的多种编码方法进行编码/解码。例如,所述画面内预测模式/类型信息可以通过基于截断(莱斯)二进制代码(truncated(rice)binary code)的熵编码(例如基于上下文自适应的二进制算术编码(CABAC)、基于上下文自适应的可变长编码(CAVLC))进行编码/解码。
图5是用于对画面间预测过程进行说明的示意图。
在图5中,各个矩形可以表示影像,而各个箭头可以表示预测方向。各个影像可以根据编码类型分为如I图像(Intra Picture)、P图像(Predictive Picture)以及B图像(Bi-predictive Picture)等。
参阅图5,I图像可以在不执行画面间预测的情况下通过画面内预测进行编码/解码。P图像可以通过仅利用存在于单向(例如正向或逆向)的参考影像的画面间预测进行编码/解码。B图像可以通过利用存在于双向(例如正向以及逆向)的参考影像的画面间预测进行编码/解码。此外,在B图像的情况下,可以通过利用存在于双向的参考影像的画面间预测或利用存在于正向以及逆向中的某一个方向的参考影像的画面间预测进行编码/解码。其中,双向可以是正向以及逆向。其中,在使用画面间预测的情况下,影像编码装置可以执行画面间预测或运动补偿,而影像解码装置可以执行与其对应的运动补偿。
画面间预测或运动补偿可以利用参考影像以及运动信息执行。
与当前区块相关的运动信息,可以在利用影像编码装置以及影像解码装置的画面间预测过程中推导得出。运动信息可以利用重建的周边区块的运动信息、并置区块(collocated block;col block)的运动信息和/或与并置区块相邻的区块推导得出。并置区块可以是已重建的并置图像(collocated picture;col picture)内的与当前区块的空间位置对应的区块。其中,并置图像可以是包含于参考影像列表的至少一个参考影像中的某一个图像。
运动信息的推导方式可以根据当前区块的预测模式而有所不同。例如,作为为了执行画面间预测而适用的预测模式,可以适用如高级运动矢量预测(AMVP)模式、合并模式、跳过模式、具有运动矢量差分的合并模式、子区块合并模式、三角分割模式、帧间帧内结合预测模式以及仿射帧间模式等。其中,合并模式可以被称之为运动合并模式(motion mergemode)。
例如,在作为预测模式适用高级运动矢量预测(AMVP)的情况下,可以将重建的周边区块的运动矢量、并置区块的运动矢量、与并置区块相邻的区块的运动矢量以及(0,0)运动矢量中的至少一个确定为运动矢量候选生成运动矢量候选列表(motion vectorcandidate list)。利用所生成的运动矢量候选列表,可以诱导运动矢量候选。基于所诱导的运动矢量候选,可以确定当前区块的运动信息。其中,可以将并置区块的运动矢量或与并置区块相邻的区块的运动矢量称之为时间运动矢量候选(temporal motion vectorcandidate),并将重建的周边区块的运动矢量称之为空间运动矢量候选(spatial motionvector candidate)。
影像编码装置可以计算出当前区块的运动矢量与运动矢量候选之间的运动矢量差分(MVD:Motion Vector Difference),并对运动矢量差分(MVD)进行编码。此外,影像编码装置可以通过对运动矢量候选索引进行熵编码而生成比特流。运动矢量候选索引可以指示从包含于运动矢量候选列表的运动矢量候选中选择的最佳运动矢量候选。影像解码装置可以从比特流中对运动矢量候选索引进行熵解码,并利用熵解码的运动矢量候选索引从包含于运动矢量候选列表的运动矢量候选中选择解码对象区块的运动矢量候选。此外,影像解码装置可以通过熵解码的运动矢量差分(MVD)以及运动矢量候选的和推导出解码对象区块的运动矢量。
此外,影像编码装置可以对所计算出来的运动矢量差分(MVD)的分辨率信息进行熵编码。影像解码装置可以利用运动矢量差分(MVD)分辨率信息对熵解码的运动矢量差分(MVD)的分辨率进行调整。
此外,影像编码装置可以基于仿射模型计算出当前区块的运动矢量与运动矢量候选之间的运动矢量差分(MVD:Motion Vector Difference),并对运动矢量差分(MVD)进行编码。影像解码装置可以通过熵解码的运动矢量差分(MVD)以及仿射控制运动矢量候选的和推导出解码对象区块的仿射控制运动矢量并以子区块为单位诱导运动矢量。
比特流可以包含指示参考影像的参考影像索引等。参考影像索引可以被熵编码并通过比特流从影像编码装置向影像解码装置进行信令。影像解码装置可以基于所诱导的运动矢量以及参考影像索引生成与解码对象区块相关的预测区块。
作为运动信息的推导方式的另一实例,可以采用合并模式。合并模式可以是指对与多个区块相关的运动进行合并。合并模式可以是指从周边区块的运动信息诱导当前区块的运动信息的模式。在适用合并模式的情况下,可以利用重建的周边区块的运动信息和/或并置区块的运动信息生成合并候选列表(merge candidate list)。运动信息可以包含1)运动矢量、2)参考影像索引以及3)画面间预测指示符中的至少一个。预测指示符可以是单向(L0预测以及L1预测)或双向。
合并运动列表可以表示存储有运动信息的列表。存储到合并候选列表中的运动信息,可以是与当前区块相邻的周边区块的运动信息(空间合并候选(spatial mergecandidate))以及参考影像中与当前区块对应的并置(collocated)区块的运动信息(时间合并候选(temporal merge candidate))、通过已经存在于合并候选列表中的运动信息的组合生成的新的运动信息、在当前区块之前进行编码/解码的区块的运动信息(基于历史的合并候选(history-based merge candidate))以及零合并候选中的至少一个。
影像编码装置可以在通过对合并标记(merge flag)以及合并索引(merge index)中的至少一个进行熵编码而生成比特流之后向影像解码装置进行信令。合并标记可以是用于表示是否按照区块执行合并模式的信息,而合并索引可以是用于表示与当前区块相邻的周边区块中的哪些区块进行合并的信息。例如,当前区块的周边区块可以包含当前区块的左侧相邻区块、上端相邻区块以及时间相邻区块中的至少一个。
此外,影像编码装置可以对用于补正合并候选的运动信息中的运动矢量的补正信息进行熵编码并向影像解码装置进行信令。影像解码装置可以以补正信息为基础对通过合并索引选择的合并候选的运动矢量进行补正。其中,补正信息可以包含补正与否信息、补正方向信息以及补正大小信息中的至少一个。如上所述,以所信令的补正信息为基础对合并候选的运动矢量进行补正的预测模式可以被称之为具有运动矢量差分的合并模式。
跳过模式可以是将周边区块的运动信息直接适用于当前区块的模式。在使用跳过模式的情况下,影像编码装置可以对用于表示将哪些区块的运动信息作为当前区块的运动信息使用的信息进行熵编码并通过比特流对影像解码装置进行信令。此时,影像编码装置可以不将与运动矢量差分信息、编码区块标记以及变换系数级别(量化的级别)中的至少一个相关的语法元素向影像解码装置进行信令。
子区块合并模式(subblock merge mode)可以是指以编码区块(CU)的子区块为单位诱导运动信息的模式。在适用子区块合并模式的情况下,可以从参考影像利用与当前子区块对应的并置(collocated)子区块的运动信息(基于子区块的时间合并候选(Sub-blockbased temporal merge candidate))和/或仿射控制点运动矢量合并候选(affinecontrol point motion vector merge candidate)生成子区块合并候选列表(subblockmerge candidate list)。
三角分割模式(triangle partition mode)是指通过将当前区块沿着对角线方向进行分割而诱导各个运动信息、利用所诱导的各个运动信息诱导各个预测样本并通过对所诱导的各个预测样本进行加权和而诱导当前区块的预测区块的模式。
帧间帧内结合预测模式可以是指通过对利用画面间预测生成的预测样本与利用画面内预测生成的预测样本进行加权和而诱导当前区块的预测模式的模式。
影像解码装置自身可以对所推导出的运动信息进行补正。影像解码装置可以以所推导出的运动信息所指示的参考区块为基准对预先定义的区域进行检索,从而将具有最小的绝对误差和(SAD)的运动信息诱导为补正的运动信息。
影像解码装置可以利用光流(Optical Flow)对通过画面间预测诱导的预测样本进行补正。
图6是用于对变换以及量化过程进行说明的示意图。
如图6所示,可以通过对残差信号执行变换和/或量化过程而生成量化的级别。所述残差信号可以利用原始区块与预测区块(画面内预测区块或画面间预测区块)之间的差分生成。其中,预测区块可以是通过画面内预测或画面间预测生成的区块。
变换可以包含第一次变换以及第二次变换中的至少一个。可以通过对残差信号执行第一次变换而生成变换系数,且可以通过对变换系数执行第二次变换而生成第二次变换系数。
第一次变换(Primary Transform)可以利用预先定义的多个变换方法中的至少一个执行。作为一实例,预先定义的多个变换方法可以包括基于离散余弦变换(DCT,DiscreteCosine Transform)、离散正弦变换(DST,Discrete Sine Transform)或卡洛南-洛伊变换(KLT,Karhunen-Loeve Transform)的变换等。可以对在执行第一次变换之后生成的变换系数执行第二次变换(Secondary Transform)。在执行第一次变换和/或第二次变换时所适用的变换方法,可以根据当前区块和/或周边区块的编码参数中的至少一个确定。或者,也可以对用于指示变换方法的变换信息进行信令。基于离散余弦变换(DCT)的变换可以包括如DCT2以及DCT-8等。基于离散正弦变换(DST)的变换可以包括如DST-7执行。
可以通过对执行第一次变换和/或第二次变换的结果或残差信号执行量化而生成量化的级别。量化的级别可以以画面内预测模式或区块大小/形态中的至少一个为基准按照右上端对角线扫描、垂直扫描以及水平扫描中的至少一个进行扫描(scanning)。例如,可以通过利用右上端(up-right)对角线扫描对区块的系数进行扫描而变更为1维矢量形态。根据变换区块的大小和/或画面内预测模式,也可以使用沿着列方向对2维区块形态的系数进行扫描的垂直扫描、沿着行方向对2维区块形态的系数进行扫描的水平扫描替代右上端对角线扫描。经过扫描的量化的级别可以被熵编码并包含于比特流中。
在解码器中可以通过对比特流进行熵解码而生成量化的级别。量化的级别可以通过逆扫描(Inverse Scanning)而排列成2维区块形态。此时,作为逆扫描方法,可以执行右上端对角线扫描、垂直扫描以及水平扫描中的至少一个。
可以对量化的级别执行逆量化,并根据第二次逆变换的执行与否执行第二次逆变换,进而根据是否对执行第二次逆变换的结果执行第一次逆变换而执行第一次逆变换,从而生成重建的残差信号。
可以在执行环路滤波之前对通过画面内预测或画面间预测重建的亮度成分执行动态范围(dynamic range)的逆映射(inverse mapping)。动态范围可以被分割成16个均等的小块(piece),而且可以对与各个小块相关的映射函数进行信令。所述映射函数可以在条带级别或并行区块分组级别中进行信令。用于执行所述逆映射的逆映射函数可以以所述映射函数为基础诱导。环路滤波、参考图像的存储以及运动补偿将在逆映射的区域执行,而通过画面间预测生成的预测区块可以通过利用所述映射函数的映射转换成预测区域之后,在生成重建区块时加以利用。但是,因为画面内预测是在映射的区域执行,因此通过画面内预测生成的预测区块可以在不执行映射/逆映射的情况下在生成重建区块时加以利用。
在当前区块为色差成分的残差区块的情况下,通过对映射的区域的色差成分进行缩放,可以将所述残差区块转换成逆映射的区域。所述缩放的适用与否,可以在条带级别或并行区块分组级别中进行信令。只有在与亮度成分相关的所述映射可用且亮度成分的分割以及色差成分的分割遵循相同的树结构的情况下,才可以适用所述缩放。所述缩放可以以与所述色差区块对应的亮度预测区块的样本值的平均为基础执行。此时,在当前区块使用画面间预测的情况下,所述亮度预测区块可以是指映射的亮度预测区块。亮度预测区块可以利用样本值的平均所属的小块(piece)的索引,通过参考查找表而诱导所述缩放所需要的值。最终,通过利用所述诱导的值对所述残差区块进行缩放,可以将所述残差区块转换成逆映射的区域。接下来的色差成分区块的重建、画面内预测、画面间预测、环路滤波以及参考图像的存储可以在逆映射的区域执行。
用于表示所述亮度成分以及色差成分的映射/逆映射的可用与否的信息,可以通过序列参数集进行信令。
当前区块的预测区块,可以以表示当前区块与当前图像内的参考区块之间的位置移动(displacement)的区块矢量为基础生成。如上所述,可以将参考当前区块生成预测区块的预测模式称之为画面内区块复制(Intra Block Copy,IBC)模式。画面内区块复制(IBC)模式可以适用于M×N(M≤64,N≤64)编码单元。画面内区块复制(IBC)模式可以包含如跳过模式、合并模式以及高级运动矢量预测(AMVP)模式。在跳过模式或合并模式的情况下,可以通过在构成合并候选列表之后对候选索引进行信令而特定一个合并候选。所述特定的合并候选的区块矢量,可以作为当前区块的区块矢量使用。合并候选列表可以包含基于空间候选或历史的候选、基于两个候选的平均的候选或零合并候选等中的至少一个以上。在高级运动矢量预测(AMVP)模式的情况下,可以对差分区块矢量进行信令。此外,预测区块矢量可以从当前区块的左侧相邻区块以及上端相邻区块诱导。可以对与使用哪一个相邻区块相关的索引进行信令。画面内区块复制(IBC)模式的预测区块包含于当前编码树单元(CTU)或左侧编码树单元(CTU),而且可以限定为已重建的区域内的区块。例如,当前区块的预测区块可以对区块矢量的值进行限制,从而使其位于在编码/解码的顺序上与当前区块所属的64×64区块相比靠前的3个64×64区块区域内。通过按照如上所述的方式对区块矢量的值进行限制,可以降低实现画面内区块复制(IBC)模式时的内存消耗以及装置复杂度。
接下来,将对本公开的实施例进行详细的说明。
如上所述,影像编码/解码装置可以将输入影像按照编码树单元(CTU)单位进行分割,并通过将各个编码树单元(CTU)分割呈如编码单元(CU,Coding Unit)、变换单元(TU,Transform Uit)以及预测单元(Prediction Unit)等特定区块单位,最终对所述区块单位执行影像编码/解码。
图7是对输入影像的分割实例进行图示的示意图。
参阅图7,输入影像可以被分割成M×N大小的编码树单元(CTU)单位。其中,M以及N可以相同,也可以彼此不同。各个编码树单元(CTU)可以基于四叉树、二叉树、三叉树(QT/BT/TT)结构分割成多个下级区块(或子区块)。此时,所述下级区块可以具有输入影像中的绝对坐标,可以不彼此侵入其他区块。
输入影像内的各个下级区块可以利用根据区块目的所包含的特定特性值进行分类。所述特性值可以从影像编码装置传送到影像解码装置,或者通过影像解码装置以区块单位进行推导。所述特性值可以包含如用于表示所述下级区块的分割程度的区块深度(block depth)、所述下级区块的预测模式(prediction mode)或变换模式(transformmode)。所述下级区块可以根据所述特性值的类型进行多种分类。接下来,在本公开中将所述特性值称之为区块信息(Block Information,BI)。
图8是对映射到输入影像内的各个下级区块中的区块信息的一实例进行图示的示意图。
参阅图8,可以通过对输入影像800进行递归性的四叉树分割以及二叉树分割而获得多个下级区块。输入影像800内的各个下级区块可以映射用于表示区块深度的区块信息。例如,通过四叉树分割获得的输入影像800的右下端一个下级区块可以映射第2值的区块信息(BI)。此外,通过递归性的四叉树分割获得的输入影像800的左下端4个下级区块可以分别映射第3值的区块信息(BI)。此外,通过递归性的水平二叉树分割获得的输入影像800的右上端1个下级区块以及左上端1个下级区块可以分别映射第4值的区块信息(BI)。此外,通过递归性的垂直二叉树分割获得的输入影像800的右上端1个下级区块以及左上端1个下级区块可以分别映射第5值的区块信息(BI)。此外,通过递归性的水平二叉树分割获得的输入影像800的右上端2个下级区块可以分别映射第6值的区块信息(BI)。
通过图8的实例,可以构成表示区块分割结构的区块边界映射以及表示区块信息(BI)的区块分布映射(或区块特性映射)。
图9以及图10是对通过图8的实例构成的区块边界映射的一实例进行图示的示意图。
首先,参阅图9,配置在各个下级区块的边界的像素可以映射特定的第一值(x)。此外,配置在各个下级区块边界之外的区域的像素可以映射特定的第二值(y)。其中,x可以为0以上5以下,y可以是0。
在另一实例中,为了更加具体地表示配置在区块边界的样本,所述第一值(x)可以按照如图10所示的方式细分成多个值(例如a至h)并分别映射各个样本。具体来讲,参阅图10,配置在下级区块的左上端角落的像素可以映射样本值a。此外,配置在所述下级区块的右上端角落的像素可以映射样本值b。此外,配置在所述下级区块的左下端角落的像素可以映射样本值c。此外,配置在所述下级区块的右上端角落的像素可以映射样本值d。此外,配置在除所述下级区块的各个角落之外的上端边界的像素可以分别映射样本值e。此外,配置在除所述下级区块的各个角落之外的左侧边界的像素可以分别映射样本值f。此外,配置在除所述下级区块的各个角落之外的右侧边界的像素可以分别映射样本值g。此外,配置在除所述下级区块的各个角落之外的下端边界的像素可以分别映射样本值h。
图11是对通过图8的实例构成的区块边界映射的一实例进行图示的示意图。
参阅图11,输入影像内具有第1值的区块信息的下级区块内像素可以分别映射表示所述第1值的区块信息的样本值a。此外,输入影像内具有第2值的区块信息的下级区块内像素可以分别映射表示所述第2值的区块信息的样本值b。此外,输入影像内具有第3值的区块信息的下级区块内像素可以分别映射表示所述第3值的区块信息的样本值c。此外,输入影像内具有第4值的区块信息的下级区块内像素可以分别映射表示所述第4值的区块信息的样本值d。此外,输入影像内具有第5值的区块信息的下级区块内像素可以分别映射表示所述第5值的区块信息的样本值e。此外,输入影像内具有第6值的区块信息的下级区块内像素可以分别映射表示所述第6值的区块信息的样本值f。此时,所述样本值a至f可以是彼此不同的特定是树脂,或者是0以上1以下的范围内的规范化的值。
在一实施例中,输入影像的区块边界映射以及区块分布映射可以通过分组而重建为一个区块映射分组。例如,区块边界映射以及区块分布映射中的至少一个可以以输入影像的做上端位置(即(0.0)位置)为基准按照特定比例S进行缩放(即缩小或放大),所述缩放的区块边界映射以及区块分布映射可以以通道单位彼此合并而重建为一个区块映射分组。此时,在将输入影像的大小定义为(B,C,H,W)(其中,B是指配置大小,C是指通道数量,W是指输入影像的水平长度,H是指输入影像的垂直长度)时,所述区块映射分组的大小可以是(B,C',HxS,WxS)(其中,C'是指区块边界映射的数量,S是指缩放因子(factor))。图12对在将与输入影像相关的一个区块边界映射以及一个区块分布映射按照通道单位进行分组之后缩小至1/2大小的一实例进行了图示。
在另一实施例中,输入影像的区块边界映射以及区块分布映射可以被合成/重建为单一区块信息映射。例如,通过对区块边界映射B1的各个样本值B1[x,y]以及与其对应的区块分布映射B2的各个样本值B2[x,y]进行加权和(例如B[x,y]=α·B1[x,y]-(1-α)·B2[x,y],0≤α≤1),可以获得单一区块信息映射B。接下来,为了说明的便利,将以基于区块边界映射以及区块分布映射重建区块映射分组的情况为中心对本公开的实施例进行说明。
从输入影像获得的区块映射分组,可以在对所述输入影像的基于神经网络的环路滤波过程中作为附加信息使用。即,通过将所述区块映射分组作为输入执行神经网络,可以执行对所述输入影像的基于神经网络的环路滤波。
接下来,对将所述区块映射分组输入到所述神经网络的方法进行具体的说明。
图13至图15是用于对将区块映射分组输入到神经网络的方法进行说明的示意图。
首先参阅图13,从输入影像获得的区块映射分组,可以以通道单位附加到通过对所述输入影像执行神经网络例如卷积神经网络(CNN,Convolutional Neural Networks)而提取出的第L个特征映射。所述第L个特征映射可以是指具有N个层的所述卷积神经网络(CNN)的第L个层的输出结果(其中0≤L≤M),所述输入影像可以被视为所述卷积神经网络(CNN)的第0个特征映射。所述卷积神经网络(CNN)可以基于如特定学习影像、所述学习影像的区块分割信息、预测信息和/或变换/量化信息等事先进行学习。此外,所述卷积神经网络(CNN)可以基于与输入影像相关的环路滤波结果进行追加学习。
通过将所述区块映射分组以通道单位附加到所述第L个特征映射,所述第L个特征映射的总通道数量可以增加与所述分区映射分组内的区块边界映射以及区块分布映射的总数量对应的数量。
接下来参阅图14,从输入影像获得的区块映射分组,可以在变换成1维矢量之后,以像素单位附加到所述输入影像的第L个特征映射。例如,所述区块映射分组可以通过非线性变换而变换成1维矢量。此时,所述1维矢量的元素数量可以等于所述第L个特征映射的通道数量。此外,通过将所述1维矢量的第x个元素以像素单位乘以所述第L个特征映射的第x个通道,可以重建所述第L个特征映射。
与图13中的情况不同,通过将所述区块映射分组以像素单位附加到所述第L个特征映射,可以维持所述第L个特征映射的总通道数量不变。
接下来参阅图15,从输入影像获得的区块映射分组,可以在缩放至特定大小之后,以通道单位附加到所述输入影像的第L个特征映射。例如,所述区块映射分组可以通过非线性变换而缩放成(B,C',H,W)大小。此时,所述缩放的区块映射分组的通道数量C'可以与所述区块映射分组内的区块边界映射以及区块分布映射的总数相同。此外,通过将所述缩放的区块映射分组附加到所述第L个特征映射,可以重建所述第L个特征映射。
与图13中的情况相同,通过将所述缩放的区块映射分组以通道单位附加到所述第L个特征映射,所述第L个特征映射的总通道数量可以增加与所述缩放的区块映射分组的总通道数量对应的数量。
接下来,将对根据本公开之实施例的环路滤波器模型进行详细的说明。
图16是对根据本公开之一实施例的环路滤波器模型的结构进行图示的示意图。图16中的环路滤波器模型1600,可以在图1的影像编码装置100或图2的影像解码装置200内实现。例如,影像编码装置100内的滤波器部180可以利用图16中的环路滤波器模型1600实现。例如,影像解码装置200内的滤波器部260可以利用图16中的环路滤波器模型1600实现。
参阅图16,环路滤波器模型1600可以包括影像特征提取部1610、区块信息特征提取部1620、特征提升部1630以及影像重建部1640。
在步骤1611、1612中,在影像特征提取部1610对输入影像进行前处理(pre-processing)之后,在步骤1613、1614中,可以通过对所述前处理的输入影像执行神经网络而提取出所述输入影像的特征(或特征映射)。所述神经网络,可以包括如卷积神经网络(CNN,Convolutional Neural Network)、循环神经网络(RNN,Recurrent Neural Network)或深度神经网络(DNN,Deep Neural Network)等。所述神经网络可以基于如特定学习影像、所述学习影像的区块分割信息、预测信息和/或变换/量化信息等事先进行学习。此外,所述神经网络可以基于与输入影像相关的环路滤波结果进行追加学习。
在步骤1611、1612中,影像特征提取部1610可以通过将输入影像按照不同的色彩成分进行分离而执行前处理动作。例如,影像特征提取部1610可以在将输入影像分离成亮度成分Y以及色差成分U、Y之后,对所述亮度成分Y执行第一前处理动作1611,并对所述色差成分U、V执行第二前处理动作1612。所述第一前处理动作1611,可以通过在对所述亮度成分Y适用利用3×3滤波器核心的卷积运算之后,对所述卷积运算结果按照特定比例进行向下采样的方式执行。此时,所述第一前处理动作1611的输入通道的数量可以是1,而输出通道的数量可以是64。此外,所述第二前处理动作1612可以通过对所述色差成分U、V适用利用3×3滤波器核心的卷积运算的方式执行。此时,所述第二前处理动作1612的输入通道的数量可以是2,而输出通道的数量可以是64。
影像特征提取部1610可以在步骤1613中将所述前处理的输入影像的亮度成分Y以及色差成分U、V彼此连接(concatenate),接下来在步骤1614中将所述连接结果作为输入执行神经网络,从而提取出所述输入影像的特征(或特征映射)。所述神经网络可以具有多个卷积层以及多个激活层交替重复的密集区块(dense block)结构。此时,所述卷积层可以包括配置在所述神经网络的输出端或中间的至少一个1×1卷积层。此外,所述激活层可以利用激活函数与之前的层(即卷积层)的输出结果相比赋予非线性特性。所述激活函数可以包括如修正线性单元(ReLU,Rectified Linear Unit)函数、双弯曲函数(sigmoid function)以及双曲正切(Tanh)函数等。
区块信息特征提取部1620可以在步骤1621中对输入影像的区块信息S进行前处理,接下来在步骤1622中将所述前处理的区块信息S作为输入执行神经网络,从而提取出所述区块信息S的特征(或特征映射)。
所述区块信息S可以包含所述输入影像内的各个下级区块所包含的特定特性值,如用于表示所述下级区块的分割程度的区块深度(block depth)、所述下级区块的预测模式(prediction mode)或变换模式(transform mode)。
在一实施例中,所述区块信息S可以包含与帧内预测相关的信息。例如,所述区块信息S可以包含与亮度成分相关的帧内预测模式、用于表示是否适用基于矩阵的帧内预测(MIP,matrix based intra prediction)的标记信息、用于表示是否执行基于多重参考线(MRL,multi-reference line)的帧内预测的信息、与色差成分相关的帧内预测模式和/或编码单元(CU)深度等。
在一实施例中,所述区块信息S可以包含与帧间预测相关的信息。例如,所述区块信息S可以包含帧间预测模式、当前区块与参考区块之间的距离(或图像序列号(POC)差异)、运动矢量、配置(CFG)信息和/或编码单元(CU)深度等。
所述区块信息S如参阅图8进行的上述说明,可以以特定单位(例如像素单位)映射所述输入影像内的各个下级区块,借此可以构成在上述内容中参阅图9至图11进行说明的区块边界映射以及区块分布映射。所述区块边界映射以及区块分布映射可以按照在上述内容中参阅图12进行说明的方式进行分组或重建为单一的区块信息映射,而且可以从所述分组/重建的区块边界映射以及区块分布映射提取出所述区块信息S的特征。此外,如上所述,所述神经网络包括如卷积神经网络(CNN)、循环神经网络(RNN)或深度神经网络(DNN)等,而且可以基于特定学习影像等事先进行学习或基于与输入影像相关的环路滤波结果进行追加学习。
此外,在一实施例中区块信息特征提取部1620可以在步骤1623中对所述前处理的区块信息S适用通道注意力(channel attention),接下来在步骤1622中执行所述神经网络,从而提取出所述区块信息S的特征(或特征映射)。所述通道注意力,可以是指用于在考虑到所述前处理的区块信息S的输出通道之间的依赖度的情况下向所述输出通道赋予差异化加权值,从而改善神经网络性能的过程。在一实例中,所述通道注意力可以以输入影像的量化参数(Quantization Parameter,QP)为基础执行。
特征提升部1630可以在步骤1633中将通过影像特征提取部1610提取出来的输入影像特征以及通过区块特征提取部1620提取出来的区块信息特征作为输入执行神经网络,从而提取出于所述输入影像相关的提升(enhanced)的特征(或特征映射)。此时,可以在步骤1631中将所述输入影像特征以及所述区块信息特征彼此连接,接下来在步骤1632中经过前处理过程并输入到所述神经网络。所述神经网络可以具有多个卷积层以及多个激活层交替重复的密集区块结构,而且为了获得进一步提升的输出结果(即特征),所述密集区块的数量可以被扩展至N个(其中,N为2以上的整数)。此外,如上所述,所述激活层可以利用如修正线性单元(ReLU)函数、双弯曲函数以及双曲正切(Tanh)函数等为之前的层的输出结果赋予非线性特性。
影像重建部1640可以将通过特征提升部1630输出的输入影像的提升的特征作为输入执行神经网络,从而对所述输入影像进行重建。此时,在步骤1641、1642中影像重建部1640可以将所述输入影像按照色彩成分进行分离并重建。例如,影像重建部1640可以将所述提升的特征作为输入执行第一重建动作1641,从而对所述输入影像的亮度成分Y进行重建。所述第一重建动作1641,可以通过在将所述提升的特征按照特定比例进行向上采样之后,对所述向上采样的结果适用利用3×3滤波器核心的卷积运算的方式执行。此时,所述第一重建动作1641的输入通道的数量可以是64,而输出通道的数量可以是1。此外,影像重建部1640可以将所述提升的特征作为输入执行第二重建动作1642,从而对所述输入影像的色差成分U、V进行重建。所述第二重建动作1642可以通过对所述提升的特征适用利用3×3滤波器核心的卷积运算的方式执行。此时,所述第二重建动作1642的输入通道的数量可以是64,而输出通道的数量可以是2。
如上所述,根据本公开之一实施例的环路滤波器模型1600,可以将输入影像的区块信息作为附加信息使用并对所述输入影像执行基于神经网络的影像重建,从而进一步提升所述输入影像的品质。
图17是对根据本公开之一实施例的影像编码/解码方法进行图示的流程图。
图17中的影像编码/解码方法,可以通过图1中的影像编码装置2或图2中的影像解码装置执行。例如,步骤S1710至S1740可以通过滤波器部180、260执行。
参阅图17,在步骤S1710中,影像编码/解码装置可以从输入影像获得第一影像特征。
在步骤S1720中,影像编码/解码装置可以从所述输入影像的区块信息获得所述输入影像的区块信息特征。此时,所述区块信息可以包含用于表示所述输入影像的区块分割结构的区块边界映射以及用于表示所述输入影像的编码信息的区块分布映射中的至少一个。此时,所述编码信息可以包含所述输入影像的预测信息(例如预测模式以及运动矢量等)以及变换信息(例如变换方法(DCT2、DCT-8或DST-7))中的至少一个。所述区块边界映射的一实例如在上述内容中参阅图9以及图10进行的说明,而所述区块分布映射的一实例如在上述内容中参阅图11进行的说明。
在一实施例中,所述区块边界映射以及所述区块分布映射可以通过分组而重建为区块映射分组。此外,所述区块信息特征可以从所述区块映射分组获得。
在另一实施例中,所述区块边界映射以及所述区块分布映射可以通过合并而重建为单一的区块信息映射。所述区块信息映射,可以通过对所述区块边界映射以及所述区块分布映射内的对应像素的样本值进行加权和的方式构成。此外,所述区块信息特征可以从所述区块信息映射获得。
此外,在一实施例中,所述第一影像特征,可以分别对所述输入影像的亮度成分以及色差成分单独获得。
在步骤S1730中,影像编码/解码装置可以以所述区块信息特征为基础,排除所述第一影像特征的噪声以及扭曲,从而获得第二影像特征。
在一实施例中,所述第二影像特征可以通过将所述区块信息特征附加到第一影像特征的方式获得。此时,所述区块信息特征如在上述内容中参阅图14进行的说明,可以在通过非线性变换而变换成1维矢量之后以像素单位附加到所述第一影像特征。或者,所述区块信息特征如在上述内容中参阅图15进行的说明,可以在通过非线性变换而变换成2维映射之后以通道单位附加到所述第一影像特征。
此外,在一实施例中,在步骤S1730之前,还可以包括对所述区块信息适用基于所述输入影像的量化参数的通道注意力的步骤。在如上所述的情况下,所述区块信息特征,可以从适用所述通道注意力的所述区块信息获得。
在步骤S1740中,影像编码/解码装置可以基于所述第二影像特征对所述输入影像进行重建。
如上所述,根据本公开的一实施例,可以通过从输入影像获得区块信息,通过将所述区块信息的特征附加到所述输入影像的特征而提取出进一步提升的影像特征,并通过基于所述所提取出的影像特征对所述输入影像进行重建而进一步改善所述输入影像的重建效率以及品质。
在上述图17中,对依次执行多个步骤的情况进行了记载,但这只是对本公开之技术思想进行的示例性说明。换言之,具有本公开所属技术领域之一般知识的人员,可以在不脱离本公开之本质特征的范围内,通过对图17中记载的顺序进行变更或并列执行所述多个步骤中的一部分等方式,对本发明进行多种修改以及变更。
此外,图17中图示的步骤可以通过计算机可读取的存储介质中的计算机可读取的代码实现。计算机可读取的存储介质,可以包括存储有可通过计算系统读取的数据的所有类型的存储装置。例如,计算机可读取的存储介质,可以包括如磁性存储介质(如只读存储器、软盘以及硬盘等)、光学存储介质(如紧凑型光盘(CD)以及高密度数字视频光盘(DVD))以及载波(如通过互联网的传送)等存储介质。此外,计算机可读取的存储介质可以通过利用网络连接的计算系统的分发方式存储和运行计算机可读取的代码。
图18是对包括根据本公开之一实施例的影像编码/解码装置的电子设备进行概要性图示的块图。
参阅图18,电子设备1800是包括如智能手机、平板电脑、个人计算机以及智能可穿戴设备等的整合性概念,可以包括显示器1810、存储器1820以及处理器1830。
显示器1810可以包括如有机发光二极管(OLED,Organic Light EmittingDiode)、液晶显示器(LCD,Liguid Crystal Display)以及等离子体显示面板(PDP,PlasmaDisplay Panel)等,可以在画面中显示出各种影像。此外,显示器1810还可以提供用户界面功能。例如,显示器1810可以提供使用者用于输入各种指令的手段。
存储器1820可以是对电子设备1800工作时所需要的数据或多媒体数据等的存储介质。存储器1820可以包括基于半导体元件的存储装置。例如,存储器可以包括如动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM,Synchronous DRAM)、双倍速率同步动态随机存取存储器(DDR SDRAM,Double Data Rate SDRAM)、低功耗双倍速率同步动态随机存取存储器(LPDDR SDRAM,Low Power Double Data Rate SDRAM)、图形双倍速率同步动态随机存取存储器(GDDR SDRAM,Graphics Double Data Rate SDRAM)、第2代双倍速率同步动态随机存取存储器(DDR2 SDRAM)、第3代双倍速率同步动态随机存取存储器(DDR3SDRAM)以及第4代双倍速率同步动态随机存取存储器(DDR4 SDRAM)等动态随机存取存储装置,或如相变随机存取存储器(PRAM,Phase change Random Access Memory)、磁性随机存取存储器(MRAM,Magnetic Random Access Memory)以及阻变随机存取存储器(RRAM,Resistive Random Access Memory)等电阻式存储装置。此外,存储器1820作为存储装置,还可以包括固态驱动器(SSD)、硬盘驱动器(HDD)以及光盘驱动器(ODD)中的至少一个。
处理器可以基于神经网络执行参阅图1至图17进行说明的影像编码/解码方法。具体来讲,处理器1830可以基于神经网络从输入影像获得第一影像特征。处理器1830可以基于神经网络从所述输入影像的区块信息获得所述输入影像的区块信息特征。处理器1830可以以所述区块信息特征为基础基于神经网络排除所述第一影像特征的噪声以及扭曲,从而获得第二影像特征。此外,处理器1830可以以所述第二影像特征为基础基于神经网络对所述输入影像进行重建。此时,所述区块信息可以包含用于表示所述输入影像的区块分割结构的区块边界映射以及用于表示所述输入影像的编码信息的区块分布映射中的至少一个。
处理器1830可以是如中央处理单元(CPU,Central Processing Unit)或微处理器单元(MCU)以及片上系统(SoC)等,可以通过总线1840与显示器1810和/或存储器1820进行各种数据交换。
本发明并不因为如上所述的实施例以及附图而受到限定,而是应该通过所附的权利要求书做出限定。因此,具有相关技术领域之一般知识的人员可以在不脱离权利要求书中所记载的本发明之技术思想的范围内进行各种形态的取代、变形以及变更,而这些也应该理解为包含于本发明的权利要求范围之内。
产业上的可利用性
根据本公开的实施例可以用于对影像进行编码/解码。

Claims (20)

1.一种影像解码方法,作为利用基于神经网络的环路滤波器的影像解码方法,包括:
从输入影像获得第一影像特征的步骤;
从所述输入影像的区块信息获得所述输入影像的区块信息特征的步骤;
以所述区块信息特征为基础,排除所述第一影像特征的噪声以及扭曲,从而获得第二影像特征的步骤;以及,
以所述第二影像特征为基础,对所述输入影像进行重建的步骤;
所述区块信息,包括用于表示所述输入影像的区块分割结构的区块边界映射以及用于表示所述输入影像的编码信息的区块分布映射中的至少一个。
2.根据权利要求1所述的影像解码方法,其中,
所述区块边界映射以及所述区块分布映射通过分组而重建为区块映射分组,
所述区块信息特征,是从所述区块映射分组获得。
3.根据权利要求1所述的影像解码方法,其中,
所述第二影像特征,通过将所述区块信息特征附加到所述第一影像特征的方式获得。
4.根据权利要求3所述的影像解码方法,其中,
所述区块信息特征,在通过非线性变换而变换成1维矢量之后,以像素单位附加到所述第一影像特征。
5.根据权利要求3所述的影像解码方法,其中,
所述区块信息特征,在通过非线性变换而变换成2维映射之后,以通道单位附加到所述第一影像特征。
6.根据权利要求1所述的影像解码方法,其中,
所述区块边界映射以及所述区块分布映射通过合并而重建为单一的区块信息映射,
所述区块信息特征,是从所述区块信息映射获得。
7.根据权利要求6所述的影像解码方法,其中,
所述区块信息映射,通过对所述区块边界映射以及所述区块分布映射内的对应像素的样本值进行加权和的方式构成。
8.根据权利要求1所述的影像解码方法,其中,
所述编码信息,包含所述输入影像的预测信息以及变换信息中的至少一个。
9.根据权利要求1所述的影像解码方法,其中,
所述第一影像特征,是分别对所述输入影像的亮度成分以及色差成分单独获得。
10.根据权利要求1所述的影像解码方法,还包括:
对所述区块信息适用基于所述输入影像的量化参数的通道注意力的步骤;
所述区块信息特征,是从适用所述通道注意力的所述区块信息获得。
11.一种影像编码方法,作为利用基于神经网络的环路滤波器的影像编码方法,包括:
从输入影像获得第一影像特征的步骤;
从所述输入影像的区块信息获得所述输入影像的区块信息特征的步骤;
以所述区块信息特征为基础,排除所述第一影像特征的噪声以及扭曲,从而获得第二影像特征的步骤;以及,
以所述第二影像特征为基础,对所述输入影像进行重建的步骤;
所述区块信息,包括用于表示所述输入影像的区块分割结构的区块边界映射以及用于表示所述输入影像的编码信息的区块分布映射中的至少一个。
12.根据权利要求11所述的影像编码方法,其中,
所述区块边界映射以及所述区块分布映射通过分组而重建为区块映射分组,
所述区块信息特征是从所述区块映射分组获得。
13.根据权利要求11所述的影像编码方法,其中,
所述第二影像特征,通过将所述区块信息特征附加到所述第一影像编码的方式获得。
14.根据权利要求13所述的影像编码方法,其中,
所述区块信息特征,在通过非线性变换而变换成1维矢量之后,以像素单位附加到所述第一影像特征。
15.根据权利要求13所述的影像编码方法,其中,
所述区块信息特征,在通过非线性变换而变换成2维映射之后,以通道单位附加到所述第一影像特征。
16.根据权利要求11所述的影像编码方法,其中,
所述区块边界映射以及所述区块分布映射通过合并而重建为单一的区块信息映射,
所述区块信息特征,是从所述区块信息映射获得。
17.根据权利要求16所述的影像编码方法,其中,
所述区块信息映射,通过对所述区块边界映射以及所述区块分布映射内的对应像素的样本值进行加权和的方式构成。
18.根据权利要求11所述的影像编码方法,其中,
所述第一影像特征,是分别对所述输入影像的亮度成分以及色差成分单独获得。
19.根据权利要求11所述的影像编码方法,其中,
对所述区块信息适用基于所述输入影像的量化参数的通道注意力的步骤;
所述区块信息特征,从适用所述通道注意力的所述区块信息获得。
20.一种计算机可读取的存储介质,作为对利用基于神经网络的环路滤波器的影像编码方法生成的比特流进行存储的计算机可读取的存储介质,
所述影像编码方法,包括:
从输入影像获得第一影像特征的步骤;
从所述输入影像的区块信息获得所述输入影像的区块信息特征的步骤;
以所述区块信息特征为基础,排除所述第一影像特征的噪声以及扭曲,从而获得第二影像特征的步骤;以及,
以所述第二影像特征为基础,对所述输入影像进行重建的步骤;
所述区块信息,包括用于表示所述输入影像的区块分割结构的区块边界映射以及用于表示所述输入影像的编码信息的区块分布映射中的至少一个。
CN202280053026.5A 2021-07-15 2022-07-07 利用基于神经网络的环路滤波器的影像编码/解码方法、装置以及对比特流的进行存储的存储介质 Pending CN117730536A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2021-0092720 2021-07-15
KR1020210092720A KR20230012218A (ko) 2021-07-15 2021-07-15 신경망 기반의 인-루프 필터를 이용한 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
PCT/KR2022/009818 WO2023287104A1 (ko) 2021-07-15 2022-07-07 신경망 기반의 인-루프 필터를 이용한 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체

Publications (1)

Publication Number Publication Date
CN117730536A true CN117730536A (zh) 2024-03-19

Family

ID=84920446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280053026.5A Pending CN117730536A (zh) 2021-07-15 2022-07-07 利用基于神经网络的环路滤波器的影像编码/解码方法、装置以及对比特流的进行存储的存储介质

Country Status (3)

Country Link
KR (1) KR20230012218A (zh)
CN (1) CN117730536A (zh)
WO (1) WO2023287104A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019009452A1 (ko) * 2017-07-06 2019-01-10 삼성전자 주식회사 영상을 부호화 또는 복호화하는 방법 및 장치
KR20200000548A (ko) * 2018-06-25 2020-01-03 에스케이텔레콤 주식회사 Cnn 기반의 영상 부호화 또는 복호화 장치 및 방법
US10863206B2 (en) * 2018-11-08 2020-12-08 Alibaba Group Holding Limited Content-weighted deep residual learning for video in-loop filtering
TWI735879B (zh) * 2019-05-16 2021-08-11 醫療財團法人徐元智先生醫藥基金會亞東紀念醫院 利用神經網路從鼾聲來預測睡眠呼吸中止之方法

Also Published As

Publication number Publication date
KR20230012218A (ko) 2023-01-26
WO2023287104A1 (ko) 2023-01-19

Similar Documents

Publication Publication Date Title
CN112088533B (zh) 图像编码/解码方法和装置以及存储比特流的记录介质
CN111164978B (zh) 用于对图像进行编码/解码的方法和设备以及用于存储比特流的记录介质
CN112385215A (zh) 图像编码/解码方法和装置以及存储比特流的记录介质
CN117156155A (zh) 图像编码/解码方法、存储介质和发送方法
CN112369022A (zh) 图像编码/解码方法和装置以及存储比特流的记录介质
CN116366843A (zh) 使用样点滤波的图像编码/解码方法和设备
CN110024399A (zh) 对图像编码/解码的方法和设备及存储比特流的记录介质
CN112740685A (zh) 图像编码/解码方法和装置以及存储有比特流的记录介质
CN111164974A (zh) 图像编码/解码方法和设备以及用于存储比特流的记录介质
CN113273188B (zh) 图像编码/解码方法和装置以及存储有比特流的记录介质
CN112771862A (zh) 通过使用边界处理对图像进行编码/解码的方法和设备以及用于存储比特流的记录介质
CN112740684A (zh) 用于对图像进行编码/解码的方法和装置以及用于存储比特流的记录介质
CN112585976A (zh) 用于对图像进行编码/解码的方法和设备以及用于存储比特流的记录介质
CN113574875A (zh) 基于帧内块复制的编/解码方法和装置及比特流存储介质
CN112438048A (zh) 用于对图像进行编码/解码的方法和设备以及存储比特流的记录介质
CN112673629A (zh) 视频编码/解码方法和装置以及用于存储比特流的记录介质
CN112740671A (zh) 图像编码/解码方法和装置以及存储比特流的记录介质
CN112740694A (zh) 用于对图像进行编码/解码的方法和设备以及用于存储比特流的记录介质
CN113940077A (zh) 用于视频编码/解码的虚拟边界信令方法和设备
CN113196758A (zh) 图像编码/解码方法和设备以及存储比特流的记录介质
CN113826393A (zh) 图像编码/解码方法和装置以及存储比特流的记录介质
CN113574868A (zh) 图像编码/解码方法和设备以及存储比特流的记录介质
CN113170104A (zh) 使用基于区域的帧间/帧内预测的编码/解码方法和设备
CN113875235A (zh) 图像编码/解码方法和装置及存储比特流的记录介质
CN113841399A (zh) 图像编码/解码方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication