CN111742553A - 用于视频压缩的基于深度学习的图像分区 - Google Patents

用于视频压缩的基于深度学习的图像分区 Download PDF

Info

Publication number
CN111742553A
CN111742553A CN201880080429.2A CN201880080429A CN111742553A CN 111742553 A CN111742553 A CN 111742553A CN 201880080429 A CN201880080429 A CN 201880080429A CN 111742553 A CN111742553 A CN 111742553A
Authority
CN
China
Prior art keywords
block
vector
neural network
convolutional neural
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880080429.2A
Other languages
English (en)
Inventor
F.莱林内克
F.加尔平
S.杰斯瓦尔
F.拉卡普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital VC Holdings Inc
Original Assignee
InterDigital VC Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP17306773.7A external-priority patent/EP3499890A1/en
Application filed by InterDigital VC Holdings Inc filed Critical InterDigital VC Holdings Inc
Publication of CN111742553A publication Critical patent/CN111742553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Abstract

通过使用由使用基于深度学习的图像分区获得的分区选取,使用若干种可能的分区操作中的一个或多个来分割视频数据的块。在至少一个实施例中,使用卷积神经网络在一个或多个分割操作中分割块。在另一个实施例中,卷积神经网络的输入来自沿块的因果边界的像素。在另一个实施例中,诸如空间上邻近块的中的分区的位置之类的边界信息由卷积神经网络使用。提供用于编码的方法,设备和信号的实施例。

Description

用于视频压缩的基于深度学习的图像分区
技术领域
本原理涉及视频压缩领域。
背景技术
在HEVC视频压缩标准(国际电信联盟,ITU-T H.265高效视频编码)中,画面被划分为所谓的编码树单元(CTU),其尺寸典型为64x64、128x128或256x256像素。
每个CTU由压缩域中的编码树表示。这是CTU的四叉树划分,其中每个叶片称为编码单元(CU),如图1所示。
然后,每个CU被给予一些帧内或帧间预测参数(预测信息)。为此,将其在空间上分区为一个或多个预测单元(PU),每个PU被分配一些预测信息。帧内或帧间编码模式在CU级别被分配,见图2。
根据在比特流中用信号通知的分区类型,完成将编码单元分区为预测单元。对于帧内编码单元,仅使用图3中例示的分区类型2Nx2N和NxN。这意味着在帧内编码单元中仅使用正方形预测单元。
相反,帧间编码单元可以使用图3所示的所有分区类型。
根据HEVC标准,在“变换树”之后,编码单元也以递归的方式被划分为所谓的变换单元。因此,变换树是编码单元的四叉树划分,并且变换单元是变换树的叶片。变换单元封装与考虑的正方形空间区域对应的每个画面分量的正方形变换块。变换块是单个分量中的样本的正方形块,其中,应用了相同的变换。
新兴的视频压缩工具包括压缩域中的编码树单元表示,其被提出以在压缩域中以更灵活的方式表示画面数据。编码树的这种灵活表示的优势在于,与HEVC标准的CU/PU/TU布置相比,它提供了增加的压缩效率。
四叉树加二叉树(QTBT)编码工具提供这种增加的灵活性。它在于其中编码单元可以以四叉树和二叉树的方式被分割的编码树。编码树单元的这种编码树表示在图4中例示。块上的QTBT表示在图5中例示。
通过率失真优化过程在编码器侧决定编码单元的分割,率失真优化过程在于以最小的率失真成本确定CTU的QTBT表示。
在QTBT技术中,CU具有正方形或矩形形状。编码单元的尺寸总是是2的幂,典型从4到256。
除了用于编码单元的各种矩形形状之外,与HEVC相比,这种新的CTU表示具有以下不同的特性。
首先,CTU的QTBT分解由两个阶段组成:首先以四叉树的方式分割CTU,然后可以以二元的方式进一步划分每个四叉树叶片。这在图4的右侧被例示,其中,实线表示四叉树分解阶段,并且虚线表示在空间上被嵌入四叉树叶片的二元分解。
其次,在帧内条带中,亮度和色度块分区结构被分开,并且被独立决定。
接下来,不再采用CU分区成预测单元或变换单元。换句话说,每个编码单元系统地由单个预测单元(以前是2Nx2N预测单元分区类型)和单个变换单元(不划分成变换树)组成。
然而,QTBT技术需要进一步改进的压缩效率。
发明内容
由描述的实施例中的至少一个解决现有技术的这些和其他缺点和不利,这些实施例针对用于编码或解码视频数据的块的方法和设备。在至少一个实施例中,提出使用卷积神经网络来生成分割分区概率的矢量。
根据本文描述的至少一个一般实施例,提供用于编码视频数据的块的方法。该方法包括使用卷积神经网络从包括像素的图像数据的块和附加像素中生成分割概率的矢量;使用所述分割概率的矢量将所述图像数据的块分区为一个或多个较小的块;以及,编码所述一个或多个较小的块。
根据本文描述的另一一般实施例,提供用于编码视频数据的块的设备。所述设备包括存储器和处理器,配置以使用卷积神经网络从包括像素的图像数据的块和附加像素中生成分割概率的矢量;使用所述分割概率的矢量将所述图像数据的块分区为一个或多个较小的分区;以及,编码所述一个或多个较小的分区。
根据本文描述的另一方面,提供非暂时性计算机可读介质,其包含根据描述的方法实施例的任何一个的方法或由描述的设备实施例的任何一个的设备生成的数据内容,用于使用处理器的回放。。
根据本文描述的另一方面,提供一种信号,其包括所描述的根据用于编码视频数据的块的方法实施例的任何一个的方法或由所描述的用于编码视频数据的块的设备实施例的任何一个的设备生成的视频数据,用于使用处理器的回放。
根据本文描述的另一方面,提供一种包括指令的计算机程序产品,该程序由计算机执行时,使计算机实施描述的方法实施例的任何一个的方法。
从以下要结合附图阅读的示例性实施例的详细描述,本原理的这些和其他方面,特征和优点将变得明显。
附图说明
图1例示表示压缩画面的编码树单元和编码树概念的一个示例。
图2例示将编码树单元划分为编码单元、预测单元和变换单元的示例。
图3例示编码单元的分区的示例。
图4例示示例四叉树加二叉树编码树单元表示。
图5例示编码块上的四叉树加二叉树表示的一个实施例。
图6例示块的三重模式分割。
图7例示用于处理块不均匀性的块的不同分割。
图8例示本文描述的视频编码方案中支持的所有编码单元分割模式的集合。
图9例示标准通用视频压缩方案。
图10例示用于训练CNN(卷积神经网络)的实施例。
图11例示CNN的输入。
图12例示边界信息作为辅助输入通道。
图13例示CNN的经典设计。
图14例示邻域分割输入。
图15例示邻域分割作为矢量。
图16例示邻域分割输入作为残差。
图17例示减少的邻域分割信息。
图18例示边界的结果矢量。
图19例示四叉树(QT)分割矢量。
图20例示四叉树(QT)、二元垂直(BV)、二元水平(BH)分割矢量构造。
图21例示四叉树(QT)、二元垂直(BV)、二元水平(BH)、不对称二元顶部(BT)、不对称二元底部(BB)、不对称二元左侧(BL)和不对称二元右侧(BR)分割矢量构造。
图22例示用于QTBT策略的分量加权的示例。
图23例示使用描述的方面的方法的一个实施例。
图24例示使用描述的方面的设备的一个实施例。
图25例示使用描述的方面的设备的一个实施例。
具体实施方式
描述一种用于编码单元中的变换系数的改进的熵编码效率的途径,以提供良好的压缩和编码器设计复杂性的最小增加。
为了清楚,在本说明书中,“划分”,“分段”和“分割”都意味着相同的意思,其是对像素的块进行直线划分的动作。类似地,“分割”和“划分”意味着相同的意思,作为块或子块的划分、分割或分段的结果的像素分组。
在HEVC视频压缩标准中,将画面分为所谓的编码树单元(CTU),其典型尺寸为64x64、128x128或256x256像素。
每个CTU由压缩域中的编码树表示。这是CTU的四叉树划分,其中每个叶片称为编码单元(CU),见图1。
然后,每个CU被给予一些帧内或帧间预测参数(预测信息)。为此,其在空间上被分区为一个或多个预测单元(PU),每个PU被分配一些预测信息。帧内或帧间编码模式在CU级别被分配,见图2。
根据在比特流中用信号通知的分区类型,完成编码单元分区为预测单元。对于帧内编码单元,HEVC中仅使用图3例示的分区类型2Nx2N和NxN。这意味着在帧内编码单元中仅使用正方形预测单元。
相反,帧间编码单元可以使用图3所示的所有分区类型。
根据HEVC标准,在“变换树”之后,编码单元也以递归的方式被划分为所谓的变换单元。因此,变换树是编码单元的四叉树划分,并且变换单元是变换树的叶片。变换单元封装与考虑的正方形空间区域对应的每个画面分量的正方形变换块。变换块是单个分量中的样本的正方形块,其中,应用了相同的变换。
新兴的视频压缩工具包括压缩域中的编码树单元表示,以在压缩域中以更灵活的方式表示画面数据。编码树的这种灵活表示的优势在于,与HEVC标准的CU/PU/TU布置相比,它提供了增加的压缩效率。
四叉树加二叉树(QTBT)编码工具提供这种增加的灵活性。其在于在其中编码单元可以以四叉树(4个子单元)和二叉树(2个子单元)两种方式分割的编码树。图4例示编码树单元的这种编码树表示。
通过率失真优化过程在编码器侧决定编码单元的分割,率失真优化过程在于以最小率失真成本确定CTU的QTBT表示。
在QTBT技术中,CU具有正方形或矩形形状。编码单元的尺寸通常为2的幂,典型从4到256。
除了用于编码单元的各种矩形形状之外,与HEVC相比,该新CTU表示具有以下不同的特性。
首先,CTU的QTBT分解由两个阶段组成:首先以四叉树的方式分割CTU,然后可以以二元的方式进一步划分每个四叉树叶片。这在图4的右侧被例示,其中,实线表示四叉树分解阶段,并且虚线表示在空间上被嵌入四叉树叶片的二元分解。
接下来,在帧内条带中,亮度和色度块分区结构被分开,并且被独立决定。
此外,不再采用CU分区成预测单元或变换单元。换句话说,每个编码单元系统地由单个预测单元(以前是2Nx2N预测单元分区类型)和单个变换单元(不分区成变换树)组成。
描述的实施例关注压缩中的画面编码单元表示的域,并且目的是进一步改进的压缩效率。
三叉树或三叉分割是将编码单元或子单元分割为三个部分。优点之一是所有子块可以是2的幂。主要缺点是,即使仅两个是必要的,例如,当对象的边界靠近边界通过时(见图7,三叉分割与非对称分割),不提供优化地选取块的分割的多少灵活性,因为其强制三个子块。
编码单元分割模式,称为水平或垂直三叉树分割模式,在于将编码单元(CU)划分为3个子编码单元(子CU),其在考虑的空间划分的方向上各自尺寸等于父CU尺寸的1/4,1/2和1/4。这在图6中例示。图8示出本文描述的视频编码方案中支持的所有编码单元分割模式的集合。
由描述的实施例中的至少一个解决的问题是如何改进和/或加速在编码器处执行的率失真优化(RDO),这与由编码器做出的决定对应,以选择标准的最佳工具,从而压缩给定的块,宏块或编码树单元(CTU)。代替检查每个块级别的比特率/失真以找到最佳分区,CNN(卷积神经网络)网络提供每种可能划分成较小块的类型的机率分数。该分数的计算非常快,因为它可以高度并行化,并且比经典RDO操作复杂性低。
这些实施例被并入视频的压缩的框架中,特别是在编码阶段,其中,做出决定以将给定输入视频序列的图像划分为块。从H.264/MPEG4-AVC开始,混合编解码器已将图像划分为不同尺寸的块,以使其压缩工具适应纹理和对象。在H.265/HEVC中,例如,图像首先被划分为64x64个非重叠的编码树单元(CTU),其然后潜在被分割为多个较小的编码单元(CU),直至8x8像素。尽管该标准仅规定用信号通知这些CU的尺寸的语法,但取决于其压缩不同区域的能力,编码器仍要求高效的方式来选取和优化图像上的尺寸。该处理被包括在所谓的率失真优化(RDO)中,该率失真优化目的是找到重构的区域的目标质量和传输所要求的比特之间的最佳折衷。基本上,如果CTU包含被良好预测和重构的信号,则无需将其分割为会导致更多语法的小块。但是,当高度细节的纹理难以编码并且导致残差具有高能量时,将其分割成小块是有意义的,因为与残差的成本降低相比,语法的代价是值得的。然后完全RDO在于评估CTU的每个可能的块分区,这非常复杂。参考软件编码器使用完全RDO的子集,仅考虑CTU中的固定因果部分,并添加一些试探法,但组合性仍然很高。
经典编码器从评估较大的块开始,并且在每个级别上决定将其分割为较小的块。在本文描述的提出的实施例中,深度学习用于预测何时将给定块分割成较小的块以及如何这样做。
为了以可接受的复杂性执行RDO,现有编解码器中已实现若干种方法。
首先,将搜索分割为两遍:第一遍执行几乎所有的预测模式和分割选项,但是使用快速方法评估潜在残差的能量。然后,固定分区,并且第二遍精确评估选择的最佳模式,转换或其他工具的子集的成本。
另外,例如通过考虑先前编码的邻近区域的分区,试探法可以用于避免不太可能的分区。
本文提出的方法使得能够快得多地选择分区,同时保持出色的驱动精度。
涉及用于RDO加速的基于CNN的方法的现有快速编码方法具有若干个限制。在该方法中,在HEVC的框架内,使用卷积网络来决定是否分割给定的块。
但是,CNN的输出是值的二元组,其给出有关是否将当前块分割为4个较小的四叉树块的概率的信息。本文描述的实施例使得能够考虑多种类型的分割:例如,四叉树,二叉树,如下面详述。
并且,首先通过平均化将8x8到32x32的所有块采样为8x8矩阵,以提供8x8矩阵作为对CNN的输入。尽管这清楚地示出在实现方式方面的优势,即,对于所有块尺寸的唯一的CNN,但是其降低了区分分区树的每个级别的边界的效率方面的性能。
提出的实施例的基本构思是使用CNN来改进现有和未来编解码器的编码器侧的率失真优化。具体地,该技术允许系统计算对图像分区在准确性和速度方面的更好决定。
描述的实施例提供考虑初始块的属性的方法,诸如例如HEVC中的CTU,并且提供将它们分割成较小形状的概率。
这些方法目的是引导编码器决定,并且因此适用于编码器和改进编码决定。这与图9的一个元素没有直接关系,由于该图描绘给定编码单元的处理。但是,其使得能够对编码树单元分区,同时避免用于一些潜在块的若干率失真检查及其相应的复杂性,以产生图9所示的整个处理。
本解决方案的描述基于由联合视频探索小组(JVET)设计的参考软件的示例性版本,以设计用于视频编码的下一个MPEG/ITU标准,当前已知为H.266。
在该框架中,像HEVC中一样,图像被划分为非重叠编码树单元(CTU)。然后,CTU与可以考虑用于编码给定区域的最大块对应。在当前版本中,CTU是尺寸256X256像素。然后,当纹理难以在整个CTU的表面上被预测和编码时,可以考虑使用较小的块。这允许选取适合纹理的按块的不同预测/变换/编码工具。这以传输更多语法元素来描述那些选取和块形状为代价。因此,执行率失真优化以关于给定质量和/或比特率目标选择最佳模式和最佳分区。在预测和变换后的残差成本和描述编码工具的语法元素的成本之间需要找到平衡。细节区域上的块越大,残差的能量越大。另一方面,块越小,语法元素成本越高。
在HEVC中,块分区的结构遵循四叉树。因此,对于每个树深度,编码器可以决定是直接编码当前块还是将其划分为四个子块。这典型通过评估以其当前尺寸编码该块的成本并将其与子块的4个成本之和比较来完成。如果对于给定质量,花费较少的比特来传输较小块的语法,则编码器将继续评估编码树中下一个深度级别。这要求对于所有块尺寸尝试不同的预测模式和变换以及标准的其他工具,直到编码器达到最小化成本的块尺寸为止,因此,与解码器相比,编码器的复杂性很高。
在H.266编码器的情况下,由于多种原因复杂性甚至更高:
-块尺寸范围达256X256
-考虑不同的块形状:正方形和矩形块
-更多预测工具
-更多变换
当描述的实施例针对块形状的选取的改进时,以下段落将集中于以上的前两个原因。
这些实施例提出使用基于卷积神经网络CNN的方法来加速决定是否分割块的处理。该处理的几个输出决定出现:
-不分割:以其当前尺寸和形状编码块
-分割(四元/二元…):执行选取的分割并在下一个深度级别继续编码。
-没有动作:让编码器以经典方式执行成本评估并做出决定。
接下来的部分详述CNN架构,其输入/输出,其如何被训练以及如何由编码器使用以处理分区树决定。
图10描绘训练CNN的参数的框架。
首先,收集补丁210(CTU和其他信息)的大的数据集以建立训练集合。CTU聚集在原始序列内。当CTU位于图像的边界时,L形的缺失像素被分配信号中值,例如,8比特序列的128或者对于10比特序列的512。这与编解码器内对于帧内预测完成什么对应。因此,由于利用与经典RDO相似的输入训练,所以CNN在分割概率上将更加精确。经典地编码CTU以推导将由实际编码器220选取的边界的基础真实矢量。并行地,CNN使用其当前参数来提供分区270的预测矢量。
使用损失函数240比较矢量。例如,均方误差用于评估矢量。然后,该损失用于通过优化处理260推导/调整CNN的新参数。
一旦在很大的图像的集合上训练CNN并且其参数被设置,CNN可以由编码器直接使用。
与现有解决方案相反,CNN的输入是像素的块或补丁,其与整个CTU加上与CTU邻近的因果L形像素对应,如图11所示。例如,利用尺寸64x64的CTU,则输入补丁是尺寸(64+N)x(64+N),其中,N是因果边界的尺寸。实际上,我们选择取N=1。添加边界的原因是编码器本身使用该因果边界来执行块的预测。
在第一实施例中,因果边界来自原始帧。在这种情况下,一个优点是每个CTU的CNN处理可以并行完成,因为其仅使用原始帧。
在第二实施例中,因果边界来自解码的邻域。在这种情况下,一个优点是CNN使用与编码器相同的输入用于预测,因此更加精确。然而,在该实施例中,每个CTU的处理不能被并行完成,因为其使用解码的帧。
在HEVC或H266中,顶部和左侧邻域的分割对当前CTU的分割的编码成本有一定影响。例如,在HEVC中,在树的每个级别处的分割标志基于取决于邻域的分割深度的上下文熵编码。
为了在CNN中考虑该信息,可以添加辅助通道(输入的主要通道是纹理和因果边界)。
在图12中,我们示出其中邻域分割的一部分作为辅助通道输入的示例。
在图13中,我们示出卷积神经网络(CNN)的一般设计,其中第一部分A由卷积层组成,并且部分B由完全连接(FC)层组成,这将部分A的输出的维度减少为输出的维度。
注意,部分A可以包含其他类型的层(MaxPool,Addition等),并且部分B可以包含其他维度减小层(MaxPool等)。MaxPool从前一层的每个神经元簇中获取最大值。
在图14中,示出输入邻域的信息的另一方式。网络的第一部分保持不变(类似于部分A),表示顶部和左侧邻域的矢量被级联(层C)到部分A的输出(矢量表示在后面的部分中解释)。然后,其余部分类似于部分B,使用FC层或其他类型的层的维度减小。
在图15中,我们示出邻域的分割如何转换成图14中网络的层C中使用的信息矢量。矢量构造类似于输出的矢量构造。
图16示出替代设计,其中部分A和邻域分割的级联输出在维度减小后产生“残差”矢量,将其添加到仅使用纹理信息找到的原始矢量中。
作为替代,表示邻域分割的矢量可以是减小的维度。例如,表示64x64 CU分割的全矢量是维度480,如稍后解释。但是,仅使用靠近当前CU的边界的分割信息将分量减小到仅15个(见图17)。
由于分割结果在很大程度上取决于目标QP,可以由QP或每n QP训练网络。另一种方法是输入QP作为输入通道。在这种情况下,在输入之前将量化比例在0和1之间归一化。注意,也允许由子块设置QP。
在另一个实施例中,在卷积部分之后,即在完全连接的部分中,输入块的QP。归一化后,只是添加的分量到卷积部分的矢量结果(见图25)。
在另一个实施例中,CNN的输入采用若干个分量通道,例如以推导色度分量的分割树,输入U分量和V分量二者。在另一个实施例中,当亮度和色度共用相同树时,输入所有三个分量。
在另一个实施例中,CNN不在图像的每个块上运行。例如,对于帧间模式条带,仅当考虑帧内模式时才运行CNN。
CNN的输出与其中每个值表示给定CTU中的一个可能边界的矢量对应。在H.266中,最小块尺寸为4x4,只有4x4网格上的像素边界可以考虑用于块分割。因此,对于每个潜在边界,CNN输出用于其的机率,以与两个块之间的实际边界对应。例如,对于CTU尺寸为64x64的情况,考虑尺寸480x1的矢量。图18描绘CTU中的潜在的4个像素长的边界(310)与它们在输出矢量(320)中的对应值之间的示例性映射。每个边界,例如边界#0(330),被分配可以以预定顺序的索引。在所示的示例中,CTU为尺寸64x64,这导致480个值的矢量。更一般而言,矢量的尺寸将是S=2*N*(N-1),其中N=W/w,其中W是以像素为单位的CTU尺寸(例如W=64),并且w是子块尺寸(例如w=4)。
由于学习网络的完全分割配置可能很困难,系统可以在考虑分割的递归评估的情况下学习分割的子集合。
这里的示例示出仅对于不同的分割策略学习分割的第一级别。
图19示出这样的示例,其中仅学习树的一个级别,并且仅该级别的策略是四叉树分割,类似于HEVC分割策略。在这种情况下,要学习的分割矢量减少为仅1个分量。
图20示出如何使用四叉树(QT)和二叉树(BT)策略构造表示一个分割深度的分割矢量。
图21示出如何使用四叉树(QT)和二叉树(BT)和ABT(非对称二叉树)策略构造表示一个分割深度的分割矢量。
仅学习一个级别的分割的替代是,在训练阶段期间更加重视第一级别的分割的预测。对于该替代,可以保留全分割矢量,但是损失函数被轻微修改,以说明分割预测对级别的依赖性的重要性:
Figure BDA0002536672330000111
其中Si是分割矢量的分量的基础真实值,
Figure BDA0002536672330000112
是相同分量的预测,ωi是预测的权重。例如,可以将与图21中的边界对应的权重设置为α(α>1),而其他分量保持1的权重。
图22示出这样的示例,其中与QTBT分割策略的第一级对应的边界具有2的权重,而其他分量保持1的权重。
提出的方法的一个优点是,它们可以加快编码器确定块的分区的决定时间。
已经关于编码器或编码操作描述前述实施例。解码器将以使用描述的与利用RDO处理生成的分割相同的方式的实施例或任何其他类型的分割实施例,简单地解释在编码器处生成的分割。
图23示出用于编码视频数据的块的方法2300的一个实施例。该方法开始于开始块2301,并且进行到块2310,用于使用图像的像素生成图像数据的块的分割概率的矢量。控制从块2310进行至块2320,用于使用分割概率的矢量来分区块。控制从块2320进行到块2330,用于编码块的一个或多个较小的块。
图24示出用于编码或解码视频数据块的设备2400的一个实施例。该设备包括处理器2410,其具有输入和输出端口,并且与也具有输入和输出端口的存储器2420处于信号连通。该设备可以执行前述方法实施例或其任何变型。
可以使用专用硬件以及能够与适当的软件相关联地执行软件的硬件来提供附图中所示的各种元件的功能。当由处理器提供时,功能可以由单个专用处理器,由单个共用处理器或由多个单独的处理器(其中一些可以共用)提供。此外,术语“处理器”或“控制器”的明确使用不应解释为专门指代能够执行软件的硬件,而可以隐含包括但不限于数字信号处理器(“DSP”)硬件,用于存储软件的只读存储器(“ROM”),随机存取存储器(“RAM”)和非易失性存储器。
也可以包括其他常规和/或定制的硬件。类似地,图中所示的任何开关仅是概念上的。它们的功能可以通过程序逻辑的操作,通过专用逻辑,通过程序控制和专用逻辑的交互,甚至手动来实施,具体技术可由实现者选择,如从上下文中更具体地理解。
本说明书例示本构思。因此,将认识到,本领域技术人员将能够设想尽管未在本文中明确描述或示出但体现本构思并且包括在其范围内的各种布置。
本文叙述的所有示例和条件语言旨在用于教学目的,以帮助读者理解(多个)发明人为促进本领域贡献的本原理和概念,并且要被解释为不限于这种具体叙述的示例和条件。
此外,本文中叙述本原理的原理,方面和实施例及其特定示例的所有陈述旨在涵盖其结构和功能上的等同物。另外,意图是这样的等同物包括当前已知的等同物以及将来开发的等同物二者,即,开发的执行相同功能的任何元件,而与结构无关。
因此,例如,本领域技术人员将认识到,本文呈现的块图表示体现本原理的例示性电路的概念图。类似地,将认识到,任何流程图表,流程图,状态转变图,伪代码等表示可以实质上在计算机可读介质中表示并因此由计算机或处理器执行的各种处理,无论这种计算机或处理器是否明确示出。
在本文的权利要求中,表达为用于执行特定功能的装置的任何部件旨在涵盖执行该功能的任何方式,包括例如a)执行该功能的电路元件的组合或b)任何形式的软件,因此,包括与用于执行该软件以执行功能的适当电路组合的固件,微代码等。由这种权利要求定义的本原理在于以下事实:由各种叙述的部件提供的功能以权利要求书要求的方式被组合在一起。因此可以提供那些功能的任何部件都视为等同于本文所示的那些。
在说明书中对本原理的“一个实施例”或“实施例”以及其其他变型的引用意味着结合该实施例描述的特定特征,结构,特性等至少包括在本原理的至少一个实施例。因此,在整个说明书的各个地方出现的短语“在一个实施例中”或“在实施例中”以及任何其他变型的出现不一定都指的是相同实施例。

Claims (15)

1.一种方法,包括:
使用卷积神经网络从包括像素的图像数据的块以及附加像素中生成分割概率的矢量;
使用所述分割概率的矢量将所述图像数据的块分区为一个或多个较小的块;以及,
编码所述一个或多个较小的块。
2.一种用于编码视频数据的块的设备,包括:
存储器,以及
处理器,配置为:
使用卷积神经网络从包括像素的图像数据的块以及附加像素中生成分割概率的矢量;
使用所述分割概率的矢量将所述图像数据的块分区为一个或多个较小的块;以及,
编码所述一个或多个较小的块。
3.根据权利要求1所述的方法或根据权利要求2所述的设备,其中,所述附加像素包括与所述图像数据的块相邻并且来自相同图像的因果像素。
4.根据权利要求1所述的方法或根据权利要求2所述的设备,其中,所述附加像素包括与所述图像数据的块相邻并且来自重构的图像的因果像素。
5.根据权利要求1所述的方法或根据权利要求2所述的设备,其中,所述卷积神经网络包括卷积层和完全连接层。
6.根据权利要求1所述的方法或根据权利要求2所述的设备,其中,将与空间邻近块有关的信息级联到所述卷积神经网络的其他输入。
7.根据权利要求1所述的方法或根据权利要求2所述的设备,其中,所述卷积神经网络用于维度减小。
8.根据权利要求1所述的方法或根据权利要求2所述的设备,其中,所述卷积神经网络使用来自邻近块的分区边界的位置。
9.根据权利要求5所述的方法或设备,其中,所述邻近块位于当前块的上方和左侧。
10.根据权利要求5所述的方法或设备,其中,与来自邻近块的所述分区边界有关的信息被包含在矢量中。
11.根据权利要求5所述的方法或设备,其中,将卷积层的输出与邻近块信息级联,以产生维度减小之后被添加到纹理矢量的残差。
12.根据权利要求5所述的方法或设备,其中,表示邻近块分区边界信息的矢量在维度上被减小,以用于所述卷积神经网络,
将块的QP作为级联添加到完全连接部分之前。
13.一种非暂时性计算机可读介质,其包含根据权利要求1和3至12中任一项所述的方法或由权利要求2和3至12中任一项所述的设备生成的数据内容,用于使用处理器进行的回放。
14.一种信号,其包括根据权利要求1和3至12中任一项所述的方法或由权利要求2和3至12中任一项所述的设备生成的视频数据,用于使用处理器进行的回放。
15.一种包括指令的计算机程序产品,在程序由计算机执行时,使计算机解码根据权利要求1和3至12中任一项所述的方法或由权利要求2和3至12中任一项所述的设备生成的流。
CN201880080429.2A 2017-12-14 2018-12-12 用于视频压缩的基于深度学习的图像分区 Pending CN111742553A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
EP17306773.7 2017-12-14
EP17306773.7A EP3499890A1 (en) 2017-12-14 2017-12-14 Deep learning based image partitioning for video compression
EP18305070.7 2018-01-26
EP18305070 2018-01-26
EP18305069 2018-01-26
EP18305069.9 2018-01-26
PCT/US2018/065079 WO2019118539A1 (en) 2017-12-14 2018-12-12 Deep learning based image partitioning for video compression

Publications (1)

Publication Number Publication Date
CN111742553A true CN111742553A (zh) 2020-10-02

Family

ID=65199572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880080429.2A Pending CN111742553A (zh) 2017-12-14 2018-12-12 用于视频压缩的基于深度学习的图像分区

Country Status (4)

Country Link
US (1) US20200344474A1 (zh)
EP (1) EP3725077A1 (zh)
CN (1) CN111742553A (zh)
WO (1) WO2019118539A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3942475A1 (en) * 2019-03-21 2022-01-26 Google LLC Using rate distortion cost as a loss function for deep learning
US11388401B2 (en) * 2020-06-26 2022-07-12 Google Llc Extended transform partitions for video compression
US20230119972A1 (en) * 2021-10-01 2023-04-20 Mediatek Inc. Methods and Apparatuses of High Throughput Video Encoder
CN114513660B (zh) * 2022-04-19 2022-09-06 宁波康达凯能医疗科技有限公司 一种基于卷积神经网络的帧间图像模式决策方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015006884A1 (en) * 2013-07-19 2015-01-22 Qualcomm Incorporated 3d video coding with partition-based depth inter coding
WO2015200820A1 (en) * 2014-06-26 2015-12-30 Huawei Technologies Co., Ltd. Method and device for providing depth based block partitioning in high efficiency video coding
US20160174902A1 (en) * 2013-10-17 2016-06-23 Siemens Aktiengesellschaft Method and System for Anatomical Object Detection Using Marginal Space Deep Neural Networks
CN106162167A (zh) * 2015-03-26 2016-11-23 中国科学院深圳先进技术研究院 基于学习的高效视频编码方法
CN107197260A (zh) * 2017-06-12 2017-09-22 清华大学深圳研究生院 基于卷积神经网络的视频编码后置滤波方法
US20170280144A1 (en) * 2014-11-14 2017-09-28 Huawei Technologies Co., Ltd. Systems and Methods for Processing a Digital Image

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515193B1 (en) * 2011-04-08 2013-08-20 Google Inc. Image compression using exemplar dictionary based on hierarchical clustering
US10694204B2 (en) * 2016-05-06 2020-06-23 Vid Scale, Inc. Systems and methods for motion compensated residual prediction
KR101974261B1 (ko) * 2016-06-24 2019-04-30 한국과학기술원 Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치
WO2019009449A1 (ko) * 2017-07-06 2019-01-10 삼성전자 주식회사 영상을 부호화/복호화 하는 방법 및 그 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015006884A1 (en) * 2013-07-19 2015-01-22 Qualcomm Incorporated 3d video coding with partition-based depth inter coding
US20160174902A1 (en) * 2013-10-17 2016-06-23 Siemens Aktiengesellschaft Method and System for Anatomical Object Detection Using Marginal Space Deep Neural Networks
WO2015200820A1 (en) * 2014-06-26 2015-12-30 Huawei Technologies Co., Ltd. Method and device for providing depth based block partitioning in high efficiency video coding
US20170280144A1 (en) * 2014-11-14 2017-09-28 Huawei Technologies Co., Ltd. Systems and Methods for Processing a Digital Image
CN106162167A (zh) * 2015-03-26 2016-11-23 中国科学院深圳先进技术研究院 基于学习的高效视频编码方法
CN107197260A (zh) * 2017-06-12 2017-09-22 清华大学深圳研究生院 基于卷积神经网络的视频编码后置滤波方法

Also Published As

Publication number Publication date
EP3725077A1 (en) 2020-10-21
WO2019118539A1 (en) 2019-06-20
US20200344474A1 (en) 2020-10-29

Similar Documents

Publication Publication Date Title
US11128864B2 (en) Deep learning based imaged partitioning for video compression
US11265540B2 (en) Apparatus and method for applying artificial neural network to image encoding or decoding
KR100995226B1 (ko) 화상 부호화 장치, 화상 복호 장치, 화상 부호화 방법, 화상 복호 방법, 화상 부호화 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체, 화상 복호 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
KR101088972B1 (ko) 화상 부호화 장치 및 방법
US11350125B2 (en) Method and device for intra-prediction
CN111742553A (zh) 用于视频压缩的基于深度学习的图像分区
US11412220B2 (en) Texture-based partitioning decisions for video compression
US11962803B2 (en) Method and device for intra-prediction
KR101718969B1 (ko) Hevc 인트라 예측의 속도 향상을 위한 블록 사이즈 후보 조기 결정 방법
EP3499891A1 (en) Texture-based partitioning decisions for video compression
CN111052741A (zh) 基于有效传送的差分量化参数的影像编码/解码方法及装置
KR20220007541A (ko) 신경망 기반 부호화 정보 결정 방법
EP3499890A1 (en) Deep learning based image partitioning for video compression
CN108432247B (zh) 用于预测残差信号的方法和装置
JP7147145B2 (ja) 動画像符号化装置、動画像符号化方法、及び動画像符号化プログラム
KR20170103401A (ko) 영상 부호화 장치의 부호화 방법
KR20230147149A (ko) 인트라 예측 방법, 인코더, 디코더 및 저장 매체
KR20210013916A (ko) 영상 압축을 위한 고속 영상 부호화 방법 및 그 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination