CN108353193B

CN108353193B - 基于多个基于图的模型处理视频数据的方法和设备

Info

Publication number: CN108353193B
Application number: CN201680048639.4A
Authority: CN
Inventors: 赫尔米·E·埃吉尔麦斯; 亚娜·埃曼; 奥努尔·G·居莱尔于兹
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2015-08-19
Filing date: 2016-08-19
Publication date: 2022-07-15
Anticipated expiration: 2036-08-19
Also published as: EP3340632A4; US20200288129A1; KR20180031710A; WO2017030418A1; US11394972B2; CN108353193A; EP3340632A1; KR102605285B1; EP3340632B1; US20220303537A1

Abstract

关于处理视频数据的方法的本发明提供一种处理视频数据的方法，提供一种方法，其特征在于包括下述步骤：对视频数据进行聚簇；生成至少一个数据簇作为聚簇结果；生成对应于至少一个数据簇的至少一个图拉普拉斯矩阵；基于多个基于图的模型执行变换优化，其中多个基于图的模型分别包括至少一个图拉普拉斯矩阵；以及根据执行变换优化的结果生成优化的变换矩阵。

Description

基于多个基于图的模型处理视频数据的方法和设备

技术领域

本发明涉及一种使用基于图的变换编码/解码视频信号的方法和设备。具体而言，本发明涉及一种根据多个基于图的模型生成优化变换矩阵的技术。

背景技术

下一代视频内容将具有高空间分辨率、高帧率和场景表示的高维度的特征。处理这些内容将导致存储器存储、存储器存取速率和处理功率方面的巨大增长。因此，需要设计更有效地处理下一代视频内容的编译工具。

特别地，图是对于描述像素之间的关系的信息有用的数据表示形式，并且基于图的信号处理方法通过用图表达像素之间的关系的信息来执行处理。基于图的信号处理可以使用其中每个信号样本表示顶点并且信号关系由具有正权重的图边表示的图来概括诸如采样、滤波、变换等的概念。因此，在各种应用领域以及视频压缩领域中需要更高效的基于图的信号处理方法。

另外，关于信号处理和机器学习应用，通常基于单个模型的二次统计(例如，协方差矩阵)获得变换。然而，在实践中，单一模型假设不能对数据的整体变化做出快速响应。因此，需要设计更适合于某些数据的鲁棒变换。

发明内容

技术问题

本发明的一个方面提供一种使用基于图的表示设计鲁棒变换的方法。

本发明的另一方面提供一种生成适用于一系列统计图模型的优化变换的方法。

本发明的另一方面提供一种设计用于设计鲁棒变换的多个基于图的模型的方法。

技术方案

本发明是为了设计使用对应于数据簇的至少一个图拉普拉斯矩阵的鲁棒变换。

本发明还提供一种生成用于设计自适应变换的多个基于图的模型的方法。

而且，本发明还通过基于预测模式执行数据聚簇来生成多个基于图的模型。

而且，本发明使用最小化非对角元素的平方和的指定度量生成优化变换。

有益效果

本发明提供一种使用基于图的表示设计鲁棒变换的方法，由此生成适用于一系列统计图模型的优化变换。

一般而言，针对个别模型设计的变换不适合于通用，并且本发明能够针对不同模型进行自适应变换的构建。

数据模型通常由单个模型近似，并且如果数据超出数据模型的假设，则相应的变换可能不适合于特定数据。因此，本发明能够通过考虑不同的模型来设计关于模型不确定性的鲁棒变换。

附图说明

图1示出根据本发明一个实施例的用于编码视频信号的编码器的示意性框图。

图2示出根据本发明的一个实施例的用于解码视频信号的解码器的示意性框图。

图3是图示根据本发明的一个实施例的编译单元的分割结构的图。

图4是用于图示根据本发明的一个实施例的基于一维图和二维图获得基于图的变换矩阵的过程的图。

图5图示根据本发明一个实施例的处理基于图的信号的编码器的示意性框图。

图6示出根据本发明的一个实施例的处理基于图的信号的解码器的示意框图。

图7是根据本发明实施例的执行基于图的变换的基于图的变换单元的内部框图。

图8是根据本发明的实施例的基于多个图模型执行变换优化的基于图的变换单元的内部框图。

图9是图示根据本发明实施例的如何生成多个图模型并且基于所生成的多个图像模型执行变换优化的框图。

图10是图示根据本发明的实施例的如何使用对应于数据簇的图拉普拉斯矩阵来执行变换优化的框图。

图11是图示根据本发明的实施例的如何使用基于噪声图生成的图来执行变换优化的框图。

图12是图示根据本发明的实施例的如何使用分别对应于帧内预测模式的数据簇来执行变换优化的框图。

图13是图示根据本发明的实施例的如何根据多个帧内预测模式使用数据簇来执行变换优化的框图。

图14是图示根据本发明的实施例的如何使用分别对应于帧间预测模式的数据簇来执行变换优化的框图。

图15是图示根据本发明的实施例的如何使用基于从社交网络提取的噪声图生成的图来执行变换优化的框图。

图16是图示根据本发明的实施例的基于多个基于图的模型来执行变换优化的方法的流程图。

具体实施方式

本发明提供一种处理视频数据的方法，包括：对视频数据进行聚簇；生成至少一个数据簇作为聚簇结果；生成对应于至少一个数据簇的至少一个图拉普拉斯矩阵；基于多个基于图的模型执行变换优化，所述多个基于图的模型中的每一个包括至少一个图拉普拉斯矩阵；以及根据执行变换优化的结果生成优化的变换矩阵。

而且，在本发明中，可以基于预测模式执行聚簇。

此外，在本发明中，当预测模式是帧内预测模式时，至少一个数据簇可以表示用于帧内预测模式的帧内残差数据。

而且，在本发明中，可以为帧内预测模式生成多个基于图的模型中的每一个。

此外，在本发明中，当预测模式是帧间预测模式时，至少一个数据簇可以表示用于帧间预测模式的帧间残差数据。

而且，在本发明中，可以基于指定的度量执行变换优化，并且指定的度量可以使非对角元素的平方和最小化。

而且，在本发明中，变换优化可以包括：初始化变换矩阵；选择变换矩阵的两个基本向量；以及基于指定的度量更新两个基本向量。

另外，本发明提供一种处理视频数据的设备，包括：聚簇单元，该聚簇单元被配置成对所述视频数据进行聚簇以生成至少一个数据簇；图信号建模单元，该图信号建模单元被配置成生成与至少一个数据簇相对应的图拉普拉斯矩阵；以及变换优化单元，该变换优化单元被配置成基于多个基于图的模型执行变换优化并且生成优化的变换矩阵，其中多个基于图的模型中的每一个包括至少一个基于图的图拉普拉斯。

此外，在本发明中，变换优化单元可以包括：变换初始化单元，该变换初始化单元被配置成初始化变换矩阵；变换选择单元，该变换选择单元被配置成选择变换矩阵的两个基本向量；以及变换更新单元，该变换更新单元被配置成基于指定的度量更新两个基本向量。

发明的模式

在下文中，参考附图描述依照本发明的实施例的示例性元件和操作，然而，应当注意的是，参考附图所描述的本发明的元件和操作仅作为实施例被提供，并且本发明的技术精神及核心配置和操作不限于此。

此外，本说明书中使用的术语是现在被广泛使用的常见术语，但是在特殊情况下，使用由本申请人随机选择的术语。在这种情况下，在相应部分的详细描述中对相应术语的意义进行清楚的描述。因此，应当注意的是，本发明不应该被解释为仅基于在本说明书的相应描述中使用的术语的名称，并且本发明应该通过检查甚至相应术语的含义来解释。

此外，本说明书中使用的术语是被选择来描述本发明的常用术语，但是如果存在具有类似意义的这些术语，则可以用其他术语替换，以便于进行更合适的分析。例如，可以在每个编译过程中适当地替换和解释信号、数据、样本、图片、帧和块。另外，分割、分解、分开和分段等也可以针对每个编译过程彼此适当地替换。

图1示出依照本发明的一个实施例的对视频信号进行编码的编码器的示意框图。

参考图1，编码器100可以包括图像分段单元110、变换单元120、量化单元130、逆量化单元140、逆变换单元150、滤波单元160、DPB (解码图片缓冲器)170、帧间预测单元(inter-prediction unit)180、帧内预测单元(intra-prediction unit)185和熵编码单元190。

图像分段单元110可以将输入到编码器100的输入图像(或图片、帧)划分成一个或多个处理单元。例如，处理单元可以是编译树单元 (CTU)、编译单元(CU)、预测单元(PU)或变换单元(TU)。

然而，术语仅用于本公开的图示的方便。本发明不限于术语的定义。在本说明书中，为了图示的方便，术语“编译单元”被用作在对视频信号进行编码或者解码的过程中使用的单元。然而，本发明不限于此。可以基于本公开的内容适当地选择另一处理单元。

编码器100可以通过从输入图像信号减去从帧间预测单元180或帧内预测单元185输出的预测信号来生成残差信号。可以将所生成的残差信号发送到变换单元120。

变换单元120可以对残差信号应用变换技术以产生变换系数。可以对具有相同大小的正方形的像素块或者对除正方形以外的可变大小的块应用变换处理。

变换单元120可以使用用于通过将其表示为图来处理像素间关系信息的基于图像的信号处理方案。例如，变换单元120可以包括基于图的变换单元，并且基于图的变换单元可以生成用于视频数据的至少一个数据簇，生成与其对应的至少一个图拉普拉斯矩阵，并且基于包括至少一个图拉普拉斯矩阵的多个基于图的模型执行变换优化。

可以将依照本发明的基于图的变换单元具体实现为单独的功能单元。在这种情况下，基于图的变换单元可以位于变换单元120前面。然而本发明不限于此。

量化单元130可以对变换系数进行量化并且将量化系数发送到熵编码单元190。熵编码单元190可以对量化信号进行熵编码，然后将经熵编码的信号作为比特流来输出。

从量化单元130输出的量化信号可以用于生成预测信号。例如，量化信号可以分别经由回路中的逆量化单元140和逆变换单元150经受逆量化和逆变换以重建残差信号。可以将重建的残差信号与从帧间预测单元180或帧内预测单元185输出的预测信号相加以生成重建信号。

另一方面，在压缩过程中，可以通过不同的量化参数来对相邻块进行量化，使得可能发生块边界的劣化。这个现象被称作块效应 (blocking artifacts)。这是用于评估图像质量的重要因素之一。可以执行滤波处理以减小这种劣化。使用滤波处理，可以消除块劣化，并且同时，可以减小当前图片的误差，从而改进图像质量。

滤波单元160可以对重建信号应用滤波，然后将经滤波的重建信号输出到再现装置或解码图片缓冲器170。可以将发送到解码图片缓冲器170的经滤波的信号用作帧间预测单元180中的参考图片。以这种方式，在图片间预测模式下将经滤波的图片用作参考图片，不仅可以改进图片质量，而且可以提升编译效率。

解码图片缓冲器170可以存储经滤波的图片以用作帧间预测单元 180中的参考图片。

帧间预测单元180可以参考重建图片来执行时间预测和/或空间预测以去除时间冗余和/或空间冗余。在这种情况下，用于预测的参考图片可以是在先前的编码/解码中在块基础上经由量化和逆量化而获得的变换的信号。因此，这可以导致块效应或振铃效应。

因此，为了解决由于信号的不连续或量化而导致的性能下降，帧间预测单元180可以使用低通滤波器在子像素基础上对像素之间的信号进行内插。在这种情况下，子像素可以意指通过应用内插滤波器生成的虚拟像素。整数像素意指存在于重建图片中的实际像素。内插方法可以包括线性内插、双线性内插和维纳(Wiener)滤波器等。

可以对重建图片应用内插滤波器以提升预测的准确性。例如，帧间预测单元180可以对整数像素应用内插滤波器以生成内插像素。帧间预测单元180可以使用由内插像素组成的内插块作为预测块来执行预测。

帧内预测单元185可以通过参考在当前要被编码的块附近的样本来预测当前块。帧内预测单元185可以执行以下过程以执行帧内预测。首先，帧内预测单元185可以准备生成预测信号所需的参考样本。然后，帧内预测单元185可以使用所准备的参考样本来生成预测信号。此后，帧内预测单元185可以对预测模式进行编码。这时，可以通过参考样本填充和/或参考样本滤波来准备参考样本。因为参考样本已经历预测和重建过程，所以可能存在量化误差。因此，为了减小这些误差，可以针对用于帧内预测的每个预测模式执行参考样本滤波处理。

经由帧间预测单元180或帧内预测单元185生成的预测信号可以用于生成重建信号或者用于生成残差信号。

图2示出依照本发明的一个实施例的用于对视频信号进行解码的解码器的示意框图。

参考图2，解码器200可以包括熵解码单元210、逆量化单元220、逆变换单元230、滤波单元240、解码图片缓冲器(DPB)250、帧间预测单元260和帧内预测单元265。

可以使用再现装置来再现从解码器200输出的重建视频信号。

解码器200可以接收从如图1中所示的编码器输出的信号。可以经由熵解码单元210对所接收到的信号进行熵解码。

在本发明的一个实施例中，解码器或熵解码单元210可以接收模板索引。在此，模板索引可以对应于基于多个基于图的模型优化的变换矩阵。

可以将经熵解码的模板索引发送到可以对索引进行逆量化的逆量化单元220。可以将经逆量化的索引发送到逆变换单元230以供将来使用。

逆量化单元220可以使用量化步长信息来从经熵解码的信号获得变换系数。在这种情况下，所获得的变换系数可以与如参考图1在上面所描述的变换单元120的操作相关联。

逆变换单元230可以对变换系数进行逆变换以获得残差信号。

在本发明的实施例中，逆变换单元230可以获得用于与模板索引相对应的目标单元的基于图的变换矩阵，并且可以使用从基于图的变换矩阵导出的逆变换矩阵来对目标单元执行逆变换。这里，基于图的变换矩阵可以表示基于多个基于图的模型的数量优化的变换矩阵。

可以通过将所获得的残差信号与从帧间预测单元260或帧内预测单元265输出的预测信号相加来生成重建信号。

滤波单元240可以对重建信号应用滤波并且可以将经滤波的重建信号输出到再现装置或解码图片缓冲器单元250。可以将发送到解码图片缓冲器单元250的经滤波的信号用作帧间预测单元260中的参考图片。

在本文中，针对编码器100的滤波单元160、帧间预测单元180 和帧内预测单元185的详细描述可以被分别同等地应用于解码器200 的滤波单元240、帧间预测单元260和帧内预测单元265。

图3是图示依照本发明的一个实施例的编译单元的分段结构的图。

编码器可以将一个图像或图片分段或者划分成矩形的CTU(编译树单元)。然后，编码器可以根据光栅扫描次序逐个地按顺序对CTU 进行编码。

例如，可以将CTU的大小设置为64x64、32x32或16x16。然而，本发明不限于此。编码器可以基于输入图像的分辨率或输入图像的特性等来选择CTU的大小。CTU可以包括用于亮度分量的CTB(编译树块)以及用于相应的两个色度分量的CTB(编译树块)。

可以将单个CTU分解成四叉树(在下文中，被称为“QT”)结构。例如，可以将一个CTU划分成四个单元，每个单元具有正方形形状，同时其每条边的长度减少了一半。可以递归地执行QT结构的这种分解或划分。

参考图3，QT的根节点可以与CTU有关。可以对QT进行分割直到达到叶节点为止。在这种情况下，叶节点可以被称为编译单元(CU)。

CU可以指代用于输入图像的编译过程的基本单元，例如，用于帧内/帧间预测的基本单元。CU可以包括用于亮度分量的CB以及用于与该亮度分量相对应的两个色度分量的CB。例如，可以将CU的大小设置为64x64、32x32、16x16或8x8。然而，本发明不限于此。在高分辨率图像的情况下，可以增加或者改变CU的大小。

参考图3(a)，CTU可以对应于根节点，并且可以具有最小的深度 (即，等级0)。根据输入图像的特性，可以不对CTU进行划分。在这种情况下，CTU对应于CU。

可以将CTU分解成QT形式。结果，可以生成均具有等级1的深度的子节点。在均具有等级1的深度的子节点当中，未被进一步划分的子节点(即，叶节点)对应于CU。例如，在图3(b)中，分别与节点 a、b和j相对应的编译单元CU(a)、CU(b)和CU(j)中的每个在CTU中被分割一次并且因此具有等级1的深度。

在均具有等级1的深度的子节点当中，可以将至少一个子节点进一步分段成QT形式。在均具有等级2的深度的子节点当中，未被进一步划分的子节点(即，叶节点)对应于CU。例如，在图3(b)中，分别与节点c、h和i相对应的编译单元CU(c)、CU(h)和CU(i)中的每个在CTU中被分割两次并且因此具有等级2的深度。

另外，在均具有等级2的深度的子节点当中，可以将至少一个子节点进一步分段成QT形式。在均具有等级3的深度的子节点当中，未被进一步划分的子节点(即，叶节点)对应于CU。例如，在图3(b)中，分别与节点d、e、f和g相对应的编译单元CU(d)、CU(e)、CU(f)和CU(g) 中的每个在CUT中被分割三次并且因此具有等级3的深度。

编码器可以基于视频图像的特性(例如，分辨率)或编译的效率来确定CU的最大或最小尺寸。可以将关于最大或最小尺寸的信息和/ 或用于导出最大或最小尺寸的信息包括在比特流中。在下文中，具有最大尺寸的CU可以被称为LCU(最大编译单元)，然而具有最小尺寸的CU可以被称为SCU(最小编译单元)。

此外，具有树结构的CU可以具有预定最大深度信息(或最大等级信息)并且可以被分层次划分。另外，每个划分的CU可以具有深度信息。深度信息指示CU的划分的数目和/或程度。因此，深度信息可以包括关于CU的大小的信息。

LCU被划分成QT形式。因此，可以使用LCU大小和树的最大深度信息来获得SCU的大小。相反，SCU的大小和树的最大深度信息可以被用于确定LCU的大小。

针对单个CU，可以向解码器发送指示该CU是否被划分的信息。例如，该信息可以被定义为分段标志并且可以通过语法元素“split_cu_flag”来表示。可以将分段标志包括在除SCU之外的所有 CU中。例如，当分段标志的值是“1”时，相应的CU被进一步划分成四个CU。当分段标志的值是“0”时，不进一步对相应的CU进行划分，然后，可以针对相应的CU执行编译处理。

尽管在如图3中所示的实施例中，上面所描述的QT结构通过示例被应用于CU划分，然而可以将上面所描述的QT结构同等地应用于 TU(变换单元)划分，其中TU是用于执行变换的基本单元。

可以从要被编译成QT结构的CU分层次分割TU。例如，CU可以对应于用于变换单元TU的树的根节点。

TU被划分成QT结构。因此，可以将从CU划分出的TU中的每个进一步划分成更小的子TU。例如，可以将TU的大小设置为32x32、 16x16、8x8或4x4。然而，本发明不限于此。针对高分辨率图像，TU 的大小可以更大的或者可以变化。

针对单个TU，可以向解码器发送指示TU是否被划分的信息。例如，该信息可以被定义为分段变换标志并且可以通过语法元素“split_transform_flag”来表示。

可以将分段变换标志包括在除STU(最小TU)之外的所有TU中。例如，当分段变换标志的值是“1”时，相应的TU被进一步划分成四个TU。当分段变换标志的值是“0”时，不进一步划分相应的TU，然后，可以针对相应的TU执行编译处理。

如上所述，CU是用于执行帧内预测或帧间预测的编译处理的基本单元。为了更有效地对输入图像进行编译，可以将CU划分成PU(预测单元)。

PU是形成预测块的基本单元。能够甚至在单个CU内在PU基础上生成不同的预测块。可以根据是帧内预测模式还是帧间预测模式被用作PU所属于的CU的编译模式而不同地对PU进行划分。

图4是根据本发明的一个实施例的基于一维图和二维图来获得基于图的变换矩阵的过程的图。

在本发明的实施例中，可以参考图4描述可以被用于对图像中的像素块进行处理的图类型。例如，图4(a)表示与像素块的每条线相对应的一维图，而图4(b)表示与该像素块相对应的二维图。

图顶点可以与像素块中的每个像素相关联，并且可以通过像素值来表示图顶点的值。另外，图边可以指代连接图顶点的线。图边可以用于指示信号中的统计相关具有什么形式。表示统计相关的强度的值可以被称作边权重。

例如，参考表示一维图的图4(a)，0、1、2和3分别表示顶点的位置，并且w₀、w₁和w₂分别表示顶点之间的边的权重。参考表示二维图的图4(b)，a_ij(i＝0,1,2,3，j＝0,1,2)和b_kl(k＝0,1,2，l＝0,1,2,3)分别表示顶点之间的边的权重。

每个顶点可以被连接到任何其他顶点。可以将零的边权重指派给连接非关联或弱关联顶点的边。然而，为了呈现的简单，可以完全消除具有零的边权重的边。

在本发明的实施例中，从图信号获得的变换可以被定义为基于图的变换(在下文中，“GBT”)。例如，如果构成TU的像素之间的关系信息通过图来表示，则从此图获得的变换可以被称为GBT。

可以以各种方式定义像素之间的关系信息。例如，可以基于像素的像素值之间的相似性、基于像素是否属于同一PU、基于像素是否属于同一对象等来定义像素之间的关系信息。当像素中的每个与图的顶点相匹配时，可以基于像素之间的边存在/不存在以及像素之间的边权重值来定义像素间关系信息。

在这种情况下，可以通过以下过程来获得GBT。例如，编码器或解码器可以从视频信号中的目标块获得N个图信息。根据所获得的图信息，可以使用以下等式1来获得拉普拉斯矩阵L：

[等式1]

L＝D–A

其中D表示对角矩阵，并且A表示相邻矩阵。

然后，拉普拉斯矩阵L可以进行被表达为以下等式2的特征分解以获取GBT核：

[等式2]

L＝UΛU^T

其中L表示拉普拉斯矩阵，U表示特征矩阵，并且U^T表示转置矩阵。在等式2中，特征矩阵U可以提供特定于和相应的图模型匹配的信号的基于图的傅里叶变换。例如，满足等式2的特征矩阵U可以意指GBT核。

图5图示依照本发明的一个实施例的对基于图的信号进行处理的编码器的示意框图。

取决于信号特性的众所周知的变换方法将使用KLT (Karhunen-Loveve变换)。然而，执行KLT的正交矩阵需要大量的比特，并且KLT是很好地适应于信号特性的方法。因此，使用KLT，除非KLT被临时更新，否则压缩效率被大大降低。

因此，本发明试图经由图信号处理解决此问题。在这种情况下，可以将视频信号表示为示出样本间信号关系的图。

此外，为了解决以上问题，可以使用边自适应变换(在下文中被称为EAT)。然而，这个EAT也具有用于解码器中的边信号的信令太复杂的问题。因此，本发明通过定义使用残差信号的一些统计特性的模板图集来解决此问题。

在如在图1和图2中一样的视频编译配置中，可以使用固定变换，诸如DCT。这假定所有残差信号隐式地具有相同的各向同性统计特性。

然而，可以看到的是，实际上，在视频类型和像素块预测方面存在非常不同的分布。因此，依照本发明，可以做出以下假定以便针对复杂度和适应性实现优化。然而，本发明不限于此。

首先，依照本发明，可以选择特定线性变换以将其自适应地应用于和统计特性匹配的每个视频块；以及

第二，用于发送变换矩阵数据以及选择变换的开销与所有编码增益相比是相对较小的。

基于那些假定，本发明基于该基于图的变换模板提供低复杂度的自适应变换，从而针对复杂度和适应性实现优化。例如，可以通过考虑帧间预测的残差信号的统计特性来设计依照本发明的基于图的变换模板。

参考图5，依照本发明的编码器500可以包括基于图的变换单元 510、量化单元520、逆量化单元530、逆变换单元540、缓冲器550、预测单元560和熵编码单元570。

编码器500可以接收视频信号并且从该视频信号减去从预测单元 560输出的预测信号以生成残差信号。可以将所生成的残差信号发送到基于图的变换单元510。基于图的变换单元510可以通过对残差信号应用变换来生成变换系数。

例如，基于图的变换单元510可以生成用于视频数据的至少一个数据簇，生成与其对应的至少一个图拉普拉斯矩阵，并且基于包括至少一个图拉普拉斯矩阵的多个基于图的模型来执行变换优化以生成优化的变换矩阵。这里，可以通过以下实施例生成与多个基于图的模型对应的图。

而且，在本发明的另一实施例中，可以使用自适应低复杂度GBT 模板集以利用残差信号的统计特性。如本文中使用的术语(诸如，GBT 模板、图模板、模板图、GBT模板集、图模板集或模板图集等)可以是被选择来图示本发明的通用术语并且因此可以在每个编译过程中被适当地替换和解释。

基于图的变换单元510可以在与残差信号中的目标单元相对应的图中提取图参数。例如，图参数可以包括顶点参数和边参数中的至少一个。顶点参数包括顶点位置和顶点数中的至少一个。边参数可以包括边权重值和边权重数中的至少一个。另外，可以将图参数定义为一定数目的参数的集合。例如，可以将边参数集定义为权重矩阵。

基于图的变换单元510可以基于所提取的图参数来生成图。

依照本发明，可以将所生成的图设置成基本模板。在下文中，它将被称作基本模板图。例如，基本模板图可以是均匀加权图。在这种情况下，可以将均匀加权图表达为G_uni。图的节点对应于目标单元的像素。可以将目标单元的所有边权重设置为W_uni。

此外，依照本发明，可以通过调整基本模板图的边权重集来生成 T个不同的图。在下文中，T个不同的图可以被称作模板图集，其可以使用以下等式3来表达：

[等式3]

另外，依照本发明，可以通过减小变换块中的拐角周围的边的权重来生成块自适应模板图。例如，可以将变换块中的拐角周围的边设置为W_weak，W_weak是比W_uni小的边权重。在这种情况下，W_weak可以指示弱边权重。

此外，依照本发明，可以通过允许变换块中的拐角周围的边具有相同的弱边权重值W_weak来降低复杂度。

此外，依照本发明，为了基于残差块的不同位置自适应地反映信号特性，提供了用于将T个不同的图选择为模板图集的方法。另外，依照本发明，可以通过对所选择的模板图集应用谱分解来获取GBT。

量化单元520可以对所生成的变换系数进行量化并且将经量化的系数发送到熵编码单元570。

熵编码单元570可以对量化信号执行熵编码并且输出熵编码的信号。

由量化单元520输出的量化信号可以用于生成预测信号。例如，编码器500的回路中的逆量化单元530和逆变换单元540可以对量化信号执行逆量化和逆变换，使得量化信号被重建为残差信号。可以通过将重建的残差信号与从预测单元560输出的预测信号相加来生成重建信号。

缓冲器550可以在其中存储重建信号以供预测单元560进一步参考。

预测单元560可以使用存储在缓冲器550中的先前重建的信号来生成预测信号。在这种情况下，本发明涉及使用锚图像(anchor image) 中的区域来高效地预测目标图像中的区域。在这种情况下，锚图像可以指代参考图像、参考图片或参考帧。可以通过计算对速率失真成本或残差信号中的失真进行量化的均方误差来确定效率。

本发明提出识别图中的顶点和边并且对残差值信号进行编码或者解码的方法。例如，本发明的实施例可以经由基于图的变换单元510 实现各种实施例。可以将基于图的变换单元510包括在编码器500或解码器700中。

图6图示依照本发明的一个实施例的对基于图的信号进行处理的解码器的示意框图。

参考图6，解码器600可以接收从如图5中所示的编码器500输出的信号。解码器600可以包括熵解码单元610、逆量化单元620、逆变换单元630、缓冲器640和预测单元650。

熵解码单元610可以对所接收到的信号执行熵解码。逆量化单元 620可以基于关于量化步长的信息从经熵解码的信号获得变换系数。

逆变换单元630可以通过对变换系数执行逆变换来获取残差信号。在这种情况下，逆变换可以指代针对从编码器500获得的基于图的变换的逆变换。

在本发明的实施例中，逆变换单元630可以接收表示基于图的变换模板的模板索引并且获得与该模板索引相对应的基于图的变换核。可以使用所获取的基于图的变换核来重建变换单元。这里，基于图的变换核可以表示基于多个基于图的模型优化的变换核。

通过将残差信号与从预测单元650输出的预测信号相加，可以生成重建信号。

缓冲器640可以在其中存储重建信号以供预测单元650进一步参考。

预测单元650可以基于存储在缓冲器640中的先前重建的信号来生成预测信号。

图7是根据本发明的实施例的执行基于图的变换的基于图的变换单元的内部框图。

参考图7，基于图的变换单元可以包括图参数确定单元710、图生成单元720、变换矩阵确定单元730和变换执行单元740。

图参数确定单元710可以在对应于视频信号或差分信号的目标单位的图中提取图参数。例如，图参数可以包括顶点参数和边缘参数中的至少一个。顶点参数可以包括顶点位置和顶点数目中的至少一个，并且边缘参数可以包括边缘权重值和边缘权重值的数目中的至少一个。而且，图参数可以被定义为预定数目的集合。

根据本发明的实施例，由图参数确定单元710提取的图参数可以以广义形式表达。

图生成单元720可以基于由图参数确定单元710提取的图参数来生成图信号。这里，图信号可以包括加权或非加权线图。可以针对目标块的每个行或列生成线图。

变换矩阵确定单元730可以确定适合于图信号的变换矩阵。例如，可以基于速率失真(RD)性能来确定变换矩阵。而且，本公开中的变换矩阵也可以被表示为变换或变换核。

在本发明的实施例中，变换矩阵可以是已经在编码器和解码器中确定的值，并且这里，变换矩阵确定单元730可以从存储区域导出适合于图信号的变换矩阵。

在本发明的另一实施例中，变换矩阵确定单元730可生成用于线图的一维(1D)变换核并组合两个一维变换核以生成二维(2D)可分离的基于图的变换核。变换矩阵确定单元730可以基于RD(速率失真) 性能来确定在2D可分离的基于图的变换核中适合于图信号的变换核。

变换执行单元740可以使用由变换矩阵确定单元730获得的变换矩阵来执行变换。

参考图7，在本公开中，详细描述每个功能部分以解释执行基于图的变换的过程，但是本发明不限于此。例如，基于图的变换单元可以包括图生成单元和变换单元，并且在这种情况下，图参数确定单元 710的功能可以由图生成单元执行，并且变换执行的功能单元740可以在变换单元中执行。变换单元的功能可以被划分为变换矩阵确定单元和变换执行单元。

图8是根据本发明的实施例的基于多图模型执行变换优化的基于图的变换单元的内部框图。

参考图8，基于图的变换单元可以包括聚簇单元810、图建模单元 820、变换优化单元830和变换执行单元840。

聚簇单元810可以对输入视频数据执行聚簇以生成至少一个数据簇。这里，可以基于预测模式执行聚簇。例如，如果预测模式是帧内预测模式，则至少一个数据簇表示用于帧内预测模式的帧内残差数据。可替选地，如果预测模式是帧间预测模式，则至少一个数据簇表示帧间预测模式的帧间残差数据。

图建模单元820可以生成对应于数据簇的多个基于图的模型，并生成对应于多个基于图的模型的图拉普拉斯矩阵。这里，可以针对帧内预测模式生成多个基于图的模型中的每一个。

变换优化单元830可以基于多个基于图的模型来执行变换优化。这里，变换优化可以基于指定的度量来执行，并且指定的度量可以使非对角元素的平方和最小化。这里，指定的度量可以是拉普拉斯度量或逆拉普拉斯度量。

在实施例中，变换优化单元830可以包括变换初始化单元(未示出)、变换选择单元(未示出)和变换更新单元(未示出)中的至少一个。变换初始化单元(未示出)初始化变换矩阵，并且变换选择单元(未示出)可以选择变换矩阵的两个基本向量。变换更新单元(未示出)可以基于指定的度量更新两个基本向量。通过此过程，变换优化单元830可以执行变换优化。

变换执行单元840可以使用根据变换优化的结果生成的优化变换矩阵执行变换。

图9是图示根据本发明实施例的如何生成多个图模型并基于生成的多图模型执行变换优化的框图。

本发明提供一种使用基于图的表示设计鲁棒变换的方法，并且使得能够构建针对给定的感兴趣的鲁棒度量适用于一系列统计图模型的优化变换。

通常，基于单个模型来获得变换。然而，实际上，单一模型很难自适应地处理复杂视频信号的特征。

因此，本发明可以通过定义多个图模型并且使用更多的自适应变换来解决这个问题。

参考图9，应用本发明的编码器可以包括数据模型生成单元910 和变换优化单元920中的至少一个。这些单元不一定包括在编码器中，并且可以使用编码器中的外部存储的信息或预定义的信息。

当输入视频数据时，数据模型生成单元910可以生成对应于视频数据的数据模型。数据模型生成单元910可以使用给定的度量来生成多个数据模型。例如，数据模型生成单元910可以生成对应于视频数据的N个数据模型model₁、model₂、…、model_N。这样生成的N个数据模型可以被发送到变换优化单元920。

变换优化单元920接收N个数据模型并且可以生成针对每个数据模型优化的变换核。优化的变换核可用于变换视频数据。

图10是图示根据本发明实施例的如何使用对应于数据簇的图拉普拉斯矩阵执行变换优化的框图。

参考图10，应用本发明的编码器可以包括聚簇单元1010、图建模单元(未示出)和变换优化单元1020中的至少一个。这些单元不一定包括在编码器中，并且可以使用编码器中的外部存储的信息或预定义的信息。

聚簇单元1010可以对输入视频数据执行聚簇。作为聚簇的结果，聚簇单元1010可以生成至少一个数据簇。例如，聚簇单元1010可以生成N个数据簇。

在本发明的一个实施例中，可以基于预测模式执行聚簇。例如，如果预测模式是帧内预测模式，则至少一个数据簇表示用于帧内预测模式的帧内残差数据。或者，当预测模式是帧间预测模式时，至少一个数据簇表示用于帧间预测模式的帧间残差数据。

图建模单元(未示出)可以生成对应于数据簇的多个基于图的模型，并且可以生成对应于多个基于图的模型的图拉普拉斯矩阵。例如，图建模单元(未示出)可以针对从聚簇单元1010输出的N个数据簇生成N个图拉普拉斯矩阵L₁、L₂、…、L_N。

在本发明的一个实施例中，可以针对预测模式生成多个基于图的模型中的每一个。而且，多个基于图的模型可以是预定义的模型。

变换优化单元1020可以通过基于指定的度量更新变换矩阵来生成优化的变换矩阵T。这里，指定的度量可以是拉普拉斯度量或拉普拉斯逆度量。

图11是示出根据本发明的实施例的如何使用基于噪声图生成的图来执行变换优化的框图。

参考图11，应用本发明的编码器可以包括噪声图测量单元1110、图生成单元1120和变换优化单元1130中的至少一个。这些单元不一定包括在编码器中，并且可以使用编码器中的外部存储的信息或预定义的信息。

噪声图测量单元1110可以从输入视频数据测量噪声图。

图生成单元1120可以随机地生成与测量的噪声图相关的N个图。而且，图生成单元1120可以生成对应于N个图的N个图拉普拉斯矩阵 L₁、L₂、…、L_N。这里，N可以取决于应用和要求的类型，并且可以是，例如N＝1、2、17、127、1954......。

变换优化单元1130可以通过基于指定的度量更新变换矩阵来生成优化的变换矩阵T。这里，指定的度量可以是拉普拉斯度量或拉普拉斯逆度量。

图12是图示根据本发明的实施例的如何执行使用分别对应于帧内预测模式的数据簇来执行的变换优化的框图。

参考图12，应用本发明的编码器可以包括聚簇单元(未示出)、图建模单元(未示出)和变换优化单元1210中的至少一个。这些单元不一定包括在编码器中，并且可以使用编码器中的外部存储的信息或预定义的信息。

聚簇单元(未示出)可以基于预测模式对输入视频数据执行聚簇。聚簇单元(未示出)可以针对预测模式m_i生成N个数据簇。例如，预测模式可以是帧内预测模式或帧间预测模式。如果预测模式是帧内预测模式，则视频数据表示帧内预测模式mi的帧内残差数据。例如，如果帧内预测模式的数量是35，那么i可以是1、2、...、35。

图建模单元(未示出)可以生成对应于用于帧内预测模式mi的帧内残差数据的N个多个基于图的模型，并且生成与N个多个基于图的模型相对应的图拉普拉斯矩阵。这里，对应于N个多个基于图的模型的图拉普拉斯矩阵可以被表示为L_1,i、L_2,i、…、L_N,i。

变换优化单元1210可以通过基于指定的度量更新变换矩阵来生成优化的变换矩阵T。

图13是图示根据本发明的实施例的如何根据多个帧内预测模式来执行使用数据簇执行的变换优化的框图。

参考图13，应用本发明的编码器可以包括第一聚簇单元(未示出)、第二聚簇单元(未示出)、图建模单元(未示出)和变换最优化单元 1310中的至少一个。这些单元不一定包括在编码器中，并且可以使用编码器中的外部存储的信息或预定义的信息。

第一聚簇单元(未示出)可以针对预测模式mi生成N个数据簇。例如，如果预测模式是帧内预测模式，则第一聚簇单元(未示出)可以针对用于第一帧内预测模式mi的帧内残差数据生成N个数据簇。这里，当帧内预测模式的数目是35时，i可以是1、2、...、35。

第二聚簇单元(未示出)也可以针对预测模式m_j.生成N个数据簇。例如，如果预测模式是帧内预测模式，则第二聚簇单元(未示出)可以针对用于第二帧内预测模式mj的帧内残差数据生成N个数据簇。这里，第二帧内预测模式m_j可以具有不同于第一帧内预测模式m_j的值。

图建模单元(未示出)可以生成对应于用于第一帧内预测模式m_i的帧内残差数据的N个多个基于图的模型，并且生成对应于N个多个基于图的模型的图拉普拉斯矩阵。这里，对应于N个多个基于图的模型的图拉普拉斯矩阵可以被表示为L_1,i、L_2,i、…、L_N,i。

图建模单元(未示出)可以生成对应于用于第二帧内预测模式m_j的残留内数据的N个多个基于图的模型，并且生成与N个多个基于图的模型对应的图拉普拉斯算法矩阵。这里，对应于N个多个基于图的模型的图拉普拉斯矩阵可以被表示为L_1,j、L_2,j、…、L_N,j。

另外，图建模单元(未示出)可以生成与用于第一帧内预测模式 m_j的帧内残差数据和用于第二帧内预测模式m_j的帧内残差数据相对应的多个基于图的多个模型并且生成对应于N个多个基于图的模型的图拉普拉斯矩阵。这里，对应于N个多个基于图的模型的图拉普拉斯矩阵可以被表示为L_1,i,j、L_2,i,j、…、L_N,i,j。

例如，可以使用多个预测模式(DC内模式和平面内模式)来生成一个变换。而且，至少两个或更多个预测模式可以被分组并且被用于生成一个变换。

变换优化单元1310可以通过基于指定的度量更新变换矩阵来生成优化的变换矩阵T。这里，指定的度量可以是拉普拉斯度量或拉普拉斯逆度量。例如，变换优化单元1310可以通过优化过程生成与多个预测模式相对应的优化变换矩阵T。

图14是图示根据本发明的实施例的如何执行使用分别对应于帧间预测模式的数据簇执行的变换优化的框图。

参考图14，应用本发明的编码器可以包括聚簇单元1410、图建模单元(未示出)和变换优化单元1420中的至少一个。这些单元不一定包括在编码器中，并且可以使用编码器中的外部存储的信息或预定义的信息。

聚簇单元1410可以基于预测模式对输入视频数据执行聚簇。聚簇单元(未示出)可以针对预测模式m_i生成N个数据簇。这里，N个数据簇可以被表示为C₁、C₂、…、C_N。例如，当预测模式是帧间预测模式时，视频数据是用于帧间预测模式的帧间残差数据。

可以使用不同的差异度量或相似性度量以各种方式执行聚簇。例如，可以基于残差数据的低级处理来执行聚簇。这里，低级处理可以包括边检测、能量变化估计等。另外，可以在确定相似度的相似性度量中使用诸如方向、位置和清晰度的边界信息，并且可以使用K均值算法对数据进行聚簇。

图建模单元(未示出)可以生成对应于用于帧间预测模式的帧间残差数据的N个多个基于图的模型，并生成与N个多个基于图的拉普拉斯矩阵模型相对应的图拉普拉斯矩阵。这里，对应于N个多个基于图的模型的图拉普拉斯矩阵可以被表示为L₁、L₂、…、L_N。

变换优化单元1420可以通过基于指定的度量更新变换矩阵来生成优化的变换矩阵T。这里，指定的度量可以是拉普拉斯度量或拉普拉斯逆度量。例如，变换优化单元1420可以通过优化过程来生成与帧间预测模式相对应的优化变换矩阵T。

图15是图示根据本发明的实施例的如何执行使用基于从社交网络提取的噪声图生成的图来执行变换优化的框图。

参考图15，应用本发明的编码器可以包括噪声图测量单元1510、图生成单元1520和变换优化单元1530中的至少一个。这些单元不一定包括在编码器中，并且可以使用编码器中存储的外部信息或预定义的信息。

噪声图测量单元1510可以测量来自基于图的社交网络数据的噪声图。例如，基于图的社交网络数据可以包括个人的年龄、个人的收入、他/她的朋友网络数据等。

在一个实施例中，社交网络的时变性质可以导出其中链路权重被随机分布的噪声图模型。

图生成单元1520可以随机地生成与测量的噪声图相关的N个图。而且，图生成单元1520可以生成对应于N个图的N个图拉普拉斯矩阵 L₁、L₂、…、L_N。这里，N可以取决于应用和要求的类型。

在实施例中，图生成单元1520可以使用方差和/或容差测量以通过随机采样来生成噪声图的一些输出。

本发明提供一种基于多个基于图的模型来执行变换优化的方法。

应用本发明的编码器可以对输入视频数据执行聚簇(S1610)。

作为聚簇的结果，编码器可以生成至少一个数据簇(S1620)。这里，可以基于预测模式执行聚簇。例如，如果预测模式是帧内预测模式，则至少一个数据簇表示用于帧内预测模式的帧内残差数据。可替选地，当预测模式是帧间预测模式时，至少一个数据簇表示用于帧间预测模式的帧间残差数据。

编码器可以生成对应于数据簇的多个基于图的模型，并且可以生成对应于多个基于图的模型的至少一个图拉普拉斯矩阵(S1630)。

编码器可以基于多个基于图的模型来执行变换优化(S1640)。这里，可以基于指定的度量来执行变换优化，并且指定的度量可以使非对角元素的平方和最小化。这里，指定的度量可以是拉普拉斯度量或拉普拉斯逆度量。

编码器可以根据执行变换优化的结果生成优化的变换矩阵 (S1650)。而且，编码器可以使用优化的变换矩阵来执行变换。

在下文中，将详细描述获得优化变换矩阵的过程。

首先，假设每个类别基于图拉普拉斯矩阵L₁、L₂、…、L_N具有N 个不同的数据类。本发明基于指定度量获得最优变换T。

在本发明的实施例中，变换优化使如等式(4)中所表达的非对角线元素的平方和最小化。

[等式4]

这里，运算子ddiag(TL_iT^t)从矩阵TL_iT的对角线分量生成对角矩阵。

在实施例中，可以使用其他度量来优化变换矩阵T。例如，在等式(4)中可以使用分别表示图拉普拉斯矩阵L₁、L₂、…、L_N的伪逆的

代替图拉普拉斯矩阵。

在另一实施例中，可以使用协方差矩阵K₁、K₂、…、K_N以对输入数据建模。

在实施例中，可以使用下面的等式5以获得优化变换T。

[等式5]

这里，运算子ddiag(TKT^t)从矩阵TKT^t的对角元素生成对角矩阵，并且运算子ddiag(K)从矩阵K的对角元素生成对角矩阵。

在另一实施例中，在本发明中，可以迭代地执行以下过程以优化变换T：

首先，编码器可以初始化变换矩阵T。另外，编码器可以选择变换矩阵的两个基本向量t_l和t_j。然后编码器可以基于指定的度量更新两个基本向量，并重复执行上述步骤直到满足预定的收敛准则。

尽管主要基于编码器描述实施例，但是本发明不限于此。变换单元或基于图的变换单元的每个功能单元也可以在解码器中以及在编码器中被执行。在这种情况下，并非上述实施例中描述的变换单元或基于图的变换单元的所有功能单元都必须包括在解码器中，而是仅其中一些可以被包括，或者编码器/解码器中的外部存储信息或预定义信息可以被使用。

如上所述，可以在处理器、微处理器、控制器或芯片上实现并执行本发明中所说明的实施例。例如，可以在计算机、处理器、微处理器、控制器或芯片上实现并执行在图1、图2、图5至图12中所说明的功能模块。

如上所述，应用本发明的解码器和编码器可以被包括在多媒体广播发送/接收设备、移动通信终端、家庭影院视频设备、数码影院视频设备、监视相机、视频聊天设备、实时通信设备(诸如视频通信)、移动流设备、存储介质、录像机、VoD服务提供设备、互联网流服务提供设备、三维3D视频设备、电话会议视频设备以及医疗视频设备中并且可以用于对视频信号和数据信号进行编译。

此外，可以以程序的形式产生应用本发明的解码/编码方法，该程序将由计算机执行并且可以被存储在计算机可读记录介质中。具有根据本发明的数据结构的多媒体数据也可以被存储在计算机可读记录介质中。计算机可读记录介质包括其中存储有可由计算机系统读取的数据的所有类型的存储装置。例如，计算机可读记录介质可以包括BD、 USB、ROM、RAM、CD-ROM、磁带、软盘和光学数据存储装置。此外，计算机可读记录介质包括以载波(例如，通过互联网的传输)的形式实现的介质。此外，通过编码方法生成的比特流可以被存储在计算机可读记录介质中或者可以通过有线/无线通信网络来发送。

工业实用性

已经出于说明性目的公开了本发明的示例性实施例，并且本领域的技术人员可以在所附权利要求中公开的本发明的技术精神和范围内改进、改变、替换或者添加各种其他实施例。

Claims

1.一种处理视频数据的方法，所述方法包括：

对所述视频数据进行聚簇；

生成多个数据簇作为所述聚簇的结果；

生成对应于所述多个数据簇的多个图拉普拉斯矩阵；

基于多个基于图的模型执行变换优化，所述多个基于图的模型中的每一个包括所述多个图拉普拉斯矩阵；以及

根据所述变换优化的结果生成优化的变换矩阵，

其中，基于指定的度量执行所述变换优化，并且所述指定的度量基于方程

来最小化非对角元素的平方和，其中T*是优化变换矩阵，运算子ddiag(TL_iT^t)从所述矩阵TL_iT^t的对角分量生成对角矩阵，L₁，L₂...，L_N表示图拉普拉斯矩阵，T是变换矩阵，T^t是T的转置矩阵，运算子'argmin'是函数的最小化的参数，N是不同类别的数据的数量，以及

是Frobenius范数。

2.根据权利要求1所述的方法，其中

基于预测模式执行所述聚簇。

3.根据权利要求2所述的方法，其中

当所述预测模式是帧内预测模式时，所述至少一个数据簇表示用于所述帧内预测模式的帧内残差数据。

4.根据权利要求3所述的方法，其中

针对所述帧内预测模式生成所述多个基于图的模型中的每一个。

5.根据权利要求2所述的方法，其中

当所述预测模式是帧间预测模式时，所述多个数据簇表示用于所述帧间预测模式的帧间残差数据。

6.根据权利要求1所述的方法，其中，所述变换优化包括：

初始化所述变换矩阵；

选择所述变换矩阵的两个基本向量；以及

基于所述指定的度量更新所述两个基本向量。

7.一种处理视频数据的设备，所述设备包括：

处理器，所述处理器被配置成

对所述视频数据执行聚簇以生成多个数据簇；

生成与所述多个数据簇相对应的多个图拉普拉斯矩阵；以及

基于多个基于图的模型执行变换优化并且生成优化的变换矩阵，

其中，所述多个基于图的模型中的每一个包括多个图拉普拉斯矩阵，

是Frobenius范数。

8.根据权利要求7所述的设备，其中

基于预测模式执行所述聚簇。

9.根据权利要求8所述的设备，其中

10.根据权利要求9所述的设备，其中

11.根据权利要求8所述的设备，其中

12.根据权利要求7所述的设备，其中，所述处理器被配置为：

初始化所述变换矩阵；

选择所述变换矩阵的两个基本向量，以及

基于指定的度量更新所述两个基本向量。