CN108028941A

CN108028941A - 用于通过超像素编码和解码数字图像的方法和装置

Info

Publication number: CN108028941A
Application number: CN201680055404.8A
Authority: CN
Inventors: G·弗拉卡斯托罗; E·麦格丽; F·韦道加; M·格兰齐托
Original assignee: Sisvel Technology SRL
Current assignee: Sisvel Technology SRL
Priority date: 2015-09-25
Filing date: 2016-09-23
Publication date: 2018-05-11
Anticipated expiration: 2036-09-23
Also published as: EP3354030B1; EP3354030A1; US10616603B2; ITUB20153912A1; CN108028941B; WO2017051358A1; US20180278957A1

Abstract

本发明涉及用于编码和/或解码数字图像或视频流的方法和装置，其中编码装置(1100)包括处理部件(1110)，处理部件(1110)被配置用于读取所述图像的至少一部分，分割所述图像的部分以便获得由边界信息识别的并且包含具有一个或多个同质特性的至少两个像素的像素组，针对每个像素组基于与所述像素组(Pⁱ)相关联的边界信息来计算权重图，基于所述权重图来计算图变换矩阵，以及基于所述图变换矩阵(U)和包含在所述像素组中的像素来计算变换系数。

Description

用于通过超像素编码和解码数字图像的方法和装置

技术领域

本发明涉及数字图像和视频编码领域。即，本发明描述了用于压缩和解压缩图像(尤其是自然图像)使得它们可以经由带宽受约束的信道被递送或被存储在容量受限的介质上的方法和系统。

背景技术

本发明面对的问题

本发明解决的问题是图像和同样由图像组成的视频序列的编码。

作为基本的编码工具，大多数现有技术依赖于被称为离散余弦变换(DCT)的基于块的变换，例如在各种JPEG和MPEG编码标准中。图像被细分为具有正方形的块，然后DCT被应用于每个块(有可能使块的尺寸适应图像特性)，然后在最简单的情况下对块进行独立编码和解码(更高级的压缩方案可以包括帧内和帧间块预测，以进一步提高编解码器性能)。

DCT在图像编码中被广泛接受，因为它具有期望的性质：它倾向于将感知上最有意义的变换系数聚类(即，压缩信号的能量)在变换系数矩阵的左上部分中，从而使得实现高效的压缩方案(诸如非均匀量化、锯齿波系数扫描及其熵编码)。显然，DCT压缩信号中的能量的实际能力依赖于被编码的特定图像块的语义。同质块(例如，表示对象的光滑表面的块)是期望的，因为它们产生具有少量重要系数的变换系数矩阵，因此易于编码，并且在由解码器恢复时不产生重建伪像(reconstruction artifact)。相反，包含不连续性(例如，不同颜色、纹理等的对象之间的接合处)的块导致这样的变换系数矩阵：在中重要系数不被约束到矩阵的区域，并且该变换系数矩阵可能在其解码的时候产生明显的重建伪像。

尽管大多数现代编码技术通过使每个块的尺寸适应图像的特性来以某种方式解决这个问题，但是块的预定义的正方形表现出了DCT最大限制之一，因为块中可能存在一些不连续性，从而在解码图像中产生重建伪像，如图13中所示。

本发明经由被称为基于图的变换(graph-based transform)的完全不同的做法来克服基于块的图像编码的这种限制。

基于图的变换可以被看作是基于块的变换的泛化(或者，相反，基于块的变换可以被认为是基于图的变换的特殊情况)。图像(或其子集)可以被表示为通过加权边连接的节点的图：每个节点是图像的像素，并且两个节点之间的每条加权边描述像素之间的相似性(例如，在灰度颜色空间中)。例如，属于与对象表面的内部对应的相同平滑区域的两个像素将是相似的，因此在图中将由具有高权重的边连接。相反，属于不同对象的两个像素将可能是相异的(或者，等同为不相似)，并且在图中将由具有低权重的边连接。典型地，为了在本发明中考虑的图像压缩，图像的每个像素将仅被连接到图像中的其它像素的子集(典型地，上、左、下和右四个相邻像素)，并且因此对应的边将具有非空权重。相反，每个像素将与图像中的所有其它像素断开连接，并且因此对应的边权重可以常规地设置为0，因为在本发明的实施例中与那些像素的相似性或相异性是未定义的。

图变换(graph transform)的优势之一是它可以应用于任意形状和扩展的图像的各个区域，然后可以对其进行独立编码和解码。

已经说明了如何将图像表示为其中节点是像素并且连接节点的边根据像素之间的相似性被加权的图，图1就其基本功能单位而言例示了基于图的图像编码-解码体系架构的典型体系架构。为了简单起见，令图像f(或其块)由N个像素组成。例如，令f是N＝32×32＝1024个像素的块，使得块的每个像素例如以光栅扫描次序(即，按行优先次序)被索引为{f₁,...,f_N}。可见，f可以用所谓的权重矩阵W来表示，W是N×N矩阵，其中每个元素w_i,j表示f_i和f_j之间的相似性。W的特性是任何基于图的图像编码方案的率失真特性的主要驱动力。因此，本发明的目标是用于将图像细分成块的方法，使得每个块f的权重矩阵W具有图像压缩目的所期望的特性。

图1例示了根据现有技术的基于应用于正方形图像块的图变换的参考图像编码器和解码器对，其有助于理解权重矩阵W的传输或记忆的问题。

编码器设备150至少包括权重图生成单元100、图拉普拉斯单元110和图变换单元120，如图1的上部所示。

权重图生成单元100以N像素的图f或其块作为输入，并生成如下计算的N×N权重矩阵W。令d_i,j是灰度空间中图像f的第i个像素f_i和第j个像素f_j之间的距离的测度，例如，d_i,j可以被计算为像素f_i和f_j的值之间的绝对差：

d_i,j＝|f_i-f_j|

此外，假设权重矩阵W*的每个元素通过以下公式计算：

可见，如果f_i和f_j是相似的像素，那么连接像素f_i和f_j的图弧的权重的值(即，w_i,j)将接近于1(“高”弧权重)，而如果f_i和f_j相异，那么w_ij将接近于0(“低”弧权重)。

图拉普拉斯单元110生成以权重矩阵W*作为输入的变换矩阵U。这个单元被配置用于读取W*并且计算具有N×N维度的对角矩阵E，使得其对角线的第i个元素等于如在W*中描述的进入第i个像素的所有弧的所有权重之和；因此，E用矩阵符号定义如下所示：

E＝diag(W*·V1)

在计算了对角矩阵E的至少一部分之后，该单元将矩阵L(具有N×N维度)计算为对角矩阵E与权重矩阵W*之差，即，矩阵L是W*的拉普拉斯算子。这个计算步骤以矩阵符号总结如下所示。

L＝E-W＊

最后，该单元计算被称为图变换矩阵或简称为变换矩阵的N×N矩阵U，其中U的行是L的特征向量，即，U的行是允许对角化L的向量。

图变换单元120以图像f(其被认为是具有N×1的向量)和变换矩阵U作为输入，并且经由矩阵相乘来计算N×1系数向量f^{^}

f^{^}＝U·f

然后，编码器经由带宽受约束的信道将变换矩阵U(或者可替代地，可以从其计算U的权重矩阵W*)和系数向量f^{^}发送到接收器节点，或者将它们记在存储器支持上以备后用，例如用于解码目的。

解码器170至少包括图拉普拉斯单元110和逆图变换单元180，逆图变换单元180被配置用于从存储设备或通过通信信道读取权重矩阵W和系数向量f^{^}这两者。为了简单起见，我们假设解码器170可用的W*和f^{^}都与编码器150生成的W*和f^{^}完全相同，因为在实际应用中采取了适当的措施以使从编码器到解码器的信息传送期间发生的读/写或信道错误最小化。

在功能上类似于在发送器侧找到的对等部分的图拉普拉斯单元110以权重矩阵W*作为输入并且生成变换矩阵U，如上面针对编码器对等部分所描述的。

逆图变换单元180以U和f^{^}作为输入并恢复原始图像f。为了执行这个任务，单元180通过生成N×N逆变换矩阵U^-1来在内部对矩阵U求逆，U^-1在本例中等于转置矩阵U^T，因为U由W′的拉普拉斯矩阵的特征向量组成；之后，该单元经由以下矩阵相乘恢复原始图像f：

f＝U^-1·f^{^}

就图像质量和编码率这两者而言，上面基于图变换的图像编码和解码方案的性能与图像f的特性或图像细分成的块的特性相关。在最简单的情况下，图像作为整体被编码为涵盖图像中所有像素的块f，因为典型的自然图像很可能包含具有不同纹理的各种元素，所以对应的权重矩阵W将具有很多非空元素，而对应的变换矩阵f^{^}将示出许多不同于零的高频分量。这将提高编码率并在解码器处产生重建伪像，这显然是不希望的。

在更实际的情况下，图变换可以应用于被独立编码和解码的图像块。例如，图变换可以应用于固定正方形尺寸的块，如其它JPEG/MPEG编码标准中那样。虽然这种做法具有易于理解和易于实现的优点，但它与JPEG/MPEG编解码器具有相同的问题，即，正方形块有可能不连续。

因此，将图像细分成编码区域使得不连续性留在这些区域之外是非常重要的。显然，如果编码区域具有固定的尺寸(例如，正方形)，那么不可避免地将在每个块中发现一些不连续性，具有上面讨论的不期望的效果。图1中绘出的参考体系架构的另一个问题是需要将权重矩阵W传送给解码器和相关的比特率。由于权重矩阵表示像素之间的相似性，因此非同质编码区域将产生非稀疏权重矩阵，即使假设采用预测编码方案来表示矩阵值，这也需要更多的比特用于它们的编码。

因此，本发明尤其公开了一种方法和系统，以将待编码的图像细分为最佳的编码区域，使得图变换可以独立地应用于每个编码区域，其中每个编码区域不涵盖不连续或涵盖很少的不连续，从而避免与正方形尺寸的编码区域相关的问题。

现有技术的描述

离散余弦变换(DCT)是用于基于块的图像和视频压缩的最常见变换(参见K.Sayood，Introduction to data compression，Newnes，2012)；事实上，DCT是基于流行的视频编码标准，诸如MPEG-2(用于例如地面和卫星标清视频广播和DVD存储格式)、H.264/AVC(用于高清视频广播、经由IP网络的流传输和蓝光盘)以及最近标准化的H.265/HEVC(预计在上述场景中取代H.264/AVC)。

DCT的主要缺点之一是，当块包含非水平或垂直的边时，所得到的变换系数不是稀疏的，并且高频系数可以具有大的量值。这导致更高的比特率或边周围的重建伪像。最近，已经提出了基于图的做法，根据该做法，高维度数据自然驻留在图的顶点上并且它们可以被可视化为样本(定义为图信号)的有限集合，在图的每个顶点处有一个样本(D.I.Shuman，S.K.Narang，P.Frossard，A.Ortega和P.Vandergheynst，“The emerging field of signalprocessing on graphs:Extending high-dimensional data analysis to networks andother irregular domains”，Signal Processing Magazine，IEEE，第30卷，第3期，第83-98页，2013)。在过去的几年中，研究人员已经研究了如何在图域中应用经典的信号处理技术。用于在图域中过滤、平移、调制和下采样的技术已经被开发出来。还已经提出了几种图变换，诸如图傅立叶变换(G.Taubin，“A signal processing approach to fair surfacedesign”，Proceedings of the 22th Annual conference on Computer graphics andinteractive techniques，ACM，1995，第351-358页)。

一般而言，虽然图变换已经显示出比常规的基于块的变换更高效，但是图传输的开销可能轻易地超过编码效率的好处。因此，非常重要的是设计在图必须传送到解码器时也高效的图表示和对应的图变换。

Sandryhaila等人在ICIP 2012论文集中发表的“Nearest-neighbor imagemodel”中提出将图像表示为节点和弧的图，其中确定弧的权重以使接收器处的预期失真最小化。但是，这个文章没有教导如何压缩权重图，因为难以在真实世界环境中应用这种技术。

在美国专利申请No.US 2011/206288 A1中，Ortega等人描述了使用基于图的像素预测的图像编码和解码系统。这个文档教导了如何通过预测器选择来对图片进行编码和解码，但它没有教导如何压缩权重图，从而难以在真实世界环境中应用这种技术。

Kim、Narang和Ortega在ICIP 2012论文集中发表的“Graph based transformsfor depth video coding”中提出寻找最佳相邻矩阵并使用基于上下文的自适应二进制算术编码按照固定次序对最佳相邻矩阵进行压缩；但是，他们的文章也没有教导如何压缩权重图，从而难以在真实世界环境中应用这种技术。

Narang、Chao和Ortega在APSIPA 2013论文集中发表的“Critically sampledgraph-based wavelet transform for image coding”中提出将图像编码为二进制未加权图并使用尺寸为(2N-1)×(N-1)的JBIG对其进行编码，其中N是原始图像中的像素数量。这种编码方案产生编码噪声级别高的图像，因为二进制未加权图限制了可被编码的信息量。而且，本发明利用像素间预测来进一步提高压缩比，这使得能够使图像编码率与Ortega提出的做法相比降低两倍。

发明内容

本发明旨在通过提供用于将图像细分成任意形状的同质编码区域的方法和装置来解决这些和其它问题，使得每个区域易于编码，从而使得实现带宽高效的基于图的表示。

下面描述本发明的基本思想。

首先，使用现有的用于图像分割的技术将图像分割成被称为“超像素”的同质区域；理想的分割技术是这样的：返回的片段精确地紧随图像不连续并且包含很少的图像不连续。属于超像素的像素形成输入图像的任意形状的连接区域；像素对于特定超像素的归属和位置以及超像素在图像内的位置以具体边界或形状信息的形式表示。

其次，将定位的片段迭代地聚类成较大的超像素，直到在所得的超像素集合上满足某个预定的要求；这可以是例如图像编码目标比特率或最佳率失真折衷。实际上，超像素的尺寸和数量驱动分割的准确性与就变换系数率而言对片段进行编码所需的总体速率之间的折衷。另一个要求可以与超像素的总体数量相关，或等同地与它们被认为是最佳的平均像素数量相关。

第三，图傅立叶变换(Graph Fourier Transform，GFT)以分段方式分别且独立地在集合的每个超像素上执行。

作为对图像进行编码的这种方式的结果，以某种编码形式向解码单元传送超像素的形状，而不是一起传送如来自图1中的参考体系架构的权重矩阵以及超像素变换系数(与图2进行比较)。事实上，超像素在内部是同质的，因此它们的对应权重矩阵可以由常数值近似，这允许向解码器传送超像素形状，例如以边界的形式，而不是像图1中的参考体系架构那样的传送完整权重矩阵。此外，超像素边界可以被编码为黑白图像，为了进一步的编码效率，该黑白图像可以利用现有的用于单色图像压缩的方法来压缩。此外，对于高频，大多数同质的超像素产生很可能接近于零的变换系数，从而有助于减少存储图像或将其发送到信道上所需的总体编码比特率。

在解码侧，首先获取将图像到超像素的划分信息及其GFT变换系数。其次，基于所获取的GFT系数，将每个超像素分别且独立地从频域逆图傅立叶变换到空间域；第三，基于将超像素的像素映射到其在图像内的位置的相关划分信息，通过将超像素的重建像素置于其原始位置来重组原始图像。

附图说明

通过纯粹以非限制性示例的方式提供的附图中所示的实施例的描述，本发明的特性和其它优点将变得清楚，其中：

图1按所包括的基本单元示出了基于固定形状(例如，正方形)编码单元的典型的、已知的基于图变换的图像编码-解码体系架构的框图；

图2示出了描述根据本发明实现的图像编码和解码方案的总体概念体系架构的框图。具体地，图2(a)示出了根据本发明的基于图变换的图像编码-解码体系架构的实施例的框图，其中每个超像素被独立编码。作为补充，图2(b)示出了根据本发明的基于图变换的图像解码体系架构的实施例的框图，其中每个经编码的超像素被独立解码。

图3示出了(a)场景中具有若干对象的样本自然图像，(b)作为SLIC图像分割算法的输出的图像的超像素图，(c)由本描述中示出的聚类算法产生的改进的超像素图。

图4示出了例示根据本发明的编码技术整体的实施例的流程图。

图5是例示了本文描述的所得超像素的初始图像分割和编码的实施例的流程图。即，在所考虑的实施例中，由分割生成的每个超像素边界和纹理被独立编码。这种超像素集合被指示为P，并且最初表示最好的可用方案。

图6是例示了本文描述的在初始分割和编码之后的迭代超像素聚类的实施例的流程图。即，在所考虑的实施例中，迭代地聚合超像素对(pairs of superpixels)，直到达到整个图像上的总体目标比特率。

图7(a)示出了从左上角到右下角的对角不连续所穿过的由仅3×3像素的网格组成的非常简单的图像f。图7(b)示出了以光栅扫描次序从1到9编号的图像的像素。像素1、2、3、5、6、9属于同一个超像素并标记为黑色。图7(c)示出了根据图11中绘出的方案计算的与图7(b)中所示的超像素对应的权重矩阵W。图7(d)将以光栅扫描次序布置的组成超像素的6个像素示出为6个像素的向量。

图8示出了3×3像素图像的三种可能的像素相邻情况。在图8(a)中，参考像素(黑色)位于图像的中心，并且被认为在上、左、下和右具有4个相邻(深灰色)；剩余的4个像素不被认为是参考像素的相邻(浅灰色)。在图8(b)中，参考像素(黑色)位于图像的边缘，并且在上、下和右具有3个相邻(深灰色)。剩余的5个像素不被认为是参考像素的相邻(浅灰色)。在图8(c)中，参考像素(黑色)位于图像的角落，并且在下和右具有2个相邻(深灰色)。剩余的6个像素不被认为是参考像素的相邻(浅灰色)。

图9示出了表示每个超像素Pⁱ的形状的两种可能方式，分别按照属于其的超像素(a)或其边界像素(b)。

图10是例示了从m'个经编码的超像素的列表P开始恢复图像f～的流程图，其中每个超像素Pⁱ被独立解码。

图11是例示了权重矩阵W相对于由N个像素组成的超像素P的恢复的流程图。要注意的是，由于超像素是图像的平滑、同质区域，因此对应的权重矩阵可以用常数值近似，其在图中常规地设置为1。

图12例示了体现本发明的图像编码和解码装置。即，图12(a)例示了适于执行与图2(a)对应的编码处理的编码装置1100。类似地，图12(b)例示了适于执行与图2(b)对应的解码处理的解码装置。

图13在(a)中示出了由标准8×8像素DCT在解码器处生成的典型重建伪像的示例；在(b)中示出了根据本发明编码和解码的相同图像。

图14在(a)中绘出了图13的整个图像是缩放部分；在(b)中绘出了当所述图像根据本发明被编码和解码时与标准的基于8×8DCT的压缩技术相比而言的率失真曲线的比较。

具体实施方式

在下文中，我们提供作为本发明的目标的基于超像素的图像编码和解码方法和系统的详细描述。为了提供本发明的示意性描述，首先描述编码器侧，接下来还描述解码器侧。

编码

图4提供了根据本发明执行的编码处理的高级概念图。首先，例如来自相机或作为未压缩图像文件的图像被获取，并且被预处理以满足编码器要求(步骤410)。预处理的可能形式包括图像尺寸调整、RGB图像的过滤和分解以将这些通道的组合变为YUV分量。

接下来，在步骤420，使用用于图像分割的一些方法将图像分割成内容同质的像素区域(以下称为“超像素”)。虽然在文献中描述了几种图像分割算法，但是如实际的编码实验所揭示的，本文描述的图像编码和解码方法的性能实质上对特定图像分割方案是不可知的。

在这个时候(步骤430)，每个超像素由于能够被应用于任意形状的图像区域而可以经由图变换潜在地编码。由于超像素分割把不连续性留在超像素边界之间，因此在解码器处恢复的超像素不太可能显示重建伪像。但是，在对超像素进行图编码之前，它们被迭代地聚类，以在表示超像素边界所需的速率、超像素变换系数和可能的编码失真之间取得更有利的折衷，这取决于超像素的数量和面积。

最后，在步骤440，所得的经编码的超像素数据集P以经GFT变换的超像素P∧i的集合和优选地以压缩/编码形式的相关形状表示P＊1的形式输出，这种数据集可以被存储，以供解码装置稍后读取或者通过通信信道发送给它。

在下文中，我们详细描述本发明的实施例，其中超像素被迭代地聚类和编码，直到获得某个目标编码率，这使得能够将本发明实际应用于通过带宽受约束的信道或容量受约束的介质进行通信的常见场景。

图像分割

图像最初被分割，以便获得图像到像素组(在技术文献中也被称为“超像素”)的初步细分，其中像素组的颜色或从像素值本身导出的其它低级属性(亮度分量Y、色度分量U或V、R G或B分量等)相似并且因此在属于一组的像素之间包含可忽略的不连续性或不包含不连续性，使得人类倾向于将该像素组感知为像一种单个的、合并的大像素，从而帮助个体识别存在于任何真实或人造图像中的对象。换句话说，如果使用某些技术(如用于图像(或视频)的图变换)，那么认为它们非常相似以至于可以高效地实现图像处理(如编码和解码)。

在超像素内分割图像是发现了几种实际应用的相关文献中众所周知的问题。例如，人们可能想要将背景图像上的前景对象分离。图像分割算法使得能够确定图像中的哪些像素属于语义仿射区域，从而定位使区域分离的边界。

如图3b中所示，超像素是在感知上有意义的原子区域，其旨在替代刚性像素网格。文献中存在几种不同的用于图像分割的算法，例如：NC–来自规格化切割的超像素(X.Ren，J.Malik.Learning a classification model for segmentation.IndustrialConference on Computer Vision，第10-17页，2003)；FH–Felzenswalb&Huttenlocher(P.F.Felzenswalb，D.P.Huttenlocher.Efficient graph-based imagesegmentation.Industrial Journal of Computer Vision，59(2)，2004)；TP–Turbopixels(A.Levinshtein，A.Stere，K.N.Kutulakos，D.J.Fleet，S.J.Dickinson，K.Siddiqi.TurboPixels：Fast superpixels using geometric flows.Transaction onPattern Analysis and Machine Intelligence，31(12)：2290-2297，2009)；ERS–熵率超像素(M.Y.Liu，O.Tuzel，S.Ramalingam，R.Chellappa.Entropy rate superpixelsegmentation.Conference on Computer Vision and Pattern Recognition，第2097-2104页，2011)；SEEDS–经由能量驱动的采样提取的超像素(M.van den Bergh，X.Boix，G.Roig，B.de Capitani，L.van Gool.SEEDS：Superpixels extracted via energy-drivensampling.European Conference on Computer Vision，第13-26页，2012)；CRS–轮廓松弛的超像素(C.Conrad，M.Mertz，R.Mester.Contour-relaxed superpixels.EnergyMinimization Methods in Computer Vision and Pattern Recognition，Lecture Notesin Computer Science的8081卷，第280-293页，2013)。

这各种划分技术不仅因影响分割时间和总体编码时间的复杂度而不同，而且还因输出而不同，即，不同的图像分割算法预期产生相同图像的不同分割。我们对不同分割算法的实验表明，SLIC(Radhakrishna Achanta，Appu Shaji，Kevin Smith，Aurelien Lucchi，Pascal Fua和Sabine Süsstrunk，“SLIC Superpixels”，EPFL Technical Reportno.149300，2010年6月)算法产生最佳性能的图像编码。

特别地，SLIC算法产生跟随图像不连续性的超像素。我们的编码实验表明，当将图变换应用于使用SLIC算法生成的超像素时，通过图变换产生很少的高频系数。给定近似相等尺寸的超像素的期望数量(k)，SLIC算法执行图像的初始分割，从而识别出许多间隔k个规则网格的像素(被称为聚类质心(C_k))。对于位于给定聚类质心周围的区域中的每个像素，给出关于聚类质心的相似性的测度。围绕给定聚类质心的图像区域的尺寸与超像素的数量(k)相关。所提及的在给定聚类质心周围的区域中的像素之间的相似性的测度是采用由以下关系给出的度量函数来执行的：

其中i和j是对其评估相似性测度的像素索引，并且N_C、N_S是规格化常量。上述度量函数考虑了由CIELAB颜色空间(l，a，b)的值表示的像素的颜色信息和位于上述区域中的每个像素的坐标信息(x，y)。一旦每个像素都已经基于其度量值而与最近的聚类中心相关联(例如，如果相似性度量的值高于阈值，那么每个像素与最近的聚类中心相关联)，更新步骤就将聚类中心调节为属于该聚类区域的所有像素的平均。L2范数用于计算新的聚类中心位置和之前的聚类中心位置之间的残差。迭代地重复赋值和更新步骤，直到误差收敛。

图3(a)示出了具有许多细节的样本自然图像：图像被细分为相似的语义同质区域(例如：花的纹理、窗户周围的大理石等)。图3(b)示出了SLIC算法在上述图像上的输出：该算法返回紧随图片中对象的边界的大量小图像。因此，在本发明的可能实施例中，使用SLIC算法将待编码的图像初始分割成超像素。

详细地说，我们假设图像被分割成m个超像素P＝{P¹,…,P^m}。在下文中，为了展示的清楚和可及性，我们假设一般性的第i个超像素Pⁱ的形状被表示为例如具有与待编码的原始图像相同的尺寸的黑白图像P^bi，其中，每个像素被编码在1比特上，并且如果它属于Pⁱ，那么可以在显示装置的屏幕上用黑色表示，否则用白色表示(具体参见图9(b)，左侧)。

当然，许多技术可以用于指示图像f的哪些像素属于某个超像素，即，表示池的超像素Pⁱ的形状或边界。例如，可替代地，超像素的边界像素可以被设置为“1”，而图像的所有其它像素都假定为值“0”(参见图9(b)右侧)。

迭代超像素聚类

然后，经由图像分割获得的超像素基于聚类信息被聚类为逐渐变大的超像素，以便在编码超像素边界(即，超像素几何结构)所需的速率与编码超像素变换系数(即，超像素纹理)所需的速率之间取得更有利的折衷。几种图像分割算法(包括本实施例中示例性考虑的SLIC算法)当中的一种可以被用于通过将图像细分成大量相对小的超像素来将在高度同质的超像素中分割图像，如图3(b)中清楚地示出的。直观地，小的超像素不太可能包括不连续性，因为越好地紧随不连续性，从而编码(更少的)高频变换系数所需的比特率越低并且因此解码器侧的重建伪像越少。但是，直观的是，图像中的超像素越多，必须以将越多的边界信息传送给解码器，代价是增加超像素边界编码率。在下面描述的本发明的实施例中，我们将超像素对迭代地聚类成逐渐变大的超像素，直到达到目标总体图像编码率。

首先，在本发明的实施例中计算用于编码由分割算法分割的图像所必需的编码率。

特别地，图5中的流程图例示了一种算法，该算法基于由在步骤510执行的分割算法(如SLIC)产生的分割来计算根据本发明对图像进行编码/压缩所需的速率。令P指示形成用于经由单独的图傅立叶变换进行编码的初始候选的超像素的池，其对应于由这种图像分割算法生成的m个超像素的输出的集合，即，P＝{P¹,…,P^m}。更确切地说，每个超像素通过其形状(以某种方式表示为P^bi)及其在空间域中的构成像素Pⁱ被区分。优选地，根据任何已知的无损图像压缩/编码技术(如JBIG(联合双级图像专家组))，来对超像素的形状表示进行压缩(即，编码)，以便降低其存储或传输所必需的比特率。

所得的压缩形状表示被指示为P*＝{P^*1,…,P^*m}。在步骤520，超像素计数器和索引i被初始化为1，并且变量R_best在这里根据m个超像素中的初始分割来累计对图像进行编码所必需的速率的值；当然它被初始化为零。

在步骤530，基于超像素Pⁱ的像素值来计算第i个超像素的个体GFT P^ⁱ，并且相关形状表示P^bi优选地被压缩，以便获得经编码的超像素边界P^*i。这两个实体P^ⁱ和P^*i都被存储，因为它们对于根据本发明实施例的迭代编码和变换技术(其在根据初始分割P计算对图像进行编码所需的编码率的初始阶段之后执行)是必需的。

然后，通过将当前超像素Pⁱ的编码率加到其前一个值，编码成本率R_best在步骤540被更新，如下式：

R_best＝R_best+rate(P^*i)+rate(P^{^i})

其中rate(P^*i)指示(可能编码的)边界的速率并且rate(P^{^i})指示超像素Pⁱ的(可能编码的)GFT系数的速率。在形状表示P^bi未被压缩的情况下，可以在上式中使用P^bi的速率而不是P^*i的速率。

此时，验证步骤550检查初始分割的最后一个(第m个)超像素是否已经被处理。如果是(i＝m)，那么过程结束，否则超像素索引i在步骤560递增1，并且初始速率计算过程以步骤530继续，直到所有超像素的速率都已经被加到变量R_best，并且所有超像素的GFT系数P^{^i}以及经编码的超像素的形状P^*i都已被计算并存储。

如前面所解释的，一般而言，如果分别将GFT变换应用于每个超像素，由于其过多的数量增加了编码其形状的开销，因此常规的分割算法不会从编码成本率产生最佳结果；因此在本发明的实施例中，如图6中所示，迭代聚类算法被应用于这种初始分割。

形式上，作为总体结果，图6的迭代聚类和编码算法将m个初始超像素聚类为m'个超像素，其中一般m'<＝m，使得经由单独的图傅立叶变换的m'个超像素的聚合编码率不会超过某个目标速率R_targ。

首先在步骤610，迭代过程检查在初始分割中通过根据本发明对图像进行编码而产生的速率R_best是否满足预定标准，在示例性实施例中该预定标准是目标编码率R_targ。

接下来，如图6中所示，算法检查目前发现的最佳编码方案的速率R_best是否低于强加到编码器的最大目标比特率R_targ(步骤610)：如果是，那么编码器不需要进一步的动作并且算法结束。否则，算法通过将一对两个邻近超像素进行迭代聚类并对所得的超像素进行编码来继续降低编码率。显然，如果最初由分割算法返回的超像素的数量等于1，即，m＝1(图中未表示)，那么聚类不会被进一步执行并且过程结束。

否则，该算法比较所有的邻近超像素对，并且针对每对相邻的超像素，它计算相异性的测度，从而聚类最相似的超像素对。

可以经由不同的度量来计算图像的任意片段之间的相似性或相异性。在本文描述的本发明的实施例中，我们示例性地描述CIEDE2000度量的使用(G.Sharma，W.Wu和E.N.Dalai，“The CIEDE2000color difference formula：Implementation notes，supplementary test data，and mathematical observations”，Color Research andApplication，第30卷，第1期，第21-30页，2005)。

CIEDE2000算法典型地被应用于图像的区域，并返回表示这种区域的平均颜色的标量图。令P^^k和P^^l为两个相邻超像素，并且令M^^k和M^^l为相对CIEDE2000度量。P^^k和P^^l之间的相异性被测量为|M^^k–M^^l|，并且该算法测量每对邻近超像素的这种距离。最终，过程返回具有最小相异性并且是用于聚类的最佳候选的两个相邻超像素P^^k、P^^l的索引k、l。

接下来，在步骤620，过程生成通过对组成超像素P^k和P¹的像素进行聚类而产生的新的超像素P^j，即，P^j＝P^k U P^^l，其中U表示合并操作符。当然，使P¹与P^k分离的边界像素也变成新的超像素P^j的一部分，使得产生具有新形状P^bj(以及有可能P*^j)的新超像素。

在步骤630中，超像素P^j然后经由图傅立叶变换被独立编码为{P*^j,P^^j}＝编码(P^j)，其中R_j表示用于生成P^^j的编码率，即，R_j＝R(P*^j)+R(P^^j)是以压缩方式编码新超像素P^j的形状的成本率，而R(P*^j)是用于编码超像素P^j的像素的成本率，即，用于从P^j生成P^^j的成本。

一旦超像素P^j已经被编码，算法就检查将超像素P^{^k}和P^{^l}聚合成超像素P^{^j}是否已经使得能够降低编码图像的速率。令R_prop为所提出的新方案(包括用P^{^j}代替超像素P^{^k}和P^{^l})的编码率，它被计算为R_prop＝R_best–R_k–R_l+R_j(步骤650)，其中R_best是到目前为止发现的最好方案的编码率。在步骤660，过程检查是否R_prop<R_best：如果不满足该条件，那么将超像素P^k和P^l聚类成P^j不产生任何比特率降低(典型地，由于变换系数率的增加)，因此到目前为止发现的解是最佳的，并且算法终止。

否则，将P^{^k}和P^{^l}聚类成P^{^j}已经降低了图像编码率(典型地，由于降低的边界编码率)，并且因此迭代聚类和编码过程从表示当前最好方案P的超像素池中移除超像素P^{^k}和P^{^l}；在步骤670，它通过从P中移除P^k和P^l(P-＝{P^k,P^l})并将P^j加到P(P+＝{P^j})来用P^{^j}代替它们；最后它跟踪与更新后的解对应的速率为R_best＝R_prop。

图3(b)与(c)之间的比较示出了所提出的算法如何在由SLIC算法初始分割的真实图像上进行操作。要注意的是，图(b)中图像的建筑物中的墙壁如何最初被细分为不必要的大量小超像素，尽管墙壁是光滑的、同质的图像区域，为了图像编码的目的，该区域应当更好地被分割为更少的更大的超像素。图3(c)示出了本文描述的迭代超像素聚类算法的结果。该算法能够将语义上相似的小超像素分组在一起而不会被不连续性分开，因此降低了边界编码率，同时不会使总体变换系数编码率膨胀。

编码处理

如图2(a)中虚线框210所示，每个超像素P^{^i}独立于图像中的其它超像素被编码。

超像素编码器210以两个不同的元素作为输入。

超像素编码器的第一输入元素例如由与待编码的超像素Pⁱ的像素(有时被称为纹理)对应的N个像素P的阵列表示；请注意，为了简单起见，例外地没有将索引i放入本图的元素中。例如，令每个像素被编码在8比特上，并且每个像素可以取0到255灰度阴影之间的任何整数值，使得每个像素被编码在1字节上。例如，图7(a)示出了图3(a)中图像的3×3＝9个像素(N＝9)区域的情况。虽然不同的像素索引方案是可能的，但是我们示例性地以行优先(row-first)的次序对像素进行索引，即，如图中所示，图像中的像素被标识为{f₁,…,f₉}。可见，与超像素对应的待编码的原始图像f的像素可以被表示为N个字节的向量P，其中向量的每个元素表示例如遵循光栅扫描次序的像素。

在本发明提出的实施例中，超像素编码器装置的第二输入是诸如图7(b)中所示的黑白图像P^bi，其定义了原始图像中属于一般性的第i个待编码的超像素的像素。如果是待编码的超像素的部分(图7(b)中的黑色像素)，那么P^bi的每个像素用例如“1”值编码在1比特上，而如果不是待编码的超像素的部分，那么用“0”值编码。

在本发明的实施例中，可选的边界(或形状)编码单元230以表示超像素边界P^bi的图像作为输入并且输出超像素边界的压缩表示P*ⁱ。因为超像素边界是黑白图像，所以用于压缩黑白图像(诸如像传真文档)的现有技术适用。在所提出的实施例中，使用用于压缩双级图像的JBIG方案(ISO/IEC标准11544和ITU-T建议T.82)来压缩超像素边界P^bi。

权重矩阵W生成单元250以超像素边界P^bi作为输入并且输出与待编码的超像素对应的相对二进制权重矩阵Wⁱ。

我们回想一下，图7示出了由6个像素{f₁,f₂,f₃,f₅,f₆,f₉}组成的超像素。图7(c)示出了与超像素Pⁱ对应的弧权重矩阵Wⁱ：因为本例中的超像素由6个像素组成，所以权重矩阵W的尺寸等于6×6＝36个元素。对于属于该超像素的每个第i个像素f_i，权重矩阵用wⁱ _i,j表示，wⁱ _i,j是连接f_i与属于该超像素的任何其它第j个像素f_j的弧的权重。即，W的每个元素只能是0或1，即，wⁱ _i,j是0或1。如果属于同一个超像素的两个像素f_i和f_j相邻，那么连接这两个像素的弧的权重wⁱ _i,j等于1，即，wⁱ _i,j＝1。否则，如果两个像素f_i和f_j属于同一个超像素但它们不相邻，那么wⁱ _i,j＝0。

像素之间的相邻的概念定义如下并在图8中例示，图8表示由9个像素组成的玩具图像。如果f_j位于f_i的正上方、或正下方、或右侧或左侧，那么称像素f_i与像素f_j相邻。例如，在图8(a)中，参考像素是f₅并位于图像的中间：f₅的相邻是四个像素f₂、f₄、f₆、f₈。要注意的事实，像素f₁、f₃、f₇、f₉不是f₅的相邻。依赖于图像中参考像素的位置，相邻可以少于4个。例如，在图8(b)中，参考像素是f₄并且位于左边的图像边界上，因此它的相邻只有3个(即，f₁、f₅、f₇)。最后，在图8(c)中，参考像素是f₁并且位于左上角的图像角落，因此它的相邻只有2个(即，f₂、f₄)。

在已经阐明了像素之间的相邻的概念之后，借助于流程图在图11中描述生成与给定超像素边界P^b(也被称为边界信息)对应的权重矩阵W的方法。首先，将Wⁱ的所有元素都设置为等于0(wⁱ _i,j＝0)，同事将像素索引i初始化为1(步骤11010)。接下来，在步骤11020，对于属于超像素的每个像素f_i(参见循环11040-11070)，该方法检查超像素中的每个其它像素f_j是否与f_i相邻(步骤11040)：在这种情况下，对应的权重wⁱ _i,j被设置为1(步骤11060)。

如果像素f_i不属于当前超像素P(检查11020给出“否”)，那么通过递增像素索引来处理下一个像素f_i+1(步骤11090)并且重复步骤11020-11090，直到最后的第N个像素已经被处理(步骤11100的检查)；在这种情况下，关于一般性的超像素P的权重矩阵W的生成的过程结束。

图7(a)例示了尺寸为3×3个像素的图像f的情况：所考虑的超像素P¹(即，第一个)包含6个像素{1,2,3,5,6,9}，在图7(b)中以深色表示。因为超像素包含6个像素，所以对应的权重图W¹将由尺寸为6×6个元素的矩阵表示。图7(c)示出了对应的权重矩阵W¹：矩阵是对称的，并且矩阵的对角线等于0。因此，一般而言，权重矩阵生成单元105的输出是N×N矩阵Wⁱ，其中每个元素是连接两个像素的弧的权重，并且如果两个像素不相邻，那么Wⁱ的每个元素的值为“0”，否则为“1”。

图拉普拉斯单元110以权重矩阵Wⁱ作为输入并且输出N×N变换矩阵Uⁱ。从现在开始，编码器装置240的描述和相关公式中的索引i将被忽略，因为很清楚，计算是关于一般性的第i个超像素，而不是整个图像或其规则块。

首先，该单元从W计算N×N对角矩阵Δ，使得其对角线的第i个元素等于进入第i个像素的所有边的所有权重之和，如W'中所述。其次，该单元计算N×N矩阵L＝Δ-W'，其中L是W的图-拉普拉斯。

第三且最后，该单元计算被称为变换矩阵的N×N矩阵U，其中U的行是L的特征向量，即，U的行是允许对角化L的向量。

图变换单元220以N×N变换矩阵U和表示超像素纹理的像素的N×1向量P作为输入，并且输出变换系数向量P^。向量P由待编码的超像素的像素组成，根据用于生成权重矩阵W的相同标准进行索引。例如，再次参考图7(a)，其示出了由9个像素组成的图像的情况，我们考虑在图7(b)中用深灰色像素表示的超像素。这种超像素由像素编号1、2、3、5、6、9组成，其中索引方式考虑了图像的光栅扫描。与所考虑的超像素对应的向量P在图7(d)中示出，并且由布置在向量中的像素编号1、2、3、5、6、9表示。该单元经由矩阵相乘来计算N×1个系数向量P^

P^＝U P，

其中系数向量P^具有尺寸N×1。

因此编码器的输出由(可选地压缩的)超像素边界P*和系数向量P^组成，其足以使得能够独立于原始图像中的所有其它超像素来恢复超像素，如下文详细描述的。

编码装置

图12(a)例示了适于执行与图2(a)中的方案对应并在上面详细描述的编码处理的编码装置1100。视频源1000可以是或者实时图像的提供者(诸如相机)，或者是所存储的内容的提供者(诸如磁盘或者其它存储设备和记忆设备)。中央处理单元(CPU)1110负责激活编码图像所需的单元的适当序列。CPU首先借助于输入部件1170(例如，USB、火线(Firewire)、SATA或以太网控制器等)从视频源提取图像，并将其加载到存储器单元1140中。接下来，在本发明的实施例中，CPU激活分割单元1120，分割单元1120从存储器获取原始图像f，执行分割算法(诸如SLIC算法)，将图像细分成m个超像素{P¹,...,P^m}并且在存储器中存储与这m个超像素对应的m个黑白图像。

然后CPU执行图6中的迭代聚类算法，该迭代聚类算法迭代地聚类和编码超像素对。在算法的每次迭代中，CPU定位两个最相似的超像素，然后对其进行编码。每个单个超像素的编码需要顺序地激活图编码单元1150、图拉普拉斯单元1130和DFT单元1160。每当超像素Pⁱ被编码时，CPU首先激活图编码单元1150，其压缩与超像素边界对应的黑白图像并计算与超像素对应的权重矩阵W并将其存储到存储器中。

接下来，CPU激活图拉普拉斯单元1130，其从存储器中提取权重矩阵W，计算特征向量U并将它们存储在存储器1140中。此时，CPU可以从存储器中丢弃恢复的权重矩阵W，因为在编码器处不再需要。随后，CPU激活DFT单元1160，其从存储器中提取特征向量U并计算存储在存储器单元1140中的傅立叶变换系数P^的矩阵。在这个时候，CPU可以从存储器中丢弃特征向量U，因为在编码器处不再需要。

最后，CPU借助于输出部件1180(例如，USB、火线、SATA或以太网控制器等)从存储器中提取经压缩的超像素边界的集合和变换系数P^的集合，并将它们放入信道中或将它们保存到存储介质1200中。

上述的编码装置可以由CPU控制，以在内部以流水线方式操作，从而使得能够减少处理每个图像所需的总体时间。还要注意的是，在发送到信道上或存储在存储单元上之前，还需要对编码设备1100的输出执行许多其它操作，如调制、信道编码(即，错误保护)。无论如何，那些操作与体现本发明无关，因此被忽略。

总之，编码装置1100执行用于对数字图像或视频流进行编码的方法，该方法包括以下阶段：

-接收阶段，其中借助于输入部件1170接收图像f的至少一部分；

-分割阶段，其中借助于处理部件1110分割所述图像f的部分，以便获得通过由分割获得的像素组(超像素)边界信息P^b识别的一个或多个像素组Pⁱ，其中每个像素组包含根据至少一个相似性度量具有预定相似性级别的至少两个像素；

-权重图计算阶段，其中借助于处理部件1110基于与所述像素组(Pⁱ)相关联的边界信息P^bi为每个像素组Pⁱ计算权重图Wⁱ；

-(图)变换矩阵计算阶段，其中，对于每个像素组Pⁱ，借助于处理部件1110计算变换矩阵Uⁱ；在一些实施例中，这种变换矩阵Uⁱ包含权重图Wⁱ的拉普拉斯矩阵的特征向量；

-变换系数计算阶段，其中，对于每个像素组Pⁱ，基于所述变换矩阵Uⁱ和包含在所述像素组中的像素来计算变换系数f^ⁱ；

-输出阶段，其中，借助于输出部件1180，将每个像素组Pⁱ的边界信息P^b和变换系数f^ⁱ输出到目的地1200。

解码处理

根据图10中的流程图来说明恢复利用上述基于超像素的技术编码的图像f的处理。在步骤1010，解码器装置250接收m'个经编码的经图傅立叶变换的超像素的列表P^＝{P^¹,…,P^^m'}，其中每个第i个超像素由(压缩的)黑白边界图像以及将超像素变换系数表示为P^ⁱ＝(P^i*,P^ⁱ)的向量组成。当前超像素索引i被初始化为值1。

每个第i个超像素独立于构成原始图像f的其它m'-1个超像素被解码，因此解码器可以不需要已经接收到所有m'个经编码的超像素来开始解码处理：相反，它可以在经编码的超像素到达解码器时就解码它们。就其功能单元而言，完整的超像素解码器体系架构的详细描述在图2(b)的以下描述中提供。本文提供超像素解码过程的概述。

首先，如果被压缩，那么在可选的步骤1020期间，边界P^i*被可选的形状解码单元240(图2(b))解压缩：例如，如果如上所述用JBIG编码器压缩边界图像，那么边界图像将在接收器侧用JBIG解码器进行解压缩。这个步骤的输出是黑白图像P^bi，其具有与原始图像f相同的尺寸并且包含指示图像的哪些像素属于第i个所考虑的超像素的掩模。

接下来，在步骤1030，从超像素边界图像P^bi中恢复权重矩阵Wⁱ。假设P^bi中的第i个超像素掩模包括N个像素，那么矩阵Wⁱ将具有尺寸N×N，其中如果原始图像中的像素f_i和f_j属于相同的超像素Pⁱ并且相邻，那么每个元素wⁱ _i,j等于“1”，否则等于“0”。在下文中，提供允许恢复Wⁱ的算法的详细描述。

接下来，在步骤1040，经由逆图变换恢复超像素Pⁱ的纹理。首先，根据Wⁱ计算对角矩阵Δⁱ，然后计算特征向量矩阵Uⁱ及其逆(Uⁱ)^-1；在当前情况下，(Uⁱ)^-1等于(Uⁱ)^T，因为在这种特定情况下，Uⁱ由W'的拉普拉斯矩阵的特征向量组成。最后，在步骤1050，执行N×N矩阵(Uⁱ)^T与N×1向量P^{^i}之间的相乘，其返回N×1向量P^～i，P^～i包含以光栅扫描次序构成(可能近似的)超像素纹理的像素的值。

最后，在步骤1060中，表示恢复的超像素纹理的N×1向量P^～i被解向量化，从而填充属于刚被解码的第i个超像素的恢复图像f～的那些像素。为了简单起见，下面我们将暂时从记号中删除指示待恢复的图像内的超像素编号的索引“i”(即，我们将写P^b代替P^bi，P^{^}代替P^{^i}，等等)。令P^～是向量P^～的第j个元素，其中1<＝j<＝N。令P^b是按光栅扫描次序的超像素边界的第j个元素，即，原始图像f的第j个像素，使得它属于超像素P。根据边界图像P^b，恢复P^b的确切坐标，我们称之为(x,y)_j。一旦目标坐标已知，超像素的第j个像素就仅通过将P^～内的值复制到f_(xy)j来恢复。这种过程可以实现为简单的存储器内复制，并且对于P^～的每个第j个元素重复，直到整个超像素纹理被解向量化并且超像素在f～中被恢复。

恢复我们的原始符号，一旦第i个超像素Pⁱ已被解码，解码器就检查是否还有超像素要解码，即，检查超像素索引i是否还未达到值m'(步骤1070)。如果是，那么在步骤1080将计数器i递增，并重复步骤1020-1070的过程。否则，图像恢复处理完成并且过程结束。要注意的是，尽管我们将恢复图像f～的处理描述为其中超像素被一个接一个地解码的串行过程，但是在另一个实施例中，假设有足够的计算资源可用，超像素可以被完全或部分并行地解码，以加速恢复处理。

单个超像素解码器体系架构

其体系架构如图2(b)中所示的超像素解码器实现图10中虚线内包围的功能块，并且在这里按其功能单元进行描述。为了简单起见，我们在此图中丢弃一般性超像素索引i。超像素解码器至少由超像素边界解码单元240、权重图生成单元250、图拉普拉斯单元110、一个逆图变换单元280组成，其中每个单元如下面详细描述的那样操作。

可选的超像素边界解码单元240以可能压缩的超像素边界P*作为输入并且输出超像素的解压缩表示P^b。该单元执行关于在编码器处发现的超像素编码单元230执行的处理的逆处理。例如，在单元230的以上描述中，例示了单元230可以使用JBIG方案对超像素边界进行编码，以压缩双级图像(ISO/IEC标准11544和ITU-T建议T.82)，以便进一步减少信道或记忆单元所需的带宽或存储容量。

因此，为了例示的目的，在本发明的实施例中，单元240可以使用JBIG解码算法来解码经压缩的超像素边界P*。该方框的输出是表示待解码的超像素的边界的黑白图像P^b。由于这个操作是非必要的，因此压缩单元230和解压缩单元240以虚线绘出。例如，图9(b)示出了表示超像素P的两个可能的实施例，如由图像划分产生的一般性Pⁱ超像素。即，在左边，我们有属于超像素的所有像素用“1”指示且与图像中的黑色像素对应而所有其它像素将用“0”指示且与白色像素对应的情况。在右边，只有与超像素内边界对应的像素用“1”表示，而其它像素将用“0”表示。

在解码器处发现的权重矩阵生成单元250等同于在编码器处发现的权重矩阵生成单元250，并且起着完全相同的作用：以超像素边界P^b作为输入并在输出中产生相对权重矩阵W。

在解码器处发现的图拉普拉斯单元110等同于在编码器处发现的图拉普拉斯单元110，并且起着完全相同的作用：以权重矩阵W作为输入并且输出N×N变换矩阵U。

首先，该单元根据W计算N×N对角矩阵Δ，使得其对角线的第i个元素等于如W中所述的进入第i个像素的所有边的所有权重之和。其次，该单元计算N×N矩阵L＝Δ-W。

最后，逆图变换单元280以变换矩阵U作为输入并对其进行转置，以生成N×N矩阵U^T。其次并且最后，该单元将N×N矩阵U^T乘以N×1系数向量P^并且恢复原始的N×1超像素纹理(的近似重建)，我们将其表示为P～，如

P～＝U^T P^。

图12(b)例示了适于执行与图2(b)中的方案对应的解码处理的解码装置1300。中央处理单元(CPU)1110监督解码处理并且激活执行与图2(b)中的方案对应的操作序列所需的单元的合适序列。CPU首先借助于输入部件1170(例如，USB、火线、SATA或以太网控制器等)从信道或存储介质1200提取经编码的超像素边界P*和变换系数P^，并将它们加载到存储单元1140中。在访问P*和P^之前，可能有必要实施由编码器对输入数据执行的相同的逆操作，诸如解调和纠错，即，典型的信道解码操作(图中未示出)。接下来，CPU激活执行图2所示的解码设备260的解码处理的可选的边界解码单元1150、图拉普拉斯单元1130和逆DFT单元1260。对于用于重建原始图像的每个待解码的超像素，CPU首先激活可选的边界解码单元1150，其从存储器中提取经压缩的超像素边界并将解压缩的超像素边界黑白图像P^b存储在存储器中。接下来，超像素解码器单元1120从存储器中提取边界图P^b，执行图11中所示的流程，并将恢复的权重矩阵W存储在存储器中。

此时，CPU可以从存储器中丢弃超像素边界P^b，因为恢复超像素不再需要。随后，CPU激活图拉普拉斯单元1130，其从存储器中提取恢复的权重图W，计算特征向量U并将它们存储在存储器中。此时，CPU可以从存储器中丢弃恢复的权重矩阵W，因为恢复超像素不再需要。

接下来，CPU激活逆DFT单元1260，其从存储器中提取特征向量U和变换系数P^，并且恢复在存储有已恢复的超像素的主图片画布中恢复存储在存储器中的超像素纹理P。针对原始图片f被编码成的每个超像素重复这种过程。最后，CPU可以从存储器中提取恢复的图像f～并借助于输出视频部件1170(例如，USB、火线、SATA或以太网控制器或VGA或HDMI适配器等)将其发送到显示单元1400或将其复制到另一个存储器单元中。

总之，解码装置执行用于解码数字图像的方法，该方法包括以下阶段：

-第一接收阶段，其中借助于输入部件1180接收区分与至少一个图像部分的分割有关的像素组(Pⁱ)的边界信息P^b和像素组Pⁱ的变换系数f^ⁱ；

-权重图重建阶段，其中，对于每个像素组Pⁱ，借助于处理部件1110，基于与所述像素组相关联的边界信息P^bi，重建权重图Wⁱ；

-特征向量计算阶段，其中，对于每个像素组Pⁱ，借助于处理部件1110计算权重图Wⁱ的拉普拉斯矩阵的特征向量；

-组重建阶段，其中，对于每个像素组Pⁱ，借助于处理部件1110，通过优选地对这种系数f^ⁱ操作逆图傅立叶变换，基于变换系数f^ⁱ和特征向量Uⁱ来计算重建的像素组P^～i；

-图像重建阶段，其中通过处理部件(1110)，通过聚合重建的像素组P^～来计算重建的图像f～；

-输出阶段，其中通过输出视频部件1270输出重建的图像f～。

实验结果

图13(a)示出了由标准的8×8像素DCT在解码器处生成的典型重建伪像的示例。正方形块边界穿过图像中的不连续(诸如前景中的鸟的喙与背景之间的边界)，从而导致重建伪像在图片中清晰可见。相反，图13(b)示出了根据本发明编码和解码的相同图像。特别地，鸟的喙和背景属于两个不同的超像素，因此两者之间的不连续性被留在超像素之间的边界处，从而导致两个对象之间的边界的清晰表示。

图14(a)和(b)分别示出了图13中的测试图像的更大版本以及根据本发明和改用8×8像素DCT的参考体系架构来对图像进行编码和解码时的对应率失真曲线。特别地，图14(b)在x轴上示出了以每像素的比特数(bpp)表示的编码率，即，编码一个像素所需的平均比特数。这个测度包括对于根据JBIG标准在本发明中提出的方案的系数的编码和超像素边界的编码这两者。相反，y轴示出了在Y通道上测得的原始图像与解码图像之间的PSNR。该图示出了根据本发明的编码和解码方案针对较低的编码率实现更好的图像质量。即，改进的率失真效率是由于编码率相对于变换系数的大大降低以及由于将图像不连续性留在超像素之间的边界处而引起的减小的失真。

其它实施例和泛化

在本发明的实施例的详细描述中，由于基于目标编码率执行聚类或分割缩减，因此聚类和图傅立叶变换以迭代的方式依次执行；这要求在单次迭代中一个接一个地执行聚类和图变换。这对于执行本发明不是必需的；同样其它过程是可能的；例如在超像素驱动的图傅立叶变换之前首先整体地实施聚类过程(即，与随后的GFT变换没有任何关系)，并且之后从聚类处理产生的超像素集被GFT变换。

在这种实施例中，可以根据启发式做法以非常简单的方式设置来自聚类处理的超像素的数量。通常，特别是对于自然图像，要经由形状编码和与图像的总体像素数相关的GFT变换分别编码的超像素m'的数量存在最佳值。如果我们用N_P指示分割的超像素中的期望的平均像素数量，那么m'通过以下关系与N_P和图像f的像素数量K相关：

m′＝K/N _p

根据发明人对大量自然(即，非人造)图像进行的实验，m的良好值处于300-1000的范围内，m'的良好值处于50-150的范围内。因此，可以执行初始分割缩减，直到在这种缩减处理期间达到m'的某个预定值为止，然后对m'个超像素中的每一个分别且单独执行超像素驱动的GFT变换。

在本发明的实施例中，可以对待编码的图像进行初步滤波，以去除高频分量并减小结果所得的编码比特率。适当的滤波器的示例包括高斯或线性或双线性或立方滤波。

在另一个实施例中，可以使用与本描述中考虑的SLIC算法不同的分割方来将图像分割为超像素。合适的图像分割算法包括规格化分割算法(Jianbo Shi，Jitendra Malik，“Normalized Cuts and Image Segmentation”，IEEE Transactions on PatternAnalysis and Machine Intelligence，第22卷第8期，2000年8月)、Felzenswalb和Locker的算法(Pedro Felzenszwalb，Daniel P.Huttenlocher，“Efficient graph-based imagesegmentation”，International Journal of Computer Vision 59.2，2004)等等。

在超像素聚类算法的另一个实施例中，边界和变换系数编码率可以至少部分地根据基于所收集的编码统计量的模型来预测，而不是通过实际对超像素进行图编码来测量，以降低编码复杂度。

在另一个实施例中，超像素聚类可以基于率失真折衷度量而不是简单地基于满足图像上的最大可容忍目标比特率。在这种实施例中，在根据本发明的某个编码试验之后，立即解码图像，将原始图像与其解码版本进行比较，计算率失真折衷并且保持试验性编码或不基于所得的折衷，或者基于编码处理引入的失真和/或来自速率和失真的组合。

在另一个实施例中，两个超像素之间的相似性或相异性可以测量为除本描述中考虑的CIEDE2000度量以外的其它颜色表示度量之间的差异。合适的颜色度量包括Mahalanobis距离(Prasanta C.Mahalanobis,“On the generalized distance instatistics”,in National Institute of Sciences of India,Calcutta,India，1936年，第2卷，第49-55页)和Bhattacharyya距离(Anil K.Bhattacharyya,“On a measure ofdivergence between two statistical populations defined by their probabilitydistributions”,Bulletin of Calcutta Mathematical Society，第35卷，第1期，第99-109页，1943年)。

在另一个实施例中，单个超像素的几何形状可以用跨越超像素自身的内边界的多边形来描述，使用向量表示代替黑白图像。这节省了表示超像素的边界的空间。

在另一个实施例中，超像素的总体几何形状可以被表示为黑白图像，其中黑色(或白色)像素表示分离两个超像素的边界，如图3(c)中所示：这后一个实施例的优点是两个相邻超像素共有的每个边界仅被编码一次，因此降低了边界编码率并提高了压缩效率。

在另一个实施例中，表示超像素边界的单色图像可以使用诸如(H.Freeman,“Onthe encoding of arbitrary geometric configurations”,IRE Transactions onElectronic Computers EC，第10卷(1961))或(E.Bribiesca,"Anew chain code",IEEETransactions on Pattern Recognition，第32卷(1999))之类的链式编码代替本描述中讨论的JBIG编解码器被压缩。

在另一个实施例中，表示超像素边界的单色图像可以利用用于分段平滑图像压缩的现有技术来进行压缩，例如像在基于DIBR的渲染中使用的深度图，诸如在(I.Daribo,D.Florencio,G.Cheung,“Arbitrarily shaped motion prediction for depth videocoding using arithmetic edge coding"，2012年第19届IEEE InternationalConference on Image Processing(ICIP)，30 2012)中描述的基于算术编码的方案。

在本发明的其它实施例中，图变换系数f^(通常包含在向量中)是以与这里所示不同的任何其它方式基于重建的权重图W'确定的，即，通过经由图变换矩阵U来计算图变换系数f^，其中图变换矩阵U由W'的图拉普拉斯矩阵的特征向量组成。

在另一个实施例中，变换系数f^在被置于信道上或存储在存储单元中之前利用现有的编码技术被进一步压缩，并且在被图解码单元处理之前在接收器处解压缩。合适的编码技术包括非均匀量化、锯齿形扫描、差分编码和熵编码。

本发明可以被修改为也用于压缩彩色图像。例如，在RGB图像的情况下，本发明可以用于压缩R G或B分量中的至少一个；由于这些分量一般是强关联的，因此至少就边而言，可以基于起始分量的边推断或预测其它分量的边。类似地，在YUV编码的彩色图像的情况下，可以根据本发明压缩亮度分量Y，而色度分量U和V可以以类似的方式被压缩和解压缩为它们与Y的差信号(Y-U和Y-V)，其中一些修改考虑了色度分量相对于亮度的不同统计特征。

本发明还可以集成在视频编码技术中，其中视频序列的不同图像之间的时间相关性也必须被考虑。为此，与常规的视频压缩标准中使用的预测机制类似的预测机制可以与本发明结合使用，以有效地压缩和解压缩视频信号。

在本描述中作为输入二维信号使用的术语“图像”和“图像块”必须以其最广泛的含义来解释。它们可以涵盖从自然图像、人造图像、图像的预测误差、更高分辨率的图像的二次采样版本、所述图像类型的任何部分等直接导出或提取的像素值。

本描述已经解决了一些可能的变型，但是对于本领域技术人员来说显而易见的是，还可以实现其它实施例，其中一些要素可以用其它技术上等同的要素来代替。因此，本发明不限于本文描述的解释性示例，而是可以在不背离如所附权利要求中所阐述的基本发明构思的情况下经历许多修改、改进或者等同部分和要素的代替。

Claims

1.一种数字图像的编码装置(1100)，包括

-输入部件(1170)，被配置用于从源(1000)获取图像(f)的至少一部分，

-输出部件(1180)，被配置用于将编码图像的至少一部分输出到目的地(1200)，

其特征在于包括：

-处理部件(1110)，被配置用于

a)读取所述图像(f)的至少一部分，

b)分割所述图像(f)的所述部分，以便获得一个或多个像素组(Pⁱ)，其中所述组是通过边界信息(P^bi)区分的并且每个像素组包含根据至少一个相似性度量具有预定相似性级别的像素，

c)分别针对每个像素组(Pⁱ)，基于所述组(Pⁱ)中包含的像素来操作图变换以获得变换系数(f^ⁱ)，

d)通过输出部件(1180)将每个像素组(Pⁱ)的变换系数(f^ⁱ)和边界信息(P^bi)输出到所述目的地(1200)。

2.如权利要求1所述的编码装置(1100)，其中处理部件(1110)还被配置用于

e)计算两个或更多个邻近像素组(Pⁱ)之间的相似性信息，以便评估所述邻近像素组(Pⁱ)之间的相似性级别，并且用于基于所述相似性信息聚合两个或更多个邻近像素组(Pⁱ)，以便获得图像的所述至少一部分的具有更少像素组的新分割。

3.如权利要求2所述的编码装置(1100)，其中随后对不同的像素组(Pⁱ)重复步骤e)，直到满足以下条件中的至少一项：

-用于以编码形式表示所述新分割的组的变换系数和边界信息的总体速率低于预定阈值，

-相对于由所述新分割的组的变换系数和边界信息表示的编码图像的至少一个图像部分的总体失真低于预定阈值，

-所述新分割中的组(Pⁱ)的数量低于预定阈值。

4.如权利要求1至3中任一项所述的编码装置(1100)，其中步骤c)包括

-基于与像素组(Pⁱ)相关联的边界信息(P^bi)计算权重图(Wⁱ)，

-基于所述权重图(Wⁱ)来计算图变换矩阵(Uⁱ)，以及

-基于所述图变换矩阵(Uⁱ)和包含在所述像素组中的像素来计算变换系数(f^ⁱ)，

其中所述权重图(Wⁱ)指示所述像素组(Pⁱ)内的邻近像素对之间的相似性级别。

5.如权利要求4所述的编码装置(1100)，其中权重图(Wⁱ)包括仅对于组(Pⁱ)内被视为相邻的像素对是非空值的二进制值。

6.如权利要求1至5中任一项所述的编码装置(1100)，其中处理部件(1110)还被配置用于通过使用简单线性迭代聚类SLIC算法来分割所述图像的所述部分。

7.如权利要求1至6中任一项所述的编码装置(1100)，其中处理部件(1110)还被配置用于在发送边界信息(P^bi)和/或变换系数(f^ⁱ)之前压缩边界信息(P^bi)和/或变换系数(f^ⁱ)。

8.如权利要求7所述的编码装置(1100)，其中处理部件(1110)还被配置用于通过使用联合双级图像专家组JBIG编码器来压缩边界信息(P^bi)。

9.如权利要求4所述的编码装置(1100)，其中处理部件(1110)被配置为通过计算所述权重图(Wⁱ)的图拉普拉斯矩阵(L)的特征向量来确定图变换矩阵(Uⁱ)。

10.一种数字图像的解码装置(1300)，包括

-输入部件(1180)，被配置用于从通信信道或存储介质(1200)获取图像(f)的至少一个编码部分，

-输出视频部件(1270)，被配置用于输出重建的图像(f～)，

其特征在于包括

-处理部件(1110)，被配置用于

a)通过输入部件(1380)接收区分与至少一个图像部分的分割有关的像素组(Pⁱ)的边界信息(P^bi)和所述组(Pⁱ)的变换系数(f^ⁱ)，

b)分别针对每个像素组(Pⁱ)，操作所述变换系数(f^ⁱ)的逆图变换，以便获得重建的图像像素组(P^～i)，

c)通过基于所述边界信息(P^bi)聚合重建的像素组(P^～i)，计算重建的图像(f～)，

d)通过所述输出视频部件(1270)输出重建的图像(f～)。

11.如权利要求10所述的解码装置(1300)，其中处理部件(1110)还被配置用于在执行步骤b)之前解压缩边界信息(P^bi)和/或变换系数(f^ⁱ)。

12.如权利要求11所述的解码装置(1300)，其中处理部件(1110)还被配置用于通过使用JBIG解码器来解压缩边界信息(P^bi)。

13.如权利要求10至12中任一项所述的解码装置(1300)，其中步骤b)包括

-基于与所述像素组相关联的边界信息(P^bi)计算权重图(Wⁱ)，以及

-分别针对每个像素组(Pⁱ)，基于权重图(Wⁱ)计算逆图变换矩阵((Uⁱ)^-1)，并基于变换系数(f^ⁱ)和所述逆图变换矩阵((Uⁱ)^-1)计算重建的像素组(P^～i)，

14.如权利要求13所述的解码装置(1300)，其中所述权重图(Wⁱ)包括仅对于组(Pⁱ)内被视为相邻的像素对是非空值的二进制值。

15.如权利要求13所述的解码装置(1300)，其中所述逆图变换矩阵((Uⁱ)^-1)是通过计算所述权重图(Wⁱ)的图拉普拉斯矩阵(L)的特征向量来确定的。

16.一种数字图像或视频流的编码方法，包括

-接收阶段，其中通过输入部件(1170)接收图像(f)的至少一部分，

其特征在于还包括

-分割阶段，其中通过处理部件(1110)对所述图像(f)的所述部分进行分割，以便获得通过边界信息(P^b)区分的一个或多个像素组(P)，其中每个组包含根据至少一个相似性度量具有预定相似性级别的至少两个像素，

-变换阶段，其中基于包含在所述组(Pⁱ)中的像素，通过处理部件(1110)将每个像素组(Pⁱ)分别且独立地变换成图变换系数(P^ⁱ)，

-输出阶段，其中通过输出部件(1180)将每个像素组(Pⁱ)的变换系数(f^ⁱ)和边界信息(P^b)发送到目的地(1200)。

17.一种数字图像的解码方法，包括

-第一接收阶段，其中通过输入部件(1180)接收区分与至少一个图像部分的分割有关的像素组(Pⁱ)的边界信息(P^b)和所述像素组(Pⁱ)的变换系数(f^ⁱ)，

-逆变换阶段，其中针对每个像素组(Pⁱ)，操作所述变换系数(f^ⁱ)的逆图变换，以便获得重建的图像像素组(P^～)，

-图像重建阶段，其中通过处理部件(1110)，通过基于所述边界信息(P^b)聚合重建的像素组(P^～)来计算重建的图像(f～)，

-输出阶段，其中通过输出视频部件(1270)输出重建的图像(f～)。