CN1685364A

CN1685364A - 在图像中分割像素的方法

Info

Publication number: CN1685364A
Application number: CNA2003801001020A
Authority: CN
Inventors: 费蒂·M.·伯利克里
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-01-06
Filing date: 2003-12-25
Publication date: 2005-10-19
Also published as: EP1472653A1; JP2006513468A; WO2004061768A1; US20040130546A1

Abstract

一种对图像中颜色像素进行分割的方法。首先，从图像中提取全局特征。然后，重复以下步骤，直到所有像素已经从图像中分割：基于像素的梯度大小，在图像中选择一组种子像素；为该组种子像素定义局部特征；从全局和局部特征定义距离函数的参数和阈值；根据距离函数在种子像素的周围生长一个区域；并且从图像中分割该区域。

Description

在图像中分割像素的方法

技术领域

本发明一般涉及分割图像，更具体地，涉及通过生长像素的区域来分割图像。

背景技术

区域生长是用于图像和视频分割的最基本且众所周知的方法之一。在现有技术领域中有一些区域生长技术，例如：设置颜色距离阈值，Taylor等人的“Color Image Segmentation Using BoundaryRelaxation”，ICPR，Vol.3，pp.721-724，1992；迭代松弛阈值，Meyer的“Color image segmentation”，ICIP，pp.303-304，1992；进入高维以用户设定的阈值来解决距离度量的确切表示，Priese等人的“A fasthybrid color segmentation method”，DAGM，pp.297-304，1993；用预先确定的颜色距离阈值进行分级连接成分分析，Westman等人的“Color Segmentation by Hierarchical Connected Components Analysiswith Image Enhancement”，ICPR，Vol.1，pp.796-802，1990。

在用于图像分割的区域生长方法中，当图像中满足一些相邻约束条件的相邻像素的例如颜色和纹理的属性足够相似时，将这些像素合并。可以通过应用一个局部或全局的同类性标准，建立相似度。通常，根据距离函数和相应的阈值来执行一个同类性标准。对分割结果具有最重大的影响的是距离函数的确切表示和它的阈值。

多数方法或者对所有的图像使用单一的预先确定的阈值，或者具体的阈值用于具体的图像和图像的具体部分。阈值适配可能包含可观数量的处理，用户交互，以及上下文信息。

MPEG-7标准化了各种类型的多媒体信息即内容的描述，见ISO/IEC JTC1/SC29/WG11 N4031，“Coding of Moving Pictures andAudio”，2001年3月。该描述与该内容有关，以使得能够有效地对用户所关心的内容进行索引和查找。

该内容的元素可以包括图像、图形、3D模型、音频、语音、视频，以及关于这些元素是如何组合在一个多媒体表示中的信息。MPEG-7的一个描述符表征了一幅图像的颜色属性，见Manjunath等人的“Color and Texture Descriptors”，IEEE Transactions on Circuitsand Systems for Video Technology，Vol.11，No.6，2001年6月。

在MPEG-7标准中定义的若干颜色描述符中，主导颜色描述符最适合表示局部对象或图像区域特征，其中少数几种颜色足够表征所关心区域的颜色信息。也可以应用于整幅图像，例如标志图像或彩色商标图像。

图像中所关心区域中的一组主导颜色提供了对图像的一种简明描述，它易于索引和检索。一个主导颜色描述符利用少数几种颜色描述了一幅图像的部分或全部。例如，一幅图像中一个人穿着青蓝色的衬衫和略带红色的裤子，蓝色和红色是主导颜色，主导颜色描述符不仅包括这些颜色，还包括在给定区域内描述这些色彩的精确度级别。

为了确定颜色描述符，首先对图像中的颜色进行聚类。结果得到少数的几种颜色。然后，度量聚类后颜色的百分比。作为一种选择，也可以确定主导颜色的方差。可以用空间相干性的值来区分图像中内聚的和分散的颜色。主导颜色描述符和颜色直方图的一个区别是，对于描述符，代表性的颜色是从每一幅图像确定的，而对于直方图是在颜色空间中固定的。因此，颜色描述符是精确而简洁的。

通过用广义Lloyd处理对图像聚类进行连续分割，可以确定主导颜色。Lloyd处理度量颜色向量到聚类中心的距离，并且将具有最小距离的颜色向量组合为一个聚类，见Standford大学的Sabin在1984年完成的博士论文“Global convergence and empirical consistency ofthe generalized Lloyd algorithm”。

现在，更加详细地描述聚类、直方图和MPEG-7标准。

聚类

聚类是一种无监督的模式分类，它将例如观测值、数据项或特征向量等模式划分入各聚类中。典型的模式聚类行为包括模式表示的各步骤。或者，聚类行为还可以包括特征提取和选择，适合于数据域的模式接近度量的定义(相似度确定)，聚类或组合，按照需要进行数据抽象，以及按照需要进行输出估计，见Jain等人的“Data clustering：a review”，ACM Computing Surveys，31：264-323，1999。

聚类中最具挑战性的步骤是特征提取或模式表示。模式表示涉及到类别的数目，可用模式的数目，以及聚类处理可用的特征的数目、种类和规模。其中一些信息可以由用户控制。

特征选择是确定聚类中所用的最有效的图像特征集合的处理。特征提取是利用对输入特征的一个或多个变换来产生显著的输出特征。使用这两种技术中的任一种，或这两种技术共同使用可以获得适当的特征集合用于聚类。在小的数据集合中，模式表示可以基于先前的观测值。然而，在大的数据集合情况下，用户很难在聚类中跟踪每一个特征的重要性。一种解决办法是对模式尽可能多地进行度量，并且在模式表示中使用所有度量。

然而由于迭代处理的数量，在聚类中不可能直接使用大量的度量。因此，设计了几种特征的提取和选择的方法以获得这些度量的线性或非线性组合，以使这些度量可以用来表示模式。

聚类中的第二个步骤是相似度确定。模式接近度通常由定义于模式对的距离函数来度量。有很多已知的距离度量。简单的欧几里德距离度量可以常常用于反映两个模式之间的相似度，而其它相似度度量可以用来表征模式之间的一种“概念上的”相似度。其它技术使用了隐性的或显性的知识。大多数基于知识的聚类处理在相似度确定中利用显性知识。

然而，如果用不适当的特征表示模式，则不可能得到有意义的分割，与用于相似度计算的知识的质量和数量无关。对于确定用定性和定量特征的混合来表示的模式之间的相似度，没有普遍可接受的方案。

聚类中的下一个步骤是组合。广泛地说，有两种组合方案：分级法和分割法。分级方案更加通用，分割方案则复杂度较低。分割方案令平方误差准则函数最大化。由于很难找到一个最优的解，因此使用大量的方案以获得这个问题的全局最优解。然而，当应用于大的数据集合时，这些方案从计算上被否决。组合步骤可以由几种方式完成。当数据被分割入各分组中时，聚类的输出可以是精确的，或者在每个输出聚类中每个模式都具有可变的成员度时，聚类的输出也可以是模糊的。分级聚类产生基于一种相似度准则的一系列嵌套的分割，用于对聚类进行合并或分裂。

分割聚类确定优化一种聚类准则的分割。用于组合操作的其它技术包括概率论和图论的聚类方法。在一些应用中，具有一个非分割的聚类可能是有用的。这意味着聚类重叠。

模糊聚类理想地适合这种目的。模糊聚类也可以处理混合数据类型。然而，模糊聚类很难得到精确的成员值。由于聚类的主观特性，通用方法可能不起作用，并且需要表示以适当形式得到的聚类以帮助判决器。

基于知识的聚类方案产生直观上具有吸引力的聚类描述。即使当模式利用定性特征和定量特征的组合来表示时，倘若可以利用连接一个概念和混合特征的知识，也可以使用这些方案。然而，基于知识的聚类方案的执行在计算方面代价高，且不适于组合大的数据集合。著名的k方法处理及其神经实现Kohonen网络，在用于大数据集合时是最成功的。这是因为k方法处理执行简单，并且由于它的线性时间复杂度，在计算上具有吸引力。然而在大数据集合情况下，即使这个线性时间处理也是不可行的。

可以利用增量处理对大的数据集合进行聚类。但是它们倾向于依赖排序。分割和占领是一种试探法，它已经被恰当地利用以减少计算上的代价。然而应该将它审慎地应用在聚类中，以获得有意义的结果。

向量聚类

广义Lloyd处理是一种聚类技术，它是标量情况对于具有向量的情况的扩充，见Lloyd的“Least squares quantization in PCM”，IEEETransactions on Information Theory，(28)：127-135，1982。这个方法包括一定数量的迭代，每个迭代重新计算一组对输入状态的更加恰当的分割以及它们的质心。

该处理将M个输入状态的集合X＝{x_m：i＝1，...，M}作为输入，并且产生一个具有N个分割的集合C作为输出，这些分割由其相应的质心c_n：n＝1，...，N表示。

该处理开始于一个初始的分割C₁，并且重复以下步骤：

(a)给定一个分割，它表示一组由其质心C_K＝{c_n：n＝1，...N}来定义的聚类，通过扰动这些质心，对集合C_K中的每个质心计算两个新的质心，得到一个新的分割集合C_K+1；

(b)通过选择一个质心更接近每个状态的聚类，将每个训练状态重新指配至C_K+1中的一个聚类中；

(c)利用质心的定义为每一个产生的聚类重新计算其质心，以得到一个新的码本C_K+1；

(d)如果在前面的步骤中产生了一个空的单元，则指配一个替换性的码向量，而不是计算质心；以及

(e)对C_K+1计算平均失真D_k+1，直到最后一次迭代之后的失真变化率小于某个最小阈值ε。

第一个要解决的问题是，如何选择一个初始码本。产生码本的最普通的方法是试探性、随机性地从训练序列中选择输入向量，或使用一个分裂处理。

第二个要确定的是如何指定一个终止条件。通常，确定平均失真并将它与一个阈值进行比较，如下：

\frac{| D_{K} - D_{K + 1} |}{D_{K}} < ϵ,

其中0≤ε≤1。

对于与选择初始码本问题有关的空单元问题，有不同的解决方法。一个解决方法是分裂其它的分割，并且将新的分割重新指配给空的分割。

主导颜色

为了计算一幅图像的主导颜色，应用向量聚类处理。首先，假设一幅图像I的所有的颜色向量I(p)都在同一个聚类C₁中，即只有一个单个聚类。在这里，p是一个图像像素，I(p)是一个表示像素p的颜色值的向量。颜色向量被组合入最近的聚类中心。对于每一个聚类C_n，通过对属于该聚类的颜色向量的值求平均来确定颜色聚类质心c_n。

根据下式对于所有的聚类计算失真分数：

D_{K} = Σ_{n}^{N} \underset{I (p) &Element; C_{n}}{Σ} v (p) {| | I (p) - c_{n} | |}^{2},

其中c_n是聚类的质心，v(p)是用于像素p的感知加权。由局部像素统计值计算感知加权，以考虑人类视觉对平滑区域中的变化比对有纹理的区域中的变化更加敏感的事实。该失真分数是颜色向量到它们的聚类中心的距离之和。该失真分数度量了经过本次迭代后改变其聚类的颜色向量的数目。重复该迭代组合，直到失真的差值变得可以忽略不计。则当聚类的总数目比最大聚类数目小的时候，通过扰动中心，将每个颜色聚类划分至两个新的聚类中心。最后，将具有相似颜色中心的聚类组合，以确定最终的主导颜色的数目。

直方图

一种重要的数字图像工具是强度或颜色直方图。直方图是图像中的像素数据的一种统计表示。直方图指示了图像数据值的分布。直方图显示出每个颜色值有多少个像素。对于一个单个通道图像，直方图对应一个条状的图形，其中水平轴的每个条目是一个像素可以具有的可能颜色值之一。垂直轴指示了该颜色值的像素的数目。所有垂直条状的和等于图像中像素数目的和。

直方图h是槽(bin)的向量[h[0]，...，h[M]]，其中每个槽h[m]存储图像I中对应于m的颜色范围的像素的数目，其中M是槽的总数。换句话说，直方图是从颜色向量集合到正实数集合R⁺的一个映射。槽的大小相同，则颜色映射空间的分割可以是规则的。或者当目标分布的性质是已知时，该分割也可以是不规则的。通常假设h[m]是相同的，且直方图经过归一化，使得

Σ_{m = 0}^{M} h [m] = 1 .

累积直方图H是直方图的变量，使得

H [u] = Σ_{m = 0}^{u} h [m] .

这产生了所有小于u的槽的计数。假设该直方图本身是一个概率密度函数，则累积直方图以某种方式对应一个概率函数。直方图表示颜色值发生的频率，并且可以看作颜色分布的概率密度函数。直方图只记录图像的总的强度组成。该直方图处理造成了某种信息损失，而大大简化了该图像。

像素操作的一个重要类别是基于对直方图的操作。利用直方图，可能提高一幅图像的对比度，以均衡颜色分布，并且确定该图像的总亮度。

对比度增强

在对比度增强中，修改图像的强度值，以完全利用可用的强度值动态范围。如果图像的强度范围从0到2^B-1，即进行B比特编码，则对比度增强将图像的最小强度值映射到0，将最大值映射到2^B-1。该变换将一个给定像素的像素强度值I(p)转换为对比度增强后的强度值I^*(p)，如下式：

I^{*} (p) = (2^{B} - 1) \frac{I (p) - \min}{\max - \min} .

然而，这个确切表示对外界影响和图像噪声可能是敏感的。该变换的一种比较不敏感的并且更一般的形式由下式给出：

I_{2} (p) = \{\begin{matrix} 0 & I_{1} (p) < low \\ (2^{B} - 1) \frac{I_{1} (p) - low}{high - low} & low \leq I_{1} (p) < high \\ (2^{B} - 1) & high \leq I_{1} (p) \end{matrix}

在该表述的这种形式中，可以选择1％和99％的值分别用于low和high，而不是在第一种形式中用0％和100％代表min和max。还可能利用来自一个区域的直方图基于区域应用对比度增强运算，来确定用于该算法的适当的极限。

当两幅图像需要基于一个具体的原则进行比较时，一般首先将它们的直方图归一化为“标准”直方图。一种直方图归一化技术是直方图均衡。它利用函数g[m]＝f(h[m])将直方图h(m)变换为对所有颜色值为常数的直方图g(m)。这对应着一种颜色分布，其中所有值的概率相等。对于一个任意图像，只能近似这个结果。

对于一个均衡函数f(.)，输入概率密度函数、输出概率密度函数和函数f(.)之间的关系由下式给出：

p_{g} (g) &PartialD; g = p_{h} (h) &PartialD; h &DoubleRightArrow; &PartialD; f = \frac{p_{h} (h) &PartialD; h}{p_{g} (g)} .

从上面的关系可以看出，f(.)是可微的，且f/h≥0。对于直方图均衡，pg(g)＝常数。这意味着：

f(h[m])＝(2^B-1)H[m]，

其中H[m]是累积概率函数。换句话说，概率分布函数被从0到2^B-1归一化。

MPEG-7

MPEG-7标准，正式名称为“多媒体内容描述接口”，提供了一组丰富的标准化工具来描述多媒体内容。该工具是元数据元素和它们的结构和关系。它们由该标准定义为描述符和描述方案的形式。该工具用于产生描述，即一组示例的描述方案及其相应的描述符。这些使得例如搜索、过滤和浏览的应用能有效且高效地接入多媒体内容。

因为描述性的特征在应用方面必须是有意义的，所以它们对不同的用户领域和不同的应用是不同的。这意味着可以用不同类型的特征描述同样的材料，适应于应用的区域。对于视觉数据的低级别抽象可以是形状，大小，纹理，颜色，运动和位置的描述。对于音频数据，低抽象级别是音乐调子，基调，和速度。高级别的抽象给出了语义方面的信息，例如“这个场景中左边有一条吠叫的棕色狗，一个蓝色球落在右边，并且背景中伴有汽车经过的声音。”还可能存在中间级别的抽象。

抽象的级别与特征可以被提取的方式有关：很多低级别特征可以通过完全自动的方式进行提取，而高级别特征需要更多的人交互。

对于该内容中描绘的是什么具有了一个描述后，还需要包括关于多媒体数据的其它类型的信息。形式为所用的编码格式，例如JPEG，MPEG-2，或总的数据大小。这个信息帮助确定内容如何输出。用于接入该内容的条件可以包括到一个具有知识产权信息和价格的注册处的链接。分类可以将该内容评定入一些预先定义的类别中。到其它有关材料的链接可以协助搜索。对于非虚构的内容，上下文会透露出录音场合的情况。

因此，MPEG-7描述工具使得可以产生描述作为一组示例的描述方案，及其对应描述符，包括：描述内容的产生和制造处理的信息，例如导演，标题，短特征电影；涉及内容使用的信息，例如版权指示，使用历史，广播进度表；内容的存储特征的信息，例如，存储格式，编码；内容的空间，时间或时空元素的结构信息，例如场景的剪辑，区域的分割，区域运动跟踪；内容中关于低等级特征的信息，例如颜色，纹理，声音音色，旋律描述；由内容捕捉的事实的概念性信息，例如，对象和事件，对象之间的交互；关于如何高效地浏览内容的方法的信息，例如总结，变量，空间和频率子带；关于收集对象的信息；以及关于用户与内容进行交互的信息，例如用户喜好，使用历史。所有这些描述当然以高效的方式进行编码，用于搜索、过滤和浏览。

区域生长

一个由点组成的区域通过组合具有类似特征的相邻点迭代地生长。原则上，只要能够定义距离度量和连接策略，就可以应用区域生长方法。已知有几种区域生长连接方法。通过点的空间关系对它们进行区分，为这些点确定距离度量。

在单一连接生长中，将一个点加入具有相似特征的相邻点中。

在质心连接生长中，通过估计目标区域质心和当前点之间的距离，将一个点加入一个区域。

在混合连接生长中，点间的相似度是基于该点本身的一个小的相邻范围内的性质，而不是仅仅使用直接相邻的点。

另一种方法不仅考虑在所需区域中的一个点，还抵制不在该区域内的样点。

这些连接方法通常开始于一个单个种子点p，并从该种子点扩展以充满一个相关区域。

需要组合这些已知的技术连同新发展的技术，以一种新的方式在图像中适配地生长区域。换句话说，需要适配地确定可以应用于任何图像或视频的阈值和距离函数参数。

发明内容

本发明提供了一种用于基于区域的图像和视频分割的阈值适配方法，它利用了颜色直方图和MPEG-7主导颜色描述符。该方法使得区域生长参数的适配指定成为可能。

提供了三种参数指配技术：通过颜色直方图的参数指配；通过向量聚类的参数指配；以及通过MPEG-7主导颜色描述符的参数指配。

利用质心连接区域生长，将一幅图像分割为各区域。质心连接处理的目标是产生同类的区域。同类性定义为颜色成分，即颜色变量一致的性质。也可以将这个定义扩展，以包含纹理及其它特征。

图像的颜色直方图近似颜色密度函数。这个密度函数的模态指其主要元素的数目。对于模型表示的混合，各个模型的数目确定了区域生长参数。一个高的模态表示该密度函数的大量不同的颜色聚类。一个颜色同类的区域中的点更可能在同一个颜色聚类中，而不是在不同的聚类中。因此，聚类的数目与区域的同类性的规定是相关联的。一个区域所对应的颜色聚类确定对于该区域的同类性的规定。

本发明计算颜色距离函数的参数及其阈值，它们对每个区域可能是不同的。本发明提供了一种适配区域生长方法，结果显示该阈值指配方法与现有技术相比更快速且更加具有稳健性。

附图简述

图1是待生长入一个区域的像素的方框图；

图2是要被包括的像素的方框图；

图3是一个相关区域的方框图；

图4是根据本发明的区域生长和分割的流程图；

图5是质心连接区域生长的流程图；

图6是利用颜色向量聚类的适配参数选择的流程图；

图7是用于确定聚类中心的流程图；

图8A和8B是通道投影的流程图；

图9是用于确定最大值间距离的流程图。

图10是用于确定颜色距离的参数的流程图；

图11是颜色距离的确切表示的流程图；

图12是利用颜色直方图用于适配参数选择的流程图；

图13A和13B举例说明了颜色直方图的结构；

图14A和14B举例说明了直方图平滑；

图15A和15B举例说明了寻找局部最大值；

图16A和16B举例说明了直方图距离的确切表示；

图17是使用MPEG-7描述符的用于适配区域生长的流程图；以及

图18A和18B是使用MPEG-7描述符的通道投影的流程图。

本发明的优选实施方案

质心连接方法

本发明提供了一种方法，用于在一幅图像中生长具有相似像素的区域。该方法还可以应用于一个图像序列，即视频，以生长一卷。区域生长可以用于将一个对象从图像或视频中分割出去。原则上，只要定义了距离度量和连接策略，就可以使用区域生长方法。上述的是几种连接方法，它们辨别像素的空间关系，距离度量为这种空间关系而确定。

当图像的强度平滑变化时，质心连接方法防止了区域“泄漏”，而能够环抱区域的强边缘则丢失了。当可检测的边缘边界丢失，质心连接方法可以构造一个同类的区域，而这个性质有时引起根据初始参数对平滑区域的分割。距离度量的准则将重大的强度变化反映在距离大小上，并抑制了小的变化。

一种质心统计量是保持区域中像素颜色值的平均值。随着每添加一个新的像素，对该平均值进行更新。虽然可能有逐渐的漂移，该区域中所有先前像素的权值作为对该种漂移的调节器。

如图1-3所示，区域生长开始于一个单个种子像素p 101，它扩展以充满一个相关区域s 301，见图3。示例种子像素101具有一个任意值“8”，且将距离阈值任意设定为“3”。在根据本发明的质心连接方法中，一个候选像素204与质心的值202进行比较。在当前区域201边界上的每个像素，例如像素204，与一个质心值进行比较。如果距离小于阈值，则相邻像素204包括进该区域中，并且质心值进行更新。该包括处理继续，直到不再有边界像素可以包括进该区域。注意到质心连接不引起区域泄漏，它不像单个连接方法仅度量像素方式的距离。

相似度估计

一个用于度量像素p和像素q之间距离的距离函数定义为Ψ(p，q)，则当像素p和q相似时，该距离函数产生较低的值，否则产生较高的值。认为像素p与像素q是相邻的。当Ψ(p，q)小于某个阈值ε，则像素q可以在像素p的区域s内。则可以考虑另一个与像素q相邻的像素是否包括在区域s中，以此类推。

本发明提供一种方法来定义距离函数Ψ，包括它的参数，和阈值ε，以及一些用于更新区域属性的方法。注意到阈值不限于一个常数值。它可以是一个图像参数、像素颜色值，及其它先验信息的函数。

一个距离函数比较单个像素的颜色值。在质心连接中，通过求目标区域201的质心和像素之间的距离函数Ψ(c，p)的值，将每个像素p与一个区域方式的质心c进行比较，如图2所示。这里，当前的“相关”区域的质心值是7.2。

用于距离函数Ψ的阈值ε确定了该区域的同类性。小的阈值倾向于产生多个具有一致颜色的小区域，并引起过分割。另一方面，大的阈值可以组合具有不同颜色的各区域。大的阈值对边缘不敏感，且导致欠分割。因此，距离阈值控制区域中颜色的方差。颜色的动态范围也具有相似的效果。

起初，区域s仅包括所选的种子像素101。或者，该区域可以初始化为一小组种子像素，以更好地描述区域的统计量。在这种初始化下，区域平均值和方差均进行更新。候选像素可以根据该区域的方差与区域平均值进行比较。该方差可以通过对种子像素周围的小区域进行采样来确定。

适配区域生长和分割方法

根据本发明的适配区域生长和分割的步骤如图4所示。质心连接区域生长500的细节由图5给出。

从图像400提取全局特征401。此外，确定410颜色梯度的大小。利用最小颜色梯度大小选择420一组种子像素s。

为这组种子像素定义局部特征421。确定该特征可以通过颜色向量聚类，通过直方图模态，或者通过MPEG-7主导颜色描述符，如下文所详述。整幅图像的全局特征和用于这组种子像素的局部特征用来定义415适配距离函数Ψ的参数和阈值。

一个区域按照适配的距离函数围绕着这组种子像素生长500。该区域按照已生长的区域进行分割430，且该处理对于下一个最小颜色梯度的大小进行重复，直到图像中的所有像素都已经被分割，且该方法完成440。

选择420这组种子像素s，使得该集合s最好地代表了在局部邻近地区中的像素。这个集合可以是单个种子像素。好的候选种子像素其颜色梯度大小比较小。因此，在图像400中，对于每个像素度量410颜色梯度大小|I(p)|。利用当前像素的空间上相对的邻居p^-和p⁺的颜色差计算颜色梯度大小。

|I(p)|＝|I(p^-)-I(p⁺)|_x+|I(p^-)-I(p⁺)|_y。

x轴和y轴上的差的大小进行相加，以确定总的梯度大小。也可以使用例如欧氏距离的其它度量。对于每个坐标轴计算颜色的差，为单个颜色通道差的和。同样，大小距离准则、欧氏准则，或任何其它距离度量都可以用来度量这些差值，例如

|I(p^-)-I(p⁺)|≡|I_R(p^-)-I_R(p⁺)|+|I_G(p^-)-I_G(p⁺)|+|I_B(p^-)-I_B(p⁺)|

或

| I (p^{-}) - I (p^{+}) | &equiv; \sqrt{{[I_{R} (p^{-}) - I_{R} (p^{+})]}^{2} + {[I_{G} (p^{-}) - I_{G} (p^{+})]}^{2} + [I_{B} (p^{-}) - I_{B} (p^{+})]^{2}}

根据下式选择420这组种子像素

s_{i} = \underset{Q}{\arg \min} | &dtri; I (p) |;

Q = S - \cup_{j = 1}^{i} R_{j},

其中Q起初是图像中所有像素的集合。该区域围绕这组种子像素生长500之后，对该区域进行分割430，且对于剩余的像素，该处理重复，直到不再有剩余的像素。

为了计算的简单性，梯度和种子的选择可以在亚采样图像中进行。

如图5所示，区域生长500进行如下。通过指配种子像素的颜色值作为区域质心c＝I(s)，被选择420的这组种子像素和待生长的区域进行初始化503，区域质心c＝I(s)如下

c：[c_R，c_G，c_B]＝[I_R(s)，I_G(s)，I_B(s)] 。

上式中，[c_R，c_G，c_B]和[I_R(s)，I_G(s)，I_B(s)]分别是质心向量和种子像素的值，即红、绿、蓝颜色值。种子像素被包括进505一个活动壳层集合。对于活动壳层集合中的每个像素，检查510相邻像素，通过求颜色距离函数(CDF)1000的值计算520颜色距离。在步骤530中，确定该距离是否低于适配的阈值。接着，根据下式更新540区域特征向量

c_{m + 1} = \frac{{Mc}_{m} + I (p)}{M + 1},

其中M是在当前像素p之前已经包括进该区域的像素数目，且c_m，c_m+1是包括了像素p之前和之后的区域质心向量。以上方程意味着对于一个质心向量的元素，例如对于红色通道

c_{R, m + 1} = \frac{{Mc}_{R, m} + I_{R} (p)}{M + 1} .

其它的区域统计量，例如方差，矩等也进行类似的更新。将该像素包括550进该区域，确定新的邻居，并且更新560活动壳层集合。否则，确定570是否还有剩余的活动壳层像素。邻居像素可以选择为4像素，8像素，或任何其它局部空间的邻居。在下一次迭代510中计算剩余的活动壳层像素，直到不再剩余新的活动像素570，并且分割430区域，直到完成整个图像440。

通过颜色向量聚类进行适配参数指配

现在更加详细地描述通过颜色向量聚类的适配参数指配的细节，首先参考图6。

利用关于颜色通道811的通道投影，对颜色向量聚类700的结果进行再组合800。对于每个颜色通道，确定一些最大值间距离900。这些距离用来确定用于颜色距离函数1000的参数和阈值ε。该颜色距离函数和阈值用来在质心连接区域生长阶段500中确定颜色相似度。

图7更加详细地示出了颜色向量聚类700。首先，扫描701输入图像400以用向量的形式表示每个像素的颜色值。这可以使用输入图像的子集703，即全解析度图像的亚采样形式来完成。起初，假设所有向量在同一个聚类中。对一个颜色通道计算710颜色向量值的和。通过分割像素数目的和值，得到715平均值向量w，如下

w = [\begin{matrix} w_{R} \\ w_{G} \\ w_{B} \end{matrix}] = [\begin{matrix} \frac{1}{P} \underset{p &Element; I}{Σ} I_{R} (p) \\ \frac{1}{P} \underset{p &Element; I}{Σ} I_{G} (p) \\ \frac{1}{P} \underset{p &Element; I}{Σ} I_{B} (p) \end{matrix}],

其中P是图像中像素的总数目，I(p)＝[I_R(p)，I_G(p)，I_B(p)]是像素p的颜色值。聚类中心是向量w＝[w_R，w_G，w_B]，其中向量中的每个元素是对于该聚类中相应颜色通道的平均颜色值。这里，该符号假设使用RGB颜色空间。也可以使用任何其它颜色空间。

通过用一个小的值δ扰动720平均值向量值，从平均值向量715中得到730两个向量

w^{-} = [\begin{matrix} w_{R} - δ \\ w_{G} - δ \\ w_{B} - δ \end{matrix}],

w^{+} = [\begin{matrix} w_{R} + δ \\ w_{G} + δ \\ w_{B} + δ \end{matrix}] .

两个互不相同的聚类中心w^-和w⁺或是随机地或是由其它方法进行初始化730。一个初始失真分数D(0)731置为零。对于每个颜色向量I(p)，度量从颜色向量到每个中心的距离，并将每个向量组合740至最近的中心。对新的组合重新计算745聚类中心。接着，确定750失真分数D(i)，它度量同一聚类中的总距离。如果当前和前一失真分数的差755大于失真阈值T，则重新组合并重新计算聚类中心760。

另一方面，如果聚类的数目小于一个最大值K 770，则通过用一个小的值扰动聚类中心，将每个聚类划分755为两个新的聚类，并进行组合步骤780，否则结束。

通道投影

图8A更加详细地示出了通道投影800。通过聚类得到聚类中心790。聚类中心重新组合810入对应于颜色通道的集合811。有三个集合，例如每一个用于RGB颜色值的其中一个。接着，将每个集合的元素根据它的元素的大小，从小到大地排序820为表821。如果有序表821的任何元素间的距离非常小，即小于一个上界阈值τ，则合并830这些元素

| r_{k} - r_{k + 1} | < τ &DoubleRightArrow; r_{k} = \frac{1}{2} (r_{k} + r_{k + 1}),

其中r_k表示用于一个颜色通道的有序表中的第k个元素。这里使用了红色通道用于标记而不失一般性。

图8B更加详细地示出了合并800。合并在每个表，即每个通道的N个元素上单独执行。选择832表中的两个连续的元素r_k和r_k+1，计算833这两个元素间的距离。如果该距离小于上界阈值τ，则计算平均值，且由一个计算出的平均值代替834当前元素r_k。标号值大于元素r_k+1的表元素左移835。删除836该表的最后的元素。这个代替减少了838表中元素的数目。由于合并操作减少了相应表中元素的数目，合并阶段之后的元素总数N_R可以小于表的初始大小N。

最大值间距离

图9示出了如何确定最大值间距离l^-和l⁺。对每一个通道分别确定颜色值831的有序元素间的最大值间距离。

合并800之后，由聚类中心确定两个距离901，对于每一个颜色通道，例如下面表述中对于红色通道，根据下式

l_{m, R}^{-} = \frac{1}{2} (r_{m} - r_{m - 1})

l_{m, R}^{+} = \frac{1}{2} (r_{m + 1} - r_{m})^{.}

这些距离表示表中的当前最大值l_m与最近的较小的l_m-1和较大的l_m+1最大值之间的中点。

对于每一个相应的颜色通道，还根据下式计算902基于分数的标准偏差

λ_{R} = K_{R} \sqrt{\frac{1}{N_{R}} Σ_{m = 1}^{N_{R}} {(| r_{m + 1} - r_{m} | - r_{mean})}^{2}},

其中r_mean是最大值间距离的平均值

r_{mean} = \frac{1}{N_{R}} Σ_{m = 1}^{N_{R}} l_{m, R}^{+} .

同样还可以从l^-计算平均值r_mean。常数K_R是一个用于归一化的乘数。如果K_R＝2.5，λ_R表示全部距离的95％。

颜色距离函数

图10和11示出了颜色距离函数的表述1100的细节。区域生长方法500提供了区域特征向量1040，和候选像素1050，见图5和10。对于候选像素和当前区域，确定颜色距离1110或1120。

通过步骤1005和1020，从最大值间距离900得到阈值ε和距离Ψ。Lambda(λ_k)，其中k:RGB，表示基于最大值间距离的标准偏差值。值N_R、N_G、N_B是合并后相应的表中元素的数目。

基于对数的距离函数利用一项1120，通过在单个通道中非线性地缩放很高的差值，来使得颜色的求值对小的颜色差值更加灵敏。根据下式选择1020距离参数l_k，c，其中k:RGB

l_{R, c} = \{\begin{matrix} l_{R, m}^{-} & r_{m} - l_{R, m}^{-} < c_{R} \leq r_{m} \\ l_{m}^{+} & r_{m} < c_{R} \leq r_{m} + l_{R, m}^{+} \end{matrix}

l_{G, c} = \{\begin{matrix} l_{m}^{-} & g_{m} - l_{G, m}^{-} < c_{G} \leq g_{m} \\ l_{m}^{+} & g_{m} < c_{G} \leq g_{m} + l_{G, m}^{+} \end{matrix},

l_{B, c} = \{\begin{matrix} l_{m}^{-} & b_{m} - l_{B, m}^{-} < c_{B} \leq b_{m} \\ l_{m}^{+} & b_{m} < c_{B} \leq b_{m} + l_{B, m}^{+} \end{matrix}

见上式。当所有通道具有稳定的距离时，这个求值返回较高的距离值。只要一个通道具有高的差值而其它通道具有不明显的差值，则返回一个较低的值。

当颜色通道具有更多可分辨的性质，即通道中有具有更多独立的颜色信息时，N_k的加权给它们带来更高的贡献。该距离值也用1-D聚类l_k的宽度进行缩放，其中当前像素颜色值落入该宽度范围内。这使得可以关于每个1-D聚类对距离项进行相等的归一化。

选择对数项是因为它对小的颜色差比较敏感，同时它防止了单个通道中对于相对大的颜色差的错误距离。与一个具有稳健性的估计器相似，对数项不线性或指数地放大颜色距离。相反，当距离的大小比较小时，距离函数平缓地增加，但是接着对于极端偏离的距离，它保持不变。考虑到一个具有更多可分辨颜色的通道提供了更多用于分割的信息，对通道距离进行加权。

通道中主导颜色的总数目乘以距离项，以增加提供了更多细节的通道的贡献，该细节即用于分割的多个主导颜色。如果通过1110计算距离，指配该距离阈值为

ε＝α(N_R+N_G+N_B)，

如果利用式1120，该阈值指定为

ε＝α(λ_R+λ_G+λ_B)。

标量α作为一个敏感性系数。

用直方图模态进行适配参数指配

图12示出了利用单个颜色通道直方图的最大值的适配区域。再次从图像或视频400开始。对于每个通道，计算1300颜色直方图1302。对直方图进行平滑1400，得到1500它们的模态。从直方图模态确定900最大值间距离。区域生长500如上文所述。

图13A和13B示出了如何从一个全解析度输入图像701的通道1301，或从输入图像400的子采样的形式702，构造直方图1302。直方图1302在x轴上具有颜色值h，并在y轴上具有对于每个颜色值的像素数目H(h)。对于每个图像像素1310，确定它的颜色h1315，并且根据下式增加相应的颜色槽中的数目1320

H(I(p))＝H(I(p))+1对p。

图14A和14B示出了如何在一个窗[-a，a]内对输入直方图1302进行平均1410来提供一个平滑过的直方图1402，根据下式

\overset{&OverBar;}{H} (h) = \frac{1}{2 a + 1} Σ_{k = - a}^{a} H (h + k) .

图15A和15B示出了如何得到直方图模态1550。集合U是颜色值的可能范围，即对于八比特颜色通道为[0，255]。为了在集合U内找到对于直方图1402的1515局部最大值，在剩余集合U中找到全局最大值，并且令最大值的数目增加一。从集合U中移除1520当前最大值周围的窗[-b，b]内的接近的值，并更新1530最大值的数目。重复1540，直到集合U中没有剩余的点。对每个颜色通道执行该操作。

图16A和16B示出了如何计算最大值间距离1580，1590。对于每一个局部最大值，计算1575它与前一个和下一个最大值间的两个距离。对局部最大值h^*进行排序处理1560，并对每一个最大值1570，计算1575距离l^-和l⁺

l_{m}^{-} = \frac{1}{2} (h_{m}^{*} - h_{m - 1}^{*})

l_{m}^{+} = \frac{1}{2} {(h_{m + 1}^{*} - h_{m}^{*})}^{,}

并且根据下式得到基于分数的标准差

λ = K \sqrt{\frac{1}{N} Σ_{m = 1}^{N_{R}} {(| h_{m + 1} - h_{m} | - h_{mean})}^{2}}

其中h_mean是距离的平均值

h_{mean} = \frac{1}{N} Σ_{m = 1}^{N} l_{M}^{+} .

这些距离基本上对应于局部最大值周围峰值的宽度。利用以上距离，得到最大值间距离。这与对图9描述的处理相似，用直方图值h代替了颜色值c。从彩色图像501中，对于每一个通道1301，最大值的总数目(N)1701相加1330以确定ε1030，并且按照前述继续进行。

用MPEG-7主导颜色描述符进行适配参数指配

图17示出了利用MPEG-7主导颜色描述符的适配区域生长方法。再次注意图6和图12的相似之处。该图示出了如何利用MPEG-7主导颜色描述符，从彩色图像确定颜色距离阈值1030和颜色距离函数参数1000。如上文所述，图像的所关心区域中的一组主导颜色提供了对图像的简明的描述，它易于索引和检索。主导颜色描述符利用少量的颜色描述了部分或全部图像。

这里，假设MPEG描述符1750可以用于需要颜色距离的图像，或图像的一部分。通道投影800之后，对于每个通道811计算主导颜色之间的距离1600。对于每个通道的这些距离用来确定颜色距离函数的参数1000和它的阈值1030。还示出了质心连接区域生长处理500。MPEG-7支持指定了图像中最显著颜色的数目、值和方差的颜色描述符。

图18A和18B用类似于图8所示的方式，更加详细地示出了通道投影1800。将主导颜色1801的相应元素置入同一集合1810，并且根据大小重新排序1820。合并1830相近的颜色。根据图9所述确定主导颜色之间的距离1600，根据图10和11所示执行颜色距离阈值和颜色距离函数。

虽然本发明通过优选实施例的举例方式进行描述，应该知道在本发明的本质和范围内可以作出各种其它的适应和修改。因此，所附的权利要求书的目的是涵盖所有在本发明真正的本质和范围内的这些变化和修改。

Claims

1.一种用于在图像中分割像素的方法，该方法包括：

从图像中提取全局特征；

在图像中选择一组种子像素；

为该组种子像素定义局部特征；

由全局和局部特征确定距离函数的参数和阈值；

根据距离函数，在种子像素周围生长一个区域；

从图像中分割该区域；以及

重复选择、定义、生长和分割，直到没有剩余的像素。

2.权利要求1的方法，其中全局和局部特征是像素的颜色值。

3.权利要求1的方法，其中该生长是通过质心连接。

4.权利要求2的方法，其中该距离函数基于颜色值。

5.权利要求1的方法，其中该阈值确定区域的同类性。

6.权利要求1的方法，还包括：

对于各像素，度量颜色梯度大小；以及

选择具有最小梯度大小的像素作为该组种子像素。

7.权利要求1的方法，其中通过颜色向量聚类确定局部特征。

8.权利要求1的方法，其中通过直方图模态确定局部特征。

9.权利要求1的方法，其中通过MPEG-7主导颜色描述符确定局部特征。

10.权利要求1的方法，其中该组种子像素包括单个像素。

11.权利要求6的方法，其中对空间上相对的邻居像素，度量其颜色梯度大小。

12.权利要求1的方法，还包括：

对图像的颜色向量进行聚类，以确定距离函数的参数。

13.权利要求12的方法，还包括：

由颜色向量构造颜色直方图，以确定距离函数的参数。

14.权利要求1的方法，还包括：

由主导颜色描述符表示颜色值，以及由主导颜色描述符确定距离函数的参数。

15.权利要求1的方法，还包括：

对每个像素计算颜色梯度大小；

根据最小颜色梯度大小选择该组种子像素；

根据该组种子像素的颜色值，初始化区域质心向量。

16.权利要求1的方法，还包括：

为图像的每个颜色通道构造颜色直方图；

用一个移动的平均过滤器在局部窗中平滑该颜色直方图；

找到该颜色直方图的局部最大值；

移除每个局部最大值周围的局部邻居；

得到局部最大值的总数目；

计算当前最大值与紧接的后一及前一最大值之间的最大值间距离；

根据最大值间距离确定距离函数的参数；

为距离函数确定上界阈值函数。

17.权利要求1的方法，还包括：

对于包括该组种子像素的图像的一部分，得到MPEG-7主导颜色描述符；

将MPEG-7主导颜色描述符组合入具有大小的通道集合中；

将通道集合根据大小排序；

根据成对距离合并通道集合；

确定通道集合的总数目；

由已排序的、已合并的通道集合，计算最大值间距离；

根据最大值间距离确定距离函数的参数；

确定用于距离函数的上界阈值函数。