CN101976348A

CN101976348A - 图像聚类方法和系统

Info

Publication number: CN101976348A
Application number: CN 201010517163
Authority: CN
Inventors: 陈默; 刘健庄; 汤晓鸥
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2010-10-21
Filing date: 2010-10-21
Publication date: 2011-02-16

Abstract

本发明涉及一种图像聚类方法，包括如下步骤：对提供的图像样本集使用变带宽非参数核密度估计法创建有向图；对所创建的有向图使用随机游走等周分割方法进行有向图的分割，将有向图分割成至少两个不相交的子图；提取子图中的图像数据，该子图中的图像数据即归为一类。该图像聚类方法充分地考虑了图像数据分布的局部概率密度信息，可以对分布极度不均匀的数据进行有效的聚类，且由于使用的是非参数聚类方法，因而可以处理非规则形状分布的图像数据。此外，本发明还涉及一种图像聚类系统。

Description

图像聚类方法和系统

【技术领域】

本发明涉及模式识别领域，尤其涉及一种图像聚类方法和系统。

【背景技术】

聚类是指把一个没有类别标记的样本集按照某种准则划分成若干个子集或类别，使相似的样本尽可能归为一类，而不相似的样本尽量划分到不同的类中。聚类分析是多元统计分析的一种，也是非监督模式识别的一个重要分支。作为一种无监督分类方法，聚类分析已经被广泛地应用于模式识别、数据挖掘、计算机视觉和模糊控制等许多领域。传统的聚类方法，如K-means方法，EM方法(期望值最大方法)都是建立在凸球形的样本空间上，但当样本空间不为凸时，方法会陷入局部最优。

谱聚类方法能在任意形状的样本空间上聚类，且收敛于全局最优解。该方法具有实现简单，与维数无关、及全局寻优的良好特性，因此得到了越来越广泛的应用。谱聚类方法仅仅考虑所有样本的权值矩阵，也叫相似性矩阵，它将聚类问题转换为无向图划分问题。虽然基于图的谱聚类方法取得了一定成功，但使用固定带宽的基于高斯核的谱聚类方法在许多自然场景的图像样本集上不能得到令人满意的聚类结果，即使仔细调节参数，这些方法也不能很好地处理多尺度的样本集，不能有效反应图像数据的局部概率密度分布。

【发明内容】

基于此，有必要提供一种能有效反应图像数据局部概率密度分布的图像聚类方法。

同时，还有必要提供一种能有效反应图像数据局部概率密度分布的图像聚类系统。

一种图像聚类方法，包括如下步骤：S1、对提供的图像样本集使用变带宽非参数核密度估计法创建有向图；S2、对所创建的有向图使用随机游走等周分割方法进行有向图的分割，将有向图分割成至少两个不相交的子图；S3、提取子图中的图像样本，该子图中的图像样本即归为一类。

优选的，步骤S1中变带宽非参数核密度估计法使用的函数f_b(x)为：

f_{b} (x) = Σ_{j = 1}^{n} \frac{1}{n h_{j}} K (\frac{x - x_{j}}{h_{j}});

其中，n为图像样本集中样本的数量，j为有向图中的第j个顶点，x_j为有向图中第j个顶点代表的图像样本，h_j为第j个顶点代表的图像样本的带宽，K为核函数，x为待计算概率密度的图像样本。

优选的，还包括使用交叉验证方法选择参数k，计算带宽h_j的步骤，h_j为x_j到与x_j距离最近的第k个图像样本的距离。

优选的，步骤S1中创建的有向图的边的权重值w_ij为：

W_{ij} = \frac{1}{h_{i}} \exp (- \frac{{| {| x}_{i} - x_{j} | |}^{2}}{2 h_{i}^{2}});

其中，i为有向图中的第i个顶点，x_i为有向图中第i个顶点代表的图像样本，hi为第i个顶点代表的图像样本的带宽。

优选的，步骤S2中使用随机游走等周分割方法进行有向图的分割还包括计算有向图中所有顶点的转移概率矩阵P的步骤，P＝[p_ij]_ij，i，j＝1，...，|V|，其中，P是不可简的，P1＝1，1是所有元素为1的向量，V为有向图的顶点集，p_ij为第i个顶点到第j个顶点的转移概率，p_ij＝w_ij/d_i，d_i第i个顶点的度，d_i＝∑_jw_ij。

优选的，步骤S2中还包括对P的对应于特征值为1的左特征向量做归一化处理获得稳态分布向量π，使π^T1＝1的步骤，其中，π＝[π_i]_i，i＝1，...，|V|，π^TP＝π^T，π_i为随机游走过程达到稳态时，第i个顶点被访问的概率。

优选的，步骤S2中使用随机游走等周分割方法进行有向图的分割还包括计算分割过程中的等周常量h(G)的步骤；等周常量h(G)的计算公式为：

h (G) = in f_{S} \frac{Vol (&PartialD; S)}{Vol (S)} = \min_{S} \frac{Σ_{i &Element; S, j &Element; \overset{&OverBar;}{S}} π_{i} p_{ij}}{Σ_{i &Element; s} π_{i}};

其中，S为有向图顶点集V的子集，e_ij为连接第i个顶点和第j个顶点的有向边，Vol(S)和

分别为子集S和的边界的容量，

Vol(S)＝∑_{i∈s，j∈v}w_ij，p_ij为第i个顶点到第j个顶点的转移概率。

优选的，步骤S2中有向图的分割的步骤具体是：获得子集S，使得等周常量h(G)最小，具体包括如下步骤：

S21、二值定义一指标向量y∈{0，1}ⁿ，使得

y_{i} = \{\begin{matrix} 1 & i &Element; \overset{&OverBar;}{S} \\ 0 & i &Element; S \end{matrix},

从而

Vol (&PartialD; S) = Σ_{i &Element; S, j &Element; \overset{&OverBar;}{S}} π_{i} p_{ij} = 2 y^{T} Π (I - P) y;

Vol(S)＝y^Tπ＝y^T∏1；

h (G) = \inf_{S} \frac{Vol (&PartialD; S)}{Vol (S)} = \min_{S} \frac{2 y^{T} Π (I - P) y}{y^{T} Π 1};

其中，∏＝diag(π)，I为单位矩阵，P为转移概率矩阵；

S22、将y的二值定义设为y取任意数值，使用拉格朗日乘子法，将h(G)最小问题转化为获得Q(y)＝y^T∏(I-P)y-λy^T∏1最小值问题；

S23、对Q(y)取关于y的导数，并使其等于0，将h(G)最小问题转化为获得(I-P)y＝1解的问题；

S24、指定任意顶点g包含于S中，且y_g＝0，从而h(G)最小问题存在唯一解y₀使得L₀y₀＝1，其中，L₀为去除矩阵L的第g行和第g列所得到的矩阵，y₀为去除y的第g行得到的向量，L＝I-P；

S25、通过对y₀进行线性搜索获得最优阈值，如果第i个顶点对应的值y_i小于最优阈值，则将其放入S中，否则放入

中，S或

中顶点即构成所分割的子图。

优选的，顶点g为子集S中稳态概率最大的顶点。

优选的，还包括采用迭代方法对分割得到的等周常量h(G)最小的子图再次进行随机游走等周分割以得到多类聚类结果的步骤。

一种图像聚类系统，包括有向图创建模块、随机游走等周分割模块及类别提取模块；有向图创建模块对提供的图像样本集使用变带宽非参数核密度估计法创建有向图；随机游走等周分割模块对所创建的有向图使用随机游走等周分割方法进行有向图的分割，将有向图分割成至少两个不相交的子图；类别提取模块提取子图中的图像样本，该子图中的图像样本即归为一类。

优选的，变带宽核密度估计的函数f_b(x)为：

f_{b} (x) = Σ_{j = 1}^{n} \frac{1}{n h_{j}} K (\frac{x - x_{j}}{h_{j}});

优选的，有向图创建模块包括交叉验证模块，交叉验证模块使用交叉验证方法选择参数k计算带宽h_j，h_j为x_j到与x_j距离最近的第k个图像样本的距离。

优选的，有向图边的权重值w_ij为：

w_{ij} = \frac{1}{h_{i}} \exp (- \frac{{| | x_{i} - x_{j} | |}^{2}}{2 h_{i}^{2}});

其中，i为有向图中的第i个顶点，x_i为有向图中第i个顶点代表的图像样本，h_i为第i个顶点代表的图像样本的带宽。

优选的，有向图创建模块还包括转移概率矩阵计算模块，转移概率矩阵计算模块计算有向图中所有顶点的转移概率矩阵P，P＝[p_ij]_ij，i，j＝1，...，|V|，其中，P是不可简的，P1＝1，1是所有元素为1的向量，V为有向图的顶点集，p_ij为第i个顶点到第j个顶点的转移概率，p_ij＝w_ij/d_i，d_i第i个顶点的度，d_i＝∑_jw_ij。

优选的，有向图创建模块还包括归一化处理模块，归一化处理模块对P的对应于特征值为1的左特征向量做归一化处理获得π，使π^T1＝1，其中，π＝[π_i]_i，i＝1，...，|V|，π^TP＝π^T，π_i为随机游走过程达到稳态时，第i个顶点被访问的概率。

优选的，有向图创建模块还包括等周常量计算模块，等周常量计算模块计算分割过程中的等周常量h(G)，

其中，S为有向图顶点集V的子集，

e_ij为连接第i个顶点和第j个顶点的有向边，Vol(S)和

分别为子集S和

的边界的容量，

优选的，随机游走等周分割模块包括指标向量定义模块、优化求解模块及分割模块；指标向量定义模块二值定义一指标向量y∈{0，1}ⁿ，使得

从而

Vol(S)＝y^Tπ＝y^T∏1，其中，∏＝diag(π)，I为单位矩阵，P为转移概率矩阵；优化求解模块中设定y的二值定义为y可以取任意数值且设定任意顶点g包含于S中，使用拉格朗日乘子法将h(G)最小问题转化为获得L₀y₀＝1解的问题，其中，y_g＝0，L₀为去除矩阵L的第g行和第g列所得到的矩阵，y₀为去除y的第g行得到的向量，L＝I-P；分割模块对y₀进行线性搜索获得最优阈值，并将y_i小于最优阈值的对应的第i个顶点放入S中，将y_i大于或等于最优阈值的对应的第i个顶点放入

中而完成有向图的分割，S或

中顶点即构成所分割的子图。

优选的，顶点g为子集S中稳态概率最大的顶点。

上述图像聚类方法和系统，充分地考虑了图像数据分布的局部概率密度信息，可以对分布极度不均匀的数据进行有效的聚类，且由于使用的是非参数聚类方法，因而可以处理非规则形状分布的图像数据。经检测，该图像聚类方法的准确率高，处理速度快。该图像聚类方法和系统可广泛应用在模式识别、数据挖掘、计算机视觉和模糊控制等领域。

【附图说明】

图1为一实施例的图像聚类方法流程图。

图2为一个实施例中的图像聚类系统的示意图。

【具体实施方式】

下面主要结合附图和具体实施例对图像的聚类方法和系统作进一步的说明。

如图1所示，本实施例的图像聚类方法包括如下步骤：

S110、对提供的图像样本集使用变带宽非参数核密度估计法创建有向图。

使用高斯核函数建图相当于使用高斯核概率密度估计方法来对样本整体的分布建模。在统计学中，核密度估计(Kernel Density Estimate，KDE)是一种非参数概率密度估计方法，它表示为

其中，K是核函数，h是带宽参数。最为常用的核函数是高斯核函数，如下：

K (\frac{x - y}{h}) = \frac{1}{\sqrt{2 π}} \exp (- \frac{{| | x - y | |}^{2}}{2 h^{2}})

如果使用高斯核函数，则KDE可以表示为：

f_{h} (x) = \frac{1}{nh \sqrt{2 π}} Σ_{j = 1}^{n} \exp (- \frac{{| | x - x_{j} | |}^{2}}{2 h^{2}})

以上是针对固定带宽的KDE，其不能有效地利用图像样本的局部信息。

本实施例使用变带宽非参数概率密度估计来创建有向图G＝(V，E)。有向图G＝(V，E)是由一个有限顶点集合v∈V和一个边的集合e∈E组成。每一个顶点对应一个图像样本。定义S为顶点集V的子集，S的边界定义为边的集合

连接顶点i和j的边e_ij是有向边，边的权重值为w_ij，顶点i的度定义为d_i＝∑_jw_ij。

变带宽KDE的概率密度函数可以表示为：

f_{b} (x) = Σ_{j = 1}^{n} \frac{1}{{nh}_{j}} K (\frac{x - x_{j}}{h_{j}})

其中，第j个顶点(以下简称顶点j，第i个顶点简称顶点i)代表的图像样本的带宽h_j依赖于图像样本x_j的局部概率密度信息。变带宽KDE可以有效反应图像样本的局部信息，对于图像样本密度很大的区域可以使用较小的带宽参数，对于图像样本比较稀疏的区域可以使用较大的带宽，从而图像样本空间的各个区域都可以得到有效建模。带宽h_j值被设置为x_j到其最近距离的第k个图像样本的距离，优选的，参数k可以通过交叉验证方法来选择。

通过使用变带宽KDE，所创建的有向图边的权重值w_ij可由下式计算得到：

w_{ij} = \frac{1}{h_{i}} \exp (- \frac{{| | x_{i} - x_{j} | |}^{2}}{2 h_{i}^{2}})

通过变带宽KDE所建立的有向图边的权重值并不对称，即一般情况下w_ij≠w_ji。

S120、对所创建的有向图使用随机游走等周分割方法进行有向图的分割，将有向图分割成至少两个不相交的子图。

对于无向图G＝(V，E)，定义S为顶点集V的子集。S的边界定义为边的集合无向图的等周常量定义为

h (G) = \min_{S} \frac{Vol (&PartialD; S)}{Vol (S)}

其中，

及S的边界的容量

Vol(S)＝∑_{i∈s，j∈v}w_ij，Vol(S)≤Vol(V)/2。无向图的等周常量满足h(G)∈[0，1]，并且当且仅当无向图是联通时，等周常量严格为正。

本实施例在上述步骤S110创建的带权有向图上定义一个随机游走过程，由顶点i到j的一步转移概率为p_ij＝w_ij/d_i。对于所有的顶点对，一步转移概率矩阵P＝[p_ik]_ij，i，j＝1，...，|V|，其满足P1＝1。其中，1是所有元素为1的向量；随机游走过程的P是不可简的，也即与P关联的有向图是强联通的，从而存在唯一的稳态分布向量π＝[π_i]_i，i＝1，...，|V|，满足π^TP＝π^Tπ_i，π_i为随机游走过程达到稳态时，第i个顶点被访问的概率。优选的，π可以由对P的对应于特征值1的左特征向量做归一化使π^T1＝1得到。

对于定义在有向图上的以P为一步状态转移矩阵的有限状态马尔可夫过程，本实施例的顶点集S的边界的容量Vol(S)＝∑_i∈sπ_i。由于

同时是随机游走粒子从顶点集S转移到补集

的概率，且因此，有向图的等周常量可以表示为：

h (G) = \inf_{S} \frac{Vol (&PartialD; S)}{Vol (S)} = \min_{S} \frac{Σ_{i &Element; S, j &Element; \overset{&OverBar;}{S}} π_{i} p_{ij}}{Σ_{i &Element; s} π_{i}}

从而，有向图的分割问题即转换为获得一顶点集S使得等周常量h(G)最小的问题，具体包括如下步骤：

S121、二值定义一指标向量y∈{0，1}ⁿ，使得

y_{i} = \{\begin{matrix} 1 & i &Element; \overset{&OverBar;}{S} \\ 0 & i &Element; S \end{matrix},

从而

Vol(S)＝y^Tπ＝y^T∏1；

其中，∏＝diag(π)，I为单位矩阵，P为转移概率矩阵。

S122、将y的二值定义设为y可以取任意数值，从而上述h(G)最小问题转化为

使用拉格朗日乘子法，将h(G)最小问题转化为获得Q(y)＝y^T∏(I-P)y-λy^T∏1最小值问题。

S123、对Q(y)取关于y的导数，并使其等于0，得到2∏(I-P)y＝∏1省略标量部分，从而，解得最优的y使得Q最小的问题转化为解线性方程组(I-P)y＝1解的问题。

S124、指定任意顶点g包含于S中，且y_g＝0，从而所述h(G)方程存在唯一解y₀使得L₀y₀＝1。

矩阵L＝I-P为奇异矩阵，因为L1＝0，所以上述线性系统是病态的，解不唯一。但由于本实施例的P是不可简的，与P相关的有向图为强联通图。本实施例指定任意定点g被包含在S中y_g＝0，也即去除矩阵L的第g行和第g列(得到的矩阵记为L₀)并去除y的第g行(得到的向量记为y₀)。从而下述线性系统存在唯一解：

L₀y₀＝1

且解向量y₀的所有元素为非负。

在优选的实施例中，选择有向图上稳态概率最大的点作为g点。稳态概率大的点意味着随机游走粒子很容易走到该点，这样的点更有可能处在一个类的内部。

S125、通过对y₀进行线性搜索获得最优阈值，如果顶点i对应的值y_i小于所述最优阈值，则将其放入S中，否则放入中。

在优选的实施例中，还包括采用迭代方法对分割得到的等周常量h(G)最小的子图再次进行随机游走等周分割以得到多类聚类结果的步骤。

S130、提取子图中的图像样本，该子图中的图像样本即归为一类。子集S或

中的顶点即为分割的子图部分，提取该子图中的图像样本，这些图像样本即可归为一类别。

图2一个实施例中的图像聚类系统的模块图，该图像聚类系统包括有向图创建模块210、随机游走等周分割模块220及类别提取模块230。

有向图创建模块210对提供的图像样本集使用变带宽非参数核密度估计法创建有向图。

有向图创建模块210包括交叉验证模块、转移概率矩阵计算模块、归一化处理模块和等周常量计算模块(图中未示)。

交叉验证模块使用交叉验证方法选择参数k计算带宽h_j，h_j即为x_j到其第k个最近邻的距离。

转移概率矩阵计算模块计算有向图中所有顶点的转移概率矩阵P，P＝[p_ij]_ij，i，j＝1，...，|V|，其中，P是不可简的，P1＝1，1是所有元素为1的向量，V为有向图的顶点集，p_ij为第i个顶点到第j个顶点的转移概率，p_ij＝w_ij/d_i，d_i第i个顶点的度，d_i＝∑_jw_ij。

归一化处理模块对P的对应于特征值为1的左特征向量做归一化处理获得π，使π^T1＝1，其中，π＝[π_i]_i，i＝1，...，|V|，π^TP＝π^T，π_i为随机游走过程达到稳态时，第i个顶点被访问的概率。

等周常量计算模块计算分割过程中的等周常量h(G)，

其中，S为所述有向图顶点集V的子集，

e_ij为连接第i个顶点和第j个顶点的有向边，Vol(S)和

分别为子集S和

的边界的容量，

随机游走等周分割模块220对所创建的有向图使用随机游走等周分割方法进行有向图的分割，将有向图分割成至少两个不相交的子图。

随机游走等周分割模块220包括指标向量定义模块、优化求解模块及分割模块(图中未示)。指标向量定义模块二值定义一指标向量y∈{0，1}ⁿ，使得

y_{i} = \{\begin{matrix} 1 & i &Element; \overset{&OverBar;}{S} \\ 0 & i &Element; S \end{matrix},

从而

Vol (&PartialD; S) = Σ_{i &Element; S, j &Element; \overset{&OverBar;}{S}} π_{i} p_{ij} = 2 y^{T} Π (I - P) y;

Vol(S)＝y^Tπ＝y^T∏1；

其中，∏＝diag(π)。优化求解模块中设定y的二值定义为y可以取任意数值且设定任意顶点g包含于S中，使用拉格朗日乘子法将h(G)最小问题转化为获得L₀y₀＝1解的问题，其中，y_g＝0。分割模块对y₀进行线性搜索获得最优阈值，并将对应的值y_i小于最优阈值的顶点i放入S中，将对应的值y_i大于或等于最优阈值的顶点i放入

中而完成有向图的分割，S或

中顶点即构成所分割的子图。

类别提取模块230提取子图中的图像样本，该子图中的图像样本即归为一类。

以下为检测实施例：

本实施在三组标准样本集上测试了上述图像聚类方法及系统：多角度人脸样本集(UMist)，手写数字图像样本集(USPS)和自然场景图像样本集(Scene)。UMist样本集由20个人的总计575张多角度脸部照片所组成，本实施使用图片所属于的人作为图片的自然类别以测试图像聚类方法及系统。USPS样本集由5000张从0到9的手写数字图片组成，本实施使用图片中的数字作为图片的自然类别。Scene样本集由2688张来自8个场景的自然风景照片组成，本实施使用图片中的场景作为图片的自然类别。作为比较，本实施同时给出了其他三个常用聚类方法：Kmeans，谱聚类(NJW)和归一化分割(NCut)的测试结果。下表中给出了所测试的四种方法在三个样本集上得到的错误率。从表中可以看出，在所有三个测试样本集上，本发明的基于随机游走等周切割(RWICut)的图像聚类方法和系统得到了最优的结果。

聚类错误率比较结果：

	Kmeans	Ncut	NJW	RWICut
					UMist	0.5339	0.5791	0.3948	0.2661
USPS	0.6008	0.6404	0.4882	0.3398
					Scene	0.5056	0.4835	0.4014	0.3857

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种图像聚类方法，其特征在于，包括如下步骤：

S1、对提供的图像样本集使用变带宽非参数核密度估计法创建有向图；

S2、对所创建的有向图使用随机游走等周分割方法进行有向图的分割，将所述有向图分割成至少两个不相交的子图；

S3、提取所述子图中的图像样本，该子图中的图像样本即归为一类。

2.如权利要求1所述的图像聚类方法，其特征在于，步骤S1中所述变带宽非参数核密度估计法使用的函数f_b(x)为：

f_{b} (x) = Σ_{j = 1}^{n} \frac{1}{{nh}_{j}} K (\frac{x - x_{j}}{h_{j}});

3.如权利要求2所述的图像聚类方法，其特征在于，还包括使用交叉验证方法选择参数k，计算带宽h_j的步骤，h_j为x_j到与所述x_j距离最近的第k个图像样本的距离。

4.如权利要求2或3所述的图像聚类方法，其特征在于，步骤S1中创建的有向图的边的权重值w_ij为：

w_{ij} = \frac{1}{h_{i}} \exp (- \frac{{| | x_{i} - x_{j} | |}^{2}}{2 h_{i}^{2}});

5.如权利要求4所述的图像聚类方法，其特征在于，步骤S2中使用随机游走等周分割方法进行有向图的分割还包括计算所述有向图中所有顶点的转移概率矩阵P的步骤，P＝[p_ij]_ij，i，j＝1，...，|V|，其中，P是不可简的，P1＝1，1是所有元素为1的向量，V为所述有向图的顶点集，p_ij为第i个顶点到第j个顶点的转移概率，p_ij＝w_ij/d_i，d_i第i个顶点的度，d_i＝∑_jw_ij。

6.如权利要求5所述的图像聚类方法，其特征在于，步骤S2中还包括对P的对应于特征值为1的左特征向量做归一化处理获得稳态分布向量π，使π^T1＝1的步骤，其中，π＝[π_i]_i，i＝1，...，|V|，π^TP＝π^T，π_i为随机游走过程达到稳态时，第i个顶点被访问的概率。

7.如权利要求4所述的图像聚类方法，其特征在于，步骤S2中使用随机游走等周分割方法进行有向图的分割还包括计算分割过程中的等周常量h(G)的步骤；所述等周常量h(G)的计算公式为：

h (G) = in f_{S} \frac{Vol (&PartialD; S)}{Vol (S)} = \min_{S} \frac{Σ_{i &Element; S, j &Element; \overset{&OverBar;}{S}} π_{i} p_{ij}}{Σ_{i &Element; s} π_{i}};

其中，S为所述有向图顶点集V的子集，

e_ij为连接第i个顶点和第j个顶点的有向边，Vol(S)和

分别为子集S和

的边界的容量，

8.如权利要求7所述的图像聚类方法，其特征在于，步骤S2中所述有向图的分割的步骤具体是：获得子集S，使得等周常量h(G)最小，具体包括如下步骤：

S21、二值定义一指标向量y∈{0，1}ⁿ，使得

y_{i} = \{\begin{matrix} 1 & i &Element; \overset{&OverBar;}{S} \\ 0 & i &Element; S \end{matrix},

从而

Vol (&PartialD; S) = Σ_{i &Element; S, j &Element; \overset{&OverBar;}{S}} π_{i} p_{ij} = 2 y^{T} Π (I - P) y;

Vol(S)＝y^Tπ＝y^T∏1；

h (G) = \inf_{S} \frac{Vol (&PartialD; S)}{Vol (S)} = \min_{S} \frac{2 y^{T} Π (I - P) y}{y^{T} Π 1};

其中，∏＝diag(π)，I为单位矩阵，P为转移概率矩阵；

S24、指定任意顶点g包含于S中，且y_g＝0，从而所述h(G)最小问题存在唯一解y₀使得L₀y₀＝1，其中，L₀为去除矩阵L的第g行和第g列所得到的矩阵，y₀为去除y的第g行得到的向量，L＝I-P；

S25、通过对y₀进行线性搜索获得最优阈值，如果第i个顶点对应的值y_i小于所述最优阈值，则将其放入S中，否则放入

中，S或

中顶点即构成所分割的子图。

9.如权利要求8所述的图像聚类方法，其特征在于，所述顶点g为子集S中稳态概率最大的顶点。

10.如权利要求9所述的图像聚类方法，其特征在于，还包括采用迭代方法对分割得到的等周常量h(G)最小的子图再次进行随机游走等周分割以得到多类聚类结果的步骤。

11.一种图像聚类系统，其特征在于，包括有向图创建模块、随机游走等周分割模块及类别提取模块；所述有向图创建模块对提供的图像样本集使用变带宽非参数核密度估计法创建有向图；所述随机游走等周分割模块对所创建的有向图使用随机游走等周分割方法进行有向图的分割，将所述有向图分割成至少两个不相交的子图；所述类别提取模块提取所述子图中的图像样本，该子图中的图像样本即归为一类。

12.如权利要求11所述的图像聚类系统，其特征在于，所述变带宽核密度估计的函数f_b(x)为：

f_{b} (x) = Σ_{j = 1}^{n} \frac{1}{{nh}_{j}} K (\frac{x - x_{j}}{h_{j}});

13.如权利要求12所述的图像聚类系统，其特征在于，有向图创建模块包括交叉验证模块，所述交叉验证模块使用交叉验证方法选择参数k计算带宽h_j，h_j为x_j到与所述x_j距离最近的第k个图像样本的距离。

14.如权利要求12或13所述的图像聚类系统，其特征在于，所述有向图边的权重值w_ij为：

w_{ij} = \frac{1}{h_{i}} \exp (- \frac{{| | x_{i} - x_{j} | |}^{2}}{2 h_{i}^{2}});

15.如权利要求14所述的图像聚类系统，其特征在于，所述有向图创建模块还包括转移概率矩阵计算模块，所述转移概率矩阵计算模块计算所述有向图中所有顶点的转移概率矩阵P，P＝[p_ij]_ij，i，j＝1，...，|V|，其中，P是不可简的，P1＝1，1是所有元素为1的向量，V为所述有向图的顶点集，p_ij为第i个顶点到第j个顶点的转移概率，p_ij＝w_ij/d_i，d_i第i个顶点的度，d_i＝∑_jw_ij。

16.如权利要求15所述的图像聚类系统，其特征在于，所述有向图创建模块还包括归一化处理模块，所述归一化处理模块对P的对应于特征值为1的左特征向量做归一化处理获得π，使π^T1＝1，其中，π＝[π_i]_i，i＝1，...，|V|，π^TP＝π^T，π_i为随机游走过程达到稳态时，第i个顶点被访问的概率。

17.如权利要求14所述的图像聚类系统，其特征在于，所述有向图创建模块还包括等周常量计算模块，所述等周常量计算模块计算分割过程中的等周常量h(G)，

其中，S为所述有向图顶点集V的子集，

e_ij为连接第i个顶点和第j个顶点的有向边，Vol(S)和

分别为子集S和

的边界的容量，

18.如权利要求17所述的图像聚类系统，其特征在于，所述随机游走等周分割模块包括指标向量定义模块、优化求解模块及分割模块；所述指标向量定义模块二值定义一指标向量y∈{0，1}ⁿ，使得

从而Vol(S)＝y^Tπ＝y^T∏1，

其中，∏＝diag(π)，I为单位矩阵，P为转移概率矩阵；所述优化求解模块中设定y的二值定义为y可以取任意数值且设定任意顶点g包含于S中，使用拉格朗日乘子法将h(G)最小问题转化为获得L₀y₀＝1解的问题，其中，y_g＝0，L₀为去除矩阵L的第g行和第g列所得到的矩阵，y₀为去除y的第g行得到的向量，L＝I-P；所述分割模块对y₀进行线性搜索获得最优阈值，并将y_i小于最优阈值的对应的第i个顶点放入S中，将y_i大于或等于最优阈值的对应的第i个顶点放入

中而完成有向图的分割，S或

中顶点即构成所分割的子图。

19.如权利要求18所述的图像聚类系统，其特征在于，所述顶点g为子集S中稳态概率最大的顶点。