CN101976348A - 图像聚类方法和系统 - Google Patents

图像聚类方法和系统 Download PDF

Info

Publication number
CN101976348A
CN101976348A CN 201010517163 CN201010517163A CN101976348A CN 101976348 A CN101976348 A CN 101976348A CN 201010517163 CN201010517163 CN 201010517163 CN 201010517163 A CN201010517163 A CN 201010517163A CN 101976348 A CN101976348 A CN 101976348A
Authority
CN
China
Prior art keywords
summit
digraph
module
image
image pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010517163
Other languages
English (en)
Inventor
陈默
刘健庄
汤晓鸥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN 201010517163 priority Critical patent/CN101976348A/zh
Publication of CN101976348A publication Critical patent/CN101976348A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种图像聚类方法,包括如下步骤:对提供的图像样本集使用变带宽非参数核密度估计法创建有向图;对所创建的有向图使用随机游走等周分割方法进行有向图的分割,将有向图分割成至少两个不相交的子图;提取子图中的图像数据,该子图中的图像数据即归为一类。该图像聚类方法充分地考虑了图像数据分布的局部概率密度信息,可以对分布极度不均匀的数据进行有效的聚类,且由于使用的是非参数聚类方法,因而可以处理非规则形状分布的图像数据。此外,本发明还涉及一种图像聚类系统。

Description

图像聚类方法和系统
【技术领域】
本发明涉及模式识别领域,尤其涉及一种图像聚类方法和系统。
【背景技术】
聚类是指把一个没有类别标记的样本集按照某种准则划分成若干个子集或类别,使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。聚类分析是多元统计分析的一种,也是非监督模式识别的一个重要分支。作为一种无监督分类方法,聚类分析已经被广泛地应用于模式识别、数据挖掘、计算机视觉和模糊控制等许多领域。传统的聚类方法,如K-means方法,EM方法(期望值最大方法)都是建立在凸球形的样本空间上,但当样本空间不为凸时,方法会陷入局部最优。
谱聚类方法能在任意形状的样本空间上聚类,且收敛于全局最优解。该方法具有实现简单,与维数无关、及全局寻优的良好特性,因此得到了越来越广泛的应用。谱聚类方法仅仅考虑所有样本的权值矩阵,也叫相似性矩阵,它将聚类问题转换为无向图划分问题。虽然基于图的谱聚类方法取得了一定成功,但使用固定带宽的基于高斯核的谱聚类方法在许多自然场景的图像样本集上不能得到令人满意的聚类结果,即使仔细调节参数,这些方法也不能很好地处理多尺度的样本集,不能有效反应图像数据的局部概率密度分布。
【发明内容】
基于此,有必要提供一种能有效反应图像数据局部概率密度分布的图像聚类方法。
同时,还有必要提供一种能有效反应图像数据局部概率密度分布的图像聚类系统。
一种图像聚类方法,包括如下步骤:S1、对提供的图像样本集使用变带宽非参数核密度估计法创建有向图;S2、对所创建的有向图使用随机游走等周分割方法进行有向图的分割,将有向图分割成至少两个不相交的子图;S3、提取子图中的图像样本,该子图中的图像样本即归为一类。
优选的,步骤S1中变带宽非参数核密度估计法使用的函数fb(x)为:
f b ( x ) = Σ j = 1 n 1 n h j K ( x - x j h j ) ;
其中,n为图像样本集中样本的数量,j为有向图中的第j个顶点,xj为有向图中第j个顶点代表的图像样本,hj为第j个顶点代表的图像样本的带宽,K为核函数,x为待计算概率密度的图像样本。
优选的,还包括使用交叉验证方法选择参数k,计算带宽hj的步骤,hj为xj到与xj距离最近的第k个图像样本的距离。
优选的,步骤S1中创建的有向图的边的权重值wij为:
W ij = 1 h i exp ( - | | x i - x j | | 2 2 h i 2 ) ;
其中,i为有向图中的第i个顶点,xi为有向图中第i个顶点代表的图像样本,hi为第i个顶点代表的图像样本的带宽。
优选的,步骤S2中使用随机游走等周分割方法进行有向图的分割还包括计算有向图中所有顶点的转移概率矩阵P的步骤,P=[pij]ij,i,j=1,...,|V|,其中,P是不可简的,P1=1,1是所有元素为1的向量,V为有向图的顶点集,pij为第i个顶点到第j个顶点的转移概率,pij=wij/di,di第i个顶点的度,di=∑jwij
优选的,步骤S2中还包括对P的对应于特征值为1的左特征向量做归一化处理获得稳态分布向量π,使πT1=1的步骤,其中,π=[πi]i,i=1,...,|V|,πTP=πT,πi为随机游走过程达到稳态时,第i个顶点被访问的概率。
优选的,步骤S2中使用随机游走等周分割方法进行有向图的分割还包括计算分割过程中的等周常量h(G)的步骤;等周常量h(G)的计算公式为:
h ( G ) = in f S Vol ( ∂ S ) Vol ( S ) = min S Σ i ∈ S , j ∈ S ‾ π i p ij Σ i ∈ s π i ;
其中,S为有向图顶点集V的子集,eij为连接第i个顶点和第j个顶点的有向边,Vol(S)和
Figure BSA00000316133600033
分别为子集S和的边界的容量,
Figure BSA00000316133600035
Vol(S)=∑i∈s,j∈vwij,pij为第i个顶点到第j个顶点的转移概率。
优选的,步骤S2中有向图的分割的步骤具体是:获得子集S,使得等周常量h(G)最小,具体包括如下步骤:
S21、二值定义一指标向量y∈{0,1}n,使得
y i = 1 i ∈ S ‾ 0 i ∈ S , 从而
Vol ( ∂ S ) = Σ i ∈ S , j ∈ S ‾ π i p ij = 2 y T Π ( I - P ) y ;
Vol(S)=yTπ=yT∏1;
h ( G ) = inf S Vol ( ∂ S ) Vol ( S ) = min S 2 y T Π ( I - P ) y y T Π 1 ;
其中,∏=diag(π),I为单位矩阵,P为转移概率矩阵;
S22、将y的二值定义设为y取任意数值,使用拉格朗日乘子法,将h(G)最小问题转化为获得Q(y)=yT∏(I-P)y-λyT∏1最小值问题;
S23、对Q(y)取关于y的导数,并使其等于0,将h(G)最小问题转化为获得(I-P)y=1解的问题;
S24、指定任意顶点g包含于S中,且yg=0,从而h(G)最小问题存在唯一解y0使得L0y0=1,其中,L0为去除矩阵L的第g行和第g列所得到的矩阵,y0为去除y的第g行得到的向量,L=I-P;
S25、通过对y0进行线性搜索获得最优阈值,如果第i个顶点对应的值yi小于最优阈值,则将其放入S中,否则放入
Figure BSA00000316133600041
中,S或
Figure BSA00000316133600042
中顶点即构成所分割的子图。
优选的,顶点g为子集S中稳态概率最大的顶点。
优选的,还包括采用迭代方法对分割得到的等周常量h(G)最小的子图再次进行随机游走等周分割以得到多类聚类结果的步骤。
一种图像聚类系统,包括有向图创建模块、随机游走等周分割模块及类别提取模块;有向图创建模块对提供的图像样本集使用变带宽非参数核密度估计法创建有向图;随机游走等周分割模块对所创建的有向图使用随机游走等周分割方法进行有向图的分割,将有向图分割成至少两个不相交的子图;类别提取模块提取子图中的图像样本,该子图中的图像样本即归为一类。
优选的,变带宽核密度估计的函数fb(x)为:
f b ( x ) = Σ j = 1 n 1 n h j K ( x - x j h j ) ;
其中,n为图像样本集中样本的数量,j为有向图中的第j个顶点,xj为有向图中第j个顶点代表的图像样本,hj为第j个顶点代表的图像样本的带宽,K为核函数,x为待计算概率密度的图像样本。
优选的,有向图创建模块包括交叉验证模块,交叉验证模块使用交叉验证方法选择参数k计算带宽hj,hj为xj到与xj距离最近的第k个图像样本的距离。
优选的,有向图边的权重值wij为:
w ij = 1 h i exp ( - | | x i - x j | | 2 2 h i 2 ) ;
其中,i为有向图中的第i个顶点,xi为有向图中第i个顶点代表的图像样本,hi为第i个顶点代表的图像样本的带宽。
优选的,有向图创建模块还包括转移概率矩阵计算模块,转移概率矩阵计算模块计算有向图中所有顶点的转移概率矩阵P,P=[pij]ij,i,j=1,...,|V|,其中,P是不可简的,P1=1,1是所有元素为1的向量,V为有向图的顶点集,pij为第i个顶点到第j个顶点的转移概率,pij=wij/di,di第i个顶点的度,di=∑jwij
优选的,有向图创建模块还包括归一化处理模块,归一化处理模块对P的对应于特征值为1的左特征向量做归一化处理获得π,使πT1=1,其中,π=[πi]i,i=1,...,|V|,πTP=πT,πi为随机游走过程达到稳态时,第i个顶点被访问的概率。
优选的,有向图创建模块还包括等周常量计算模块,等周常量计算模块计算分割过程中的等周常量h(G),
Figure BSA00000316133600051
其中,S为有向图顶点集V的子集,
Figure BSA00000316133600052
eij为连接第i个顶点和第j个顶点的有向边,Vol(S)和
Figure BSA00000316133600053
分别为子集S和
Figure BSA00000316133600054
的边界的容量,
Figure BSA00000316133600055
Vol(S)=∑i∈s,j∈vwij,pij为第i个顶点到第j个顶点的转移概率。
优选的,随机游走等周分割模块包括指标向量定义模块、优化求解模块及分割模块;指标向量定义模块二值定义一指标向量y∈{0,1}n,使得
Figure BSA00000316133600056
Figure BSA00000316133600057
从而
Figure BSA00000316133600058
Vol(S)=yTπ=yT∏1,其中,∏=diag(π),I为单位矩阵,P为转移概率矩阵;优化求解模块中设定y的二值定义为y可以取任意数值且设定任意顶点g包含于S中,使用拉格朗日乘子法将h(G)最小问题转化为获得L0y0=1解的问题,其中,yg=0,L0为去除矩阵L的第g行和第g列所得到的矩阵,y0为去除y的第g行得到的向量,L=I-P;分割模块对y0进行线性搜索获得最优阈值,并将yi小于最优阈值的对应的第i个顶点放入S中,将yi大于或等于最优阈值的对应的第i个顶点放入
Figure BSA00000316133600061
中而完成有向图的分割,S或
Figure BSA00000316133600062
中顶点即构成所分割的子图。
优选的,顶点g为子集S中稳态概率最大的顶点。
上述图像聚类方法和系统,充分地考虑了图像数据分布的局部概率密度信息,可以对分布极度不均匀的数据进行有效的聚类,且由于使用的是非参数聚类方法,因而可以处理非规则形状分布的图像数据。经检测,该图像聚类方法的准确率高,处理速度快。该图像聚类方法和系统可广泛应用在模式识别、数据挖掘、计算机视觉和模糊控制等领域。
【附图说明】
图1为一实施例的图像聚类方法流程图。
图2为一个实施例中的图像聚类系统的示意图。
【具体实施方式】
下面主要结合附图和具体实施例对图像的聚类方法和系统作进一步的说明。
如图1所示,本实施例的图像聚类方法包括如下步骤:
S110、对提供的图像样本集使用变带宽非参数核密度估计法创建有向图。
使用高斯核函数建图相当于使用高斯核概率密度估计方法来对样本整体的分布建模。在统计学中,核密度估计(Kernel Density Estimate,KDE)是一种非参数概率密度估计方法,它表示为
Figure BSA00000316133600063
其中,K是核函数,h是带宽参数。最为常用的核函数是高斯核函数,如下:
K ( x - y h ) = 1 2 π exp ( - | | x - y | | 2 2 h 2 )
如果使用高斯核函数,则KDE可以表示为:
f h ( x ) = 1 nh 2 π Σ j = 1 n exp ( - | | x - x j | | 2 2 h 2 )
以上是针对固定带宽的KDE,其不能有效地利用图像样本的局部信息。
本实施例使用变带宽非参数概率密度估计来创建有向图G=(V,E)。有向图G=(V,E)是由一个有限顶点集合v∈V和一个边的集合e∈E组成。每一个顶点对应一个图像样本。定义S为顶点集V的子集,S的边界定义为边的集合
Figure BSA00000316133600072
连接顶点i和j的边eij是有向边,边的权重值为wij,顶点i的度定义为di=∑jwij
变带宽KDE的概率密度函数可以表示为:
f b ( x ) = Σ j = 1 n 1 nh j K ( x - x j h j )
其中,第j个顶点(以下简称顶点j,第i个顶点简称顶点i)代表的图像样本的带宽hj依赖于图像样本xj的局部概率密度信息。变带宽KDE可以有效反应图像样本的局部信息,对于图像样本密度很大的区域可以使用较小的带宽参数,对于图像样本比较稀疏的区域可以使用较大的带宽,从而图像样本空间的各个区域都可以得到有效建模。带宽hj值被设置为xj到其最近距离的第k个图像样本的距离,优选的,参数k可以通过交叉验证方法来选择。
通过使用变带宽KDE,所创建的有向图边的权重值wij可由下式计算得到:
w ij = 1 h i exp ( - | | x i - x j | | 2 2 h i 2 )
通过变带宽KDE所建立的有向图边的权重值并不对称,即一般情况下wij≠wji
S120、对所创建的有向图使用随机游走等周分割方法进行有向图的分割,将有向图分割成至少两个不相交的子图。
对于无向图G=(V,E),定义S为顶点集V的子集。S的边界定义为边的集合无向图的等周常量定义为
h ( G ) = min S Vol ( ∂ S ) Vol ( S )
其中,
Figure BSA00000316133600083
及S的边界的容量
Figure BSA00000316133600084
Vol(S)=∑i∈s,j∈vwij,Vol(S)≤Vol(V)/2。无向图的等周常量满足h(G)∈[0,1],并且当且仅当无向图是联通时,等周常量严格为正。
本实施例在上述步骤S110创建的带权有向图上定义一个随机游走过程,由顶点i到j的一步转移概率为pij=wij/di。对于所有的顶点对,一步转移概率矩阵P=[pik]ij,i,j=1,...,|V|,其满足P1=1。其中,1是所有元素为1的向量;随机游走过程的P是不可简的,也即与P关联的有向图是强联通的,从而存在唯一的稳态分布向量π=[πi]i,i=1,...,|V|,满足πTP=πTπi,πi为随机游走过程达到稳态时,第i个顶点被访问的概率。优选的,π可以由对P的对应于特征值1的左特征向量做归一化使πT1=1得到。
对于定义在有向图上的以P为一步状态转移矩阵的有限状态马尔可夫过程,本实施例的顶点集S的边界的容量Vol(S)=∑i∈sπi。由于
Figure BSA00000316133600086
同时是随机游走粒子从顶点集S转移到补集
Figure BSA00000316133600087
的概率,且因此,有向图的等周常量可以表示为:
h ( G ) = inf S Vol ( ∂ S ) Vol ( S ) = min S Σ i ∈ S , j ∈ S ‾ π i p ij Σ i ∈ s π i
从而,有向图的分割问题即转换为获得一顶点集S使得等周常量h(G)最小的问题,具体包括如下步骤:
S121、二值定义一指标向量y∈{0,1}n,使得
y i = 1 i ∈ S ‾ 0 i ∈ S ,
从而
Figure BSA00000316133600092
Vol(S)=yTπ=yT∏1;
Figure BSA00000316133600093
其中,∏=diag(π),I为单位矩阵,P为转移概率矩阵。
S122、将y的二值定义设为y可以取任意数值,从而上述h(G)最小问题转化为
Figure BSA00000316133600094
使用拉格朗日乘子法,将h(G)最小问题转化为获得Q(y)=yT∏(I-P)y-λyT∏1最小值问题。
S123、对Q(y)取关于y的导数,并使其等于0,得到2∏(I-P)y=∏1省略标量部分,从而,解得最优的y使得Q最小的问题转化为解线性方程组(I-P)y=1解的问题。
S124、指定任意顶点g包含于S中,且yg=0,从而所述h(G)方程存在唯一解y0使得L0y0=1。
矩阵L=I-P为奇异矩阵,因为L1=0,所以上述线性系统是病态的,解不唯一。但由于本实施例的P是不可简的,与P相关的有向图为强联通图。本实施例指定任意定点g被包含在S中yg=0,也即去除矩阵L的第g行和第g列(得到的矩阵记为L0)并去除y的第g行(得到的向量记为y0)。从而下述线性系统存在唯一解:
L0y0=1
且解向量y0的所有元素为非负。
在优选的实施例中,选择有向图上稳态概率最大的点作为g点。稳态概率大的点意味着随机游走粒子很容易走到该点,这样的点更有可能处在一个类的内部。
S125、通过对y0进行线性搜索获得最优阈值,如果顶点i对应的值yi小于所述最优阈值,则将其放入S中,否则放入中。
在优选的实施例中,还包括采用迭代方法对分割得到的等周常量h(G)最小的子图再次进行随机游走等周分割以得到多类聚类结果的步骤。
S130、提取子图中的图像样本,该子图中的图像样本即归为一类。子集S或
Figure BSA00000316133600102
中的顶点即为分割的子图部分,提取该子图中的图像样本,这些图像样本即可归为一类别。
图2一个实施例中的图像聚类系统的模块图,该图像聚类系统包括有向图创建模块210、随机游走等周分割模块220及类别提取模块230。
有向图创建模块210对提供的图像样本集使用变带宽非参数核密度估计法创建有向图。
有向图创建模块210包括交叉验证模块、转移概率矩阵计算模块、归一化处理模块和等周常量计算模块(图中未示)。
交叉验证模块使用交叉验证方法选择参数k计算带宽hj,hj即为xj到其第k个最近邻的距离。
转移概率矩阵计算模块计算有向图中所有顶点的转移概率矩阵P,P=[pij]ij,i,j=1,...,|V|,其中,P是不可简的,P1=1,1是所有元素为1的向量,V为有向图的顶点集,pij为第i个顶点到第j个顶点的转移概率,pij=wij/di,di第i个顶点的度,di=∑jwij
归一化处理模块对P的对应于特征值为1的左特征向量做归一化处理获得π,使πT1=1,其中,π=[πi]i,i=1,...,|V|,πTP=πT,πi为随机游走过程达到稳态时,第i个顶点被访问的概率。
等周常量计算模块计算分割过程中的等周常量h(G),
Figure BSA00000316133600111
其中,S为所述有向图顶点集V的子集,
Figure BSA00000316133600112
eij为连接第i个顶点和第j个顶点的有向边,Vol(S)和
Figure BSA00000316133600113
分别为子集S和
Figure BSA00000316133600114
的边界的容量,
Figure BSA00000316133600115
Vol(S)=∑i∈s,j∈vwij,pij为第i个顶点到第j个顶点的转移概率。
随机游走等周分割模块220对所创建的有向图使用随机游走等周分割方法进行有向图的分割,将有向图分割成至少两个不相交的子图。
随机游走等周分割模块220包括指标向量定义模块、优化求解模块及分割模块(图中未示)。指标向量定义模块二值定义一指标向量y∈{0,1}n,使得
y i = 1 i ∈ S ‾ 0 i ∈ S , 从而
Vol ( ∂ S ) = Σ i ∈ S , j ∈ S ‾ π i p ij = 2 y T Π ( I - P ) y ;
Vol(S)=yTπ=yT∏1;
Figure BSA00000316133600118
其中,∏=diag(π)。优化求解模块中设定y的二值定义为y可以取任意数值且设定任意顶点g包含于S中,使用拉格朗日乘子法将h(G)最小问题转化为获得L0y0=1解的问题,其中,yg=0。分割模块对y0进行线性搜索获得最优阈值,并将对应的值yi小于最优阈值的顶点i放入S中,将对应的值yi大于或等于最优阈值的顶点i放入
Figure BSA00000316133600119
中而完成有向图的分割,S或
Figure BSA000003161336001110
中顶点即构成所分割的子图。
类别提取模块230提取子图中的图像样本,该子图中的图像样本即归为一类。
以下为检测实施例:
本实施在三组标准样本集上测试了上述图像聚类方法及系统:多角度人脸样本集(UMist),手写数字图像样本集(USPS)和自然场景图像样本集(Scene)。UMist样本集由20个人的总计575张多角度脸部照片所组成,本实施使用图片所属于的人作为图片的自然类别以测试图像聚类方法及系统。USPS样本集由5000张从0到9的手写数字图片组成,本实施使用图片中的数字作为图片的自然类别。Scene样本集由2688张来自8个场景的自然风景照片组成,本实施使用图片中的场景作为图片的自然类别。作为比较,本实施同时给出了其他三个常用聚类方法:Kmeans,谱聚类(NJW)和归一化分割(NCut)的测试结果。下表中给出了所测试的四种方法在三个样本集上得到的错误率。从表中可以看出,在所有三个测试样本集上,本发明的基于随机游走等周切割(RWICut)的图像聚类方法和系统得到了最优的结果。
聚类错误率比较结果:
  Kmeans   Ncut   NJW   RWICut
  UMist   0.5339   0.5791   0.3948   0.2661
  USPS   0.6008   0.6404   0.4882   0.3398
  Scene   0.5056   0.4835   0.4014   0.3857
上述图像聚类方法和系统,充分地考虑了图像数据分布的局部概率密度信息,可以对分布极度不均匀的数据进行有效的聚类,且由于使用的是非参数聚类方法,因而可以处理非规则形状分布的图像数据。经检测,该图像聚类方法的准确率高,处理速度快。该图像聚类方法和系统可广泛应用在模式识别、数据挖掘、计算机视觉和模糊控制等领域。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (19)

1.一种图像聚类方法,其特征在于,包括如下步骤:
S1、对提供的图像样本集使用变带宽非参数核密度估计法创建有向图;
S2、对所创建的有向图使用随机游走等周分割方法进行有向图的分割,将所述有向图分割成至少两个不相交的子图;
S3、提取所述子图中的图像样本,该子图中的图像样本即归为一类。
2.如权利要求1所述的图像聚类方法,其特征在于,步骤S1中所述变带宽非参数核密度估计法使用的函数fb(x)为:
f b ( x ) = Σ j = 1 n 1 nh j K ( x - x j h j ) ;
其中,n为图像样本集中样本的数量,j为有向图中的第j个顶点,xj为有向图中第j个顶点代表的图像样本,hj为第j个顶点代表的图像样本的带宽,K为核函数,x为待计算概率密度的图像样本。
3.如权利要求2所述的图像聚类方法,其特征在于,还包括使用交叉验证方法选择参数k,计算带宽hj的步骤,hj为xj到与所述xj距离最近的第k个图像样本的距离。
4.如权利要求2或3所述的图像聚类方法,其特征在于,步骤S1中创建的有向图的边的权重值wij为:
w ij = 1 h i exp ( - | | x i - x j | | 2 2 h i 2 ) ;
其中,i为有向图中的第i个顶点,xi为有向图中第i个顶点代表的图像样本,hi为第i个顶点代表的图像样本的带宽。
5.如权利要求4所述的图像聚类方法,其特征在于,步骤S2中使用随机游走等周分割方法进行有向图的分割还包括计算所述有向图中所有顶点的转移概率矩阵P的步骤,P=[pij]ij,i,j=1,...,|V|,其中,P是不可简的,P1=1,1是所有元素为1的向量,V为所述有向图的顶点集,pij为第i个顶点到第j个顶点的转移概率,pij=wij/di,di第i个顶点的度,di=∑jwij
6.如权利要求5所述的图像聚类方法,其特征在于,步骤S2中还包括对P的对应于特征值为1的左特征向量做归一化处理获得稳态分布向量π,使πT1=1的步骤,其中,π=[πi]i,i=1,...,|V|,πTP=πT,πi为随机游走过程达到稳态时,第i个顶点被访问的概率。
7.如权利要求4所述的图像聚类方法,其特征在于,步骤S2中使用随机游走等周分割方法进行有向图的分割还包括计算分割过程中的等周常量h(G)的步骤;所述等周常量h(G)的计算公式为:
h ( G ) = in f S Vol ( ∂ S ) Vol ( S ) = min S Σ i ∈ S , j ∈ S ‾ π i p ij Σ i ∈ s π i ;
其中,S为所述有向图顶点集V的子集,
Figure FSA00000316133500022
eij为连接第i个顶点和第j个顶点的有向边,Vol(S)和
Figure FSA00000316133500023
分别为子集S和
Figure FSA00000316133500024
的边界的容量,
Figure FSA00000316133500025
Vol(S)=∑i∈s,j∈vwij,pij为第i个顶点到第j个顶点的转移概率。
8.如权利要求7所述的图像聚类方法,其特征在于,步骤S2中所述有向图的分割的步骤具体是:获得子集S,使得等周常量h(G)最小,具体包括如下步骤:
S21、二值定义一指标向量y∈{0,1}n,使得
y i = 1 i ∈ S ‾ 0 i ∈ S , 从而
Vol ( ∂ S ) = Σ i ∈ S , j ∈ S ‾ π i p ij = 2 y T Π ( I - P ) y ;
Vol(S)=yTπ=yT∏1;
h ( G ) = inf S Vol ( ∂ S ) Vol ( S ) = min S 2 y T Π ( I - P ) y y T Π 1 ;
其中,∏=diag(π),I为单位矩阵,P为转移概率矩阵;
S22、将y的二值定义设为y取任意数值,使用拉格朗日乘子法,将h(G)最小问题转化为获得Q(y)=yT∏(I-P)y-λyT∏1最小值问题;
S23、对Q(y)取关于y的导数,并使其等于0,将h(G)最小问题转化为获得(I-P)y=1解的问题;
S24、指定任意顶点g包含于S中,且yg=0,从而所述h(G)最小问题存在唯一解y0使得L0y0=1,其中,L0为去除矩阵L的第g行和第g列所得到的矩阵,y0为去除y的第g行得到的向量,L=I-P;
S25、通过对y0进行线性搜索获得最优阈值,如果第i个顶点对应的值yi小于所述最优阈值,则将其放入S中,否则放入
Figure FSA00000316133500031
中,S或
Figure FSA00000316133500032
中顶点即构成所分割的子图。
9.如权利要求8所述的图像聚类方法,其特征在于,所述顶点g为子集S中稳态概率最大的顶点。
10.如权利要求9所述的图像聚类方法,其特征在于,还包括采用迭代方法对分割得到的等周常量h(G)最小的子图再次进行随机游走等周分割以得到多类聚类结果的步骤。
11.一种图像聚类系统,其特征在于,包括有向图创建模块、随机游走等周分割模块及类别提取模块;所述有向图创建模块对提供的图像样本集使用变带宽非参数核密度估计法创建有向图;所述随机游走等周分割模块对所创建的有向图使用随机游走等周分割方法进行有向图的分割,将所述有向图分割成至少两个不相交的子图;所述类别提取模块提取所述子图中的图像样本,该子图中的图像样本即归为一类。
12.如权利要求11所述的图像聚类系统,其特征在于,所述变带宽核密度估计的函数fb(x)为:
f b ( x ) = Σ j = 1 n 1 nh j K ( x - x j h j ) ;
其中,n为图像样本集中样本的数量,j为有向图中的第j个顶点,xj为有向图中第j个顶点代表的图像样本,hj为第j个顶点代表的图像样本的带宽,K为核函数,x为待计算概率密度的图像样本。
13.如权利要求12所述的图像聚类系统,其特征在于,有向图创建模块包括交叉验证模块,所述交叉验证模块使用交叉验证方法选择参数k计算带宽hj,hj为xj到与所述xj距离最近的第k个图像样本的距离。
14.如权利要求12或13所述的图像聚类系统,其特征在于,所述有向图边的权重值wij为:
w ij = 1 h i exp ( - | | x i - x j | | 2 2 h i 2 ) ;
其中,i为有向图中的第i个顶点,xi为有向图中第i个顶点代表的图像样本,hi为第i个顶点代表的图像样本的带宽。
15.如权利要求14所述的图像聚类系统,其特征在于,所述有向图创建模块还包括转移概率矩阵计算模块,所述转移概率矩阵计算模块计算所述有向图中所有顶点的转移概率矩阵P,P=[pij]ij,i,j=1,...,|V|,其中,P是不可简的,P1=1,1是所有元素为1的向量,V为所述有向图的顶点集,pij为第i个顶点到第j个顶点的转移概率,pij=wij/di,di第i个顶点的度,di=∑jwij
16.如权利要求15所述的图像聚类系统,其特征在于,所述有向图创建模块还包括归一化处理模块,所述归一化处理模块对P的对应于特征值为1的左特征向量做归一化处理获得π,使πT1=1,其中,π=[πi]i,i=1,...,|V|,πTP=πT,πi为随机游走过程达到稳态时,第i个顶点被访问的概率。
17.如权利要求14所述的图像聚类系统,其特征在于,所述有向图创建模块还包括等周常量计算模块,所述等周常量计算模块计算分割过程中的等周常量h(G),
Figure FSA00000316133500051
其中,S为所述有向图顶点集V的子集,
Figure FSA00000316133500052
eij为连接第i个顶点和第j个顶点的有向边,Vol(S)和
Figure FSA00000316133500053
分别为子集S和
Figure FSA00000316133500054
的边界的容量,
Figure FSA00000316133500055
Vol(S)=∑i∈s,j∈vwij,pij为第i个顶点到第j个顶点的转移概率。
18.如权利要求17所述的图像聚类系统,其特征在于,所述随机游走等周分割模块包括指标向量定义模块、优化求解模块及分割模块;所述指标向量定义模块二值定义一指标向量y∈{0,1}n,使得
Figure FSA00000316133500056
从而Vol(S)=yTπ=yT∏1,
Figure FSA00000316133500058
其中,∏=diag(π),I为单位矩阵,P为转移概率矩阵;所述优化求解模块中设定y的二值定义为y可以取任意数值且设定任意顶点g包含于S中,使用拉格朗日乘子法将h(G)最小问题转化为获得L0y0=1解的问题,其中,yg=0,L0为去除矩阵L的第g行和第g列所得到的矩阵,y0为去除y的第g行得到的向量,L=I-P;所述分割模块对y0进行线性搜索获得最优阈值,并将yi小于最优阈值的对应的第i个顶点放入S中,将yi大于或等于最优阈值的对应的第i个顶点放入
Figure FSA000003161335000510
中而完成有向图的分割,S或
Figure FSA000003161335000511
中顶点即构成所分割的子图。
19.如权利要求18所述的图像聚类系统,其特征在于,所述顶点g为子集S中稳态概率最大的顶点。
CN 201010517163 2010-10-21 2010-10-21 图像聚类方法和系统 Pending CN101976348A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010517163 CN101976348A (zh) 2010-10-21 2010-10-21 图像聚类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010517163 CN101976348A (zh) 2010-10-21 2010-10-21 图像聚类方法和系统

Publications (1)

Publication Number Publication Date
CN101976348A true CN101976348A (zh) 2011-02-16

Family

ID=43576232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010517163 Pending CN101976348A (zh) 2010-10-21 2010-10-21 图像聚类方法和系统

Country Status (1)

Country Link
CN (1) CN101976348A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859149A (zh) * 2010-05-25 2010-10-13 无锡中星微电子有限公司 一种太阳能电池板角度自动调整的方法和太阳能电池系统
CN102609721A (zh) * 2012-02-01 2012-07-25 北京师范大学 遥感影像的聚类方法
CN102930295A (zh) * 2012-10-24 2013-02-13 中国科学院自动化研究所 基于自适应空间信息有向图的图像分类方法
CN102982342A (zh) * 2012-11-08 2013-03-20 厦门大学 基于拉格朗日对偶的半正定谱聚类方法
CN105427272A (zh) * 2014-09-17 2016-03-23 富士通株式会社 图像处理设备、图像处理方法以及电子装置
CN105631416A (zh) * 2015-12-24 2016-06-01 华侨大学 采用新型密度聚类进行人脸识别的方法
CN105740313A (zh) * 2014-12-27 2016-07-06 达索系统公司 设计等值域图
CN105741294A (zh) * 2016-02-01 2016-07-06 福建师范大学 一种对象数量可控的图像分割方法
CN106447676A (zh) * 2016-10-12 2017-02-22 浙江工业大学 一种基于快速密度聚类算法的图像分割方法
CN107169526A (zh) * 2012-11-09 2017-09-15 加州理工学院 自动特征分析、比较和异常检测的方法
CN107274415A (zh) * 2017-06-06 2017-10-20 东北大学 一种基于Tarjan算法和区域连接的图像分割方法
CN107358266A (zh) * 2017-07-17 2017-11-17 陈剑桃 一种具有识别功能的移动终端
CN108475213A (zh) * 2016-03-24 2018-08-31 富士施乐株式会社 图像处理装置、图像处理方法和图像处理程序
CN108986103A (zh) * 2018-06-04 2018-12-11 南京师范大学 一种基于超像素以及多超图融合的图像分割方法
CN109697451A (zh) * 2017-10-23 2019-04-30 北京京东尚科信息技术有限公司 相似图像聚类方法及装置、存储介质、电子设备
CN109886284A (zh) * 2018-12-12 2019-06-14 同济大学 基于层次化聚类的欺诈检测方法及系统
CN113792784A (zh) * 2021-09-14 2021-12-14 上海任意门科技有限公司 用于用户聚类的方法、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226409B1 (en) * 1998-11-03 2001-05-01 Compaq Computer Corporation Multiple mode probability density estimation with application to sequential markovian decision processes
CN101261682A (zh) * 2007-03-05 2008-09-10 株式会社理光 图像处理装置、图像处理方法和计算机程序产品
US20090154814A1 (en) * 2007-12-12 2009-06-18 Natan Y Aakov Ben Classifying objects using partitions and machine vision techniques
CN101866483A (zh) * 2010-05-31 2010-10-20 西安电子科技大学 基于拉马克多目标免疫算法的纹理图像分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226409B1 (en) * 1998-11-03 2001-05-01 Compaq Computer Corporation Multiple mode probability density estimation with application to sequential markovian decision processes
CN101261682A (zh) * 2007-03-05 2008-09-10 株式会社理光 图像处理装置、图像处理方法和计算机程序产品
US20090154814A1 (en) * 2007-12-12 2009-06-18 Natan Y Aakov Ben Classifying objects using partitions and machine vision techniques
CN101866483A (zh) * 2010-05-31 2010-10-20 西安电子科技大学 基于拉马克多目标免疫算法的纹理图像分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on》 20100618 mo chen etc Isoperimetric Cut on a Directed Graph 2109 - 2116 , *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859149B (zh) * 2010-05-25 2012-07-04 无锡中星微电子有限公司 一种太阳能电池板角度自动调整的方法和太阳能电池系统
CN101859149A (zh) * 2010-05-25 2010-10-13 无锡中星微电子有限公司 一种太阳能电池板角度自动调整的方法和太阳能电池系统
CN102609721A (zh) * 2012-02-01 2012-07-25 北京师范大学 遥感影像的聚类方法
CN102609721B (zh) * 2012-02-01 2014-06-04 北京师范大学 遥感影像的聚类方法
CN102930295A (zh) * 2012-10-24 2013-02-13 中国科学院自动化研究所 基于自适应空间信息有向图的图像分类方法
CN102930295B (zh) * 2012-10-24 2015-11-11 中国科学院自动化研究所 基于自适应空间信息有向图的图像分类方法
CN102982342A (zh) * 2012-11-08 2013-03-20 厦门大学 基于拉格朗日对偶的半正定谱聚类方法
CN102982342B (zh) * 2012-11-08 2015-07-15 厦门大学 基于拉格朗日对偶的半正定谱聚类方法
CN107169526A (zh) * 2012-11-09 2017-09-15 加州理工学院 自动特征分析、比较和异常检测的方法
CN107169526B (zh) * 2012-11-09 2020-10-16 加州理工学院 自动特征分析、比较和异常检测的方法
CN105427272A (zh) * 2014-09-17 2016-03-23 富士通株式会社 图像处理设备、图像处理方法以及电子装置
CN105740313A (zh) * 2014-12-27 2016-07-06 达索系统公司 设计等值域图
CN105740313B (zh) * 2014-12-27 2021-03-12 达索系统公司 设计等值域图
CN105631416A (zh) * 2015-12-24 2016-06-01 华侨大学 采用新型密度聚类进行人脸识别的方法
CN105631416B (zh) * 2015-12-24 2018-11-13 华侨大学 采用新型密度聚类进行人脸识别的方法
CN105741294A (zh) * 2016-02-01 2016-07-06 福建师范大学 一种对象数量可控的图像分割方法
CN108475213B (zh) * 2016-03-24 2021-11-30 富士胶片商业创新有限公司 图像处理装置、图像处理方法和图像处理程序
CN108475213A (zh) * 2016-03-24 2018-08-31 富士施乐株式会社 图像处理装置、图像处理方法和图像处理程序
CN106447676A (zh) * 2016-10-12 2017-02-22 浙江工业大学 一种基于快速密度聚类算法的图像分割方法
CN106447676B (zh) * 2016-10-12 2019-01-22 浙江工业大学 一种基于快速密度聚类算法的图像分割方法
CN107274415A (zh) * 2017-06-06 2017-10-20 东北大学 一种基于Tarjan算法和区域连接的图像分割方法
CN107274415B (zh) * 2017-06-06 2019-08-09 东北大学 一种基于Tarjan算法和区域连接的图像分割方法
CN107358266B (zh) * 2017-07-17 2020-11-10 浙江信电技术股份有限公司 一种具有识别功能的移动终端
CN107358266A (zh) * 2017-07-17 2017-11-17 陈剑桃 一种具有识别功能的移动终端
CN109697451A (zh) * 2017-10-23 2019-04-30 北京京东尚科信息技术有限公司 相似图像聚类方法及装置、存储介质、电子设备
CN108986103A (zh) * 2018-06-04 2018-12-11 南京师范大学 一种基于超像素以及多超图融合的图像分割方法
CN108986103B (zh) * 2018-06-04 2022-06-07 南京师范大学 一种基于超像素以及多超图融合的图像分割方法
CN109886284A (zh) * 2018-12-12 2019-06-14 同济大学 基于层次化聚类的欺诈检测方法及系统
CN113792784A (zh) * 2021-09-14 2021-12-14 上海任意门科技有限公司 用于用户聚类的方法、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN101976348A (zh) 图像聚类方法和系统
Lee et al. Self-attention graph pooling
CN105957076B (zh) 一种基于聚类的点云分割方法及系统
CN102254303B (zh) 遥感图像分割方法及遥感图像检索方法
Bora et al. A comparative study between fuzzy clustering algorithm and hard clustering algorithm
Lu et al. Pairwise linkage for point cloud segmentation
Nikolentzos et al. Kernel graph convolutional neural networks
Cascianelli et al. Robust visual semi-semantic loop closure detection by a covisibility graph and CNN features
CN105005760B (zh) 一种基于有限混合模型的行人再识别方法
Dumont et al. Fast multi-class image annotation with random subwindows and multiple output randomized trees
CN105894047A (zh) 一种基于三维数据的人脸分类系统
CN103810503A (zh) 一种基于深度学习的自然图像中显著区域的检测方法
CN103065158A (zh) 基于相对梯度的isa模型的行为识别方法
CN103678680A (zh) 基于感兴趣区域多元空间关系模型的图像分类方法
CN103530633A (zh) 一种图像局部不变特征的语义映射方法及语义映射系统
CN103077555A (zh) 一种三维模型构成的自动标注方法
CN102346851B (zh) 基于njw谱聚类标记的图像分割方法
Lynen et al. Trajectory-based place-recognition for efficient large scale localization
CN104268507A (zh) 一种基于rgb-d图像的手语字母识别方法
CN105447527A (zh) 采用图像识别技术将环境微生物进行分类的方法和系统
Wang et al. A novel sparse boosting method for crater detection in the high resolution planetary image
CN110364264A (zh) 基于子空间学习的医疗数据集特征降维方法
CN101216886B (zh) 一种基于谱分割理论的镜头聚类方法
CN106022359A (zh) 基于有序信息熵的模糊熵空间聚类分析方法
CN103473813A (zh) 一种三维模型构件的自动提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110216