CN100535926C

CN100535926C - 数据处理,图像处理和图像分类方法及设备

Info

Publication number: CN100535926C
Application number: CNB2006100003382A
Authority: CN
Inventors: 王健民; 纪新
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-01-06
Filing date: 2006-01-06
Publication date: 2009-09-02
Anticipated expiration: 2026-01-06
Also published as: CN1996343A

Abstract

本发明涉及一种数据处理方法，图像处理方法，图像分类方法及装置，以及存储介质。通过本发明，基于标准K-均值方法提出了一种新的数据聚类方法。在图像处理以及图像分类中使用该新的数据聚类方法产生良好的性能。

Description

数据处理，图像处理和图像分类方法及设备

技术领域

本发明涉及数据处理方法，图像处理方法，图像分类方法及设备，以及存储介质。

背景技术

作为一种数据处理方法，K-均值聚类(K-means Cluster)，方法是到目前为止应用非常广泛的用以发现数据中的聚类的方法。K-均值聚类方法被应用在很多领域，包括图形，计算机视觉，信号处理，压缩，以及计算几何(参见Anne-Claude Doux，Jean-Philippe Laurent，和Jean-Pierre Nadal，Symbolic Data Analysis with the K-Means Algorithm，Paris，France)。有很多列表的论文集中在如何加快该方法(参见BarbaraHohlt，Pthread Parallel K-means，CS267 Applications of ParallelComputing UC Berkeley December 14，2001；Jesse D.Hall John C.Hart，University of Illinois at Urbana-Champaign，GPU Acceleration ofIterative Clustering，June 4，2004)。但是本发明所提出的进一步的问题是如何更均匀地聚类数据。因此有必要开发一种改进的数据聚类方法以解决问题。至于数据聚类方法的使用，研究如何在图像处理甚至图像分类中有效地使用该改进的数据聚类方法也是有益的。

发明内容

本发明的一个目的是根据标准K-均值方法开发一种新的数据聚类方法。

本发明的另一个目的是在图像处理以及图像分类中使用新的数据聚类方法。

本发明提供了一种数据处理方法，包括步骤：

输入包括了n个数据元素的数据集{v}；

从所述数据集{v}中随机地选择k个中心数据元素；

将各加权因数c_i初始化为1/k；

将该数据集{v}聚类到k个聚类{v}_i中，各聚类满足以下的条件：对于聚类{v}_i中的任一数据元素v，所述任一数据元素v和该任一数据元素v所属的聚类{v}_i的中心数据元素m_i之间的加权距离c_i×dis(v，m_i)小于等于该任一数据元素v和该任一数据元素v不属于的任一其它聚类{v}_j的中心数据元素m_j之间的加权距离c_j×dis(v，m_j)；

计算新的中心数据元素m_i作为聚类{v}_i的平均值；

通过下面的表达式对新加权因数进行计算：

c_{i} = 1 - k^{\log (1 - c_{i}) / (\log (n) - \log (numberof ({v}_{i})))},

其中，numberof({v}_i)意味着聚类{v}_i中数据元素的数目，并且通过下面的表达式对新加权因数进行标准化：

c_{i} = c_{i} / Σ_{j = 1}^{k} c_{j};

迭代从所述聚类步骤起的上述步骤，除非迭代次数大于一固定值或者是在该次迭代中中心数据元素不发生改变；以及

对于所聚类的数据集进行后处理。

本发明还提供了一种图像处理方法，包括步骤：

输入包括n个图像元素{v}的图像；

将所述图像元素{v}聚类k个到聚类{v}_i中，各聚类满足以下的条件：对于聚类{v}_i中的任一图像元素v，所述任一图像元素v和该任一图像元素v所属的聚类{v}_i的中心图像元素m_i之间的加权距离c_i×dis(v，m_i)小于等于该任一图像元素v和该任一图像元素v不属于的任一其它聚类{v}_j的中心图像元素m_j之间的加权距离c_j×dis(v，m_j)；

计算新的中心图像元素m_i作为聚类{v}_i的平均值；

通过下面的表达式对新加权因数进行计算：

c_{i} = 1 - k^{\log (1 - c_{i}) / (\log (n) - \log (numberof ({v}_{i})))}

其中，numberof({v}_i)意味着聚类{v}_i中图像元素的数目，并且通过下面的表达式对新加权因数进行标准化：

c_{i} = c_{i} / Σ_{j = 1}^{k} c_{j};

迭代从所述聚类步骤起的上述步骤，除非迭代次数大于一固定值或者是在该次迭代中中心图像元素不发生改变；以及

对于所聚类的图像元素进行进一步的处理。

本发明进一步提供了一种图像分类方法，包括步骤：

输入有待分类的图像，该图像包括n个图像元素{v}；

从所述图像中随机地选择k个中心图像元素；

将各加权因数c_i初始化为1/k；

将所述图像元素{v}聚类到k个聚类{v}_i中，各聚类满足以下条件：对于聚类{v}_i中的任一图像元素v，所述任一图像元素v和该任一图像元素v所属的聚类{v}_i的中心图像元素m_i之间的加权距离c_i×dis(v，m_i)小于等于该任一图像元素v和该任一图像元素v不属于的任一其它聚类{v}_j的中心图像元素m_j之间的加权距离c_j×dis(v，m_j)；

计算新的中心图像元素m_i作为聚类{v}_i的平均值；

通过下面的表达式对新加权因数进行计算：

c_{i} = 1 - k^{\log (1 - c_{i}) / (\log (n) - \log (numberof ({v}_{i})))},

c_{i} = c_{i} / Σ_{j = 1}^{k} c_{j};

迭代从所述聚类步骤起的上述步骤，除非迭代次数大于一固定值或者是在该次迭代中中心图像元素不发生改变；

从聚类中提取特征；以及

使用所提取的特征对所述图像进行分类。

通过本发明，开发了一种根据标准K-均值方法的新的数据聚类方法。

在图像处理以及图像分类中使用新的数据聚类方法产生了很好的性能。

从以下参照附图对优选实施例所作的说明，本发明的其它特征和优势将明显可见，该附图通过示例描述了本发明的原理。

附图说明

图1是标准K-均值聚类方法的流程图；

图2的流程图表示了根据本发明的一种新的数据聚类方法以及根据该新的数据聚类方法的数据处理方法的流程图；

图3是本发明的数据处理设备；

图4表示使用了许多数据集的标准K-均值聚类方法的性能；

图5表示使用了许多数据集的本发明的新的数据聚类方法的性能；

图6表示根据本发明的一种图像处理方法；

图7表示执行图6所示的图像处理方法的图像处理装置；

图8表示根据本发明的图像分类方法；

图9表示根据本发明的图像分类设备，用以执行图8所示的图像分类方法。

具体实施方式

根据本发明，标准K-均值数据聚类方法被进一步地开发为一种新的数据聚类方法。

首先结合附图1对作为一种旧的数据处理方法的标准K-均值聚类方法进行简要的描述。

标准的K-均值数据聚类方法是一种迭代的非层级方法。其由J.B.MacQueen在1976年提出。

在步骤S10，输入包括有待聚类的n个数据元素(例如，矢量)的数据集{v}(v₁v₂...v_n)，使用下面的方法得到k个聚类，其中k为一给定的数目，并且k小于n。

在步骤S11，给出了初始的k个中心数据元素(例如，矢量)(在任何方法中，例如，从数据集{v}中随机地选择k个数据元素)。

令m₁m₂...m_k为这k个中心数据元素。

在步骤S12，将该数据集{v}聚类到k个聚类{v}₁，{v}₂...{v}_k中。该k个聚类满足条件：

对于{v}_i中的任意数据元素v以及任意的j≠i，

dis(v，m_i)≤dis(v，m_j)。

这里dis(v₁，v₂)意味着数据元素v₁和数据元素v₂之间的距离。其可以是任何类型的距离测量，例如，Euclidean距离。

在步骤s13，如下再次计算k个中心数据元素：

m_i＝mean({v}_i)，也就是数据集{v}_i的均值。

在步骤s14，除非满足某些条件，例如，所有的迭代的次数大于固定值或是在本次迭代中m₁m₂...m_k没有发生变化，否则进行到步骤s12。

下面描述本发明的新的数据聚类方法。

本发明的目的在于非常均匀地聚类数据，但是标准的K-均值算法不能做到。为了达到该目的，本发明介绍了一种新的数据聚类方法以及根据新的数据聚类方法的数据处理方法，如图2所示，由图3所示的数据处理设备30执行。

在步骤s20，包括有数个数据元素v_i(i＝1..n)的数据集{v}由数据输入装置31输入。

通过数据聚类装置32，所输入的数据集被如下聚类：

在步骤s21，给出了初始k个中心数据元素(例如，矢量)，(在任何方法中，例如，从数据集{v}中随机地选择k个数据元素)。

令m₁m₂...m_k为这k个中心数据元素(矢量)。

在步骤s22，给出了初始k个系数或是加权因数c₁c₂...c_k。

对于i＝1，2...k，令c_i＝1/k。

在步骤s23，数据集{v}被聚类到k个聚类{v}₁，{v}₂...{v}_k中。该聚类满足条件：

对于{v}_i中的任意数据元素v，以及任意的j≠i，c_i×dis(v，m_i)≤c_j×dis(v，m_j)。

在步骤s24，如下再次计算k个中心数据元素：

m_i＝mean({v}_i)，也就是数据集{v}_i的均值。

在步骤s25，如下再次计算k个系数或加权因数c₁c₂...c_k：

c_{i} = 1 - k^{\log (1 - c_{i}) / (\log (n) - \log (numberof ({v}_{i})))}

其中，numberof({v}_i)意味着数据集{v}_i中的数据元素的数目。接着如下将k个系数或加权因数标准化：

c_{i} = c_{i} / Σ_{j = 1}^{k} c_{j}

在步骤s26，除非满足某些条件，例如，所有的迭代的次数大于一固定值或是在本次迭代中m₁m₂...m_k不发生改变，否则进行到步骤s23。

在步骤s27，聚类的数据集接受后处理装置33的后处理，例如特征提取，数据分类等等。

对本发明的新的数据聚类方法的分析如下：

该新的数据聚类方法的关键点在于系数或是加权因数：c₁c₂...c_k以及得到该系数的方法。

通过该新的数据聚类方法，结果聚类非常均匀。

为了更清晰地描述该新的数据聚类方法，我们假定k＝2。换句话说，我们将整个数据集{v}分成两个聚类{v}₁，{v}₂。令c₁和c₂成为在一些迭代之后的系数或是加权因数，c′₁和c′₂是经过这次迭代之后的更新的系数或加权因数。

c_{1}^{'} = 1 - 2^{\log (1 - c_{1}) / (\log (n) - \log (numberof ({v}_{1})))}

c_{2}^{'} = 1 - 2^{\log (1 - c_{2}) / (\log (n) - \log (numberof ({v}_{2})))}

如果某些聚类的计数，例如第一聚类的计数大于平均计数n/2，换句话说，numberof({v}₁)＞n/2，那么可以推出下面的表达式：

numberof({v}₂)＝n-numberof({v}₁)＜n-n/2＝n/2

c_{1}^{'} = 1 - 2^{\log (1 - c_{1}) / (\log (n) - \log (numberof ({v}_{1})))}

> 1 - 2^{\log (1 - c_{1}) / (\log (n) - \log (n / 2))}

= 1 - 2^{\log (1 - c_{1}) / \log (2)}

= 1 - (1 - c_{1})

= c_{1}

c_{2}^{'} = 1 - 2^{\log (1 - c_{2}) / (\log (n) - \log (numberof ({v}_{2})))}

< 1 - 2^{\log (1 - c_{2}) / (\log (n) - \log (n / 2))}

= 1 - 2^{\log (1 - c_{2}) / \log (2)}

= 1 - (1 - c_{2})

= c_{2}

对于聚类{v}₂中的满足c₂×dis(v，m₂)≤c₁×dis(v，m₁)的数据元素v，可以推出，c′₂×dis(v，m₂)＜c₂×dis(v，m₂)≤c₁×dis(v，m₁)＜c′₁×dis(v，m₁)。根据上述的推导，数据元素v在本次迭代之后仍然属于{v}₂。

也就是说，较小聚类中的数据元素在本次迭代之后将仍属于其聚类。

另一方面，{v}₁中的数据元素v满足c₁×dis(v，m₁)≤c₂×dis(v，m₂)。

如上所述，经过上述迭代之后，c’2小于c2，并且c’1大于c1。

对于{v}₁中的某些数据元素v，可能发生下面的情况：

c′₂×dis(v，m₂)＜c′₁×dis(v，m₁)

因此经过本次迭代之后，矢量v属于{v}₂而不是{v}₁。

总而言之，可以得出结论：在本次迭代之后，{v}₁可能变小而{v}₂可能变大，因此结果聚类就变得越来越均匀。

当结果聚类变得越来越均匀时，根据下面的公式，系数或加权因数c₁c₂...c_k变化较小：

\lim_{numberof ({v}_{i}) - > n / 2} 1 - 2^{\log (1 - c_{i}) / (\log (n) - \log (numberof ({v}_{i})))}

= 1 - 2^{\log (1 - c_{i}) / (\log (n) - \log (n / 2))}

= 1 - 2^{\log (1 - c_{i}) / \log (2)}

= 1 - (1 - c_{i})

= c_{i}

这表明当聚类变得均匀时，系数或加权因数以及聚类都稳定。并且其可以作为均匀聚类的标准。

新的数据聚类方法和标准K-均值聚类方法的比较如下所示：

标准K-均值方法不能使数据集的结果聚类为均匀的。通过使用本发明的数据聚类方法，结果聚类的尺寸将会变得越来越均匀，但是旧的方法并没有追求这个目的。

另一方面，通过本发明的步骤，新的数据聚类方法可以使得结果聚类越来越均匀。

通过使用许多数据集，对标准K-均值聚类方法和本发明的新的数据聚类方法进行比较。图4和图5可以清楚地描述两种方法的结果之间的差距。图4表示标准K-均值方法可以对输入的数据进行聚类。但是聚类的尺寸不均匀，参见图4的直方图。本发明的新的数据聚类方法同样对输入的数据进行聚类。进一步地聚类的尺寸几乎相同，如图5所示。

在图4和图5中，x轴表示聚类的指数，y轴表示聚类尺寸。

根据以上的描述进行总结：

如果聚类结果不均匀，一些结果聚类的尺寸可能相较于其他聚类而言很小；

如果聚类结果均匀，根据信息理论，能越均匀，平均信息量越大。而平均信息量越大，则得到更多的信息，在均匀的情况下，可以带来更多的信息，因此数据处理方法可以得到更好的性能。

根据以上的数据处理方法，本发明还开发了一种通过使用本发明的数据聚类方法的图像处理方法。在很多图像处理方法中，例如，图像识别，图像分类，图像编码，图像转换等等，有待处理的图像需要接受聚类处理。

图6表示了根据本发明的图像处理方法。图7表示了执行图6所示的图像处理方法的图像处理设备70。在步骤s61，有待处理的图像被图像输入装置71输入。所述输入的图像包括数个图像元素{v}(v₁v₂...v_n)，例如，图像的像素，用每个像素的r，g，b值表达为((r，g，b)}((r，g，b)₁，(r，g，b)₂，...(r，g，b)_n)。在步骤s62，通过图像元素聚类装置72，数个图像元素{v}(v₁v₂...v_n)根据上述的新的数据聚类方法被聚类。从步骤s20到步骤s26，图像元素被聚类到k个聚类{v}₁，{v}₂...{v}_k。对于{v}_i中的任意图像元素v以及任意j≠i，c_i×dis(v，m_i)≤c_j×dis(v，m_j)。

这里dis(v₁，v₂)意味着图像元素v₁和v₂，也就是，(r，g，b)₁和(r，g，b)₂之间的距离。其可以为任何类型的距离测量.例如，Euclidean距离。M_i为{v}_i的中心。

较之标准的K-均值聚类方法，这样聚类的图像元素{(r，g，b)}((r，g，b)₁，(r，g，b)₂，...(r，g，b)_n)将会更加均匀。并且在步骤s63，均匀的聚类随后被用于由进一步处理装置73执行的进一步的处理，例如输出，存储，图像识别或图像分类，并且带来图像处理的较佳性能。

上述图像处理的较佳性能将在以下根据本发明的图像元素聚类方法开发出来的图像分类方法中得以示例性地显示。

在以下的实施例中，新的图像元素聚类方法用于图像分类，以确定一个图像是否属于例如蓝天图像或非蓝天图像。本发明从图像中得到颜色直方图特征并且使用Fisher线性分类器以确定图像的类别。新的图像元素聚类方法用以将像素(表述为颜色空间值r，g，b)分配为均匀的聚类，为计算颜色直方图特征做准备。

本发明的图像分类方法如图8所示地被详细描述并且如图9所示地由图像分类设备执行。

作为一个可选的步骤，在步骤s81，优选地由图像输入装置91输入的输入图像被重调尺寸到一个特殊的尺寸，例如19200像素。图像的宽高比在重调尺寸之后没有发生变化。

在步骤s82，重调尺寸的图像中的像素由图像元素聚类装置92通过使用上面的新的图像元素聚类方法进行聚类。

本发明使用了矢量v＝[r，g，b]，其中r，g，以及b为颜色像素的r，g，和b颜色分量值。令像素集{v}由从重调尺寸的图像像素得到的矢量组成。本发明使用上面的新的图像元素聚类方法将像素集{v}聚类到k个聚类{v}₁，{v}₂...{v}_k，对于{v}_i中的任意v以及j≠i，满足条件c_i×dis(v，m_i)≤c_j×dis(v，m_j)(如果聚类方法为标准k-均值聚类方法，则条件变为dis(v，m_i)≤dis(v，m_j))，其中m₁m₂...m_k以及c₁c₂...c_k为提前得到的。在下面的描述中将描述对于m₁m₂...m_k以及c₁c₂...c_k的训练方法。这里dis(v₁，v₂)意味着v₁和v₂之间的距离。其可以为任何类型的距离测量，在本方法中，使用了Euclidean距离。

在步骤s83，图像特征提取装置93提取图像特征。

这里，提取出了名为imf(i)的k-维(dim)特征，其中对于i＝1，2，3...k-1，imf(i)＝numberof({v}_i)，且numberof({v}_i)意味着像素集{v}_i的计数。

在步骤s84，图像分类装置94通过使用上面提取的特征对图像进行分类。

定义k-dim权重w(i)。并且“th”被定义为阈值。

如果

Σ_{i = 1}^{k} imf (i) \times w (i) &GreaterEqual; th,

则该图像为正片，否则不是。

计算下面参数m₁m₂...m_k，c₁c₂...c_k，w(i)(i＝1，2，3...k-1)以及“th”的方法如下所述：

首先，描述计算m₁m₂...m_k和c₁c₂...c_k的方法。

在步骤s81选择许多图像并对其重调尺寸。

如在步骤s82所述，令像素集{v}由从重调尺寸后的图像的像素中得到的矢量组成。

接着使用本发明的新的图像元素聚类方法将像素集{v}聚类到k个聚类：{v}₁，{v}₂...{v}_k。并且也得到m₁m₂...m_k和c₁c₂...c_k。

下面描述计算w(i)(i＝1，2，3...k-1)的方法。

1.得到许多蓝天图像和非蓝天图像；

2.对于每个图像，得到矢量imf(i)(i＝1，2，3...k-1)。于是，对于上面的两种图像，得到两种矢量。每一种都来自于对应种类的图像。

3.使用Fisher线性分类器训练两种类型的矢量，得到权重矢量w(i)(i＝1，2，3...k-1)。

获得“th”的方法在下面进行描述。

选择“th”作为imf(i)和w(i)的内积，标准是在先步骤中得到的Fisher线性分类器可以得到对于使用该阈值的训练集而言为最好的结果(真实率和错误率之间的差值最大)。

下面的表格描述了使用上面两种聚类方法的图像分类算法的性能。该两种方法意在确定蓝天图像或非蓝天图像。示例性地，k在此处取为64。

算法返回率错误率

使用标准k-均值 85.45％ 20.00％

使用新的聚类算法 88.80％ 18.19％

从结果我们可以得到，在图像分类方法中使用了新的聚类方法可以得到比使用标准K-均值聚类方法更佳的性能。

接着解释上面的返回率和错误率。

当在一种类别上适用时，本发明使用两个值来评估分类算法的能力。一个是所谓的“Recall”。假设n为一个类别中图像的数目并且NTure表示由该算法正确分类到该类别中的图像的数目。于是返回率r是NTure与n的比值。也就是：

r＝NTrue/n

另一个值称为“错误率”。假定不属于一个类别的图像的数目为m，且NFalse表示由该算法错误分类到该类别中的图像的数目，于是错误率fr是NFalse与m的比值。也就是：

fr＝NFalse/m

这两个值被用来评估和比较使用标准K-均值聚类方法和本发明的新的数据聚类方法的图像分类。

根据上面的描述，新的数据聚类方法对于图像分类可以产生好的性能。

原因在于新的聚类算法可以得到均匀的聚类结果。

如果聚类结果不均匀，一些结果聚类的尺寸相较于其它的聚类可能会非常小。当在图像分类算法中使用了这样的结果聚类时，小尺寸聚类的对应图像特征imf(i)会非常小，甚至在某些输入图像中为零，这就意味着某些聚类没有很好地使用，这将削弱该方法的性能。而当聚类结果均匀时，就不会存在这样的问题。

如果聚类结果均匀，图像特征imf(i)一般也均匀。根据信息理论，能越均匀，平均信息量就越大。于是当imf(i)取做能时，均匀的imf(i)的平均信息量就大于不均匀的imf(i)的平均信息量，而当平均信息量越大时，就可以得到更多的信息，在均匀的情况下，imf(i)可以带来更多的信息，因此算法可以得到更好的性能。

数据处理方法，图像处理方法，以及图像分类方法在以下图像分类的例子中用数字进行显示。

从3470个样本图像中，在每个样本图像中随机地选择出100像素的(r，g，b)矢量作为样本矢量。这样就可以获得总共347000个这样的样本矢量，其中的十个列举如下：

79 127 176

129 144 175

163 178 209

4 9 38

80 102 123

5 8 13

21 32 60

96 167 221

63 124 187

51 72 91

... ...

首先，通过使用标准K-均值聚类方法将上面的347000个矢量聚类到64个聚类中。

K个中心m₁m₂...m_k如下初始化(每一行为m，一共64个m)：

191 189 176

61 76 45

50 20 10

81 132 189

126 141 134

215 170 105

72 78 52

132 136 161

26 24 25

201 186 189

129 112 66

1 2 7

217 227 226

24 41 119

4 35 102

142 91 70

137 136 131

51 38 29

95 25 17

80 76 65

25 20 27

4 39 67

26 3 13

155 152 169

16 30 5

192 187 183

103 70 53

86 42 39

119 120 112

15 24 33

140 152 142

40 71 11

76 81 100

7 5 6

129 150 135

106 21 18

111 69 53

133 112 95

185 90 70

150 140 115

29 27 41

20 24 25

87 128 132

3 64 56

96 131 150

29 59 132

197 186 184

44 63 59

152 137 134

10 111 139

85 70 27

48 53 33

118 105 70

232 223 228

90 99 192

13 0 3

69 47 34

110 64 38

8 9 4

208 201 149

212 156 105

98 23 17

70 62 60

104 73 55

关于每个中心聚类的样本矢量的数目分别为：

4452，3137，7247，8391，2195，5009，3871，6644，6968，7721，4963，11833，11702，2153，1636，5204，3171，7317，2407，8911，2280，2922，6106，14650，3793，8463，1417，2309，10856，4220，3031，1703，15665，7608，575，2857，2279，6504，10099，6840，7057，5951，5231，768，5064，5139，809，9136，4186，2428，3727，7242，8564，7131，3055，2838，4873，5180，8335，4602，5392，529，7597，3057

根据上面聚类的样本矢量，新中心(m₁m₂...m_k)计算为：

185 181 166

59 77 41

51 19 10

84 141 200

121 132 136

223 185 84

75 86 50

126 138 168

29 27 21

201 196 201

133 126 55

1 2 3

208 217 221

27 43 113

10 35 99

145 88 62

135 130 130

48 36 28

86 29 13

81 80 70

25 15 25

13 33 68

26 8 10

152 162 181

19 28 7

170 187 201

95 65 52

87 43 40

113 114 112

10 19 36

148 155 144

43 69 12

76 85 102

7 5 8

124 162 127

131 20 19

121 69 55

135 112 94

196 95 48

156 142 105

31 31 44

17 20 20

84 110 131

10 68 59

99 121 154

34 68 138

203 182 177

45 56 65

163 141 135

16 101 166

85 73 23

46 51 36

106 103 73

237 232 228

79 98 181

14 2 2

68 47 33

125 64 28

10 12 7

218 199 147

208 146 91

93 12 12

67 59 62

102 82 60

关于每个新中心聚类的样本矢量的数目分别为：

6362，3349，5698，6362，4167，4070，4209，6587，7925，7364，4382，12206，10393，2910，1674，5455，5339，6350，3018，8492，2708，3050，5854，9360，3060，9514，3447，2456，9596，4020，5536，1954，11003，7139，912，2594，2699，7312，7641，5975，6610，7343，6258，1068，5000，4502，2969，8094，5088，3093，3025，7680，9015，7634，3516，3196，5102，4461，7715，4226，5317，1515，8348，4083

经过100次的重复，最后一次的中心为：

170 168 167

61 74 30

65 13 10

95 151 209

119 123 132

230 177 46

80 102 43

117 135 170

30 28 23

187 188 194

110 128 56

2 2 2

208 212 215

38 66 113

11 41 125

167 106 49

138 129 112

47 32 21

82 37 14

73 75 71

19 19 23

15 25 75

34 12 8

138 161 195

19 31 8

157 191 217

83 61 48

115 48 33

100 105 110

9 17 41

147 146 146

38 56 17

70 82 100

5 4 10

148 163 81

190 34 39

131 83 56

126 106 86

219 104 36

165 118 90

29 33 43

14 13 14

63 89 138

16 57 71

92 113 145

19 80 165

219 199 166

47 54 77

184 157 126

25 123 203

102 71 22

44 46 43

95 93 83

234 233 232

76 113 181

16 4 3

65 45 35

154 70 24

8 12 5

230 193 108

211 136 80

122 16 17

59 60 55

100 79 60

关于在最后一次获得的每个中心聚类的样本矢量的数目分别为：

9065，3734，3522，4253，7488，2322，3513，6667，7144，8675，3393，12317，12737，3730，2305，4234，7960，6166，3891，8715，7125，2553，5892，7043，2965，5861，5406，2942，9125，3406，9250，2949，6622，5739，2127，1904，5322，7853，3491，5149，5962，8874，4849，2408，5364，2619，5420，5623，6599，1833，2770，8560，8710，8155，4342，4680，5367，2923，4498，3308，3518，1978，8145，5940

其次，通过使用本发明的方法，将上面347000个矢量聚类到64个聚类中。

K个中心m₁m₂...m_k如下初始化(每一行为一个m，共有64个m)：

191 189 176

61 76 45

50 20 10

81 132 189

126 141 134

215 170 105

72 78 52

132 136 161

26 24 25

201 186 189

129 112 66

1 2 7

217 227 226

24 41 119

4 35 102

142 91 70

137 136 131

51 38 29

95 25 17

80 76 65

25 20 27

4 39 67

26 3 13

155 152 169

16 30 5

192 187 183

103 70 53

86 42 39

119 120 112

15 24 33

140 152 142

40 71 11

76 81 100

7 5 6

129 150 135

106 21 18

111 69 53

133 112 95

185 90 70

150 140 115

29 27 41

20 24 25

87 128 132

3 64 56

96 131 150

29 59 132

197 186 184

44 63 59

152 137 134

10 111 139

85 70 27

48 53 33

118 105 70

232 223 228

90 99 192

13 0 3

69 47 34

110 64 38

8 9 4

208 201 149

212 156 105

98 23 17

70 62 60

104 73 55

加权因数c₁c₂...c_k的每一个都被初始化为1/64，也就是，0.015625。

关于每个中心聚类的样本矢量的数目分别为：

根据上面聚类的样本矢量，新的中心(m₁m₂...m_k)计算为：

185 181 166

59 77 41

51 19 10

84 141 200

121 132 136

223 185 84

75 86 50

126 138 168

29 27 21

201 196 201

133 126 55

1 2 3

208 217 221

27 431 13

10 35 99

145 88 62

135 130 130

48 36 28

86 29 13

81 80 70

25 15 25

13 33 68

26 8 10

152 162 181

19 28 7

170 187 201

95 65 52

87 43 40

113 114 112

10 19 36

148 155 144

43 69 12

76 85 102

7 5 8

124 162 127

131 20 19

121 69 55

135 112 94

196 95 48

156 142 105

31 31 44

17 20 20

84 110 131

10 68 59

99 121 154

34 68 138

203 182 177

45 56 65

163 141 135

16 101 166

85 73 23

46 51 36

106 103 73

237 232 228

79 98 181

14 2 2

68 47 33

125 64 28

10 12 7

218 199 147

208 146 91

93 12 12

67 59 62

102 82 60

加权因数c₁c₂...c_k再次计算为：

0.015471，0.014912，0.016414，0.016746，0.014422，0.015679，0.015237，0.016229，0.016330，0.016555，0.015662，0.017636，0.017604，0.014398，0.014067，0.015749，0.014928，0.016435，0.014542，0.016890，0.014471，0.014809，0.016057，0.018285，0.015205，0.016766，0.013908，0.014487，0.017397，0.015380，0.014862，0.014113，0.018507，0.016522，0.013068，0.014777，0.014470，0.016185，0.017205，0.016290，0.016357，0.016006，0.015759，0.013311，0.015699，0.015726，0.013357，0.016951，0.015366，0.014554，0.015177，0.016413，0.016794，0.016379，0.014874，0.014768，0.015629，0.015741，0.016730，0.015528，0.015816，0.013002，0.016518，0.014874，

关于每个新的中心聚类的样本矢量的数目分别为：

6296，3510，5516，6224，4490，4102，4361，6673，7614，7173，4506，11965，10010，3267，1745，5518，5465，6233，3081，8301，3170，3141，5723，8299，3241，9701，3783，2550，9032，4037，5882，2141，10013，7183，1218，2711，2890，7409，7173，5656，6473，7261，6668，1255，4945，4406，3883，7670，5116，3226，2984，7541，8709，7774，3725，3543，5129，4300，7521，4084，5437，1714，8220，4413

经过100次的重复，最后一次的中心为：

176 174 174

58 70 40

65 19 11

123 165 207

113 122 137

215 189 151

84 100 43

120 137 170

20 18 20

190 207 221

118 137 65

2 1 1

217 219 221

56 71 99

18 53 126

167 109 58

130 125 117

36 24 17

117 27 21

65 69 70

13 13 12

15 30 68

34 10 7

150 157 174

18 28 11

157 184 210

75 62 52

103 65 47

107 109 110

12 17 36

141 141 145

41 56 19

78 85 90

2 2 2

153 145 118

220 124 44

124 88 66

121 105 90

228 188 82

152 117 93

27 30 32

6 7 14

86 98 117

37 54 77

87 113 158

59 86 139

190 191 194

38 42 45

172 161 144

28 104 185

84 52 20

44 35 28

98 96 84

237 237 236

87 134 200

16 5 4

61 43 37

136 78 31

5 6 4

219 210 195

193 144 104

189 57 39

53 53 55

87 80 68

加权因数c₁c₂...c_k为：

0.020386，0.013524，0.013216，0.015904，0.018817，0.014602，0.012724，0.017542，0.020310，0.020817，0.010569，0.013418，0.032077，0.013229，0.009845，0.012358，0.019450，0.014492，0.008763，0.018671，0.021267，0.010576，0.012992，0.020416，0.011769，0.018941，0.016793，0.013405，0.018815，0.011659，0.020423，0.011007，0.016835，0.021746，0.015626，0.010632，0.015364，0.016376，0.009660，0.014614，0.017199，0.013569，0.017204，0.012987，0.015573，0.012106，0.021543，0.018072，0.018799，0.008236，0.012332，0.015587，0.019748，0.018140，0.012617，0.014484，0.015205，0.011090，0.018991，0.018533，0.012981，0.008019，0.017797，0.019559，

在最后一次获得的关于每个中心聚类的样本矢量的数目分别为：

5958，5219，5178，5502，5807，5351，5113，5681，5952，5997，4804，5262，6862，5180，4689，5064，5870，5337，4505，5793，6041，4805，5149，5962，4983，5821，5600，5203，5811，4968，5963，4871，5605，6082，5470，4814，5440，5555，4659，5352，5640，5222，5644，5148，5464，5029，6066，5739，5808，4409，5061，5461，5899，5741，5098，5339，5421，4883，5766，5781，5147，4368，5706，5882

w(i)(i＝1，2，3...k-1)和th如下计算：

根据上面获得的m₁m₂...m_k和c₁c₂...c_k，获得1001个蓝天样本的imf(i)，其中的三个如下所列出的：

0 0 0 0 0 0 0 0 8 2 0

0 0 667 0 0 0 459 156 0 517

0 11 79 0 103 438 62 507 3000 348

0 908 0 346 0 391 1120 0436 38 63

360 3066 584 0 561 19 847 286 206 10

563 29 674 0 71 267 0 339 39 0 556

0 0 0 4 0 0 0 0 0 0 0

0 0 0 0 0 93 226 78 0 30

77 811 128 1823 354 18 317 126 145 42

1152 0 249 0 241 946 324 365 540 176

1426 997 1256 319 71 152 107 1 27 392

205 3 673 66 782 21 24 1168 1383 0

1217

0 534 0 2 3 0 0 0 0 0 0

0 0 22 0 0 0 109 85 0 92 0

33 1130 102 1183 403 170 113 148 800 65

145 0 1404 0 683 2654 0 924 340 63

1153 1227 1701 953 20 171 124 0 55

209 259 0 498 8 190 36 0 62 200

0 414

获得2469个非蓝天样本的imf(i)，其中三个如下面所列出的：

0 0 0 0 0 0 0 0 0 0 6

0 0 0 0 0 0 301 12 0 00

9 556 1831 616 77 5 76 494 203 2319

172 213 7 0 13 214 0 0 332 425

143 715 987 0 733 95 2 0 53 94

181 3629 0 20 58 453 1475 552 0 0

1599

0 116 106 0 0 0 0 0 0 0 0

0 0 196 0 0 0 91 94 0 110

1 4 1949 132 3704 75 273 138 51 131

78 225 0 152 0 732 634 9 326 251

68 314 1047 2032 1230 2424 22 127 507 111

13 56 192 490 0 26 36 33 493 15

0 177

0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 48 0 0 4104

0 494 2533 470 0 0 93 649 342

35 184 2 3 0 0 55 0 0 4088

1572 167 2057 105 41 1542 43 7 0 0

0 62 1982 0 1 0 0 884 1046 0

0 381

通过Fisher训练获得w(i)(i＝1，2，3...k-1)如下：

-0.35227 3.3024 3.9073 -1.7244 -2.8985

-2.4238 -58.575 -0.53182 4.3216 -12.966

-0.78011 -2.9213 4.2854 5.5448 5.5226

-5.2381 1.1366 1.4633 3.388 -0.16725

-0.49971 2.7099 0.10198 0.92013 -0.31077

5.9307 1.879 0.43546 0.52366 0.30042

0.62112 3.2043 0.98369 -0.62325 -0.73779

-0.59747 1.6149 0.30388 -0.64783 1.3017

-0.28726 -0.13114 -0.42833 1.7196 3.9782

4.5136 0.4049 0.46941 2.9196 4.7745

-1.7852 0.81059 2.398 -1.1094 5.2159

0.82322 0.83805 0.25749 -0.020983 0.1336

-0.3263 0.080883 -0.00065881

Th＝17433

根据上面的计算，下面给出分类的数字性例子：

给出一个蓝天样本，其特征为：

0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 12 0 309

0 530 62 26 2480 1051 167 142 0 152

101 179 0 968 0 257 713 0 685 36

0 195 20 192 19 176 22 670 2691 125

820 169 491 2932 01 216 0 0 121 445

0 234

该特征与w(i)的内积为50384，其大于th并且分类为蓝天。

给出一个非蓝天样本，其特征为：

0 0 0 0 0 20 0 14 0 0 0

0 0 0 0 0 9 0 190 0 57 0

1959 385 7 347 144 411 42 3 131 0

11 1 131 2041 247 164 5707 305 77 486

7 0 0 0 97 3 145 0 1206 1323 49

0 0 1171 1047 625 140 0 265 10 19

该特征与w(i)的内积为901.8，其小于th并且分类为非蓝天。

本发明还可以通过将存储有执行上述实施例的功能的软件的程序编码的存储介质(或记录介质)提供给一系统或设备，以及提供该系统或设备的读出并执行存储在存储介质中的程序码的计算机(或CPU或MPU(微处理单元))，而实现。在这种情况下，从存储介质中读出的程序编码本身实现了上述实施例的功能。本发明并不局限于其中计算机执行已经读出的程序码，并且上述实施例的功能被实现的情况，以及其中运行在计算机上的操作系统或类似执行实际处理的部分或全部，使得上述实施例的功能得以实现的情况。

进一步，本发明还包括这样的安排，其中上述实施例的功能由从记录介质中读出并写入到包括在插在计算机上的功能扩展卡或连接到计算机上的功能扩展单元中的存储器中的程序码实现，接着提供给该功能扩展卡或功能扩展单元的CPU或类似完成部分或者全部的实际处理，使得上述实施例的功能得以实现。

将本发明应用在上述的存储介质上时，对应于在先描述的流程图的程序码存储在该存储介质中。

虽然本发明的描述参考了示例性的实施例，应当理解的是本发明并不限于所披露的实施例。相反，本发明意在覆盖包括在所附权利要求的精神和范围内的各种修改和等同安排。对于随后的权利要求的范围应当给与最为广泛的解释，从而包含所有这样的修改和等同结构和功能。

Claims

1.一种数据处理方法，包括步骤：

输入包括了n个数据元素的数据集{v}；

从所述数据集{v}中随机地选择k个中心数据元素；

将各加权因数c_i初始化为1/k；

计算新的中心数据元素m_i作为聚类{v}_i的平均值；

通过下面的表达式对新加权因数进行计算：

c_{i} = 1 - k^{\log (1 - c_{i}) / (\log (n) - \log (numberof ({v}_{i})))},

c_{i} = c_{i} / Σ_{j = 1}^{k} c_{j};

对于所聚类的数据集进行后处理。

2.根据权利要求1的数据处理方法，其中所述的距离为欧几里德(Euclidean)距离。

3.一种数据处理设备，包括：

数据输入装置，用于输入包括n个数据元素的数据集{v}；

数据选择装置，用于从所述数据集{v}中随机地选择k个中心数据元素；

初始化装置，用于将各加权因数c_i初始化为1/k；

数据聚类装置，用于将该数据集{v}聚类到k个聚类{v}_i中，各聚类满足以下的条件：

对于聚类{v}_i中的任一数据元素v，所述任一数据元素v和该任一数据元素v所属的聚类{v}_i的中心数据元素m_i之间的加权距离c_i×dis(v，m_i)小于等于该任一数据元素v和该任一数据元素v不属于的任一其它聚类{v}_j的中心数据元素m_j之间的加权距离c_j×dis(v，m_j)；

计算装置，用于计算新的中心数据元素m_i作为聚类{v}_i的平均值；

计算及标准化装置，用于通过下面的表达式对新加权因数进行计算：

c_{i} = 1 - k^{\log (1 - c_{i}) / (\log (n) - \log (numberof ({v}_{i})))},

c_{i} = c_{i} / Σ_{j = 1}^{k} c_{j};

迭代装置，用于迭代由数据聚类装置、计算装置、和计算及标准化装置依次进行的处理，除非迭代次数大于一固定值或者是在该次迭代中中心数据元素不发生改变；以及

后处理装置，用于对所聚类的数据集进行后处理。

4.根据权利要求3的数据处理设备，其中所述的距离为欧几里德距离。

5.一种图像处理方法，包括步骤：

输入包括n个图像元素{v}的图像；

从所述图像中随机地选择k个中心图像元素；

将各加权因数c_i初始化为1/k；

将所述图像元素{v}聚类到k个聚类{v}_i中，各聚类满足以下的条件：对于聚类{v}_i中的任一图像元素v，所述任一图像元素v和该任一图像元素v所属的聚类{v}_i的中心图像元素m_i之间的加权距离c_i×dis(v，m_i)小于等于该任一图像元素v和该任一图像元素v不属于的任一其它聚类{v}_j的中心图像元素m_j之间的加权距离c_j×dis(v，m_j)；

计算新的中心图像元素m_i作为聚类{v}_i的平均值；

通过下面的表达式对新加权因数进行计算：

c_{i} = 1 - k^{\log (1 - c_{i}) / (\log (n) - \log (numberof ({v}_{i})))},

c_{i} = c_{i} / Σ_{j = 1}^{k} c_{j};

对于所聚类的图像元素进行进一步的处理。

6.根据权利要求5的图像处理方法，其中的图像元素v_i为图像的像素，表示为矢量(r，g，b)_i，其中r，g，b为每个像素的红色，绿色和蓝色值。

7.根据权利要求5的图像处理方法，其中所述距离为欧几里德距离。

8.一种图像处理设备，包括：

图像输入装置，用于输入包括n个图像元素{v}的图像；

图像元素选择装置，用于从所述图像中随机地选择k个中心图像元素；

初始化装置，用于将各加权因数c_i初始化为1/k；

图像元素聚类装置，用于将所述图像元素{v}聚类到k个聚类{v}_i中，所述聚类满足以下的条件：对于聚类{v}_i中的任一图像元素v，所述任一图像元素v和该任一图像元素v所属的聚类{v}_i的中心图像元素m_i之间的加权距离c_i×dis(v，m_i)小于等于该任一图像元素v和该任一图像元素v不属于的任一其它聚类{v}_j的中心图像元素m_j之间的加权距离c_j×dis(v，m_j)；

计算装置，用于计算新的中心图像元素m_i作为聚类{v}_i的平均值；

c_{i} = 1 - k^{\log (1 - c_{i}) / (\log (n) - \log (numberof ({v}_{i})))},

其中，numberof({v}_i)意味着聚类{v}_i中图像元素的数目，并且通过下面的表达式对新加权因数进行标准化；

c_{i} = c_{i} / Σ_{j = 1}^{k} c_{j};

迭代装置，用于迭代由图像元素聚类装置、计算装置、和计算及标准化装置依次进行的处理，除非迭代次数大于一固定值或者是在该次迭代中中心图像元素不发生改变；以及

进一步处理装置，用于对所聚类的图像元素进行进一步的处理。

9.根据权利要求8的图像处理设备，其中图像元素v_j为图像的像素，表示为矢量(r，g，b)_i，其中r，g，b为每个像素的红色，绿色和蓝色值。

10.根据权利要求8的图像处理设备，其中所述的距离为欧几里德距离。

11.一种图像分类方法，包括步骤：

输入有待分类的图像，该图像包括n个图像元素{v}；

从所述图像中随机地选择k个中心图像元素；

将各加权因数c_i初始化为1/k；

将所述图像元素{v}聚类到k个聚类{v}_i中，各聚类满足以下条件：对于聚类{v}_i中的任一图像元素v，所述任一图像元素v和该任一图像元素v所属的聚类{v}_i的中心图像元素m_i之间的加权距离c_i×dis(v，m_i)小于等于该任一图像元素v和该任一图像元素v不属于的任一其它聚类{v}_j的中心图像元素m_j之间的加权距离c_j×dis(v，m_j)，

计算新的中心图像元素m_i作为聚类{v}_i的平均值；

通过下面的表达式对新加权因数进行计算：

c_{i} = 1 - k^{\log (1 - c_{i}) / (\log (n) - \log (numberof ({v}_{i})))},

其中，numbero({v}_i)意味着聚类{v}_i中图像元素的数目，并且通过下面的表达式对新加权因数进行标准化：

c_{i} = c_{i} / Σ_{j = 1}^{k} c_{j};

从聚类{v}_i中提取特征；以及

使用所提取的特征对所述图像进行分类。

12.根据权利要求11的图像分类方法，其中提取特征为k-维(k-dim)特征imf(i)，其中对于i＝1，2，3...k-1，imf(i)＝numberof({v}_i)；且numberof({v}_i)意味着第i个聚类{v}_i的计数；k意味着聚类的数目。

13.一种图像分类设备，包括：

图像输入装置，用于输入有待分类的图像，该图像包括n个图像元素{v}；

初始化装置，用于将各加权因数c_i初始化为1/k；

图像元素聚类装置，用于将所述图像元素{v}聚类到k个聚类中，各聚类满足以下条件：对于聚类{v}_i中的任一图像元素v，所述任一图像元素v和该任一图像元素v所属的聚类{v}_i的中心图像元素m_i之间的加权距离c_i×dis(v，m_i)小于等于该任一图像元素v和该任一图像元素v不属于的任一其它聚类{v}_j的中心图像元素m_j之间的加权距离c_j×dis(v，m_j)；

计算装置，用于计算新的中心图像元素m_i作为聚类{v}i的平均值；

c_{i} = 1 - k^{\log (1 - c_{i}) / (\log (n) - \log (numberof ({v}_{i})))},

c_{i} = c_{i} / Σ_{j = 1}^{k} c_{j};

迭代装置，用于迭代由图像元素聚类装置、计算装置、和计算及标准化装置依次进行的处理，除非迭代次数大于一固定值或者是在该次迭代中中心图像元素不发生改变；

特征提取装置，用于从聚类中提取特征；以及

图像分类装置，用于使用所提取的特征对所述图像进行分类。

14.根据权利要求13的图像分类设备，其中由特征提取装置提取的特征为k-维特征imf(i)，其中对于i＝1，2，3...k-1，imf(i)＝numberof({v}_i)；且numberof({v}_i)意味着第i个聚类{v}_i的计数；k意味着聚类的数目。