CN1770161A

CN1770161A - 使用t－检验计算的k－均值聚类

Info

Publication number: CN1770161A
Application number: CN200510119974.2A
Authority: CN
Inventors: Q·刁
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2004-09-29
Filing date: 2005-09-28
Publication date: 2006-05-10
Anticipated expiration: 2025-09-28
Also published as: CN100592288C; US7386523B2; US20060069709A1

Abstract

一种用于使用t－检验计算进行k－均值聚类的方法、设备和系统。按照一个实施例，k－均值聚类在数据集上执行。在执行k－均值聚类的时候，具有不同点的数据集被分区成几个聚类。确定一个给定点对于一个给定聚类的紧密度。然后，执行t－检验计算以确定所述点与所述聚类之间的统计线性关系。如果接近于聚类的点被找到，并且所述点与所述聚类之间的统计线性关系也被找到，则所述点的位置就保持不动。

Description

使用t-检验计算的k-均值聚类

技术领域

本发明的实施例一般来说涉及聚类(clustering)。特别是，本发明的实施例涉及使用t-检验计算的k-均值聚类。

背景技术

聚类是以数学公式为基础的在不同对象之间的相似性的度量。聚类被用来获得彼此相似而与属于其它聚类的对象不相似的对象的一种集合。这种多元的统计分析型聚类也称为非监督聚类分析、数值分类学和分类分析。例如，在分子生物学中，用聚类法根据生物基因或样本的统计学行为把它们分组或分类成单独的聚类，从而使相同聚类的成员之间的关联程度强，而不同聚类的成员之间的关联程度弱。聚类技术的例子包括贾维斯-帕特里克(Jarvis-Patrick)，凝聚分层(Agglomerative Hierarchical)，自组织映射(SOM)和K-均值。

K-均值聚类是简单的非监督学习算法，它用于解决某些公知的聚类问题。K-均值算法被用于产生根据相似性的距离度量的聚类和固定尺寸的、平直的分类。传统的K-均值聚类算法遵循过分简单的方法，通过事先固定的聚类的给定数目(例如，k个聚类)把给定的数据集进行分类。换句话说，该k-均值算法从把事件分入k个聚类的初始分区开始(例如，在初始化时赋予一个k值)。该过程继续进行，修改分区以减少每个事件距该事件所属的聚类的均值的距离的总和。传统的k-均值的一个问题是，k的某个初始值必须只根据估算值被赋值。这样的k值经常是错误的，对最终结果产生负面影响。

一种减小k值影响的方法是，以不同的随机产生的开始分区或初始k值重新运行该算法。因为在数据中的真实聚类的数目是不知道的，算法以更接近从数据所预期的聚类的数目的不同k值来运行，以确定距离的总和是怎样随着k值的增加而减小的。然而，这种重新运行k-均值算法的传统的方法是费时间的、低效率的、麻烦的、且仍然不能消除或明显减小k对最终解答的负面影响。

发明内容

根据本发明，提供了一种方法，包括：执行具有多个点的数据集的k-均值聚类，其中，所述执行k-均值聚类包括把所述数据集分区成多个聚类；确定所述多个点中的一个点对于所述多个聚类中的一个聚类的接近度；执行t-检验计算以确定所述点和所述聚类之间的统计线性关系；和如果所述点接近于所述聚类，并且如果所述点与所述聚类有统计线性关系，则保持所述数据集中所述点的当前位置。

根据本发明，还提供了一种设备，包括：存储介质，它存储指令组，以便使用t-检验计算执行k-均值聚类；以及与所述存储介质耦合的处理器，所述处理器用于执行具有多个点的数据集的k-均值聚类，其中执行所述k-均值聚类包括：把所述数据集分区成多个聚类，确定所述多个点中的一个点对于所述多个聚类中的一个聚类的接近度，执行所述t-检验计算，以确定所述点和所述聚类之间的统计线性关系，以及如果所述点接近所述聚类，并且如果所述点与所述聚类有统计线性关系，则保持所述数据集中的所述点的当前位置。

根据本发明，还提供了一种系统，包括：k-均值模块，用于执行具有多个点的数据集的k-均值聚类，其中所述k-均值聚类的执行包括把所述数据集分区成多个聚类；皮尔逊相关系数模块，用于确定所述多个点中的一个点对于所述多个聚类中的一个聚类的接近度；t-检验模块，用于执行t-检验计算以确定所述点和所述聚类之间的统计线性关系；和定位模块，用于如果所述点与所述聚类接近，并且如果所述点与所述聚类具有统计线性关系，则保持数据集中的所述点的当前位置。

根据本发明，还提供了一种机器可读介质，在它上面存储有代表指令组的数据，当所述机器执行所述指令组的时候，使得所述机器执行如下操作：对具有多个点的数据集执行k-均值聚类，其中所述k-均值聚类的执行包括把所述数据集分区成多个聚类；确定所述多个点中的一个点对于所述多个聚类中的一个聚类的接近度；执行t-检验计算以确定所述点与所述聚类之间的统计线性关系；和如果所述点接近于所述聚类，并且所述点与所述聚类具有统计线性关系，则保持所述数据集中的所述点的当前位置。

附图说明

所附权利要求具体陈述了本发明的实施例的特点。下面结合附图的详细描述可以更好地理解本发明的实施例及其优点，其中：

图1是方块图，说明使用t-检验计算的k-均值聚类的实施例；

图2是方块图，说明参照图1所述的k-均值聚类一起使用的t-检验计算的实施例；

图3是方块图，说明使用标准k-均值聚类和使用t-检验计算的k-均值聚类的对比试验的结果；

图4是流程图，说明执行使用t-检验计算的k-均值聚类的过程的实施例；和

图5是方块图，说明在实现本发明的实施例中使用的示范的计算机系统。

具体实施方式

下面描述使用t-检验计算的k-均值聚类的系统和方法。在整个描述中，为了解释，陈述了许多具体的细节，为的是彻底理解本发明的实施例。不过，明显的是，对于本领域的普通技术人员来说，没有这些具体细节中的某些，也能实现本发明。在其它情况下，公知的结构和装置也以方块图的形式示出，为的是避免使本发明的基本原理变得不清楚。

在下面的描述中，对于许多具体细节例如逻辑实现，操作码，资源分区，资源共享和资源复制实现，系统部件的类型和相互关系，以及逻辑分区/集中的选择都进行了陈述，为的是更彻底地理解本发明的各种实施例。不过，本领域的普通技术人员将意识到，根据所提供的公开的内容，没有这样的具体的细节，也可以实现本发明的实施例。在其它情况下，控制结构，门电平电路和完整的软件指令序列没有被详细示出，为的是不使本发明变得模糊不清。本领域的那些普通的技术人员，根据这里所包括的描述，将能在无需过度试验的情况下，实现适当的功能。

下面描述本发明的各种实施例。各种实施例可以通过硬件部件来执行，或可以在机器可执行指令中体现，这些指令可用于使通用的或专用的处理器或者用该指令编程的机器或逻辑电路去执行各种实施例。或者，各种实施例可以通过硬件和软件的结合来执行。

本发明的各种实施例可以作为计算机程序产品来提供，其可以包括在其上存储有指令的机器可读介质，这些指令可以用来对计算机(或其它电子设备)编程，以便执行按照本发明各种实施例的过程。机器可读介质可能包括，但不限于，软盘，光盘，光盘只读存储器(CD-ROM)，磁光盘，只读存储器(ROM)，随机存取存储器(RAM)，可擦可编程只读存储器(EPROM)，电可擦可编程只读存储器(EEPROM)，磁卡或光卡，闪存，或适合于存储电子指令的其它类型的介质/机器可读介质。再者，本发明的各种实施例还可以作为计算机程序产品下载，其中通过包含在载波中的数据信号或经过通信链路的其它传播介质(例如，调制解调器或网络连接)，把程序从远程计算机传送到请求的计算机。

图1是方块图，说明使用t-检验计算106的k-均值聚类100的实施例。在一个实施例中，检验一个点和它的最接近的聚类之间的相关性的k-均值聚类100，是通过使用t-检验计算106执行的，以估计聚类结果是否具有它的统计显著性。使用k-均值聚类100的具有k-均值算法的t-检验计算106，消除了对k的初始值的依赖和及其影响，例如，在基因聚类中，执行聚类而无任何初始分区(例如，k的值)。这就有助于消除不正确的k的初始值造成的坏结果。换句话说，在一个实施例中，k-均值聚类100的结果或最终解答可以从初始状态102的任一个k值(例如，k＝1)开始，因为当使用具有k-均值聚类100的t-检验计算106时，k的数值变得与最终解答没有关系。因此，具有t-检验计算106的k-均值100的最终解答是真实解答，因为它没有受到k的初始值破坏。

在一个实施例中，在初始化102(例如，函数t-检验-k-均值(k、ε))，赋予初始k值(例如，k＝1)。类似地，赋予ε的初值(例如，ε＝0.00001)以代表小误差值。误差112的出现导致过程的迭代或重复110的结束。进一步，作为初始化102的部分，数据集(例如，g₁，...g_i，...g_M)被随机地分入聚类(例如，k＝k’聚类)。这里，每个g代表(数据集的)空间中的点或矢量，其中g_M代表那个空间中的M点。虽然，在一个实施例中，t-检验计算106与k-均值聚类100一起使用，在计算的复杂性方面该算法的成本保持和标准k-均值聚类相同。例如，这里，M＝数据库的基数，k＝聚类的数目，以及N＝属性的数目。在这种情况下，每一迭代成本＝MkN，以及总成本(t次迭代)＝O(tMkN)，其中t代表迭代次数，O代表运算。

对于每个g_i，g_i＝(S_i ¹，...，S_i ^N)，N是样本数。使用数据集，计算点和聚类之间的距离，从而最终确定点和最接近的聚类之间的距离。用皮尔逊(Pearson)相关系数(PCC)104计算点和聚类之间的距离。PCC104被用于度量两个变量之间的线性关系的强度。换言之，PCC104被用于度量两个轮廓(profile)之间的相似性和距离。在这种情况下，给定的点(例如，g_i)是高维点，PCC104被用来计算点(g_i)和均值聚类(Mc)之间的距离。不过，可以预期的是任何数量的度量方法都可被用来确定规定数据点和聚类之间距离的参数。其它度量方法的例子包括：欧几里得(Euclidean)，欧几里得平方(Euclidean Squared)，曼哈顿(Manhattan)，泊森平方(Person Squared)，彻贝彻伏(Chebychev)和斯皮尔曼(Spearman)。

PCC距离的基本公式是：d＝1-r，其中r＝z(x).z(y)/n是矢量x和y的z得分(z-score)的点积。x的z得分是通过从x减去它的平均值并用它的标准偏差去除而得到的构造。使用PCC104计算点(g_i)和均值聚类(Mc)之间的距离(d)的方法如下：

d (g_{i}, {Mc}_{j}) = | 1 - \frac{Σ g_{i} {Mc}_{j} - \frac{Σ g_{i} Σ {Mc}_{j}}{N}}{\sqrt{(Σ g_{i}^{2} - \frac{{(Σ g_{i})}^{2}}{N}) (Σ {Mc}_{j}^{2} - \frac{{(Σ {Mc}_{j})}^{2}}{N})}} |

均值

{Mc}_{j} = \frac{1}{| c_{j} |} Σ_{i = 1}^{| c_{j} |} g_{i}, g_{i} &Element; c_{j}, | c_{j} |

代表聚类c_j中的元素的数目，其中j＝1，...k

一旦点(g_i)和均值聚类(Mc)之间的距离被计算出来，这种信息然后就被用来计算与最近的聚类(例如，c)和它的均值(Mc)到点(g_i)之间的距离，这通过计算该点和最近聚类之间的最小距离并使用t-检验计算106来确定。在图2中进一步描述了T-检验计算106。如果点最接近自己的聚类并且与它成线性关系，则该点和聚类就保持原样不动。如果该点最接近另一个聚类并与它成线性，则该点就被移入那个聚类。按照一个实施例，如果该点不和最接近的聚类成线性，那么该点被隔离，并且通过使用隔离机制114生成新的聚类。单个的新生成的聚类包括该隔离的点。例如，聚类可以从7个聚类(聚类的数目＝7)开始，以8个聚类(聚类的数目＝7+1)结束，其包括使用以t-检验计算106为基础的隔离机制114新生成的聚类。

使用均值

{Mc}_{j} = \frac{1}{| c_{j} |} Σ_{i = 1}^{| c_{j} |} g_{i}, g_{i} &Element; c_{j}, | c_{j} |,

更新均值聚类(Mc)108，代表聚类c_j中的元素的数目。更新108是指在聚类构造发生变化(例如生成具有隔离点的新聚类)的时候，对均值聚类进行更新。一旦更新108完成，过程被重复110(例如，迭代继续)，直到误差(ε)出现，在误差(ε)出现的点上，k-均值聚类100停止112。误差数值在初始化102时被赋值，然后当Error-new-Error-old＜＝ε的时候，该误差值被用于停止112，其中ε是某个小常量，

如上所述，k和ε的数值是在初始化102时赋予的，但是按照一个实施例，当用使用t-检验计算106的k-均值聚类100的时候，k的数值与最终解答没有关系。所以，最终结果是真实的，是未被破坏的。可以预期的是，许多软件模块102-106，114利用t-检验计算执行k-均值聚类的各部分和过程。可以预期的是，硬件、软件或它们的结合，可以被用来执行k-均值聚类100。例如，初始化102，PCC计算104，t-检验计算106，隔离机制114，更新108，重复110和停止112，都可以通过各种模块和部件来执行。

图2是方块图，说明与参考图1所述的k-均值聚类一起使用的t-检验计算的实施例。T-检验计算106通过接受点(g_i)、均值聚类(Mc)和一个预定的显著性水平(SL)的输入而从初始状态202开始启动。SL代表显著性水平的一个小的数值或计数，例如0.01或0.05，表示成显著性水平的百分比，分别是1％或5％，显著性水平用来确定该点和均值聚类之间的统计线性关系210。SL的小的数值代表假设检验中的第I类错误的概率。第I类错误是指当得出零(null)假设204是不成立的结论，而实际上它是真的时候所产生的错误。在一个实施例中，对于具有t-检验的K-均值，SL的数值可代表当得出该点和均值聚类之间存在统计显著的线性相关的结论，而实际上不相关的时候，产生这种错误的概率。一旦执行初始化202，零假设204的公知的过程就被用作假设检验的基础。这里，均值

Mc = \frac{1}{| c |} Σ_{j = 1}^{| c |} g_{i}, g_{j} &Element; c, | c |

是聚类c中的元素的数目，c是点g_i的最接近的聚类。

零假设204从假设所说的点和均值聚类之间没有统计显著的线性相关性开始。因此，数学上，零假设是LinearCorrelation(g_i，Mc)＝0，其中SL是预定的显著性水平。一旦假设不存在任何统计显著的线性相关性，使用零假设204，然后执行PCC206以确定在点和均值聚类之间是否存在线性相关性(r)。这里，相关性(r)是使用PCC206如下确定的：

r (g_{i}, Mc) = \frac{Σ g_{i} Mc - \frac{Σ g_{i} ΣMc}{N}}{\sqrt{(Σ g_{i}^{2} - \frac{{(Σ g_{i})}^{2}}{N}) (Σ {Mc}^{2} - \frac{{(ΣMc)}^{2}}{N})}}

在一个实施例中，一旦使用PCC206计算相关性，就计算该相关性分布值(t)，以便计算概率值(p值)208。p值可以和SL比较以确定统计线性关系210。t的数值被如下计算：

t = \frac{r}{S_{r}} = \frac{r}{\sqrt{\frac{1 - r^{2}}{N - 2}}} .

同样地，公知的标准t表可被用于确定t的数值，然后利用N-2的灵活性程度从t的数值计算p值208。一旦p值被计算208，就与SL进行比较以确定所说的点和均值聚类之间的统计线性关系210。例如，如果p值小于或等于SL的值(例如，p值＜＝SL)，则拒绝零假设204，并且找到所说点和均值聚类之间的统计线性关系210。

在一个实施例中，估计在群元素与该群的显著性范围以内的线性关系。如果元素与它的群有线性相关性，则这个元素就被聚类；否则，生成新的聚类，这是由于在手头的当前的数据未必证明存在有显著的线性关系。因此，在具有t-检验计算106的k-均值聚类中，有清楚的统计显著性，按照具有聚类的显著性其就是“真实聚类”。例如，k的数值代表与最终解答没有任何关系的初始值，特别是，当不考虑局部优化问题的时候更是如此。即使在没有任何初始分区(k’＝1)的情况下，具有t-检验计算106的k-均值聚类也是真的，没有受到k的数值的破坏。换言之，例如，当不考虑局部优化问题的时候，具有t-检验计算106的k-均值聚类的分区方法是真的，并且与初始化时设定的值无关。如参考图1所述的，可以使用不同的模块和部件来执行初始化202，零假设204，PCC206，p值计算208和统计线性关系确定210。

图3是方块图，说明使用标准k-均值聚类的对比试验300和使用t-检验计算的k-均值聚类的实施例的结果。对比试验提供了对于两个样本微阵列(microarray)数据，使用t-检验计算308、318的k-均值聚类和标准k-均值310、320的对比结果。第一样本数据包括结肠数据302。为了试验的目的，结肠数据302是由在22个正常的结肠组织和40个癌结肠组织中使用Affymetrix寡核苷酸阵列的2000个基因的表达图组成的(以前在http：//www.molbio.princeton.edu/colondata上可以得到，现在在http：//www.sph.uth.tmc.edu/hgc/dowloads.asp(Xiong等人，2001)上可得到)。第二个样本数据包括酵母细胞周期数据312。酵母细胞周期数据312包括超过约两个细胞周期的，包括在所有18个阵列中没有遗漏数据的679个基因的，具有～6200ORF的酿酒酵母菌(SaccharomYcles Cerevisiae)的被监视的全基因组mRNA表达水平(http：//cellcycle-www.stanford.edu上可得到)。根据聚类的两个直观的性质(例如，内在的内聚性和外部隔离)，可以考虑包括内部相似性、相互相似性和内部相似性对相互相似性的比在内的几个评价标准。

对于具有所产生的k个聚类的k-均值聚类，内部相似性、相互相似性和内部相似性对相互相似性的比，可以定义如下：

按照内部相似性对于相互相似性的比进行比较，k是两种k-均值所产生的聚类的数目。在k-均值聚类(包括标准k-均值和具有检验的k-均值)执行以后，执行并获得内部相似性、相互相似性和两种相似性的比的计算。换言之，一旦获得k-均值聚类的结果，就计算所说的比以便正确地和公正地比较两个结果以确定哪个结果是较好的、精确的和真实的。结肠数据302的k’的预定数值是1、5、10、50、100、500、1000、2000，分别用加在线308和310上的小方格和星号表示。酵母细胞周期数据312的k’的预定的数值是1、2、5、10、20、50、100、200、679，分别用加在线318、320上的小方格和星号表示。

如图所示，x轴306、316是所产生的聚类数目(k)，且x轴304、314代表内部相似性和相互相似性的比。较高的线308代表使用t-检验计算的k-均值聚类的结果，较低的线310代表在结肠数据曲线图302上的标准k-均值的结果。关于酵母细胞周期数据曲线图312，较高的线318代表使用t-检验计算的k-均值的结果，而较低的线320代表标准k-均值的结果。

在302和312两种情况下，用线308、318表示的具有t-检验的k-均值结果比用线310、320表示的传统k-均值的结果更好。参考结肠数据曲线图302，在实际的每个k级306上，较高的线308比较低的线310表示有更好的比304。类似地，参考酵母细胞周期数据曲线图312，在每个k级316上，较高的线318比较低的线320有更好的比314。这就表现出使用具有t-检验计算的k-均值聚类时的内在的内聚性和外部隔离的特性。例如，当k’＝1，具有t-检验308、318的k-均值表现出高得多的比，如几个小方格中的第一个所表示的，而在反方向上标准k-均值310、312表现出低得多的比，如许多星号中的第一个所表示的。因此，如上所述，通过这个对比试验300表明，使用t-检验计算的k-均值聚类不依赖于中心的初始位置，并且即使没有初始分区也能够提供最好的性能和最终的解答。

图4是流程图，表示执行使用t-检验计算的k-均值聚类的过程的实施例。首先，在处理方块402执行初始化。初始化过程包括，把数据集分区到k＝k’个聚类中，每个聚类具有大致相同数量的数据点，并赋一个初始误差值(ε)。在处理方块404，计算每个数据点和聚类之间的距离。这样的距离可以用皮尔逊相关系数计算。在一个实施例中，在决定方块406，执行t-检验计算，并且确定数据点对于聚类是否是统计线性的。如果不是，则使用隔离机制，把这样的点隔离，并放在在处理方块408中新生成的聚类中。如果该数据点对于该聚类是线性的，则在决定方块410，还要确定对于聚类是线性的数据点是否还是最接近于它的聚类的。

如果不是，则在处理方块412，该点被移入最接近的聚类。如果该点对于聚类是线性的和最接近的，则在决定方块414过程收敛。类似地，回过来参看处理方块408、412，过程收敛于决定方块414，在这里决定关于继续进行利用t-检验计算的k-均值聚类。如果初始误差值ε还没有达到，聚类的迭代就在处理方块404中继续进行。如果初始误差值达到了，过程在终止方块416结束。

图5是方块图，说明用于实现本发明的实施例的示范的计算机系统500。计算机系统(系统)包括一个或多个处理器502-506。处理器502-506可以包括一个或多个单线程或多线程处理器。典型的多线程处理器可以包括多个线程或逻辑处理器，能够同时使用它的多个线程处理多个指令序列。处理器502-506还可以包括一个或多个内部等级的高速缓存器(未示出)和总线控制器或总线接口单元，以便指导与处理器总线512的交互作用。

处理器总线512也可称为主总线或前端总线，它可以被用来把处理器502-506与系统接口514耦合起来。处理器总线512可以包括控制总线532，地址总线534和数据总线536。控制总线532，地址总线534和数据总线532可以是多分支双向总线，例如是连接到三个或多个总线代理的总线，它与点对点总线不同，点对点总线仅可以在两个总线代理之间连接。

系统接口514(或芯片组)可以连接到处理器总线512，以便把系统500的其它部件与处理器总线512连接起来。例如，系统接口514可以包括存储器控制器518，用于接口主存储器516与处理器总线512。主存储器516典型地包括一个或多个存储卡和控制电路(未示出)。系统接口514还可以包括输入/输出(I/O)接口520，以接口一个或多个I/O桥或I/O装置与处理器总线512。例如，如图所示，I/O接口520可以接口I/O桥524和处理器总线512。I/O桥524可以作为总线桥操作，以便在系统接口514和I/O总线526之间进行接口。一个或多个I/O控制器和/或I/O装置可以与I/O总线526连接，例如，I/O控制器528和I/O装置530，如图所示。I/O总线526可以包括外围部件互连(PCI)总线或其它型式的I/O总线。

系统500可能包括动态存储装置，称为主存储器516，或随机存取存储器(RAM)或耦合到处理器总线512的其它装置，用于存储处理器502-506所要执行的信息和指令。在处理器502-506执行指令期间，主存储器516还可以用于存储临时变量或其它中间信息。系统500可以包括只读存储器(ROM)和/或耦合到处理器总线512的其它静态存储装置，用来存储处理器502-506的静态信息和指令。

主存储器516或动态存储装置可以包括磁盘或光盘，用以存储信息和指令。I/O装置530可以包括显示装置(未示出)，例如是阴极射线管(CRT)或液晶显示器(LCD)，用于把信息显示给终端用户。例如，可以在显示装置上给预期的买主提供安装状态的图形或文本指示，试验周期中的剩余时间和其它信息。I/O装置530还可以包括输入装置(未示出)，例如是字母数字输入装置，它包括字母数字和其它键，用于把信息和/或命令选择通信给处理器502-506。另外型式的用户输入装置包括光标控制，例如鼠标器，跟踪球，或光标方向键，用来把方向信息和命令选择传送给处理器502-506，并控制显示装置上的光标移动。

系统500还可包括通信装置(未示出)，例如调制解调器，网络接口卡，或其它公知的接口装置，例如那些用于耦合到以太网、令牌环的装置或其它类型的物理附件装置，为了提供通信链路以支持例如局域网或宽域网。换句话说，系统500可以通过传统的网络基础结构，例如公司的内部网和/或因特网，与许多客户和/或服务器耦合。

应当理解，对于某些实现，可期望比上述例子少些或多些装备的系统。因此，系统500的配置可能从一种实现到另一种实现有所变化，这取决于许多因素，例如价格限制，性能要求，技术改进和/或其它情况。

应该注意，虽然这里所描述的实施例是在编程的处理器例如处理器502-506的控制下执行的，但是在可供选择的实施例中，这些实施例可以全部地或部分地通过任何可编程序的或硬编码的逻辑电路来实现，例如现场可编程的门阵列(FPGA)，晶体管-晶体管逻辑电路(TTL)，或专用集成电路(ASIC)。此外，本发明的实施例可以通过编程的通用计算机部件和/或定制的硬件部件的任何组合来执行。因此，这里所公开的，没有任何东西可被解释为是把本发明的各种实施例限制于特定的实施例，其中所述的实施例可以用硬件部件的具体组合来执行。

在一个实施例中，利用t-检验计算的k-均值聚类不仅提供了一个聚类隔离标准，而且也是以内部相关性的统计显著性为基础的。例如，如果在显著性水平下，没有证明一个点与最接近的聚类有线性相关性，该点就被隔离。该被隔离的点就作为新的单独聚类出现，因为当前的数据集不能证明是否该点与空间存在的任何其它聚类有统计显著的线性关系。另一方面，这个检验的低p值(例如，小于0.01)可能意味着有证据拒绝零假设而赞同备选的假设，或意味着在该点和它的最接近的聚类之间存在着统计显著的关系。因此，使用t-检验提供每个点和它自己的聚类的均值具有统计显著的关系。线性关系是可加成的，并且通过使用t-检验可以证明在同一聚类中的点与每个其它的点具有线性相关性。因此，t-检验对内在的内聚性提供相对清楚的统计说明。再者，这里的聚类不依赖于初始分区，并且即使无任何初始分区(例如，k’＝1)它也可以获得最好的性能和真实的解答。利用t-检验的k-均值的分区结果具有清楚的统计显著性，并且它不只是聚类在一起的一串最接近的元素。一个群中的元素具有显著的统计相关性，就是一个真实的聚类。

应该意识到，遍及本说明书的所谓“一个实施例”或者“实施例”意味着与该实施例相关而描述的特定的特征、结构或特性被包括在本发明的至少一个实施例中。因此，要强调和应该理解的是，在本说明书各个部分中两次或多次引用的“实施例”或者“一个实施例”或者“备选的实施例”未必全都指的是同一个实施例。再者，在本发明的一个或多个实施例中如适合的话可将特定的特征、结构或特性组合在一起。

类似地，应该理解，在上面本发明的示范的实施例的描述中，为了简化公开的内容，以便有助于理解发明的一个或多个不同的发明的方面，本发明的不同特征有时候聚合在它的单个的实施例、附图或描述中。然而，这种公开方法，不能被解释成反映了这样一个发明，即要求保护的这个发明需要比每个权利要求所明确陈述的特征更多的特征。相反，如所附权利要求所反映的，发明的方面在于特征少于单个的前述所公开的实施例的全部特征。因此，在详细描述之后的权利要求书由此而明确地被并入到这个详细的描述之中，每个权利要求本身就作为本发明的一个单独的实施例。

虽然在附图中已经描述和示出了某些示范的实施例，要理解的是，这样的实施例只是说明性的而不是限制性的，并且本发明的实施例不限于所示出的和描述的具体结构和安排，因为本领域的普通技术人员在研究了本公开后就可做出各种其它修改。

Claims

1、一种方法，包括：

执行具有多个点的数据集的k-均值聚类，其中，所述执行k-均值聚类包括把所述数据集分区成多个聚类；

确定所述多个点中的一个点对于所述多个聚类中的一个聚类的接近度；

执行t-检验计算以确定所述点和所述聚类之间的统计线性关系；和

如果所述点接近于所述聚类，并且如果所述点与所述聚类有统计线性关系，则保持所述数据集中所述点的当前位置。

2、如权利要求1所述的方法，还包括：如果所述点不接近所述聚类，则把所述点移入最接近的聚类。

3、如权利要求1所述的方法，还包括：

如果所述点不接近所述聚类，并且所述点与所述聚类没有统计线性关系，则生成新的聚类；以及

把所述点移入所述新的聚类。

4、如权利要求3所述的方法，其中使用隔离机制执行所述新聚类的生成。

5、如权利要求1所述的方法，其中使用皮尔逊相关系数执行所述接近度的确定。

6、如权利要求1所述的方法，其中执行所述t-检验计算以确定统计线性关系还包括：

设定预定的显著性值；

使用t表和皮尔逊相关系数确定p值；以及

通过比较所述p值和所述预定的显著性值来确定所述统计线性关系，其中如果所述p值小于或等于所述预定的显著性值，就找到了所述统计线性关系。

7、一种设备，包括：

存储介质，它存储指令组，以便使用t-检验计算执行k-均值聚类；以及与所述存储介质耦合的处理器，所述处理器用于执行具有多个点的数据集的k-均值聚类，

其中执行所述k-均值聚类包括：

把所述数据集分区成多个聚类，

确定所述多个点中的一个点对于所述多个聚类中的一个聚类的接近度，

执行所述t-检验计算，以确定所述点和所述聚类之间的统计线性关系，以及

如果所述点接近所述聚类，并且如果所述点与所述聚类有统计线性关系，则保持所述数据集中的所述点的当前位置。

8、如权利要求7所述的设备，其中如果所述点不接近所述聚类，则所述处理器就进一步把所述点移入最接近的聚类。

9、如权利要求7所述的设备，其中如果所述点不接近所述聚类，并且所述点与所述聚类没有统计线性关系，则所述处理器就进一步生成新的聚类；并且

把所述点移入所述新的聚类。

10、如权利要求9所述的设备，其中使用隔离机制执行所述新聚类的生成。

11、如权利要求7所述的设备，其中使用皮尔逊相关系数执行所述接近度的确定。

12、如权利要求7所述的设备，其中所述处理器还进行：

设定预定的显著性值；

使用t表和皮尔逊相关系数确定p值；以及

通过把所述P值与预定的显著性值进行比较来确定所述统计线性关系，其中如果所述p值小于或等于所述预定的显著性值，则所述统计线性关系就被找到。

13、一种系统，包括：

k-均值模块，用于执行具有多个点的数据集的k-均值聚类，其中所述k-均值聚类的执行包括把所述数据集分区成多个聚类；

皮尔逊相关系数模块，用于确定所述多个点中的一个点对于所述多个聚类中的一个聚类的接近度；

t-检验模块，用于执行t-检验计算以确定所述点和所述聚类之间的统计线性关系；和

定位模块，用于如果所述点与所述聚类接近，并且如果所述点与所述聚类具有统计线性关系，则保持数据集中的所述点的当前位置。

14、如权利要求13所述的系统，其中如果所述点不接近所述聚类，所述定位模块就进一步把所述点移入最接近的聚类。

15、如权利要求13所述的系统，还包括隔离机制，用于：

如果所述点不接近于所述聚类，并且所述点与所述聚类没有统计线性关系，则就生成新的聚类；并

把所述点移入所述新的聚类。

16、如权利要求13所述的系统，其中所述t-检验模块还进行：

设定预定的显著性值；

使用t表和皮尔逊相关系数确定p值；以及

通过把所述P值和所述预定的显著性值进行比较来确定所述统计线性关系，其中，如果所述p值小于或等于所述预定的显著性值，则所述统计线性关系就被找到。

17、一种机器可读介质，在它上面存储有代表指令组的数据，当所述机器执行所述指令组的时候，使得所述机器执行如下操作：

对具有多个点的数据集执行k-均值聚类，其中所述k-均值聚类的执行包括把所述数据集分区成多个聚类；

执行t-检验计算以确定所述点与所述聚类之间的统计线性关系；和

如果所述点接近于所述聚类，并且所述点与所述聚类具有统计线性关系，则保持所述数据集中的所述点的当前位置。

18、如权利要求17所述的机器可读介质，其中当所述机器执行所述指令组的时候，如果所述点不和所述聚类接近，所述指令组还使所述机器把所述点移入到最接近的聚类。

19、如权利要求17所述的机器可读介质，其中当所述机器执行所述指令组的时候，如果所述点不接近于所述聚类，并且所述点与所述聚类不具有统计线性关系，则所述指令组还使所述机器：

生成新的聚类；并

把所述点移入所述新的聚类。

20、如权利要求19所述的机器可读介质，其中使用隔离机制执行所述新聚类的生成。

21、如权利要求17所述的机器可读介质，其中使用皮尔逊相关系数执行所述接近度的确定。

22、如权利要求17的机器可读介质，其中所述指令组当其被所述机器执行的时候，还使所述机器：

设定预定的显著性值；

使用t表和皮尔逊相关系数确定p值；以及

通过比较所述p值和所述预定的显著性值来确定所述统计线性关系，其中如果所述p值小于或等于所述预定的显著性值，则所述统计线性关系就被找到。