CN104598512A

CN104598512A - 数据群集管理装置及方法

Info

Publication number: CN104598512A
Application number: CN201410602455.0A
Authority: CN
Inventors: 权纯焕; 金炯赞; 吴圭三; 徐范准
Original assignee: Samsung SDS Co Ltd
Current assignee: Samsung SDS Co Ltd
Priority date: 2013-10-31
Filing date: 2014-10-31
Publication date: 2015-05-06
Anticipated expiration: 2034-10-31
Also published as: US20150120734A1; CN104598512B; KR20150049877A

Abstract

本发明公开一种数据群集管理装置及方法。根据本发明的一个实施例的数据群集管理装置可包括：群集选定单元，计算各个数据群集与输入数据之间的相似度，并基于所述相似度而选定所述数据群集中的一个数据群集；群集更新单元，基于被选定的所述数据群集和所述输入数据而判断所述输入数据是否包含于被选定的所述数据群集，并根据所述判断而利用所述输入数据生成新的数据群集或者更新被选定的所述数据群集。

Description

数据群集管理装置及方法

技术领域

本发明涉及一种可根据情况而适应性地更新数据群集的数据群集管理装置及方法。

背景技术

近来，随着数据的容量以几何级数方式增加，将这样的数据群集化(clustering)而进行管理的方式受到瞩目。在此，群集(cluster)是指通过比较数据的多种属性而将具有类似特性的项目进行分组化。利用这样的群集概念而正在开发利用大容量的数据的诊断系统。

在这样的利用大容量数据的系统中，输入数据的微小变化(minor change)持续发生。例如对于数据中心而言，软件补丁(software patch)、设备移动、季节变化等微小变化持续地发生。

由于这样的微小变化，基于群集的诊断系统需要对群集进行移动、删除、生成或者概率性调整之类的群集重建。然而基于微小变化而重建群集的方法需要大量的成本和时间。并且，现有技术中的基于群集的诊断系统是利用固定的群集而执行对数据的诊断，因此存在每当出现系统的变化时需要重新生成群集的缺点。进而，利用固定群集的诊断系统存在诊断的准确率降低的缺点。

[现有技术文献]

[专利文献]

韩国授权专利第10-1182126号(2012.09.06)

发明内容

本发明的实施例的目的在于提供一种可通过输入数据与群集之间的相似度而更新群集或者生成新的群集的数据群集管理装置及方法。

而且，本发明的实施例的目的在于提供一种可基于输入数据的代表值和群集的代表值而计算相似度并能够基于临界值而选定要更新的群集的数据群集管理装置及方法。

本发明的实施例的目的在于提供一种可通过用户输入而修改、删除、恢复或生成群集的数据群集管理装置及方法。

根据本发明的示例性实施例，提供一种数据群集管理装置，包括：群集选定单元，计算各个数据群集与输入数据之间的相似度，并基于所述相似度而选定所述数据群集中的一个数据群集；群集更新单元，基于被选定的所述数据群集和所述输入数据而判断所述输入数据是否包含于被选定的所述数据群集，并根据所述判断而利用所述输入数据生成新的数据群集或者更新被选定的所述数据群集。

在所述数据群集管理装置中，所述相似度可表示所述输入数据的代表值与各个所述数据群集的代表值之间的距离。

在所述数据群集管理装置中，各个所述数据群集可分别与临界值相关联，所述群集选定单元可从所述数据群集中抽取所述相似度小于所述临界值的数据群集，并从抽取的所述数据群集中选定具有值最小的相似度的数据群集。

在所述数据群集管理装置中，所述群集更新单元可基于所述输入数据的代表值和被选定的所述数据群集的代表值而执行所述判断。

在所述数据群集管理装置中，所述群集更新单元可利用所述输入数据的代表值和所述输入数据的元数据而生成所述新的数据群集或者更新被选定的所述数据群集。

在所述数据群集管理装置中，所述群集更新单元可在所述判断的结果为所述输入数据不包含于被选定的所述数据群集的情况下，生成新的数据群集，并可基于与被选定的所述数据群集相关联的临界值而设定所述新的数据群集的临界值。

在所述数据群集管理装置中，可将所述新的数据群集的临界值设定为小于与被选定的所述数据群集相关联的临界值。

所述数据群集管理装置还可以包括：群集存储空间，存储所述数据群集；编辑单元，接收用于执行针对存储于所述群集存储空间的群集的修改、删除或恢复或者用于生成附加性的数据群集的用户输入。

在所述数据群集管理装置中，所述编辑单元可将与存储的所述数据群集相关联的临界值作为基准而显示存储的所述数据群集。

在所述数据群集管理装置中，存储的所述数据群集可分别与表示删除状态的标识符相关联，且所述编辑单元可根据所述用户输入而变更为了删除或恢复而选择的数据群集的所述标识符。

根据本发明的另一示例性实施例，提供一种数据群集管理方法，包括如下步骤：计算各个数据群集与输入数据之间的相似度，并基于所述相似度而选定所述数据群集中的一个数据群集；基于被选定的所述数据群集和所述输入数据而判断所述输入数据是否包含于被选定的所述数据群集，并根据所述判断而利用所述输入数据执行生成新的数据群集或者更新被选定的所述数据群集的操作。

在所述数据群集管理方法中，所述相似度可表示所述输入数据的代表值与各个所述数据群集的代表值之间的距离。

在所述数据群集管理方法中，各个所述数据群集可分别与临界值相关联，且选定所述数据群集的步骤中可包括如下步骤：从所述数据群集中抽取所述相似度小于临界值的数据群集；从抽取的所述数据群集中选定具有值最小的相似度的数据群集。

在所述数据群集管理方法中，所述判断可基于所述输入数据的代表值和被选定的所述数据群集的代表值而执行。

在所述数据群集管理方法中，执行所述操作的步骤中可包括如下步骤：利用所述输入数据的代表值和所述输入数据的元数据而生成所述新的数据群集或者更新被选定的所述数据群集。

在所述数据群集管理方法中，执行所述操作的步骤中可包括如下步骤：在所述判断的结果为所述输入数据不包含于被选定的所述数据群集的情况下生成新的数据群集；基于与被选定的所述数据群集相关联的临界值而设定所述新的数据群集的临界值。

在所述数据群集管理方法中，进行所述设定的步骤中可包括如下步骤：将所述新的数据群集的临界值设定为小于被选定的所述数据群集的临界值。

在所述数据群集管理方法中，还可以包括如下步骤：接收用于执行针对所述数据群集的修改、删除或恢复或者用于生成附加性的数据群集的用户输入。

在所述数据群集管理方法中，还可以包括如下步骤：将所述数据群集的临界值作为基准而显示所述数据群集。

在所述数据群集管理方法中，所述数据群集可分别与表示删除状态的标识符相关联，且所述数据群集管理方法还可以包括如下步骤：根据所述用户输入而变更为了删除或恢复而选择的数据群集的所述标识符。

根据本发明的实施例，可提供一种基于输入数据与群集之间的相似度而更新群集或者生成新的群集，从而能够反映多种多样的变化的数据群集管理装置及方法。

并且，根据本发明的实施例，提供一种基于相似度和临界值而判断新的诊断对象(输入数据)是否出于软件补丁、设备的位置移动、四季变化等微小变化，并反映判断结果而更新群集或者生成新的群集的数据群集管理装置及方法。因此，通过运行应用了这种数据群集管理装置及方法的诊断系统而可以实现微小变化得到适应性反映的系统。

根据本发明的实施例，基于输入数据而自动生成并更新群集，从而可在群集管理方面节约成本。

附图说明

图1为表示根据本发明的实施例的数据群集管理装置的模块图。

图2为表示根据本发明的实施例的数据群集管理装置中数据群集的格式的图。

图3为用于说明根据本发明的实施例的被选定群集的更新过程的图。

图4为用于说明根据本发明的实施例的新的群集生成过程以及临界值设定过程的图。

图5为表示根据本发明的实施例的群集管理方法的流程图。

图6为表示借助于根据本发明的实施例的数据群集管理装置的编辑单元的群集修改方法的流程图。

图7为表示借助于根据本发明的实施例的数据群集管理装置的编辑单元的群集删除方法的流程图。

图8为表示借助于根据本发明的实施例的数据群集管理装置的编辑单元的群集恢复方法的流程图。

图9为表示借助于根据本发明的实施例的数据群集管理装置的编辑单元的群集生成方法的流程图。

符号说明：

100：数据群集管理装置 110：群集存储空间

120：诊断单元 130：群集选定单元

140：群集更新单元 150：编辑单元

具体实施方式

以下，参照附图说明本发明的具体实施方式。以下的详细说明是为了有助于全面性理解本说明书中记载的方法、装置和/或系统而提供。然而这只不过是示例，本发明并不局限于此。

在说明本发明的实施例时，在认为对有关本发明的公知技术的具体说明有可能对本发明的主旨造成不必要的混乱的情况下，省略其详细说明。另外，后述的术语为考虑到在本发明中的功能而定义的术语，其可能因使用者、运用者的意图或惯例等而不同。因此要将贯穿整个说明书的内容作为基础而对其进行定义。在详细的说明中使用的术语仅仅是用于阐述本发明的实施例，决不能理解为限定性。除非明确地使用为不同，单数形态的表现包含复数形态的含义。在本说明中，“包括”或“具有”之类的表述用于表示某种特性、数字、步骤、操作、要素及这些的一部分或者组合，并不能解释为排除除此之外还存在一个或一个以上的其他特性、数字、步骤、操作、要素及这些的一部分或组合的必然性或可能性。

图1为表示根据本发明的实施例的数据群集管理装置的模块图，图2为表示根据本发明的实施例的数据群集管理装置中数据群集的格式的图。

在详细说明本发明的实施例之前应予说明，在本发明的实施例中使用的数据群集表示通过比较数据的多种属性而将具有类似特性的项目进行群组化。以下，将数据群集称为群集。

如图1所示，数据群集管理装置100可包括群集存储空间110、诊断单元120、群集选定单元130、群集更新单元140、以及编辑单元150等。

群集存储空间110存储有具有如图2所示的群集格式的多个群集。在此，群集格式可以由群集ID(cluster ID)、代表值(value)、元数据(metadata)以及临界值(threshold)构成。在预定的实施例中，按群集ID分别设定多个代表值、元数据以及临界值。而且，元数据可包括统计资料、在相关群集生成时参考的选定的群集(与相关群集最相近的群集)的群集ID、群集的生成日期、修改日期、删除标记、计数、比率等。

临界值用于比较从外界输入的诊断对象(以下称为“输入数据”)与群集之间的相似度。并且，删除标记为用于表示群集的删除状态的标识符。具体而言，在删除标记取值为“1”的情况下可表示相关群集被删除的状态。

诊断单元120可接收具有代表值和元数据的输入数据，并通过存储于群集存储空间110的群集与输入数据之间的比较而执行诊断。而且，诊断单元120可将输入数据提供给群集选定单元130。

另外，在本发明的实施例中输入数据可以是从数据中心和大厦产生的实时数据。

群集选定单元130可利用输入数据和存储于群集存储空间110的群集而计算各个群集与输入数据之间的相似度。在预定的实施例中，群集选定单元130可通过计算输入数据的代表值与存储于群集存储空间110的各个群集的代表值之间的距离而计算对应于各个群集的相似度。

在此，距离可通过欧几里得距离(Euclidean distance)、曼哈顿距离(Manhattan distance)等而计算，然而并不局限于此。

另外，当输入数据的代表值和选定的群集的代表值以二维方式构成时，距离值可通过如下的数学式1而计算。

[数学式1]

在上述数学式1中，(Val0，Val1)为输入数据的代表值，(Val0'，Val1')为选定的群集的代表值。

而且，群集选定单元130可基于相似度而选定各群集中的一个群集。在预定的实施例中，群集选定单元130可从群集中抽取相似度小于群集的临界值的群集，并从抽取的群集中选定具有值最小的相似度的群集。

群集更新单元140可基于选定的群集和输入数据而判断输入数据是否包含于选定的群集。在预定的实施例中，群集更新单元140可根据输入数据的代表值是否能够对应于选定的群集而判断输入数据是否包含于群集。

群集更新单元140可根据判断结果而在群集存储空间110生成新的群集，或者在群集存储空间110更新选定的群集。具体而言，群集更新单元140可利用输入数据的代表值和元数据而更新选定的群集，或者利用输入数据的代表值和元数据以及临界值而将新的群集生成于群集存储空间110。

此时，新的群集的临界值可设定为小于选定的群集的临界值。

参照图3和图4而说明应用如上所述的群集选定单元130和群集更新单元140的示例。

图3为用于说明本发明的实施例的更新从群集存储空间110选定的群集的过程的图，图4为用于说明根据本发明的实施例的新的群集生成过程以及临界值设定过程的图。

首先，表示被选定的群集的内部数据的选定群集范围310以及代表值320与图3所示的一样，且在输入数据的代表值330包含于选定群集范围310的情况下，即，在输入数据的代表值330可包含于被选定的群集的内部数据的情况下，群集更新单元140可利用输入数据而执行针对选定的群集的更新。在此，输入数据可具有代表值330和元数据等。

例如，使被选定群集的代表值320移动向考虑到输入数据的代表值330、被选定群集的代表值320、以及构成群集的值的计数值的新的重心点，且在诊断单元120的诊断结果为输入数据被分类为被选定的群集的类型1的资料时，使类型1的计数增加“1”，并修改类型1的比率。换言之，被选定群集的代表值320和元数据可通过输入数据的代表值330和元数据而得到更新。

另外，在输入数据相当于新的群集的情况下，如图4所示，在输入数据的代表值420包含于设定在被选定的群集310的临界值410范围的同时该输入数据的代表值420不包含于被选定的群集的内部的情况下，群集更新单元140可以将小于选定的群集的临界值410的值设定为对应于新的群集440的临界值430，并利用临界值430、输入数据的代表值420以及元数据而生成新的群集440。

关于临界值设定举例进行如下说明。

例如，当对应于群集ID(U1)的被选定的群集的临界值为1.3时，不包含于被选定的群集的范围的输入数据的临界值可以是在被选定的群集的临界值上乘以“A(0<A<1)”值的结果值。因此，可以生成如图4所示的具有小于被选定的群集的临界值的临界值的新的群集440。在此，当“A”为0.5时，新的群集440的临界值可以是0.65。

之所以如上所述地将新的群集的临界值设定为小于被选定的群集的临界值，是因为其并非运营者直接选择或者判断为可靠而生成的群集，而是属于作为诊断的结果而生成的群集，即，可靠性降低的群集。

另外，作为设定临界值的方法可利用K重交叉验证(k fold crossvalidation)，然而并不局限于此。K重交叉验证方法将构成群集的数据分为K等份而以数据数量为基准而分割为1:k-1，并构成测试集(test set)、学习集(learning set)。由学习集执行群集化，并对测试集应用适应型群集化，从而找出适于输入数据的临界值。针对全部K等份，以避免测试集重叠的方式执行K次这样的过程，并可通过计算执行K次的结果值(例如，平均值)而生成新的群集。

另外，编辑单元150可提供接收用于执行针对存储于群集存储空间110的群集的修改、删除或恢复或者用于生成群集的用户输入的接口。

编辑单元150在接收到用户输入时可通过对用户输入的验证而判断群集是否可编辑，且在不能编辑时可将不可编辑一事告知用户。例如，编辑单元150可通过用户输入是否符合群集格式而判断是否可编辑，并可以在不可编辑的情况下生成预定的不可编辑消息而显示于显示装置(未图示)。

而且，编辑单元150在用户的输入为群集的生成或恢复的情况下，可基于存储在群集存储空间110的群集而确认要生成或恢复的群集的重复性，并根据确认结果而确定是否生成或恢复。在此，当要生成或恢复的群集重复时，编辑单元150可生成不可编辑消息而显示于显示装置(未图示)。

另外，编辑单元150可基于临界值而将存储于群集存储空间110的群集予以显示。在此，显示的群集的数量可通过用户的选择以及条件输入而设定。

参照图5而对如上所述的数据群集管理装置100的整个操作过程进行说明。

图5为表示根据本发明的实施例的群集管理方法500的流程图。

图5所示的方法例如可通过前述的数据群集管理装置100的诊断单元120、群集选定单元130以及群集更新单元140而执行。在图示的流程图中虽然是将所述方法分为多个步骤而记载，然而可以使至少有一些步骤被颠倒顺序而执行，或者与其他步骤结合而一同执行，或者被省去，或者被分为细化的步骤而执行，或者附加未图示的一个以上的步骤而执行。并且，根据实施例，也可以有图5中未图示的一个以上的步骤与图5所示的方法一同执行。

如图5所示，如果在步骤502中输入数据被诊断单元120接收，则群集选定单元130计算存储于群集存储空间110的各个群集与输入数据之间的相似度(步骤504)。具体而言，可通过计算输入数据的代表值与各个群集的代表值之间的距离值而计算出输入数据与各个群集之间的相似度。

然后，群集选定单元130通过各个相似度与设定在各个群集的临界值之间的比较而从群集存储空间110选定一个群集(步骤506)。具体而言，群集选定单元130可从各群集中抽取相似度小于临界值的群集，并从被抽取的群集中选定具有值最小的相似度的群集。

然后，群集更新单元140可基于选定的群集和输入数据而判断输入数据是否包含于被选定的群集(步骤508)。具体而言，群集更新单元140可根据输入数据的代表值是否能够对应于选定的群集的内部而判断输入数据是否包含于选定的群集。

在步骤508的判断结果，如果输入数据包含于选定的群集，则群集更新单元140利用输入数据而更新选定的群集(步骤510)。具体而言，群集更新单元140可利用输入数据的代表值和元数据而更新选定的群集。

在步骤508的判断结果，如果输入数据不包含于选定的群集，则群集更新单元140根据输入数据生成新的群集而存储于群集存储空间110(步骤512)。具体而言，群集更新单元140可基于选定的群集的临界值而设定新的群集的临界值，并反映所设定的临界值、输入数据的代表值以及元数据而生成新的群集。

参照图6至图9而对通过根据本发明的实施例的数据群集管理装置100的编辑单元150而管理存储于群集存储空间110的群集的方法进行说明。

图6为表示借助于根据本发明的实施例的数据群集管理装置100的编辑单元150的群集修改方法600的流程图。

如图6所示，在步骤602中编辑单元150接收想要修改群集的用户的输入，即接收与群集的选择相关联的输入。据此，编辑单元150可从群集存储空间110选择对应于用户输入的群集。

然后，编辑单元150接收想要进行修改的用户的输入，即接收修改相关信息(步骤604)。

然后，编辑单元150通过对修改相关信息的逻辑确认而判断是否可使用于群集(步骤606)。

步骤606的判断结果，如果可使用于群集，则编辑单元150利用修改相关信息而修改选择的群集(步骤608)，否则，将不可修改一事通报给用户(步骤610)。具体而言，编辑单元150可通过生成不可修改消息之后将其予以显示而通报给用户。

图7为表示借助于根据本发明的实施例的数据群集管理装置100的编辑单元150的群集删除方法700的流程图。

如图7所示，在步骤702中，编辑单元150接收想要删除群集的用户的输入，即接收与群集的选择相关联的输入。

然后，编辑单元150判断是否接收到基于删除要求信号(例如，删除请求)的用户操作(步骤704)。

步骤704的判断结果，如果接收到删除要求信号，则编辑单元150将在步骤702中选择的群集的删除标记修改为“1”(步骤706)。

图8为表示借助于根据本发明的实施例的数据群集管理装置100的编辑单元150的群集恢复方法800的流程图。

如图8所示，在步骤802中，编辑单元150接收想要进行恢复的用户的输入，即接收与想要恢复的群集的选择相关联的输入。

然后，编辑单元150判断是否接收到基于恢复要求信号(例如，恢复请求)的用户操作(步骤804)。

步骤804的判断结果，如果接收到恢复要求信号，则编辑单元150通过确认针对想要恢复的群集(即，被选择的群集)的重复性和逻辑而判断是否可使用于群集(步骤806)。

步骤806的判断结果，如果可使用于群集，则编辑单元150将在步骤802中选择的群集的删除标记修改为“0”(步骤808)。

另外，步骤806的判断结果，如果不能使用于群集，则编辑单元150将不可恢复一事通报给用户(步骤810)。具体而言，编辑单元150可通过在生成不可恢复消息之后将其予以显示而通报给用户。

图9为表示借助于根据本发明的实施例的数据群集管理装置100的编辑单元150的群集生成方法900的流程图。

如图9所示，在步骤902中，编辑单元150接收与想要生成的群集相关联的用户输入，即接收关于即将新生成的群集的信息的输入。

然后，编辑单元150通过确认针对想要生成的群集(即，被选择的群集)的重复性和逻辑而判断是否可使用于群集(步骤904)。

步骤904的判断结果，如果可使用于群集，则编辑单元150基于用户输入而在群集存储空间110生成群集(步骤906)。

另外，步骤904的判断结果，如果不能使用于群集，则编辑单元150将不可生成一事通报给用户(步骤908)。具体而言，编辑单元150可通过在生成不可生成消息之后将其予以显示而通报给用户。

另外，本发明的实施例可包括记录有用于在计算机上执行本说明书中记载的方法(即，基于输入数据的借助于群集管理方法500、编辑单元150的群集的修改、删除、生成以及恢复方法600、700、800、900)的程序的计算机可读记录介质。所述计算机可读记录介质可将程序命令、本地数据文件、本地数据结构等单独或者组合起来包含在内。所述介质既可以是为了本发明而特别设计并构成的介质，也可以是在计算机软件领域中通常可以使用的介质。计算机可读记录介质的例中包括：硬盘、软盘以及磁带之类的磁介质；CD-ROM、DVD之类的光记录介质；软盘之类的磁光介质以及ROM、RAM、闪存之类的为了存储并执行程序命令而特别构成的硬件装置。程序命令的例中不仅可以包括由编译器制作的机器语言代码，而且还可以包括利用解释器等而由计算机执行的高级语言代码。

以上已详细说明本发明的代表性实施例，然而本发明所属的技术领域中具有普通知识的人员应该会理解能够在不脱离本发明范围的限度内对所述的实施例进行多种多样的变形。因此本发明的权利范围不应局限于所述的实施例而确定，而是要根据权利要求书及其等价内容而确定。

Claims

1.一种数据群集管理装置，包括：

群集选定单元，计算各个数据群集与输入数据之间的相似度，并基于所述相似度而选定所述数据群集中的一个数据群集；

群集更新单元，基于被选定的所述数据群集和所述输入数据而判断所述输入数据是否包含于被选定的所述数据群集，并根据所述判断而利用所述输入数据生成新的数据群集或者更新被选定的所述数据群集。

2.如权利要求1所述的数据群集管理装置，其中，所述相似度表示所述输入数据的代表值与各个所述数据群集的代表值之间的距离。

3.如权利要求1所述的数据群集管理装置，其中，各个所述数据群集分别与临界值相关联，所述群集选定单元从所述数据群集中抽取所述相似度小于所述临界值的数据群集，并从抽取的所述数据群集中选定具有值最小的相似度的数据群集。

4.如权利要求1所述的数据群集管理装置，其中，所述群集更新单元基于所述输入数据的代表值和被选定的所述数据群集的代表值而执行所述判断。

5.如权利要求1所述的数据群集管理装置，其中，所述群集更新单元利用所述输入数据的代表值和所述输入数据的元数据而生成所述新的数据群集或者更新被选定的所述数据群集。

6.如权利要求5所述的数据群集管理装置，其中，所述群集更新单元在所述判断的结果为所述输入数据不包含于被选定的所述数据群集的情况下，生成新的数据群集，并基于与被选定的所述数据群集相关联的临界值而设定所述新的数据群集的临界值。

7.如权利要求6所述的数据群集管理装置，其中，所述新的数据群集的临界值被设定为小于与被选定的所述数据群集相关联的临界值。

8.如权利要求1所述的数据群集管理装置，其中，还包括：

群集存储空间，存储所述数据群集；

编辑单元，接收用于执行针对存储于所述群集存储空间的群集的修改、删除或恢复或者用于生成附加性的数据群集的用户输入。

9.如权利要求8所述的数据群集管理装置，其中，所述编辑单元将与存储的所述数据群集相关联的临界值作为基准而显示存储的所述数据群集。

10.如权利要求8所述的数据群集管理装置，其中，存储的所述数据群集分别与表示删除状态的标识符相关联，且所述编辑单元根据所述用户输入而变更为了删除或恢复而选择的数据群集的所述标识符。

11.一种数据群集管理方法，包括如下步骤：

计算各个数据群集与输入数据之间的相似度，并基于所述相似度而选定所述数据群集中的一个数据群集；

基于被选定的所述数据群集和所述输入数据而判断所述输入数据是否包含于被选定的所述数据群集，并根据所述判断而利用所述输入数据执行生成新的数据群集或者更新被选定的所述数据群集的操作。

12.如权利要求11所述的数据群集管理方法，其中，所述相似度表示所述输入数据的代表值与各个所述数据群集的代表值之间的距离。

13.如权利要求11所述的数据群集管理方法，其中，各个所述数据群集分别与临界值相关联，且选定所述数据群集的步骤中包括如下步骤：

从所述数据群集中抽取所述相似度小于临界值的数据群集；

从抽取的所述数据群集中选定具有值最小的相似度的数据群集。

14.如权利要求11所述的数据群集管理方法，其中，所述判断基于所述输入数据的代表值和被选定的所述数据群集的代表值而执行。

15.如权利要求11所述的数据群集管理方法，其中，执行所述操作的步骤中包括如下步骤：

利用所述输入数据的代表值和所述输入数据的元数据而生成所述新的数据群集或者更新被选定的所述数据群集。

16.如权利要求11所述的数据群集管理方法，其中，执行所述操作的步骤中包括如下步骤：

在所述判断的结果为所述输入数据不包含于被选定的所述数据群集的情况下，生成新的数据群集；

基于与被选定的所述数据群集相关联的临界值而设定所述新的数据群集的临界值。

17.如权利要求16所述的数据群集管理方法，其中，进行所述设定的步骤中包括如下步骤：

所述新的数据群集的临界值被设定为小于被选定的所述数据群集的临界值。

18.如权利要求11所述的数据群集管理方法，其中，还包括如下步骤：

接收用于执行针对所述数据群集的修改、删除或恢复或者用于生成附加性的数据群集的用户输入。

19.如权利要求18所述的数据群集管理方法，其中，还包括如下步骤：

将所述数据群集的临界值作为基准而显示所述数据群集。

20.如权利要求18所述的数据群集管理方法，其中，所述数据群集分别与表示删除状态的标识符相关联，且所述数据群集管理方法还包括如下步骤：

根据所述用户输入而变更为了删除或恢复而选择的数据群集的所述标识符进行变更。