CN110516752A

CN110516752A - 聚类簇质量评估方法、装置、设备及存储介质

Info

Publication number: CN110516752A
Application number: CN201910815752.6A
Authority: CN
Inventors: 熊凯
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-11-29

Abstract

本申请实施例公开了一种聚类簇质量评估方法、装置、设备及存储介质，涉及数据处理领域，其包括：获取目标簇中每个样本在样本集内的S近邻样本集，所述目标簇包含在所述样本集中；统计每个所述样本在全部所述S近邻样本集中出现的频次；根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子；根据所述标准化因子和所述频次计算所述目标簇的质量得分。采用上述方法可以解决现有技术中无法对聚类得到的单个聚的质量进行有效评价的技术问题。

Description

聚类簇质量评估方法、装置、设备及存储介质

技术领域

本申请实施例涉及数据处理技术领域，尤其涉及一种聚类簇质量评估方法、装置、设备及存储介质。

背景技术

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。通常，对包含多个样本的样本集进行聚类后，可以得到多个簇。一般而言，簇内相似度越高、簇间相似度越低，说明聚类效果越好。为了保证聚类效果，在聚类时，需要考虑性能度量。其中，性能度量也可以称为有效性指标，其包括外部指标和内部指标两类。发明人在实现本申请的过程中，发现现有技术存在如下缺陷：无论选择外部指标还是内部指标对聚类结果进行性能评价时，只能对聚类得到的多个簇的整体质量进行评价，无法对单个簇的质量进行有效评价。

发明内容

本申请提供了一种聚类簇质量评估方法、装置、设备及存储介质，以解决现有技术中无法对聚类得到的单个簇的质量进行有效评价的技术问题。

第一方面，本申请实施例提供了一种聚类簇质量评估方法，包括：

获取目标簇中每个样本在样本集内的S近邻样本集，所述目标簇包含在所述样本集中；

统计每个所述样本在全部所述S近邻样本集中出现的频次；

根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子；

根据所述标准化因子和所述频次计算所述目标簇的质量得分。

进一步的，所述根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子包括：

若所述目标簇的样本数量等于或小于S值，则基于所述样本数量确定标准化因子；

所述标准化因子的计算方式为N＝n*(n-1)，其中，N为标准化因子，n为样本数量。

若所述目标簇的样本数量大于S值，则基于所述样本数量确定标准化因子，所述标准化因子的计算方式为N＝n*(n-1)，其中，N为标准化因子，n为样本数量；

所述统计每个所述样本在全部所述S近邻样本集中出现的频次之后，还包括：

确认各所述样本的频次与所述S值的数值关系；

若存在频次大于S值的样本，则将所述频次大于S值的样本对应的频次修改为n-1。

若目标簇的样本数量大于S值，则基于所述样本数量和所述S值确定标准化因子；

所述标准化因子的计算方式为N＝n*S，其中，N为标准化因子，n为样本数量；

确认各所述样本的频次与所述S值的数值关系；

若存在频次大于S值的样本，则将所述频次大于S值的样本对应的频次修改为S。

进一步的，所述根据所述标准化因子和所述频次计算所述目标簇的质量得分包括：

将各所述频次相加，以得到频次和值；

将所述频次和值与所述标准化因子相除，以得到所述目标簇的质量得分。

进一步的，所述根据所述标准化因子和所述频次计算所述目标簇的质量得分之前，还包括：

获取所述目标簇的先验因子；

所述将所述频次和值与所述标准化因子相除，以得到所述目标簇的质量得分包括：

计算所述频次和值和所述先验因子的乘积；

将所述乘积与所述标准化因子相除，以得到所述目标簇的质量得分。

进一步的，所述获取所述目标簇的先验因子包括：

统计目标簇中每个样本与相应S近邻样本集中各近邻样本的样本距离；

计算全部所述样本距离的平均值；

将所述平均值的倒数作为所述目标簇的先验因子。

第二方面，本申请实施例还提供了一种聚类簇质量评估装置，包括：

近邻获取模块，用于获取目标簇中每个样本在样本集内的S近邻样本集，所述目标簇包含在所述样本集中；

频次统计模块，用于统计每个所述样本在全部所述S近邻样本集中出现的频次；

标准化确定模块，用于根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子；

得分计算模块，用于根据所述标准化因子和所述频次计算所述目标簇的质量得分。

第三方面，本申请实施例还提供了一种聚类簇质量评估设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的聚类簇质量评估方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的聚类簇质量评估方法。

上述聚类簇质量评估方法、装置、设备及存储介质，通过统计目标簇内每个样本在目标簇所属样本集中的S近邻样本集，之后，基于S近邻样本集内各样本出现的频次，体现目标簇内各样本的特征相似性，并计算用于标准化的标准化因子，进而根据标准化因子和频次得到质量得分的技术手段，解决了现有技术中无法对聚类得到的单个聚的质量进行有效评价的技术问题，实现了计算单个目标簇的质量得分。同时，该方法计算量小，仅需统计各样本出现在近邻样本中的频次，并且，对于密度不均匀的样本集而言，通过出现在S近邻样本集中的频次进行质量得分计算，而不考虑样本集整体的平均距离或最远距离，也保证准确、快速的计算质量得分。并且，通过先验因子保证质量得分准确性，尤其在数据分布较为均匀时，通过设定先验因子，可以将样本密度高的簇的质量得分升高，将样本密度低的簇的质量得分拉低，以进一步保证质量得分准确性。

附图说明

图1为本申请实施例一提供的样本集聚类结果示意图；

图2为本申请实施例一提供的一种聚类簇质量评估方法的流程图；

图3为本申请实施例二提供的一种聚类簇质量评估方法的流程图；

图4为本申请实施例三提供的一种聚类簇质量评估方法的流程图；

图5为本申请实施例四提供的一种聚类簇质量评估装置的结构示意图；

图6为本申请实施例五提供的一种聚类簇质量评估设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

性能度量包括外部指标和内部指标两类。其中，外部指标可以认为是将聚类结果与某个预先设定的参考模型进行比较，例如，杰卡德(Jaccard)系数、FM指数(Fowlkes andMallows Index，FMI)、兰德指数(Rand index)以及调整兰德指数(Adjusted Rand Index，ARI)是较为典型的外部指标。内部指标可以认为是直接考察聚类结果而不利用任何参考模型，例如，DB指数(Davies-Bouldin Index)、DI指数(Dunn Index,)是较为典型的内部指标。一般而言，内部指标可以对聚类得到的单个簇进行质量评价。此时，计算DB指数和DI指数时，需要计算簇内各样本之间的平均距离，或簇内各样本之间的最远距离，进而将平均距离和最远距离作为单个簇的质量评价。然而，簇内各样本之间的距离值是一个绝对量，对于密度不同的样本集而言，通过绝对量无法准确比较簇的质量优劣。例如，图1为本申请实施例一提供的样本集聚类结果示意图。参考图1，对各样本进行聚类后，得到了两个簇，分别记为簇A和簇B，且两个簇的样本分布密度不同。在通过DB指数和DI指数衡量簇内质量优劣时，两个簇内平均距离和最远距离都是不同的(簇A的平均距离小于簇B的平均距离，簇A的最远距离小于簇B的最远距离)，此时，并不能说明距离小的簇A优于距离大的簇B。同时，对于大规模的样本集而言，求取平均距离以及最大距离时，计算量很大，不利于簇质量评估，即无法实现有效准确的质量评估。有鉴于此，本申请实施例提供一种聚类簇质量评估方法，在无需计算DB指数和DI指数的前提下，对于单个簇的质量进行有效的评价。

实施例一

图2为本申请实施例一提供的一种聚类簇质量评估方法的流程图。实施例中提供的聚类簇质量评估方法可以由聚类簇质量评估设备执行，该聚类簇质量评估设备可以通过软件和/或硬件的方式实现，该聚类簇质量评估设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。例如，聚类簇质量评估设备可以是电脑、手机、平板或交互智能平板等具有数据运算、分析能力的智能设备。

具体的，参考图2，该聚类簇质量评估方法具体包括：

步骤110、获取目标簇中每个样本在样本集内的S近邻样本集，目标簇包含在样本集中。

示例性的，样本集包含一定数量的样本，其中，样本的采集方式实施例不作限定。具体的，样本集中各样本的数据类型通常相同，每个样本代表一个数据特征。例如，样本集中每个样本表示同一用户在设定周期内每天不同时间段内的位置数据。此时，根据数据特征将各样本散落在特征空间不同的位置，其中，预先设定特征散落规则，进而根据该规则确定样本位置。其中，特征散落规则的具体内容可以根据实际情况设定。例如，针对位置数据而言，在特征空间内划分经纬度，之后，基于各样本的位置数据包含的经纬度确定各样本在特征空间的位置。一般而言，特征越相似，样本间的距离越近，因此，通过聚类算法，可以将特征相似的样本聚类为一个簇。其中，聚类方法实施例不作限定，例如，采用DBSCAN算法、OPTICS算法、DENCLUE算法等，实施例中以DBSCAN算法为例。通常，对样本集进行聚类后，得到多个簇，每个簇包含至少两个样本。实施例中，设定各簇中进行质量评估的簇记为目标簇。

具体的，获取该目标簇中每个样本在样本集内的S近邻样本集。其中，S近邻样本集是指在样本集中距离当前样本距离最近的前S个样本的集合。可选的，前S个样本的集合中不包含当前样本本身。

通常，聚类簇质量评估设备可以计算样本集中任意两个样本之间的距离。其中，距离的计算方式实施例不作限定，例如，采用欧式距离、闵可夫斯基距离、曼哈顿距离等方式确定样本间的距离。此时，针对任一样本，计算该样本与样本集中其他每个样本的距离后，获取距离最近的前S个样本，并组成该样本的S近邻样本集，此时，为了便于表述，将S近邻样本集中的各样本称为该样本的近邻样本。其中，S为正整数，其具体数值可以结合样本集内的样本数量以及目标簇的样本数量决定。可以理解是，若样本A的S近邻样本集中包含样本B，样本B的S近邻样本集中包含A，则可以将样本A和样本B记为互为S近邻样本。进一步的，按照上述方式便可以得到目标簇中每个样本的S近邻样本集。可选的，若在聚类过程中，已经计算了样本集中各样本之间的距离，则本步骤时，可以直接基于各距离得到目标簇中每个样本的S近邻样本集。或者是，若在聚类过程中，已经计算了样本集中各样本的S近邻样本集，本步骤则直接获取目标簇中每个样本的S近邻样本集。

可以理解的是，由于目标簇中每个样本的S近邻样本集是针对整个样本集而言，因此，S近邻样本集中的近邻样本可以是目标簇中的其他样本，也可以是样本集中除去目标簇外的其他样本。

步骤120、统计每个样本在全部S近邻样本集中出现的频次。

具体的，在全部的S近邻样本集中，统计目标簇中每个样本出现的次数，并记为对应样本的频次。每个样本均有一个频次。示例性的，频次统计手段实施例不做限定。例如，获取目标簇中任一样本，之后，遍历全部S近邻样本集，当遍历到该样本时，对应的频次加1，当全部S近邻样本集遍历结束后，获取该频次作为该样本在全部S近邻样本集中出现的频次。重复上述操作，直到目标簇中全部样本均存在对应的频次为止。再如，遍历任一S近邻样本集，当目标簇内的样本出现在该S近邻样本集时，对出现的样本进行标记，其中，不同样本采用不同的标记，在当前S近邻样本集遍历结束后，再遍历下一S近邻样本集，并继续对S近邻样本集中目标簇内的样本进行标记，重复上述操作，直到遍历全部S近邻样本集。然后，统计目标簇中各样本被标记的次数，并将该次数作为对应的频次。可选的，统计某个样本的频次时，还可以仅统计除该样本对应的S近邻样本集外的其他S近邻样本集。

步骤130、根据目标簇的样本数量与S值之间的数值关系确定目标簇的标准化因子。

示例性的，标准化是为了保证计算得到的数值可以在固定的区间内，以便于观测结果以及后续计算。实施例中，对目标簇进行质量评估时，加入标准化因子，以保证质量得分可以在固定的区间内。其中，固定的区间设定为[0,1]区间。

进一步的，标准化因子与目标簇的样本数量和S值有关。为了便于表述，实施例中用n表示目标簇的样本数量。具体的，当n小于或等于S值时，说明存在目标簇内各样本是互为S近邻样本的可能。此时，若目标簇内各样本是互为S近邻样本，那么，可以认为聚类效果情况最理想。理性情况下，目标簇内的互为S近邻样本总数量为n*(n-1)，即每个样本在目标簇内都有n-1个互为S近邻样本。因此，在标准化时，可以仅考虑目标簇的样本数量，即通过目标簇的样本数量确定标准化因子。其中，标准化因子的确定方式实施例不作限定，只要使得质量得分有效标准化即可，例如，目标簇标准化因子等于n*(n-1)。

相应的，若n大于S值，则不存在目标簇内各样本是互为S近邻样本的可能，为了保证聚类理想化，可以假设目标簇中各样本是互为S近邻样本。此时，若假设目标簇中各样本是互为S近邻样本，那么，标准化因子可以同样设置为n*(n-1)。此时，为了保证质量得分的准确性，即质量得分在[0,1]区间，实施例中，对目标簇内样本的频次进行修正。举例而言，当假设目标簇中各样本是互为S近邻样本，此时，当频次大于S值时，将频次修改为n-1，即假设频次大于S值的样本在各S近邻样本集中均出现一次，以满足最终得到的质量得分在[0,1]区间。当n大于S值时，为了保证聚类理想化，还可以假设目标簇内每个样本的近邻样本均是目标簇内的其他样本，此时，由于目标簇内每个样本均有S个近邻样本，因此目标簇内包含n*S个互为S近邻样本，相应的，标准化因子可以设置为n*S。那么，为了保证质量得分的准确性，即质量得分在[0,1]区间，同样需要对目标簇内样本的频次进行修正。举例而言，目标簇内每个样本的S个近邻样本均是目标簇内的其他样本时，当频次大于S值时，将频次修改为S值，即频次大于S值的样本在各S近邻样本集中出现的总次数最大为S次，以满足最终得到的质量得分在[0,1]区间。

步骤140、根据标准化因子和频次计算目标簇的质量得分。

具体的，频次越高，说明对应样本与目标簇内其他各样本之间的距离越近，特征越相似，之后，通过标准化因子对频次进行归一化处理，便可以得到表示目标簇聚类质量的质量得分。其中，在计算质量得分时，可以先将目标簇内各样本的频次相加，得到频次和值，即通过频次和值体现目标簇内各样本的特征相似度，之后，将频次和值与标准化因子相除，即进行归一化，以得到质量得分。其中，质量得分越高，说明该目标簇的特征相似度越高，质量越好。

可选的，预先设定得分阈值，当目标簇的质量得分低于该得分阈值时，认为目标簇的质量不合格，此时，可以采用聚类方法对目标簇再聚类一次，以提高目标簇的精确度。

上述，通过统计目标簇内每个样本在目标簇所属样本集中的S近邻样本集，之后，基于S近邻样本集内各样本出现的频次，体现目标簇内各样本的特征相似性，并计算用于标准化的标准化因子，进而根据标准化因子和频次得到质量得分的技术手段，解决了现有技术中无法对聚类得到的单个聚的质量进行有效评价的技术问题，实现了计算单个目标簇的质量得分。同时，该方法计算量小，仅需统计近邻样本中的频次，并且，对于密度不均匀的样本集而言，通过出现在S近邻样本集中的频次进行质量得分计算，而不考虑样本集整体的平均距离或最远距离，也保证了准确、快速的计算簇的质量评分。

实施例二

图3为本申请实施例二提供的一种聚类簇质量评估方法的流程图。本实施例是在上述实施例的基础上进行具体化。具体的，参考图3，本实施例提供的聚类簇质量评估方法具体包括：

步骤210、获取目标簇中每个样本在样本集内的S近邻样本集，目标簇包含在样本集中。

步骤220、统计每个样本在全部所述S近邻样本集中出现的频次。

步骤230、确认目标簇的样本数量是否大于S值。若目标簇的样本数量等于或小于S值，则执行步骤240，若目标簇的样本数量大于S值，则执行步骤250。

为了便于表述，实施例中将目标簇的样本数量记为n。

可以理解的是，在对样本集进行聚类后，理想的情况是簇中各样本均是互为S近邻样本，即簇内的样本之间特征最为相似，此时，簇的质量得分应该为1。因此，实施例中设定通过比较n与S值之间的数值关系确定目标簇内各样本是否存在互为S近邻样本的可能。其中，n与S值之间的数值关系包括大于、小于以及等于。当n等于或小于S值时，存在目标簇内各样本为互为S近邻样本的可能，例如，目标簇的样本数量为5，S值为5，样本数量等于S值，此时，对于目标簇内任一样本的S近邻样本集而言，存在包含目标簇内其他的全部4个样本的可能，此时，执行步骤240。当样本数量大于S值时，不存在目标簇内各样本为互为S近邻样本的可能，例如，目标簇的样本数量为7，S值为5，样本数量大于S值，此时，对于目标簇内任一样本的S近邻样本集而言，其最多包含目标簇内其他的5个样本，而不可能包含目标簇内其他的全部6个样本，此时，执行至步骤250。

需要说明的是，若S值取值较大，则目标簇内各样本为互为S近邻样本的可能越大，但是，计算量会越大，若S值取值较小，则计算量越小，但是，目标簇内各样本为互为S近邻样本的可能越小。因此，S值的设定与n和样本集的样本数量有关。

步骤240、基于样本数量确定标准化因子。执行步骤280。

具体的，标准化因子的计算方式为N＝n*(n-1)，其中，N为标准化因子，n为样本数量。即对于包含n个样本的目标簇而言，其最多有n*(n-1)个样本对。

步骤250、确认各样本的频次与S值的数值关系。若存在频次大于S值的样本，则执行步骤260，否则，保持S值不变，执行步骤270。

示例性的，当目标簇内各样本之间没有互为S近邻样本的可能时，为了计算质量评分，假设目标簇内各样本之间存在互为S近邻样本的可能，此时，标准化因子可以设定为n*(n-1)，即对于包含n个样本的目标簇而言，其最多有n*(n-1)个样本对。由于n大于S，此时，每个样本在目标簇内不可能存在n-1个近邻样本，即目标簇内存在至少一个样本的频次小于n-1，那么，得到频次和值会小于n*(n-1)，此时，得到的质量得分会一直小于1。即在理想情况下，也不能使得质量得分为1。可以理解，在理想情况下目标簇的质量得分应该为1，那么，为了保证计算结果准确性，需要对频次进行修改。考虑到在n大于S时，最理想的情况是目标簇内每个样本的S近邻样本中均是目标簇内的其他样本，此时，每个样本对应的频次均值为S。因此，在修改频次时，确认目标簇内各样本的频次与S值的数值关系，其中，数值关系包括大于、等于以及小于。当某个样本的频次大于S值时，说明该样本与目标簇内其他的样本之间的相似度很高，存在因为S的限制才使得频次没有达到n-1的可能，此时，认为该样本为目标簇内其他样本的近邻样本，执行步骤260。相应的，当某个样本的频次小于或等于S值时，说明该样本与目标簇内其他样本之间的相似度并不是很高，此时，保持该频次不变，以保证计算结果准确性。

具体的，依次确认目标簇内每个样本与S值的数值关系，当某个样本的频次大于S时，执行步骤260，当某个样本的频次小于或等于S值时，保持S值不变，之后，继续确认目标簇内剩余样本与S值的数值关系，直到确认目标簇内全部样本与S值的数值关系且进行修改后，执行步骤270。

步骤260、将频次大于S值的样本对应的频次修改为n-1。执行步骤270。

典型的，当目标簇内某个样本的频次大于S时，将该样本的频次修改为n-1，其中，n为目标簇的样本数量。修次频次后，默认除了该样本对应的S近邻样本集外，其他S近邻样本集中均默认出现该样本，即该样本默认为目标簇内其他样本的近邻样本。

步骤270、基于样本数量确定标准化因子。

由于假设了目标簇内各样本之间存在互为S近邻样本的可能，因此，标准化因子可以设定为N＝n*(n-1)。即标准化因子的计算方式为N＝n*(n-1)，其中，N为标准化因子，n为样本数量。

步骤280、将各频次相加，以得到频次和值。

具体的，获取目标簇内各样本对应的频次，之后，将各频次相加，并将相加结果记为频次和值。典型的，频次和值越高，说明目标簇内各样本出现在各S近邻样本集中的次数越多，目标簇内各样本的特征相似度越高。

步骤290、将频次和值与标准化因子相除，以得到目标簇的质量得分。

具体的，频次和值为一个大于1的整数，不利于统计，因此，对频次和值进行归一化处理，即将频次和值与标准化因子相除，以得到一个在[0,1]范围内的数值，并将该数值作为目标簇的质量得分。可以理解的是，本实施例中，无论样本数量与S值的关系如何，频次和值的最大值对应目标簇内各样本的S近邻样本集中包含目标簇内的其他全部样本的情况，即频次和值的最大值为n*(n-1),因此，将频次和值与标准化因子相除后，其结果的必然在[0,1]范围内。

可选的，为了进一步保证质量得分的准确性，实施例中设定加入先验因子，其中，先验因子为根据经验得到的、用于修正质量得分的数据。其可以人为规定，也可以由聚类簇质量评估设备自行确定。此时，设定步骤280之前，包括：获取所述目标簇的先验因子，步骤290具体包括：计算频次和值和先验因子的乘积；将乘积与标准化因子相除，以得到所述目标簇的质量得分。

具体的，在进行质量得分前，先获取先验因子。之后，将频次和值与先验因子相乘，并将乘积与标准化因子相除，以得到目标簇的质量得分。此时，在质量得分的计算中加入了先验因子，保证了质量得分准确性。

进一步的，以聚类簇质量评估设备确定先验因子为例，此时，获取目标簇的先验因子具体包括：统计目标簇中每个样本与相应S近邻样本集中各近邻样本的样本距离；计算全部样本距离的平均值；将所述平均值的倒数作为目标簇的先验因子。

具体的，针对目标簇，统计其中每个样本与相应S近邻样本集中各近邻样本的样本距离，之后，获取统计得到的全部样本距离，计算平均值，并将平均值的倒数作为该目标簇的先验因子。之后，在质量得分的计算中加入该先验因子，以保证质量得分的准确性。

需要说明的是，先验因子也可以设置为1，此时，可以认为在质量得分中未加入先验因子。此外，可以先将频次和值与标准化因子相除，并将得到的商与先验因子相乘，进而得到质量得分。

上述，通过目标簇的样本数量与S值的数值关系，确定标准化因子，且在样本数量大于S值时，设定频次的修改方式，可以保证标准化因子的选择更为合理化，同时，基于标准化因子和样本频次计算质量得分，可以保证质量得分的准确性，即使在样本集密度不均匀时，仍然可以得到一个准确的质量得分，防止出现密度低的簇质量得分低的情况。并且，通过先验因子保证质量得分准确性，尤其在数据分布较为均匀时，通过设定先验因子，可以将样本密度高的簇的质量得分升高，将样本密度低的簇的质量得分拉低，以进一步保证质量得分准确性。并且，在对样本集进行聚类时，若已经计算了各样本间的距离，那么本实施例可以直接基于该距离得到S近邻样本集以及频次，使得本实施例的计算复杂度低且计算量小。

下面对本实施例提供的技术方案进行示例性描述：

示例一、设定样本集包含20个样本，且每个样本均有对应的索引号，索引号按照1-20顺序排列。对样本集进行DBSCAN聚类后，索引号1-5的5个样本聚类为簇。进一步的，以该簇作为目标簇计算质量得分。具体的，设定S等于5，并获取目标簇内各样本的S近邻样本集。其中，1-5号的样本的S近邻样本集如表1所示：

表1

Data_id	1NN_id	2NN_id	3NN_id	4NN_id	5NN_id	……
							1	3	2	14	5	12
2	3	1	5	4	8
							3	2	1	4	5	17
4	5	2	10	3	15
							5	4	3	2	1	10

参考表1，1NN_id为距离最近的样本索引号，2NN_id为距离第二近的样本索引号，以此类推。进一步的，1号样本的S近邻样本集的索引号为(3、2、14、5、12)，2号样本的S近邻样本集的索引号为(3、1、5、4、8)，3号样本的S近邻样本集的索引号为(2、1、4、5、17)，4号样本的S近邻样本集的索引号为(5、2、10、3、15)，5号样本的S近邻样本集的索引号为(4、3、2、1、10)。基于S近邻样本集，统计1号样本的频次为3、2号样本的频次为4、3号样本的频次为4、4号样本的频次为3、5号样本的频次为4。

进一步的，确定S等于目标簇的样本数量，此时，目标簇内的样本存在互为近邻样本的可能，因此，设定标准化因子的计算方式为N＝n*(n-1)，由于n＝5，所以，标准化因子N＝5*4＝20。

本示例中不考虑先验因子，即设定先验因子为1，此时，目标簇的质量得分为(3+4+4+3+4)/20＝0.9。此时，聚类簇质量评估设备可以简单、快速的得到目标簇的质量得分。

示例二、设定样本集包含20个样本，且每个样本均有对应的索引号，索引号按照1-20顺序排列。对样本集进行DBSCAN聚类后，索引号1-7的7个样本聚类为簇。进一步的，以该簇作为目标簇计算质量得分。具体的，设定S等于4，并获取目标簇内各样本的S近邻样本集。其中，1-7号的样本的S近邻样本集如表2所示：

表2

Data_id	1NN_id	2NN_id	3NN_id	4NN_id	……
						1	3	2	7	5
2	3	1	5	4
						3	2	1	4	9
4	5	2	11	3
						5	4	3	2	1
6	1	8	6	7
						7	6	4	5	2

参考表2，1NN_id为距离最近的样本索引号，2NN_id为距离第二近的样本索引号，以此类推。进一步的，1号样本的S近邻样本集的索引号为(3、2、7、5)，2号样本的S近邻样本集的索引号为(3、1、5、4)，3号样本的S近邻样本集的索引号为(2、1、4、9)，4号样本的S近邻样本集的索引号为(5、2、11、3)，5号样本的S近邻样本集的索引号为(4、3、2、1)，6号样本的S近邻样本集的索引号为(1、8、6、7)，7号样本的S近邻样本集的索引号为(6、4、5、2)。基于S近邻样本集，统计1号样本的频次为4、2号样本的频次为5、3号样本的频次为4、4号样本的频次为4、5号样本的频次为4、6号样本的频次为2、7号样本的频次为2。

进一步的，确定目标簇的样本数量大于S值，此时，依次确认各频次与S值的数值关系，通过比较可知，2号样本的频次大于S值，因此，将2号样本的频次修改为7-1＝6。进一步的，为了保证目标簇内的样本存在互为近邻样本的可能，因此，设定标准化因子的计算方式为N＝n*(n-1)，由于n＝7，所以，标准化因子N＝7*6＝42。

本示例中不考虑先验因子，即设定先验因子为1，此时，目标簇的质量得分为(4+6+4+4+4+2+2)/42＝0.62。此时，聚类簇质量评估设备可以简单、快速的得到目标簇的质量得分。可以理解的是，本实施例中为了便于理解，将S值取为4，实际情况中，S值可以是其他更为准确的数值。

实施例三

图4为本申请实施例三提供的一种聚类簇质量评估方法的流程图。本实施例是在上述实施例的基础上进行具体化。具体的，参考图4，本实施例提供的聚类簇质量评估方法具体包括：

步骤310、获取目标簇中每个样本在样本集内的S近邻样本集，目标簇包含在样本集中。

步骤320、统计每个样本在全部S近邻样本集中出现的频次。

步骤330、确认目标簇的样本数量是否大于S值。若目标簇的样本数量等于或小于S值，则执行步骤340，若目标簇的样本数量大于S值，则执行步骤350。

步骤340、基于样本数量确定标准化因子。执行步骤380。

设定，标准化因子的计算方式为N＝n*(n-1)，其中，N为标准化因子，n为目标簇的样本数量。

步骤350、确认各样本的频次与S值的数值关系。若存在频次大于S值的样本，则执行步骤360，否则，保持S值不变，执行步骤370。

具体的，由于目标簇内每个样本最多只能有S个近邻样本，那么，对于目标簇内每个样本而言，其在目标簇内的互为近邻样本仅能有S个，此时，目标簇内最多仅能有n*S个互为S近邻样本。此时，为了保证聚类结果理想化，可以假设目标簇内每个样本均是目标簇内其他S个样本的近邻样本，即标准化因子可以设置为n*S。考虑到n大于S，那么对于目标簇内任一样本而言，存在其频次大于S的情况，此时，基于频次和值与标准化因子得到的质量得分存在大于1的可能，而理想情况下，质量得分应该为1。此时，为了保证质量得分的准确性，即质量得分在[0,1]区间内，需要对目标簇内样本的频次进行修改。具体的，考虑到在n大于S时，最理想的情况是目标簇内每个样本的S近邻样本中均是目标簇内的其他样本，此时，每个样本对应的频次均值为S。据此，依次确认目标簇内每个样本与S值的数值关系，当某个样本的频次大于S时，为了在使用标准化因子为n*S时，使质量得分在[0,1]之间，执行步骤360，当某个样本的频次小于或等于S值时，保持S值不变，之后，继续确认目标簇内剩余样本的频次与S值的数值关系，直到确认目标簇内全部样本的频次与S值的数值关系且进行修改后，执行步骤370。

步骤360、将频次大于S值的样本对应的频次修改为S。执行步骤370。

具体的，当某个样本的频次大于S值时，将该样本的频次变更为S，以设定频次最大值为S。当某个样本的频次小于或等于S值时，则保持该频次不变，以保证计算结果准确性。

步骤370、基于样本数量和S值确定标准化因子。

标准化因子的计算方式为N＝n*S，其中，N为标准化因子，n为样本数量。具体的，修改频次后，由于频次的最大值为S，那么当前目标簇最好的聚类结果是每个样本的频次均为S，因此，设定标准化因子为n*S。

步骤380、将各频次相加，以得到频次和值。

步骤390、将频次和值与标准化因子相除，以得到目标簇的质量得分。

当样本数量大于S值时，由于频次最大值为S，频次和值的最大值为n*S，因此，将频次和值与对应的标准化因子相除后，其结果的必然在[0,1]范围内。当样本数量小于或等于S值时，由于频次最大值为n-1，频次和值的最大值为n*(n-1)，因此，将频次和值与对应的标准化因子相除后，其结果的必然在[0,1]范围内。

本实施例同样可以考虑先验因子的情况，此时，设定步骤380之前，还包括：获取所述目标簇的先验因子，步骤390具体包括：计算所述频次和值和所述先验因子的乘积；将所述乘积与所述标准化因子相除，以得到所述目标簇的质量得分。

其中，获取目标簇的先验因子具体为：统计目标簇中每个样本与相应S近邻样本集中各样本的样本距离；计算全部样本距离的平均值；将平均值的倒数作为样本集的先验因子。

下面对本实施例提供的技术方案进行示例性描述：

设定样本集包含20个样本，且每个样本均有对应的索引号，索引号按照1-20顺序排列。对样本集进行DBSCAN聚类后，索引号1-5的5个样本聚类为簇。进一步的，以该簇作为目标簇计算质量得分。具体的，设定S等于3，并获取目标簇内各样本的S近邻样本集。其中，1-5号的样本的S近邻样本集如表3所示：

表3

Data_id	1NN_id	2NN_id	3NN_id	……
					1	3	2	5
2	3	1	5
					3	2	1	4
4	5	2	3
					5	4	1	2

参考表3，1NN_id为距离最近的样本索引号，2NN_id为距离第二近的样本索引号，以此类推。进一步的，1号样本的S近邻样本集的索引号为(3、2、5)，2号样本的S近邻样本集的索引号为(3、1、5)，3号样本的S近邻样本集的索引号为(2、1、4)，4号样本的S近邻样本集的索引号为(5、2、3)，5号样本的S近邻样本集的索引号为(4、1、2)。基于S近邻样本集，统计1号样本的频次为3、2号样本的频次为4、3号样本的频次为3、4号样本的频次为2、5号样本的频次为3。

进一步的，确定目标簇的样本数量大于S值，此时，依次确认各频次与S值的数值关系，通过比较可知，2号样本的频次大于S值，因此，将2号样本的频次修改为S，即2号样本的频次为3。进一步的，设定标准化因子的计算方式为N＝n*S，由于n＝5，S为3，所以，标准化因子N＝5*3＝15。

本示例中不考虑先验因子，即设定先验因子为1，此时，目标簇的质量得分为(3+3+3+2+3)/15＝0.93。此时，聚类簇质量评估设备可以简单、快速的得到目标簇的质量得分。

实施例四

图5为本申请实施例四提供的一种聚类簇质量评估装置的结构示意图。参考图5，该聚类簇质量评估装置包括：近邻获取模块401、频次统计模块402、标准化确定模块403以及得分计算模块404。

其中，近邻获取模块401，用于获取目标簇中每个样本在样本集内的S近邻样本集，所述目标簇包含在所述样本集中；频次统计模块402，用于统计每个所述样本在全部所述S近邻样本集中出现的频次；标准化确定模块403，用于根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子；得分计算模块404，用于根据所述标准化因子和所述频次计算所述目标簇的质量得分。

上述，通过统计目标簇内每个样本在目标簇所属样本集中的S近邻样本集，之后，基于S近邻样本集内各样本出现的频次，体现目标簇内各样本的特征相似性，并计算用于标准化的标准化因子，进而根据标准化因子和频次得到质量得分的技术手段，解决了现有技术中无法对聚类得到的单个聚的质量进行有效评价的技术问题，实现了计算单个目标簇的质量得分。同时，该方法计算量小，仅需统计近邻样本中的频次，并且，对于密度不均匀的样本集而言，通过出现在S近邻样本集中的频次进行质量得分计算，而不考虑样本集整体的平均距离或最远距离了，也保证了簇的质量评分准确、快速。

在上述实施例的基础上，标准化确定模块403具体用于：若目标簇的样本数量等于或小于S值，则基于所述样本数量确定标准化因子；所述标准化因子的计算方式为N＝n*(n-1)，其中，N为标准化因子，n为样本数量。

在上述实施例的基础上，标准化确定模块403具体用于：若目标簇的样本数量大于S值，则基于所述样本数量确定标准化因子，所述标准化因子的计算方式为N＝n*(n-1)，其中，N为标准化因子，n为样本数量。相应的，样本集质量计算装置还包括：第一确认模块，用于统计每个所述样本在全部所述S近邻样本集中出现的频次之后，确认各所述样本的频次与所述S值的数值关系；第一变更模块，用于若存在频次大于S值的样本，则将所述频次大于S值的样本对应的频次修改为n-1。

在上述实施例的基础上，标准化确定模块403具体用于：若目标簇的样本数量大于S值，则基于所述样本数量和所述S值确定标准化因子；所述标准化因子的计算方式为N＝n*S，其中，N为标准化因子，n为样本数量。相应的，样本集质量计算装置还包括：所述统计每个所述样本在全部所述S近邻样本集中出现的频次之后，还包括：第二确认模块，用于统计每个所述样本在全部所述S近邻样本集中出现的频次之后，确认各所述样本的频次与所述S值的数值关系；第二变更模块，用于若存在频次大于S值的样本，则将所述频次大于S值的样本对应的频次修改为S。

在上述实施例的基础上，得分计算模块404包括：频次求和单元，用于将各频次相加，以得到频次和值；数值相除单元，用于将所述频次和值与所述标准化因子相除，以得到所述目标簇的质量得分。

在上述实施例的基础上，样本集质量计算装置还包括：先验获取模块，用于根据所述标准化因子和所述频次计算所述目标簇的质量得分之前，获取所述目标簇的先验因子。相应的，所述数值相除单元包括：乘积计算子单元，用于计算所述频次和值和所述先验因子的乘积；乘积相除子单元，用于将所述乘积与所述标准化因子相除，以得到所述目标簇的质量得分。

在上述实施例的基础上，先验获取模块包括：距离统计单元，用于统计目标簇中每个样本与相应S近邻样本集中各近邻样本的样本距离；均值计算单元，用于计算全部所述样本距离的平均值；先验确定单元，用于将所述平均值的倒数作为所述目标簇的先验因子。

本申请实施例提供的聚类簇质量评估装置包含在聚类簇质量评估设备中，且可用于执行上述任意实施例提供的聚类簇质量评估方法，具备相应的功能和有益效果。

实施例五

图6为本申请实施例五提供的一种聚类簇质量评估设备的结构示意图。如图6所示，该聚类簇质量评估设备包括处理器50、存储器51、输入装置52以及输出装置53；聚类簇质量评估设备中处理器50的数量可以是一个或多个，图6中以一个处理器50为例；聚类簇质量评估设备中的处理器50、存储器51、输入装置52以及输出装置53可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的聚类簇质量评估方法对应的程序指令/模块(例如，聚类簇质量评估装置中的近邻获取模块401、频次统计模块402、标准化确定模块403和得分计算模块404)。处理器50通过运行存储在存储器41中的软件程序、指令以及模块，从而执行聚类簇质量评估设备的各种功能应用以及数据处理，即实现上述的聚类簇质量评估方法。

存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据聚类簇质量评估设备的使用所创建的数据等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至聚类簇质量评估设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置52可用于接收输入的数字或字符信息，以及产生与聚类簇质量评估设备的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。

上述聚类簇质量评估设备包含聚类簇质量评估装置，可以用于执行任意样本聚类簇质量评估方法，具备相应的功能和有益效果。

实施例六

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种聚类簇质量评估方法，该方法包括：

统计每个所述样本在全部所述S近邻样本集中出现的频次；

根据所述目标簇的样本数量与S值间的数值关系确定所述目标簇的标准化因子；

当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本申请任意实施例所提供的聚类簇质量评估方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

值得注意的是，上述聚类簇质量评估装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种聚类簇质量评估方法，其特征在于，包括：

统计每个所述样本在全部所述S近邻样本集中出现的频次；

2.根据权利要求1所述的聚类簇质量评估方法，其特征在于，所述根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子包括：

3.根据权利要求1所述的聚类簇质量评估方法，其特征在于，所述根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子包括：

确认各所述样本的频次与所述S值的数值关系；

4.根据权利要求1所述的聚类簇质量评估方法，其特征在于，所述根据所述目标簇的样本数量与S值之间的数值关系确定所述目标簇的标准化因子包括：

确认各所述样本的频次与所述S值的数值关系；

5.根据权利要求1所述的聚类簇质量评估方法，其特征在于，所述根据所述标准化因子和所述频次计算所述目标簇的质量得分包括：

将各所述频次相加，以得到频次和值；

6.根据权利要求5所述的聚类簇质量评估方法，其特征在于，所述根据所述标准化因子和所述频次计算所述目标簇的质量得分之前，还包括：

获取所述目标簇的先验因子；

计算所述频次和值和所述先验因子的乘积；

7.根据权利要求6所述的聚类簇质量评估方法，其特征在于，所述获取所述目标簇的先验因子包括：

计算全部所述样本距离的平均值；

将所述平均值的倒数作为所述目标簇的先验因子。

8.一种聚类簇质量评估装置，其特征在于，包括：

9.一种聚类簇质量评估设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的聚类簇质量评估方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的聚类簇质量评估方法。