CN105183804A

CN105183804A - 一种基于本体的聚类服务方法

Info

Publication number: CN105183804A
Application number: CN201510530293.9A
Authority: CN
Inventors: 曹菡; 王振璇; 郭延辉
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2015-08-26
Filing date: 2015-08-26
Publication date: 2015-12-23
Anticipated expiration: 2035-08-26
Also published as: CN105183804B

Abstract

本发明公开了一种基于本体的聚类服务方法，该方法首先构建一个顶层本体，基于顶层本体标注用户的聚类任务、聚类数据与已有聚类算法，对已标注本体进行属性选择，并作正二进制转换，得到任务事务、任务-数据和任务-聚类三个二进制向量，通过计算用户任务事务与历史任务事务数据库中的任务事务相似度，任务-数据与任务-聚类相似度，选择第一候选聚类算法与第二候选聚类算法，并实施聚类算法，最后使用Dunn聚类算法评价指标，评价聚类结果，将符合要求的结果返回给用户，是结合历史聚类任务，基于本体进行任务相似度计算，以选择合适的聚类算法，运行聚类算法并应用评价指标评价聚类算法，最终向用户提供最优聚类算法的聚类服务方法。

Description

一种基于本体的聚类服务方法

技术领域

本发明属于数据挖掘技术与聚类算法领域，具体涉及一种根据用户目标，采用本体服务框架实现自动匹配，执行聚类算法并评价聚类算法结果的方法。

背景技术

聚类算法是数据挖掘领域的经典方法。大数据时代，通过聚类算法分析海量数据，从中得到更有价值的信息，从而获得更好的决策能力。目前随着对聚类算法研究的不断深入，研究人员提出了越来越多不同的聚类算法，包括基于划分的聚类、基于网格的聚类、基于密度的聚类以及基于层次的聚类，这些算法针对不同维度、规模，类型的数据集提出，针对相同的数据集，使用两个不同的聚类算法，得到的结果可能会有很大差异。用户由于缺乏对具体聚类算法的了解，无法把握数据特征，从而选择了错误的聚类算法，导致聚类结果不理想。根据此问题，利用已有的领域知识，实现聚类算法的自动匹配与执行，以及评估聚类算法的结果，是一种理想的解决方案。

目前已有的聚类服务方案，主要分为两类：一是指定固定的聚类算法，实施聚类算法并返回结果，该类服务方案不需要处理种类繁多的聚类算法，但是有限的选择也导致最终聚类结果不理想；另一类是针对特定的应用领域，提供聚类算法选择方案，该类服务方案的优点是，针对特定应用领域，可以更细致地划分聚类任务与聚类目标，从而更精确地匹配聚类算法，最终聚类结果也更符合用户目标，该类服务方案的缺点是应用范围单一。

发明内容

为了克服现有技术中聚类服务所存在的不足，本发明提供了一种结合历史聚类任务，基于本体进行任务相似度计算，能够为用户提供最优的聚类算法的聚类服务方法。

本发明实现上述目的所采用的技术方案是由以下步骤组成：

(1)构建顶层本体，该顶层本体包含数据类、任务类以及聚类算法类；

其中数据类的属性包括数据量大小、数据维度、数据类型和数据主题；任务类的属性包括任务动作、任务对象、任务聚类结果和任务预期聚类簇数；所述聚类算法类的属性包括聚类算法名、聚类数据类型、聚类数据量大小、聚类数据维度、相似度衡量方法、噪音点敏感、聚类结果、是否设定簇数；

上述的数据量大小、数据维度、聚类数据量大小、聚类数据维度、任务预期聚类簇数、噪音点敏感以及是否设定簇数属性均为布尔类型属性；

设定数据中，若数据量大于20万条，则数据量大小属性取值为1；否则取值为0；若数据维度大于16，则数据维度属性取值为1；否则取值为0；

设定聚类算法中，若聚类算法时间复杂度T≥O(t²)，t为数据量的规模，则聚类数据量大小属性取值为1；否则为0；

若聚类算法适合处理多于16个维度的数据集，则聚类数据维度取值为1；否则，取值为0；

若聚类算法对噪音点不敏感，则噪音点敏感属性取值为1；否则，取值为0；

若聚类算法需要用户提供聚类簇数作为参数，则是否设定簇数属性取值为1；否则，取值为0；

上述的数据类型、任务动作、任务对象、任务聚类结果、聚类数据类型、相似度衡量方法以及聚类形状均为枚举型属性；

上述的任务预期聚类簇数为数值型属性；

数据类型和聚类数据类型的值域均为数值型、二进制型和字符型；任务动作的值域为匹配、分割和查找；任务对象的值域为数据中的所有维度；任务聚类结果和聚类结果的值域为凸形和其它形状；相似度衡量方法值域为距离、密度、网格分割和混合模型；

(2)根据所构建的顶层本体对聚类算法库中的每一个聚类算法进行标注，得到聚类算法实例；

(3)用户输入待聚类数据集，使用顶层本体对该待聚类数据集进行标注，得到数据实例；

(4)构建用户任务选择菜单，引导用户将聚类目标分解为聚类任务，并使用顶层本体进行标注，得到任务实例；

用户任务选择菜单包括四项一级菜单，对应任务类的4个属性，每个一级菜单附属一个二级菜单，二级菜单项为对应属性的值域，用户将菜单选择完毕后，即确定四个属性的取值，将属性值写入RDF规则文件，生成一个任务实例；

(5)根据步骤(3)与步骤(4)所得的数据实例与任务实例，选取其中所包含的除任务对象以外的布尔型、枚举型和数值型的属性，经正二进制转换得到本任务事务，同时从历史任务事务库中获取历史任务事务，用余弦相似度法计算历史任务事务与本任务事务的相似度；

(6)根据步骤(5)所得相似度，确定与本任务事务相似度最大的历史任务事务，选取该历史任务事务所对应的聚类算法作为第一候选聚类算法；

(7)根据步骤(3)与步骤(4)所得的数据实例与任务实例，选取任务实例中的任务聚类结果、任务预期聚类簇数和数据类中的数据量大小、数据维度以及数据类型，经正二进制转换，得到任务-数据实例；同理，根据步骤(2)中的聚类算法实例选取聚类结果、是否设定簇数、聚类数据量大小、聚类数据维度以及聚类数据类型，经正二进制转换，得到任务-聚类实例；用余弦相似度法计算任务-数据实例与任务-聚类实例之间的相似度，并根据所得相似度，确定与任务-数据实例相似度最大的任务-聚类实例，选取该任务-聚类实例对应的聚类算法作为第二候选聚类算法；

(8)根据步骤(6)和步骤(7)，执行第一候选聚类算法与第二候选聚类算法并得到聚类结果，利用Dunn聚类算法评价指标分别对其聚类结果进行评价，选取Dunn指标值较大的聚类结果，呈现给用户；

(9)用户判断是否对所呈现的聚类结果满意，若用户对聚类结果满意，将执行本次任务生成的任务事务存入历史任务事务数据库，并关联此次任务选取的聚类算法，结束本次任务；否则，执行步骤(10)；

(10)重复执行(4)到(9)。

上述步骤(2)中的聚类算法的标注方法具体是：针对每个聚类算法，人工审查聚类算法的实现代码，依据代码内容，确定聚类算法类中各个属性的取值，将所有的属性值写入RDF规则文件，生成聚类算法实例。

上述步骤(3)中的聚类数据集的标注方法具体是：系统根据用户上传的数据集，自动执行查询程序，查询数据特征，确定数据类中数据维度，数据量大小以及数据类型三个属性的取值，数据主题属性值由人工根据数据集所表示的专业领域确定；确定各属性值后，将所有属性值写入RDF规则文件，生成数据实例。

上述正二进制转换的具体方法是：依次处理每个属性，对于布尔型属性，若值为真，则对应二进制位为1，否则为0；对于枚举型属性，每个枚举值对应一个二进制位，对每个枚举值，若属性取该枚举值，对应二进制位为1，否则为0；对于数值型属性，若值为0，则对应二进制位为0，否则为1。

上述步骤(5)中所述余弦相似度法的计算方法为：

其中，与表示两个向量，与分别表示与的模，A_i与B_i分别表示向量与的第i个分量，使用cos(θ)衡量两个向量的相似性，其值域为-1到1，-1表示两个向量正好截然相反，1表示两个向量完全相同，0通常表示它们之间是独立的，位于-1与1之间的值则表示两个向量的相似性。

上述步骤(8)的Dunn指标的计算公式如下：

D = \underset{p = 1, 2, .., m}{m i n} {\underset{q = p + 1, .., m}{m i n} {\frac{d (c_{p}, c_{q})}{\underset{k = 1, 2, ..., m}{m a x} d i a m (c_{k})}}}

其中，c_p表示簇p，聚类结果中共有m个簇，d(c_p,c_q)是簇c_p与c_q之间的不一致性度量，表示两个簇中差异最小的两个点之间的距离，diam(c_k)是簇c_k的直径，用于度量簇内的离散程度，它的定义如下：

d i a m (c_{k}) = \underset{x, y &Element; c_{k}}{m a x} d i s t (x, y)

x,y表示簇c_k中的点，dist(x,y)为点x,y的距离，该式表明，簇c_k的直径数值等于簇内距离最大的两个点的距离数值；Dunn指标用类间的最大距离和所有类的最大直径的比值来判定聚类效果，Dunn指标越大，说明聚类效果越好。

本发明所提供的基于本体的聚类服务方法，是结合历史聚类任务，基于本体进行任务相似度计算，以选择合适的聚类算法，运行聚类算法并应用评价指标评价聚类算法，最终向用户提供最优聚类算法的聚类服务方法。

与现有聚类服务方法相比，本发明具有如下优点：

(1)本发明适用范围广泛，不局限于单一应用领域；

(2)本发明充分利用历史聚类任务，以计算新的聚类任务所应采取的聚类算法；

(3)本发明利用顶层本体，对聚类任务、聚类数据与聚类算法分别进行标注，并基于被标注的本体实例计算相似度，使聚类算法的选择过程更准确。

(4)本发明在选择并执行聚类算法之后，使用聚类评价方法对聚类进行评价，并将结果返回给用户，根据用户的反馈选择完成任务或继续选择并执行聚类算法。

具体实施方法

现结合实施例对本发明的技术方案进行进一步说明。

本实施例的基于本体的聚类服务方法是由以下步骤组成：

(1)构建顶层本体

借助本体模型，构建顶层本体，该本体用于帮助计算机理解不同聚类算法，不同聚类任务以及不同的聚类数据，顶层本体包括任务类，数据类以及聚类算法类，具体是：

(a)数据类数据类的属性包括数据量大小、数据维度、数据类型和数据主题；预先设定：数据量大小为布尔型属性，当数据量大于20万条，取值为1，否则取值为0；数据维度为布尔型属性，当数据维度大于16，取值为1，否则取值为0；数据类型为枚举型属性，值域为“数值型”，“二进制数据”“字符型”；数据主题为字符型属性，表示该数据集属于何种领域。

(b)任务类任务类的属性包括任务动作、任务对象、任务聚类结果和任务预期聚类簇数。

任务动作为枚举型属性，其值域为“匹配”、“分割”和“查找”；

任务对象为枚举型属性，其值域为数据中的所有维度；

任务聚类结果为枚举型属性，其值域为凸形和其它形状。

任务预期聚类簇数为数值属性，是指用户指定期望的聚类结果簇的个数。

(c)聚类算法类聚类算法类的属性包括聚类算法名、聚类数据类型、聚类数据量大小、聚类数据维度、相似度衡量方法、噪音点敏感、聚类结果和是否设定簇数。

聚类算法名为字符型属性。

聚类数据类型为枚举型属性，该属性表示聚类算法可处理的数据类型；其值域为数值型、二进制数据和字符型。

聚类数据量大小为布尔类型属性，当聚类算法时间复杂度T≥O(t²)，t为数据量的规模或更大，则聚类数据量大小属性取值为1；否则为0。

聚类数据维度为布尔型属性，当聚类算法适合处理多于16个维度的数据集时，聚类数据维度取值为1；否则，取值为0。

相似度衡量方法为枚举型属性，其值域为距离、密度、网格分割和混合模型；

噪音点敏感为布尔类型属性，当聚类算法对噪音点不敏感，取值为1；否则，取值为0；

聚类结果为枚举型属性，值域为凸形和其它形状；

是否设定簇数为布尔类型属性，当聚类算法需要用户提供聚类簇数目参数，取值为1；否则，取值为0；

(2)根据所构建的顶层本体对聚类算法库中的每一个聚类算法用人工审查聚类算法的实现代码，依据代码内容，确定聚类算法类中各个属性的取值，将所有属性值写入RDF规则文件，生成聚类算法实例。

该聚类算法库中包含有由人工录入的各种聚类算法，包含该算法的执行体，经过本体标注过程后，每一个聚类算法实例对应聚类算法库中的一个聚类算法。

例如，如下为DBSCAN聚类算法实例写入RDF文件后的形式：

<RDF>

<Descriptionabout＝"聚类算法实例">

<聚类算法名>DBSCAN<聚类算法名>

<聚类数据类型>数值型</聚类数据类型>

<聚类数据维度>0</聚类数据维度>

<聚类数据量大小>0</聚类数据量大小>

<相似度衡量方法>密度</相似度衡量方法>

<噪音点敏感>0</噪音点敏感>

<聚类结果>其它形状</聚类结果>

<是否设定簇数>0</是否设定簇数>

</Description>

</RDF>

(3)用户输入待聚类数据集，使用顶层本体对该待聚类数据集进行标注，即系统根据用户上传的数据集，自动执行查询程序，查询数据特征，确定数据类中数据维度、数据量大小以及数据类型三个属性的取值，数据主题属性值由人工根据数据集所表示的专业领域确定，确定各属性值后，将所有的属性值写入RDF规则文件，生成数据实例。

如下所示为一个3维，并具有6000行的数据实例写入RDF文件后的形式：

<RDF>

<Descriptionabout＝"数据实例">

<数据量大小>0</数据量大小>

<数据维度>0</数据维度>

<数据类型>数值型</数据类型>

<数据主题>经纬度位置</数据主题>

</Description>

</RDF>

(4)构建用户任务选择菜单，引导用户将聚类目标分解为聚类任务，并使用顶层本体进行标注，得到任务实例。

用户任务选择菜单包括四项一级菜单，对应任务类的4个属性，即分别为任务动作、任务对象、任务聚类结果和任务预期聚类簇数；每个一级菜单附属一个二级菜单，二级菜单项为每个任务类属性对应的值域。用户将菜单选择完毕后，即确定4个属性的取值，将属性值写入RDF规则文件，生成一个任务实例。

如下为目标“查找国内热点旅游地区”，通过任务选择菜单引导后，经过标注得到任务实例，写入RDF文件后的形式：

<RDF>

<Descriptionabout＝"任务实例">

<任务动作>查找</任务动作>

<任务对象>经度；纬度</任务对象>

<任务聚类结果>其它形状</任务聚类结果>

<预期聚类簇数>0</预期聚类簇数>

</Description>

</RDF>

(5)根据步骤(3)与步骤(4)所得的数据实例与任务实例，选取其中所包含的除任务对象以外的布尔型、枚举型以及数值型的属性，经正二进制转换得到本任务事务，同时从历史任务事务库中获取历史任务事务，用余弦相似度法计算历史任务事务与本任务事务的相似度；

历史任务事务库存储已经执行完成的历史任务事务与该历史任务事务所对应的聚类算法。

正二进制转换的步骤如下：

(5.1)若属性为布尔型，则若布尔型值为真，对应二进制位为1，若为假，对应二进制位0；

(5.2)若属性为枚举型，每个枚举值作为一个二进制位，若属性取该值，对应的二进制位设置为1，否则为0，若属性为数值类型，如果取值为0，对应二进制位设为0，否则设置为1；

(5.3)若属性为数值型，若属性取值为0，则对应二进制位设为0，否则设置为1；

(5.4)若所有属性执行完毕，则转换结束，否则继续转换下一属性，执行步骤(5.1)。

根据步骤(3)与步骤(4)中的示例，组成的任务事务具体示例如表1所示：

表1任务事务示例

历史任务事务为形式相同的二进制向量。

使用余弦相似度法计算本任务事务与历史任务事务相似度，余弦相似度法公式如下：

其中，分别为需要计算相似度的两个向量，在本例中为本任务事务与历史任务事务；n为任务事务的维度，A_i为任务事务中的第i个分量；

相似度计算结果值域为-1～1，-1表示两个向量正好截然相反，1表示两个向量完全相同，0通常表示它们之间是独立的，而在这之间的值则表示两个向量的相似性。

(7)根据步骤(3)与步骤(4)所得的数据实例与任务实例，选取任务类中的任务聚类结果、任务预期聚类簇数和数据类中的数据量大小、数据维度以及数据类型，经正二进制转换，得到任务-数据实例；

根据步骤(3)与步骤(4)中的示例，组成的任务-数据实例具体示例如表2所示：

表2任务-数据实例

根据步骤(2)中的聚类算法实例选取聚类结果、是否设定簇数、聚类数据量大小、聚类数据维度以及聚类数据类型，经正二进制转换，得到任务-聚类实例。

根据步骤(2)中的示例，组成的任务-聚类实例具体示例如表3所示：

表3任务-聚类实例

用余弦相似度法计算任务-数据实例与任务-聚类实例之间的相似度，余弦相似度算法与步骤(5)中的余弦相似度法相同，根据所得相似度，确定与任务-数据实例相似度最大的任务-聚类实例，选取该任务-聚类实例对应的聚类算法作为第二候选聚类算法。

在本示例中，任务-数据实例与任务-聚类实例相似度为1，所以选择任务-聚类实例所对应的DBSCAN聚类算法作为第二聚类算法。

(8)根据步骤(6)与步骤(7)，执行匹配到的第一候选聚类算法与第二候选聚类算法，并将得到聚类结果，使用Dunn聚类算法评价指标分别对其聚类结果进行评价，将Dunn指标值较大的聚类结果呈现给用户；

Dunn指标计算公式如下：

D = \underset{p = 1, 2, .., m}{m i n} {\underset{q = p + 1, .., m}{m i n} {\frac{d (c_{p}, c_{q})}{\underset{k = 1, 2, ..., m}{m a x} d i a m (c_{k})}}}

其中，c_p表示簇p，聚类结果中共有m个簇；d(c_p,c_q)是簇c_p与c_q之间的不一致性度量，表示两个簇中差异最小的两个点之间的距离；diam(c_k)是簇c_k的直径，用于度量簇内的离散程度，它的定义如下：

d i a m (c_{k}) = \underset{x, y &Element; c_{k}}{m a x} d i s t (x, y)

x,y表示簇c_k中的点，dist(x,y)为点x,y的距离。

该式表明，簇c_k的直径数值等于簇内距离最大的两个点的距离数值。Dunn指标用类间的最大距离和所有类的最大直径的比值来判定聚类效果，Dunn指标越大，说明聚类效果越好。

(9)根据步骤(8)，用户判断对返回的聚类结果是否满意，若用户对聚类结果满意，将执行本次任务生成的任务事务存入历史任务事务数据库，并关联此次任务选取的聚类算法，结束本次任务；否则，执行步骤(10)；

(10)重复执行(4)到(9)，直至用户得到满意的聚类结果。

Claims

1.一种基于本体的聚类服务方法，其特征在于由以下步骤组成：

上述的任务预期聚类簇数为数值型属性；

(10)重复执行(4)到(9)。

2.根据权利要求1所述的基于本体的聚类服务方法，其特征在于：所述步骤(2)中的聚类算法的标注方法具体是：针对每个聚类算法，人工审查聚类算法的实现代码，依据代码内容，确定聚类算法类中各个属性的取值，将所有的属性值写入RDF规则文件，生成聚类算法实例。

3.根据权利要求1所述的基于本体的聚类服务方法，其特征在于：所述步骤(3)中的聚类数据集的标注方法具体是：系统根据用户上传的数据集，自动执行查询程序，查询数据特征，确定数据类中数据维度，数据量大小以及数据类型三个属性的取值，数据主题属性值由人工根据数据集所表示的专业领域确定；确定各属性值后，将所有属性值写入RDF规则文件，生成数据实例。

4.根据权利要求1所述的基于本体的聚类服务方法，其特征在于：所述正二进制转换的具体方法是：依次处理每个属性，对于布尔型属性，若值为真，则对应二进制位为1，否则为0；对于枚举型属性，每个枚举值对应一个二进制位，对每个枚举值，若属性取该枚举值，对应二进制位为1，否则为0；对于数值型属性，若值为0，则对应二进制位为0，否则为1。

5.根据权利要求1所述的基于本体的聚类服务方法，其特征在于：所述步骤(5)中的余弦相似度法的计算方法为：

6.根据权利要求1所述的基于本体的聚类服务方法，其特征在于：所述步骤(8)的Dunn指标的计算公式如下：

D = \underset{p = 1, 2, .., m}{m i n} {\underset{q = p + 1, .., m}{m i n} {\frac{d (c_{p}, c_{q})}{\underset{k = 1, 2, ..., m}{m a x} d i a m (c_{k})}}}

d i a m (c_{k}) = \underset{x, y &Element; c_{k}}{m a x} d i s t (x, y)