CN111475610B

CN111475610B - 一种基于密度峰值检测的Mashup服务聚类方法

Info

Publication number: CN111475610B
Application number: CN202010127369.4A
Authority: CN
Inventors: 陆佳炜; 吴涵; 马超治; 徐俊; 程振波; 肖刚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2022-06-17
Anticipated expiration: 2040-02-28
Also published as: CN111475610A

Abstract

一种基于密度峰值检测的Mahsup服务聚类方法，所述方法包括以下步骤：第一步、对于所有参与聚类的Mashup服务的特征向量，进行局部密度、向量间距离和较高密度最近距离计算；第二步、基于第一步计算的密度信息，从所有Mashup服务特征向量中，筛选出聚类中心的候选点；第三步、对第二步所得的聚类中心候选点，进一步筛选出最为合适的K个初始聚类中心，进行K‑means聚类。本发明能够有效提升Mashup服务聚类精度，缩小服务搜索空间。

Description

一种基于密度峰值检测的Mashup服务聚类方法

技术领域

本发明涉及Mashup服务聚类领域，具体涉及一种基于密度峰值检测的 Mahsup服务聚类方法。

背景技术

Mashup技术是一种便捷高效的Web应用开发技术，它可以通过混搭多种不同功能的Web API，从而快速的构建出满足用户需求的Mashup服务。在Mashup 技术的支持下，软件开发人员通常可以参考功能相近的Mashup服务，进而完成Mashup服务的构建工作。然而，随着互联网上Mashup服务数量及种类的急剧增长，如何从这些海量的服务集合中快速、精准的发现满足最具参考价值的 Mashup服务，成为一个具有挑战性的问题。

大量研究工作表明，如果预先将Mashup服务进行精准聚类可以有效缩小服务的搜索空间，提升服务定位精度。例如，Chen等人就利用Web服务描述语言 (WSDL)文档，来提取服务功能特征，并结合服务标签进行聚类。可是由于目前大多数的Mashup服务仅采用自然语言的方式对服务进行描述，缺乏规范性的 WSDL文档，这极大的增加了提取服务功能特征的难度。所以现有的许多研究开始基于LDA模型对Mashup服务进行面向功能主题的聚类，或者利用TF-IDF、 Word2Vec等模型对服务描述文本构造特征向量完成聚类。例如，Shi等人通过结合Word2Vec和LDA,设计出一种增强LDA模型，用于生成高质量的词向量模型, 从而改进Mashup服务聚类性能。Gao等人将每个Mashup服务描述文本转化为 TF-IDF向量进行表示，再通过K-means算法对这些TF-IDF向量进行聚类。然而，对于现有的研究工作，多数聚类方案都是将K-means算法或其改进算法作为 Mashup服务聚类的实现，但是并未对K-means初始中心选择问题提出一种成熟有效的解决方法，而初始中心选择的好坏与否又将直接影响最终的K-means聚类效果。因此，解决这一问题也可以作为提升Mashup服务聚类精度的重要方向。

为此，Rodriguez等人于2014年提出了一种密度峰值聚类(DPC)算法，用于解决聚类中心的选择问题，其核心思想在于通过统计每个数据点在截断距离 d_c范围内的数据点个数来求得局部密度ρ，进而结合数据点与较高密度点的最近距离δ这个属性来绘制出决策图，最后使用决策图快速的确定聚类中心。DPC 算法的思想虽然简明高效，但是在实际应用中还是存在一些问题：(1)聚类效果十分依赖于截断距离的选取；(2)数据量大时，可能无法轻易的从决策图中挑出合适的聚类中心点。因此，若能对此类问题进行改进，并应用于Mashup服务聚类场景中，也将有助于提升聚类的整体性能。

发明内容

为了能够有效提升Mashup服务聚类精度，缩小服务搜索空间。本发明提出了一种基于密度峰值检测的Mahsup服务聚类方法。该方法首先将Mashup服务的特征向量作为聚类的基本单元。在此基础上，引入DPC算法，并对传统DPC 中密度的计算方式进行了重新定义，使得密度分布更加合理，进一步，方法对每个聚类单元的密度信息进行了综合评估计算，选出最为合适的K个初始聚类中心，作为K-means算法输入，进而完成聚类。

为了解决上述技术问题本发明所采用的技术方案是：

一种基于密度峰值检测的Mahsup服务聚类方法，包括以下步骤：

第一步、对于所有参与聚类的Mashup服务的特征向量，进行局部密度、向量间距离和较高密度最近距离计算，过程如下：

步骤(1.1)遍历每个Mashup服务特征向量，计算当前向量的局部密度ρ_y，计算公式如下所示：

其中，DVec_y表示Mashup服务的特征向量，而DVec_y的局部密度ρ_y就是由离其最近的k个特征向量DVec_z的余弦相似度 cos(DVec_y,DVec_z)累加而成，这样的计算方式不仅避免了人工设定截断距离所带来的干扰问题，并且可以让每个向量获得较为合理的局部密度值，进行步骤 (1.2)；

步骤(1.2)计算当前向量的向量间距离d_yz，计算公式如下所示：

d_yz＝1-cos(DVec_y,DVec_z)，进行步骤(1.3)；

步骤(1.3)基于属性ρ_y与属性d_yz，定义当前向量的较高密度最近距离δ_y，定义公式如下：

其中，定义式中y表示当前向量， z表示其他向量，min函数表示选取最小值，max函数表示选取最大值，进行步骤(1.4)；

步骤(1.4)判断Mashup服务特征向量是否遍历完成，若否，则返回步骤(1.1)，否则，结束；

第二步、基于第一步计算的密度信息，从所有Mashup服务特征向量中，筛选出聚类中心的候选点，过程如下：

步骤(2.1)计算限定值bound。其计算公式如下所示：

bound＝(max(δ_y)+min(δ_y))/2，其中，max(δ_y)表示δ_y的最大值，而min(δ_y) 表示δ_y的最小值，进行步骤(2.2)；

步骤(2.2)将δ_y值低于bound的Mashup服务特征向量提取出来，并将它们的密度信息对应放入集合S，进行步骤(2.3)；

步骤(2.3)计算步长单元au，并设置初始值为0，其中，au主要用于确定聚类中心候选点的δ_y值范围，进行步骤(2.4)；

步骤(2.4)遍历集合S，取出δ_y，进行步骤(2.5)；

步骤(2.5)遍历集合S，取出δ_z，其中，δ_z与δ_y不相等，进行步骤(2.6)；

步骤(2.6)对au进行累加计算，计算公式如下：

au＝au+|δ_y-δ_z|，其中，|δ_y-δ_z|表示取δ_z与δ_y之差的绝对值。记录当前循环次数count，进行步骤(2.7)；

步骤(2.7)判断集合S是否遍历完成，若否，则返回步骤(2.5)，否则，进行步骤(2.8)；

步骤(2.8)判断集合S是否遍历完成，若否，则返回步骤(2.4)，否则，进行步骤(2.9)；

步骤(2.9)设au＝au/count，进行步骤(2.10)；

步骤(2.10)设置判定半径r，并赋默认值为bound，其中判定半径主要用于进一步确定聚类中心候选点的范围，进行步骤(2.11)；

步骤(2.11)针对所有Mashup服务特征向量，判断在连续的bound/au个区域中，向量δ_y属性的数量是否保持递增，并将初始遍历区域设为[l₁＝0,l₂＝au]，进行步骤(2.12)；

步骤(2.12)若δ_y属性的数量递增，则将l₁与l₂的值分别累加一个步长au，进行更新，否则，进行步骤(2.13)；

步骤(2.13)将判定半径r设为l₁的值，进行步骤(2.14)；

步骤(2.14)从所有Mashup服务特征向量中，筛选出半径r内包含其它向量，并且δ_y值大于r的向量作为聚类中心候选点集合；

第三步、对第二步所得的聚类中心候选点，进一步筛选出最为合适的K个初始聚类中心，进行K-means聚类，过程如下：

步骤(3.1)在聚类中心候选点集合中，筛选出ρ_y与δ_y乘积最高的向量，并将其在半径r内包含的向量个数m统计出来，其中半径r即为第二步计算出的判定半径，进行步骤(3.2)；

步骤(3.2)遍历聚类中心候选点集合，计算当前候选点的波动值SD_y，计算公式如下所示：

其中，U(y)表示距离y最近的m个向量，γ_z表示ρ_y与δ_y的乘积，avg_z则表示这m个向量γ_z的均值，进行步骤(3.3)；

步骤(3.3)判断候选点集合是否遍历完成，若否，则返回步骤(3.2)，否则，进行步骤(3.4)；

步骤(3.4)对候选点集合中的每个向量，进行加权评估计算，计算公式如下所示：

其中，a为介于0与1之间的权值,默认为0.5，进行步骤(3.5)；

步骤(3.5)对步骤步骤(3.4)计算所得的score进行降序排序，选取前K 个向量作为K-means算法的输入，进行K-means聚类，其中，K-means聚类算法是由MacQueen等人提出的一种迭代求解的聚类分析算法。

本发明的有益效果是，首先根据Mashup服务特征向量的紧密程度，对局部密度属性进行重新定义，使得密度分布更加合理。在此基础上，对向量间的密度信息进行综合评估计算，进而选出最为合适的K个初始聚类中心，作为K-means 算法输入，这在很大程度上，不仅减轻了初始中心随机选择策略对K-means聚类结果带来的干扰影响，而且基于密度信息选择的初始聚类中心，可以让聚类效果更加稳定，从而保证Mahsup服务聚类最终的精准性与稳定性。

具体实施方式

下面对本发明做进一步说明。

一种基于密度峰值检测的Mahsup服务聚类方法，在本发明中，Mashup服务特征向量可以是依靠自然语言处理技术或者其他特征信息处理技术，对Mahsup服务中特征信息的向量化表示。在Mashup服务聚类场景中，该向量是参与聚类的基本单元，每个Mashup服务特征向量都具有唯一性。

所述服务聚类方法包括以下步骤：

第一步、对于所有参与聚类的Mashup服务的特征向量，进行局部密度、向量间距离和较高密度最近距离计算；过程如下：

其中，DVec_y表示Mashup服务的特征向量，而DVec_y的局部密度ρ_y就是由离其最近的k个特征向量DVec_z的余弦相似度 cos(DVec_y,DVec_z)累加而成，这样的计算方式不仅避免了人工设定截断距离所带来的干扰问题，并且可以让每个向量获得较为合理的局部密度值。进行步骤 (1.2)；

d_yz＝1-cos(DVec_y,DVec_z)，进行步骤(1.3)；

步骤(2.1)计算限定值bound。其计算公式如下所示：

步骤(2.4)遍历集合S，取出δ_y，进行步骤(2.5)；

步骤(2.6)对au进行累加计算，计算公式如下：

步骤(2.9)设au＝au/count，进行步骤(2.10)；

步骤(2.13)将判定半径r设为l₁的值，进行步骤(2.14)；

其中，a为介于0与1之间的权值,默认为0.5，进行步骤(3.5)；

步骤(3.5)对步骤步骤(3.4)计算所得的score进行降序排序，选取前K 个向量作为K-means算法的输入，进行K-means聚类。

其中，K-means聚类算法是由MacQueen等人提出的一种迭代求解的聚类分析算法。算法的主要思想是通过随机选取K个对象作为初始的聚类中心，然后计算剩余对象与各个初始聚类中心之间的距离，进行就近划分，形成一次聚类。之后，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。本发明中的终止条件即为聚类中心不再发生变化。

Claims

1.一种基于密度峰值检测的Mashup服务聚类方法，其特征在于，所述方法包括以下步骤：

第一步、对于所有参与聚类的Mashup服务的特征向量，进行局部密度、向量间距离和较高密度最近距离计算；

第二步、基于第一步计算的密度信息，从所有Mashup服务特征向量中，筛选出聚类中心的候选点；

其中，a为介于0与1之间的权值,默认为0.5，进行步骤(3.5)；

步骤(3.5)对步骤(3.4)计算所得的score进行降序排序，选取前K个向量作为K-means算法的输入，进行K-means聚类；

所述第一步的过程如下：

其中，DVec_y表示Mashup服务的特征向量，而DVec_y的局部密度ρ_y就是由离其最近的k个特征向量DVec_z的余弦相似度cos(DVec_y,DVec_z)累加而成，这样的计算方式不仅避免了人工设定截断距离所带来的干扰问题，并且可以让每个向量获得较为合理的局部密度值，进行步骤(1.2)；

d_yz＝1-cos(DVec_y,DVec_z)，进行步骤(1.3)；

其中，定义式中y表示当前向量，z表示其他向量，min函数表示选取最小值，max函数表示选取最大值，进行步骤(1.4)；

所述第二步的过程如下：

步骤(2.1)计算限定值bound，其计算公式如下所示：

bound＝(max(δ_y)+min(δ_y))/2，其中，max(δ_y)表示δ_y的最大值，而min(δ_y)表示δ_y的最小值，进行步骤(2.2)；

步骤(2.4)遍历集合S，取出δ_y，进行步骤(2.5)；

步骤(2.6)对au进行累加计算，计算公式如下：

au＝au+|δ_y-δ_z|，其中，|δ_y-δ_z|表示取δ_z与δ_y之差的绝对值，记录当前循环次数count，进行步骤(2.7)；

步骤(2.9)设au＝au/count，进行步骤(2.10)；

步骤(2.13)将判定半径r设为l₁的值，进行步骤(2.14)；

步骤(2.14)从所有Mashup服务特征向量中，筛选出半径r内包含其它向量，并且δ_y值大于r的向量作为聚类中心候选点集合。