CN109255125A

CN109255125A - 一种基于改进DBSCAN算法的Web服务聚类方法

Info

Publication number: CN109255125A
Application number: CN201810939293.8A
Authority: CN
Inventors: 陆佳炜; 吴涵; 卢成炳; 赵伟; 周焕; 徐俊; 肖刚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2019-01-22
Anticipated expiration: 2038-08-17
Also published as: CN109255125B

Abstract

一种基于改进DBSCAN算法的Web服务聚类方法，所述服务聚类方法包括以下步骤：第一步、计算领域本体中两个概念A和B之间的语义相似度；第二步、结合概念相似度计算方法，给出服务S₁与服务S₂输入相似度Sim_input的计算方法；第三步、结合概念相似度计算方法，给出服务S₁与服务S₂输出相似度Sim_output的计算方法；第四步、结合求得的服务输入相似度Sim_input与服务输出相似度Sim_Output计算服务S₁与服务S₂的功能相似性FunctionalSim(S₁,S₂)；第五步、结合第四步的服务功能相似性度量方式给出服务聚类算法。本发明实现较好的服务聚类效果，从而缩短服务演化时间。

Description

一种基于改进DBSCAN算法的Web服务聚类方法

技术领域

本发明涉及Web服务演化领域，具体涉及一种基于改进DBSCAN算法的Web服务聚类方法。

背景技术

Web服务是一种软件系统，旨在支持机器之间的跨网络交互。目前主要有两种类型的Web服务：一种是基于SOAP，另一种是基于REST。两者的区别是使用的接口不同，基于SOAP的Web服务使用SOAP接口传递消息，并且使用Web服务描述语言(WSDL)来描述Web服务，WSDL为Web服务提供者指定了使用协议和编码独立机制，它是一个XML词汇表，描述了网络上可访问的服务并将它们映射到具有消息传递功能的通信端点集合中。而使用REST接口的Web服务则使用通用的HTTP方法(GET、DELETE、POST和PUT)来描述、发布和使用相关资源。

目前的研究工作旨在通过使用称为本体的概念化知识来提供Web服务的语义描述。本体是一个词汇表，用于描述一个领域内的一组概念(领域可被定义为特定的主题领域或知识领域)以及这些概念之间存在的关系。它被应用于领域内的属性推理，或是领域本身的定义。在Web服务的上下文中，本体作为提供Web服务语义描述的一种方式，发挥着重要的作用。Web服务描述的增强促进了语义Web服务的发展，以机器可理解的方式对Web服务进行语义描述将对诸如电子商务和应用程序集成等领域产生重大影响，因为它可以实现不同系统和组织之间动态、可扩展及高效性的协作。

随着Web服务的不断发展，为了适应环境改变和用户需求的变更，互联网中的Web服务需要持续不断地进行演化。因此，Web服务演化成为服务计算领域重要的研究点之一。同时，Web服务作为构建软件服务的重要技术，如何使软件系统能够自适应运行并且支持服务动态演化具有重要的研究意义和应用价值。

Web服务演化泛指服务在发布、运行之后，为适应环境变化、持续满足用户需求，而进行一系列变更的过程。根据演化实施的方式，可以将服务演化分为静态演化和动态演化，静态演化必须经过暂停服务,更新软件,重新启动服务这样一个过程,而动态演化是指软件在运行时的演化,即边运行边更新。动态演化过程一般通过服务聚类操作来缩小服务样本的搜索空间，使服务匹配过程可以在一个特定的聚类中进行，而不是一个具有许多不相关服务的大型服务池。

目前，国内外的研究人员对Web服务聚类进行了大量的研究。昆士兰理工大学的Nayak等人将Web服务描述转化到多维词向量空间，利用两个向量之间夹角的余弦，计算两个服务之间的距离，对服务进行聚簇。清华大学的Shou等人提出了一种复杂的服务距离度量方法，该方法同时结合了服务之间基于描述信息的相似度和基于输入输出信息的相似度，并采用高效的星形聚类算法进行聚类。东北大学的Zhang等人提出从日志中构建Web服务执行网络并使用谱聚类算法进行聚类。

发明内容

服务聚类的目的是减少搜索空间，使服务匹配过程可以在一个特定的聚类中进行，而不是一个具有许多不相关服务的大型服务池。因此选取使用合适的聚类算法来进行服务聚类对最终的聚类效果以及服务匹配的执行效率有着重要的影响。基于密度的空间聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)利用聚类的密度连通性可以快速发现任意形状的簇，当聚类不规则或存在噪声点及异常值时，性能表现较佳。在DBSCAN算法中，搜索半径Eps和最小数量MinPts这两个参数的选取，将直接影响到服务聚类的质量，本发明给出了一种改进的DBSCAN算法来确定搜索半径Eps和最小数量MinPts这两个参数，并结合一种基于本体的Web服务功能相似性度量方法，对Web服务功能相似性进行计算，在此基础上，将本发明改进的DBSCAN算法运用到服务样本距离度量中，实现较好的服务聚类效果，从而缩短服务演化时间。

为了解决上述技术问题本发明所采用的技术方案是：

一种基于改进DBSCAN算法的Web服务聚类方法，所述服务聚类方法包括以下步骤：

第一步、计算领域本体中两个概念A和B之间的语义相似度，过程如下：

步骤(1.1)若概念A和B是相同的或者它们被声明为equivalent classes，则概念A，B的相似度Sim_concept为1，否则进行步骤(1.2)；

步骤(1.2)若概念A直接或间接为概念B的一个子类，则概念A，B的相似度Sim_concept计算公式如下：

其中prop(A)与prop(B)分别表示概念A与概念B的属性集合，Size(prop(B))与Size(prop(A))分别表示概念B和概念A的属性个数，否则进行步骤(1.3)

步骤(1.3)若概念B直接或间接为概念A的一个子类，则概念A，B的相似度Sim_concept计算公式如下：

否则进行步骤(1.4)；

步骤(1.4)若概念A与概念B没有父子关系，但两个概念直接或间接有一个共同的父类概念C，则采用基于朴素贝叶斯模型的单词语义相似度度量方法，首先分别遍历概念A与概念B的各个属性，通过ComputeFeature函数对概念A与概念B的属性名称进行特征提取，然后采用样本训练后的条件概率分布列和调整因子，计算概念属性之间的相似度Sim_word，根据概念属性之间的相似度Sim_word与相似判定因子η的比较，判断两个属性是否为同一属性并进行统计，最后计算出概念A，B的相似度Sim_concept；

步骤(1.5)若概念A和概念B的关系在上述情况中均不符合，则概念A，B的相似度Sim_concept设为0；

第二步、结合第一步的概念相似度计算方法，给出服务S₁与服务S₂输入相似度Sim_input的计算方法，过程如下：

步骤(2.1)创建服务输入参数相似度最大匹配数组InSim并初始化，进行步骤(2.2)；

步骤(2.2)将服务S₁的输入参数数量减去服务S₂的输入参数数量得到参数数量差值d，进行步骤(2.3)；

步骤(2.3)若d小于或等于0，则将服务S₁设为S_short，服务S₂设为S_long，否则将服务S₂设为S_short，服务S₁设为S_long，进行步骤(2.4)；

步骤(2.4)遍历S_long中的输入参数，若遍历完成，则进行步骤(2.8)，否则从S_long中取出下一个输入参数long_i，进行步骤(2.5)；

步骤(2.5)遍历S_short中的输入参数，若遍历完成，则返回步骤(2.4)，否则从S_short中取出下一个输入参数short_j，进行步骤(2.6)；

步骤(2.6)根据第一步的概念相似度计算方法计算参数long_i与参数short_j的相似度Sim_ij，进行步骤(2.7)；

步骤(2.7)将Sim_ij与InSim[i]进行比较，若Sim_ij大于InSim[i]，则将InSim[i]的值设为Sim_ij的值，否则InSim[i]值为原值，返回步骤(2.5)；

步骤(2.8)计算服务S₁与服务S₂输入相似度Sim_input，计算公式如下：

其中Size(S_long.Input)与Size(S_short.Input)分别表示服务S_long的输入参数个数与服务S_short的输入参数个数，|d|表示两个服务的输入参数数量差值，InSim为输入参数的相似度最大匹配数组；

第三步、结合第一步的概念相似度计算方法，给出服务S₁与服务S₂输出相似度Sim_output的计算方法，过程如下：

步骤(3.1)创建服务输出参数相似度最大匹配数组OutSim并初始化，进行步骤(3.2)；

步骤(3.2)将服务S₁的输出参数数量减去服务S₂的输出参数数量得到参数数量差值d，进行步骤(3.3)；

步骤(3.3)若d小于或等于0，则将服务S₁设为S_short，服务S₂设为S_long，否则将服务S₂设为S_short，服务S₁设为S_long，进行步骤(3.4)；

步骤(3.4)遍历S_long中的输出参数，若遍历完成，则进行步骤(3.8)，否则从S_long中取出下一个输出参数long_i，进行步骤(3.5)；

步骤(3.5)遍历S_short中的输出参数，若遍历完成，则返回步骤(3.4)，否则从S_short中取出下一个输出参数short_j，进行步骤(3.6)；

步骤(3.6)根据第一步的概念相似度计算方法计算参数long_i与参数short_j的相似度Sim_ij，进行步骤(3.7)；

步骤(3.7)将Sim_ij与OutSim[i]进行比较，若Sim_ij大于OutSim[i]，则将OutSim[i]的值设为Sim_ij的值，否则OutSim[i]值为原值，返回步骤(3.5)；

步骤(3.8)计算服务S₁与服务S₂输出相似度Sim_Output，计算公式如下：

其中Size(S_long.Output)与Size(S_short.Output)分别表示服务S_long的输出参数个数与服务S_short的输出参数个数，|d|表示两个服务的输出参数数量差值，OutSim为输出参数的相似度最大匹配数组；

第四步、结合第二步与第三步求得的服务输入相似度Sim_input与服务输出相似度Sim_Output计算服务S₁与服务S₂的功能相似性FunctionalSim(S₁,S₂)，计算公式如下：

FunctionalSim(S₁,S₂)＝w₁×Sim_input+w₂×Sim_Output，其中权重w₁和w₂是0和1之间的实数值并且总和为1，它们表示服务消费者对输入相似性和输出相似性认定的重要性；

第五步、结合第四步的服务功能相似性度量方式给出服务聚类算法，首先任意选择一个未分配的核心对象作为种子，然后寻找该核心对象所有密度可达的样本集合，形成一个聚簇。接着继续选择另一个未分配的核心对象去寻找密度可达的样本集合，得到另一个聚簇，直到所有核心对象被分配完毕。本发明中搜索半径Eps由公式确定，其中n表示服务的维度大小，即所有服务的平均属性个数，k表示形成聚簇所需的最少服务数量，r表示由n维服务组成的超球面半径，m则是这个超球面包含的n维服务数量；而最小数量MinPts遵循经验启发式：MinPts＝round(m/25)，其中round是取整函数，m是样本集中的样本数量。

进一步，所述步骤(1.4)的步骤如下：

步骤(1.4.1)设变量i表示概念A与概念B中属性相同的个数并置初始值为0，进行步骤(1.4.2)；

步骤(1.4.2)若概念A的属性集合prop(A)遍历完成，则进行步骤(1.4.7)，否则从prop(A)取出下一个prop(A)_j并将其从prop(A)中移除，进行步骤(1.4.3)；

步骤(1.4.3)若概念B的属性集合prop(B)遍历完成，则返回步骤(1.4.2)，否则从prop(B)取出下一个prop(B)_k并将其从prop(B)中移除，进行步骤(1.4.4)；

步骤(1.4.4)基于朴素贝叶斯模型，结合WorkNet英语词典，通过ComputeFeature函数对prop(A)_j与prop(B)_k的属性名称进行特征提取进而得出L(prop(A)_j,prop(B)_k)和D(prop(A)_j,prop(B)_k)，其过程如下：

计算每个属性名称的单词语义，由于每个单词对应一个或多个语义，那么每一单词对也就对应一个或多个语义对，将与单词对相应的所有语义对中距离最短的语义节点距离定义为该单词对距离L(prop(A)_j,prop(B)_k)，并将语义节点距离最短的语义对深度定义为单词对深度D(prop(A)_j,prop(B)_k)，已知属性名称prop(A)_j存在于语义节点v_j1,v_j2,…，v_jn的同义词组中，属性名称prop(B)_k存在于语义节点v_k1,v_k2，…v_km的同义词组中,那么prop(A)_j与prop(B)_k的距离计算公式与深度计算公式如下：

其中L(v_ja,v_kb)表示语义节点v_ja与语义节点v_kb的距离，D(v_ja,v_kb)表示语义对(v_ja,v_kb)的深度；

进一步，依据朴素贝叶斯模型的训练集生成均值函数LW(i)和DW(o)，再利用均值函数LW(i)和DW(o)计算条件概率分布列P(L(prop(A)_j,prop(B)_k)|C)和P(D(prop(A)_j,prop(B)_k)|C)，其中C为单词类别分类，其值域为{U,N}，其中U代表“一致”，N代表“不一致”，最后计算调整因子α和β，计算公式如下：

之后转入步骤(1.4.5)；

步骤(1.4.5)基于朴素贝叶斯模型，将本体概念属性的特征L(prop(A)_j,prop(B)_k)和D(prop(A)_j,prop(B)_k)注入到步骤(1.4.4)所得的条件概率分布列中，并依次提取条件概率V₁＝P(L(prop(A)_j,prop(B)_k)＝i|C＝U)，V₂＝P(D(prop(A)_j,prop(B)_k)＝o|C＝U),V₃＝P(L(prop(A)_j,prop(B)_k)＝i|C＝N)与V₄＝P(D(prop(A)_j,prop(B)_k)＝o|C＝N)，最后结合步骤(1.4.4)中的调整因子α和β来计算prop(A)_j与prop(B)_k之间的相似度Sim_word，计算公式如下：

Sim_word(prop(A)_j,prop(B)_k)＝(αV₁×V₂)/(αV₁×V₂+βV₃×V₄)，进行步骤(1.4.6)；

步骤(1.4.6)若Sim_word大于或等于相似判定因子η，则prop(A)_j与prop(B)_k为同一属性并将变量i加1，返回步骤(1.4.2)，否则返回步骤(1.4.3)；

步骤(1.4.7)计算概念A，B的相似度Sim_concept，计算公式如下：

其中i表示概念A与概念B中属性相同的个数，prop(A)与prop(B)分别表示概念A与概念B的属性集合，Size(prop(B))与Size(prop(A))分别表示概念B和概念A的属性个数，进行步骤(1.5)。

再进一步，所述步骤(5)包括以下步骤：

步骤(5.1)初始化未访问样本集合为原始样本集T，簇集合C划分为空集，进行步骤(5.2)；

步骤(5.2)遍历原始样本集T，若遍历完成，则结束，否则从T中取出下一个服务S_i并将其从T中移除，进行步骤(5.3)；

步骤(5.3)结合第四步定义的服务功能相似性度量方式寻找服务S_i的Eps邻域；

步骤(5.4)创建新聚类簇C_k，若S_i的Eps邻域样本数不少于MinPts，则将S_i加入到该簇中，进行步骤(5.5)，否则返回步骤(5.2)；

步骤(5.5)遍历服务S_i的邻域集合N_Eps(S_i)，若遍历完成，则进行步骤(5.13)，否则取出集合N_Eps(S_i)中的下一个服务S’_k，进行步骤(5.6)；

步骤(5.6)创建服务S’_k的邻域集合N_Eps(S’_k),进行步骤(5.7)；

步骤(5.7)若原始样本集T包含服务S’_k，则将服务S’_k从T中移除，进行步骤(5.8)，否则返回步骤(5.5)；

步骤(5.8)遍历原始样本集T，若遍历完成，则进行步骤(5.11)，否则从T中取出下一个服务S’_l，进行步骤(5.9)；

步骤(5.9)采用第四步定义的服务功能相似性度量方式来计算服务S’_k与服务S’_l的功能相似度FunctionalSim(S’_k,S’_l)，进行步骤(5.10)

步骤(5.10)若服务S’_k与服务S’_l的功能相似度FunctionalSim(S’_k,S’_l)小于或等于搜索半径Eps，则将服务S’_l加入服务S’_k的邻域集合N_Eps(S’_k)，返回步骤(5.8)，否则直接返回步骤(5.8)；

步骤(5.11)若服务S’_k的Eps邻域样本数不少于MinPts，则将该邻域中的服务加入到服务S_i的Eps邻域集合N_Eps(S_i)，进行步骤(5.12)，否则返回步骤(5.5)；

步骤(5.12)若簇集合C中不包含含有服务S’_k的聚类簇，则将服务S’_k加入步骤(5.4)创建的聚类簇C_k，返回步骤(5.5)，否则直接返回步骤(5.5)；

步骤(5.13)将聚类簇C_k加入簇集合C，返回步骤(5.2)。

更进一步，步骤(5.3)所述寻找服务S_i的Eps邻域的步骤如下：

步骤(5.3.1)创建服务S_i的邻域集合N_Eps(S_i)，进行步骤(5.3.2)；

步骤(5.3.2)遍历原始样本集T，若遍历完成，则进行步骤(5.4)，否则从T中取出下一个服务S_j，进行步骤(5.3.3)；

步骤(5.3.3)采用第四步定义的功能相似度来计算服务S_i与服务S_j的功能相似度FunctionalSim(S_i,S_j)，进行步骤(5.3.4)；

步骤(5.3.4)若服务S_i与服务S_j的功能相似度FunctionalSim(S_i,S_j)小于或等于搜索半径Eps，则将服务S_j加入服务S_i的邻域集合N_Eps(S_i)，返回步骤(5.3.2)，否则直接返回步骤(5.3.2)。

本发明的有益效果是，通过提出改进的DBSCAN算法来确定搜索半径Eps和最小数量MinPts这两个参数。在此基础上，本发明结合一种基于本体的Web服务功能相似性度量方法，对Web服务功能相似性进行计算，并运用于DBSCAN算法的服务样本距离度量中，服务样本距离度量即寻找服务Eps邻域的过程。将此聚类方法应用在Web服务动态演化的过程中可以有效缩小服务的搜索空间，从而缩短服务演化时间。

具体实施方式

下面对本发明做进一步说明。

功能相似性度量考虑服务间输入和输出的领域本体概念，输入(输出)之间的匹配主要指与输入(输出)相关的概念的匹配。为了计算两个概念A和B的相似性，需要考虑领域本体中两个概念之间的关系。

领域本体是描述指定领域知识的一种专门本体，这里的“领域”是根据本体构建者的需求来确立的，它可以是一个学科领域，可以是某几个领域的一种结合，也可以是一个领域中的一个小范围。若领域本体中两个概念具有不同的名字但拥有相同的个体集合,则它们被称为等价类(equivalent classes)。

第一步、计算领域本体中两个概念A和B之间的语义相似度，具体过程如下：

否则进行步骤(1.4)；

步骤(1.4)若概念A与概念B没有父子关系，但两个概念直接或间接有一个共同的父类概念C，则采用基于朴素贝叶斯模型的单词语义相似度度量方法，首先分别遍历概念A与概念B的各个属性，通过ComputeFeature函数对概念A与概念B的属性名称进行特征提取，然后采用样本训练后的条件概率分布列和调整因子，计算概念属性之间的相似度Sim_word，根据概念属性之间的相似度Sim_word与相似判定因子η的比较，判断两个属性是否为同一属性并进行统计，最后计算出概念A，B的相似度Sim_concept，步骤如下：

步骤(1.4.4)基于朴素贝叶斯模型，结合WorkNet英语词典，通过ComputeFeature函数对prop(A)_j与prop(B)_k的属性名称进行特征提取进而得出L(prop(A)_j,prop(B)_k)和D(prop(A)_j,prop(B)_k)。其中朴素贝叶斯模型是最为广泛的两种分类模型之一，WorkNet是由普林斯顿大学认识科学实验室在心理学教授米勒的指导下建立和维护的英语词典。具体计算过程如下：

计算每个属性名称的单词语义，由于每个单词对应一个或多个语义，那么每一单词对也就对应一个或多个语义对。将与单词对相应的所有语义对中距离最短的语义节点距离定义为该单词对距离L(prop(A)_j,prop(B)_k)，并将语义节点距离最短的语义对深度定义为单词对深度D(prop(A)_j,prop(B)_k)，已知属性名称prop(A)_j存在于语义节点v_j1,v_j2,…，v_jn的同义词组中，属性名称prop(B)_k存在于语义节点v_k1,v_k2，…v_km的同义词组中,那么prop(A)_j与prop(B)_k的距离计算公式与深度计算公式如下：

其中L(v_ja,v_kb)表示语义节点v_ja与语义节点v_kb的距离，D(v_ja,v_kb)表示语义对(v_ja,v_kb)的深度。

进一步，依据朴素贝叶斯模型的训练集生成均值函数LW(i)和DW(o)，再利用均值函数LW(i)和DW(o)计算条件概率分布列P(L(prop(A)_j,prop(B)_k)|C)和P(D(prop(A)_j,prop(B)_k)|C)，其中C为单词类别分类，其值域为{U,N}，其中U代表“一致”，N代表“不一致”。最后计算调整因子α和β，计算公式如下：

之后转入步骤(1.4.5)；

步骤(1.4.5)基于朴素贝叶斯模型，将本体概念属性的特征L(prop(A)_j,prop(B)_k)和D(prop(A)_j,prop(B)_k)注入到步骤(1.4.4)所得的条件概率分布列中，并依次提取条件概率V₁＝P(L(prop(A)_j,prop(B)_k)＝i|C＝U)，V₂＝P(D(prop(A)_j,prop(B)_k)＝o|C＝U),V₃＝P(L(prop(A)_j,prop(B)_k)＝i|C＝N)与V₄＝P(D(prop(A)_j,prop(B)_k)＝o|C＝N)。最后结合步骤(1.4.4)中的调整因子α和β来计算prop(A)_j与prop(B)_k之间的相似度Sim_word，计算公式如下：

步骤(1.4.7)计算概念A，B的相似度Sim_concept，计算公式如下：

其中i表示概念A与概念B中属性相同的个数，prop(A)与prop(B)分别表示概念A与概念B的属性集合，Size(prop(B))与Size(prop(A))分别表示概念B和概念A的属性个数，进行步骤(1.5)；

第二步、结合第一步的概念相似度计算方法，给出服务S₁与服务S₂输入相似度Sim_input的计算方法，具体过程如下：

第三步、结合第一步的概念相似度计算方法，给出服务S₁与服务S₂输出相似度Sim_output的计算方法，具体过程如下：

FunctionalSim(S₁,S₂)＝w₁×Sim_input+w₂×Sim_Output，其中权重w₁和w₂是0和1之间的实数值并且总和为1。它们表示服务消费者对输入相似性和输出相似性认定的重要性。默认情况下，w₁和w₂均设置为0.5。

第五步、结合第四步的服务功能相似性度量方式给出本发明的服务聚类算法，步骤如下：

DBSCAN算法的工作原理如下：首先任意选择一个未分配的核心对象作为种子，然后寻找该核心对象所有密度可达的样本集合，形成一个聚簇。接着继续选择另一个未分配的核心对象去寻找密度可达的样本集合，得到另一个聚簇，直到所有核心对象被分配完毕。假设样本集为D＝(S₁,S₂,…,S_m)，则DBSCAN算法具有如下关键定义：

■Eps邻域：对于S_i∈D，其Eps邻域包含样本集D中与x_i的距离不大于Eps的样本集，即N_Eps(S_i)＝{S_i∈D|distance(S_i,S_j)≤Eps}，该集合的样本数记为|N_Eps(S_i)|。

■核心对象：对于任一样本S_j∈D，如果其Eps邻域对应的N_Eps(S_j)至少包含MinPts个样本，即如果|N_Eps(S_j)|≥MinPts，则S_j是核心对象。

本算法中搜索半径Eps由公式确定，其中n表示服务的维度大小，即所有服务的平均属性个数，k表示形成聚簇所需的最少服务数量，r表示由n维服务组成的超球面半径，m则是这个超球面包含的n维服务数量；而最小数量MinPts遵循经验启发式：MinPts＝round(m/25)，其中round是取整函数，m是样本集中的样本数量。

步骤(5.3)结合第四步定义的功能相似度寻找服务S_i的Eps邻域；

进一步，步骤(5.3)所述寻找服务S_i的Eps邻域的步骤如下：

步骤(5.3.1)创建服务S_i的邻域集合N_Eps(S_i)，进行步骤(5.3.2)；

步骤(5.3.3)采用第四步定义的服务功能相似性度量方式来计算服务S_i与服务S_j的功能相似度FunctionalSim(S_i,S_j)，进行步骤(5.3.4)；

步骤(5.3.4)若服务S_i与服务S_j的功能相似度FunctionalSim(S_i,S_j)小于或等于搜索半径Eps，则将服务S_j加入服务S_i的邻域集合N_Eps(S_i)，返回步骤(5.3.2)，否则直接返回步骤(5.3.2)；

步骤(5.4)创建新聚类簇C_k，若S_i的Eps邻域样本数|N_Eps(S_i)|不少于MinPts，则将S_i加入到该簇中，进行步骤(5.5)，否则返回步骤(5.2)；

步骤(5.6)创建服务S’_k的邻域集合N_Eps(S’_k),进行步骤(5.7)；

步骤(5.9)采用第四步定义的功能相似度来计算服务S’_k与服务S’_l的功能相似度FunctionalSim(S’_k,S’_l)，进行步骤(5.10)

步骤(5.11)若服务S’_k的Eps邻域样本数|N_Eps(S’_k)|不少于MinPts，则将该邻域中的服务加入到服务S_i的Eps邻域集合N_Eps(S_i)，进行步骤(5.12)，否则返回步骤(5.5)；

步骤(5.13)将聚类簇C_k加入簇集合C，返回步骤(5.2)。

Claims

1.一种基于改进DBSCAN算法的Web服务聚类方法，其特征在于，所述服务聚类方法包括以下步骤：

否则进行步骤(1.4)；

2.如权利要求1所述的一种基于改进DBSCAN算法的Web服务聚类方法，其特征在于，所述步骤(1.4)的步骤如下：

之后转入步骤(1.4.5)；

步骤(1.4.7)计算概念A，B的相似度Sim_concept，计算公式如下：

3.如权利要求1和2所述的一种基于改进DBSCAN算法的Web服务聚类方法，其特征在于，所述步骤(5)包括以下步骤：

步骤(5.6)创建服务S’_k的邻域集合N_Eps(S’_k),进行步骤(5.7)；

步骤(5.13)将聚类簇C_k加入簇集合C，返回步骤(5.2)。

4.如权利要求3所述的一种基于改进DBSCAN算法的Web服务聚类方法，其特征在于，步骤(5.3)所述寻找服务S_i的Eps邻域的步骤如下：

步骤(5.3.1)创建服务S_i的邻域集合N_Eps(S_i)，进行步骤(5.3.2)；