CN107135092A

CN107135092A - 一种面向全局社交服务网的Web服务聚类方法

Info

Publication number: CN107135092A
Application number: CN201710153197.6A
Authority: CN
Inventors: 陆佳炜; 马俊; 陈烘; 肖刚; 张元鸣; 徐俊; 李�杰; 卢成炳
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-03-15
Filing date: 2017-03-15
Publication date: 2017-09-05
Anticipated expiration: 2037-03-15
Also published as: CN107135092B

Abstract

一种面向全局社交服务网的Web服务聚类方法，包括如下步骤：第一步：建立一个面向全局社交服务网的Web服务聚类框架，框架分为服务注册模块、服务运行信息采集模块、服务聚类模块和服务可视化模块；第二步：基于所述聚类框架，Web服务聚类方法的步骤如下：步骤2.1：Web服务集成；步骤2.2：Web服务相似度计算；步骤2.3：GSSN聚类；步骤2.4：GSSN可视化；对聚类后的结果进行可视化，辅助用户更为直观的挖掘服务背后的隐藏信息。本发明提高Web服务聚类精度，具有较好的通用性。

Description

一种面向全局社交服务网的Web服务聚类方法

技术领域

本发明属于服务计算领域，特别涉及一种面向全局社交服务网的Web服务聚类方法。

背景技术

Web服务作为一种潜在的分布式服务架构解决方案，在互联网上具有重大影响。随着云计算的兴起，各类Web服务层出不穷，极大地促进了服务计算领域的发展。然而，目前Web服务并没有发挥其应有的价值，截止到2016年11月30日，Web服务编程网站PWeb(Programmable Web)上发布的Web服务已经超过16000个，但是发布在服务组合系统中的Web服务不超过4000个。许多已经发布的Web服务使用效率低下，未能被用户更好的发现、组合及调用，这也为软件开发者有效发现和重用服务资源带来了极大的挑战。

造成以上现象原因总结如下：现有的服务描述语言，如WSDL(Web ServicesDescription Language)、Web APIs(Web Application Programming Interface)、OWL-S(Ontology Web Language for Service)，只将服务作为一个单独的服务孤岛去研究，并没有考虑服务之间的社交关系，这导致服务的发现和组合变得十分困难。UDDI(UniversalDescription,Discovery,and Integration)提供了一些服务分类法系统，但这些分类标准并不统一而且较为简单，无法保证所采用的分类方法能够正确反映服务的功能。对于发布在PWeb中的服务，服务消费者只看到该服务相关的文本描述信息，无法直接调用，也未能了解其关联服务的组合情况。

Web服务聚类是一种有效促进Web服务发现的技术。然而，现有的服务聚类方法主要关注服务功能属性或QoS(Quality of Service)属性，并没有考虑服务在网络中的社交属性，随着服务数量的急速增长，面临着服务发现效率低下等问题。社交属性存在于全局社交服务网GSSN(Global Social Service Network)之中，可用来支持服务发现、服务推荐，即若在全局社交服务网中，服务之间的依赖关系相似，共同依赖着大部分相同的其他服务，则这些服务同属于一类的可能性比较大。

目前，学术界分别就聚类和服务社交关系方面已经有所研究：

服务聚类研究方面，李征,王健等人提出了一种面向主题的领域服务聚类方法，该方法在对服务进行领域分类的基础上，结合概率、融合领域特性的领域服务聚类模型DSCM，然后基于该模型提出了一种面向主题的聚类方法。田刚,何克清等人提出了面向领域标签辅助的服务聚类方法，该方法建立DTWSC服务聚类模型基础上提高聚类效果。Liu和Wong从WSDL文档中提取了内容，上下文，主机名和服务名称四个特征，以便使用树遍历算法对Web服务进行聚类，通过归一化Google距离(NGD)来测量内容和上下文的相似性。

服务社交关系研究方面，W.Chen,I.Paik等人提出了通过构建全局社交服务网来实现更高QoS的服务发现，根据所提出已连接的特定服务原则来构建全局社交服务网。C.Cherifi,V.Labatut等人结合复杂网络来分析服务依赖网络的拓扑性质，如小世界和无标度以及社区结构等特性。郭峰,魏光等人提出一种面向服务Petri网模型及其结构化语义操作，针对服务的各种组合方式，根据所提出的组合算子来构建面向服务Petri网模型-扩展开放网。

上述研究中，聚类方面的研究只停留在服务的功能属性、QoS属性、或者领域标签属性上，并没有考虑服务的社交属性，而服务社交关系的研究多侧重于基于图论的理论研究。

发明内容

为了克服现有的Web服务聚类方法的精度较低、通用性较差的不足，本发明主要用于提高Web服务聚类精度，提供了一种可以对通过WSDL、自然语言等方式描述的Web服务进行聚类，具有较好的通用性的面向全局社交服务网的Web服务聚类方法。

本发明再有一目的是提供了一种Web服务聚类结果既可以用于Web服务发现、Web服务组合，还可以用于Web服务推荐，具有广泛的适用性的面向全局社交服务网的Web服务聚类方法。

本发明所采用的技术方案是：

一种面向全局社交服务网的Web服务聚类方法，所述方法包括如下步骤：

第一步：建立一个面向全局社交服务网的Web服务聚类框架，框架分为服务注册模块、服务运行信息采集模块、服务聚类模块和服务可视化模块；

1.1、服务注册模块：用于实现REST服务及SOAP服务信息的注册，将原子服务注册到服务库中，为服务运行QoS采集、服务组合、服务聚类提供相关的服务资源；

1.2、服务运行信息采集模块：用于采集原子服务的组合日志以及原子服务的运行QoS信息，并分别记录到服务组合日志库、服务运行QoS信息库中；

1.3、服务聚类模块：用于结合原子服务库中的AS、服务组合日志库、服务运行QoS信息库，采用GSSN聚类算法进行聚类，为服务可视化做好准备；

1.4、服务可视化模块：用于通过可视化操作界面，基于GSSN，提供结合聚类的可视分析功能，辅助服务消费者更为直观的挖掘服务背后的隐藏信息；

第二步：基于所述聚类框架，Web服务聚类方法的步骤如下：

步骤2.1：Web服务集成；针对采用WSDL描述的SOAP Web服务和采用自然语言描述的REST Web服务进行集成，所述Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站；

步骤2.2：Web服务相似度计算；根据集成后的Web服务信息，结合服务运行日志中的QoS信息分别进行Web服务相似性计算；相似性计算包括以下4个过程：功能相似度计算、领域标签相似度、QoS相似度、最后综合前三步得到的结果，计算生成综合相似度；

步骤2.3：GSSN聚类；

服务组合日志库中的信息代表着多个不同的局部社交服务网，记录着每个局部社交服务网中服务节点之间的连接关系，先通过将各个不同的局部社交服务网关联到一起生成一个初始GSSN，之后再结合GSSN聚类算法对GSSN进行进一步优化；GSSN聚类算法分为三阶段：

第一阶段，根据服务组合日志建立服务间的局部社交服务网，通过局部社交服务网的互相关联推导出PGSSN，初始PGSSN建立的依据为历史数据，仅能展现已有的服务关系；

第二阶段，对在PGSSN中的AS，统计AS的SRHSA，计算社交相似度，根据社交相似度进行聚类不断扩大服务簇；

第三阶段，对原子服务库中的AS，采用K-means算法，基于综合相似度进行聚类后，根据服务簇间相似度阀值划分至PGSSN中相似的服务簇中，融合后的新服务簇即为优化后的GSSN；

步骤2.4：GSSN可视化；

对聚类后的结果进行可视化，辅助用户更为直观的挖掘服务背后的隐藏信息。

进一步，所述步骤2.1的过程如下：

步骤2.1.1、SOAP服务集成

针对SOAP服务，爬取WSDL描述信息后，由于WSDL为一种XML，可采用dom4J等JAVA库对WSDL文档进行解析；由于一个WSDL中可能包含多个AS信息，提取出所有AS的服务名称、Tag标记信息、服务的描述文本、输入输出参数；其中，SOAP服务的WSDL解析过程如下：首先，获得WSDL的根节点，解析出所有的Service节点，获得每个AS的服务名称，根据WSDL中的服务描述信息，提取词语，移除停用词，计算词频得到Tag标记信息，然后解析出每个AS的方法名及其对应的输入输出参数；最终得到SOAP服务的名称、功能描述、输入输出参数、领域标签信息；

步骤2.1.2、REST服务集成

REST服务采用基于自然语言描述的HTML文档，HTML文档详细描述了REST服务的名称、功能、输入输出参数、领域标签信息；利用网络爬虫可对HTML文档进行爬取，网页去噪，分词，去停用词，再建立对应网页的数据词典进行服务特征提取，最后得到REST服务的详细信息；如PWeb上的服务详情页满足特定的编码规则，服务名称使用“h1”、“header”语义化HTML5标签表示，tag标签使用CSS样式类“tags”指明，利用这些规则，建立爬取规则库，爬取REST服务相关描述信息进行特征提取，其中，特征提取过程如下：首先，遍历REST服务相关网页，将句子划分为词语，移除无意义的词语如“a”、“the”词汇；其次，建立表示输入、输出、标签、服务描述等规则的数据词典；进一步，在遍历文本过程中，遇到如“output”、“input”数据词典中表征输入输出信息的词语，对其后面的句子进行输入输出特征提取；遇到如“provide”、“allow”数据词典中表征服务功能描述信息词语，对其后面的句子进行描述信息提取；遇到如“category”、“tags”数据词典中表征标签信息的词语，对其后面的句子进行Tag特征提取，最后返回REST服务特征信息。

再进一步，所述步骤2.2中，所述相似性计算过程如下：

步骤2.2.1、功能相似度计算

服务的聚类首先是功能聚类，即功能相同的服务聚为一簇，而功能大多采用自然语言描述；语义Web服务是Web服务的扩展，能够更加准确地表达Web服务功能含义，增强人与机器，机器与机器之间的交互性；通过语义描述，Web服务成为机器可读、可理解、可操作的实体，而WordNet是比较详尽的词语语义知识词典，用来度量不同词汇之间的语义相似度；当两个词汇的距离越大，其相似度越低，反之，两个词汇的距离越小，其相似程度越大；两个概念之间的相似度计算方法如下：

其中，O₁,O₂分别为不同的概念，Dis(O₁,O₂)代表2个概念之间的距离，是O₁与O₂之间的最短路径长度；

针对服务功能聚类问题，对特征提取后的服务名称、服务描述信息，服务输入输出参数进行概念相似度计算，采用WordNet语义词典构建领域本体层次结构，Web服务功能相似度计算方法如下：

sim_func(As_i,As_j)＝W_N×sim_name(As_i,As_j)+W_D×sim_des(As_i,As_j)+W_I×sim_in(As_i,As_j)+W_O×sim_out(As_i,As_j)

Sim_name为服务名称相似性，Sim_des为服务功能信息描述相似性，Sim_in为服务输入匹配度,Sim_out为服务输出匹配度；W_N,W_D,W_I,W_O分别为对应的权重，在0到1之间；

步骤2.2.2、领域标签相似度

领域标签信息也属于Web服务的功能性描述，包括服务所属的领域和服务的来源；

给定Web服务AS_i以及其对应的标签集合T_i，根据Jaccard系数，计算出两个Web服务AS_i,AS_j之间的标签相似度如下：

其中，N(T_i∩T_j)表示同时拥有的标签数目；

步骤2.2.3、QoS相似度

选取便于度量的属性对Web服务的QoS进行度量，建立QoS向量如下所示：

V_QoS＝{a₁,a₂,…,a_n}

其中，a_n代表QoS属性，又可分为连续型和离散型，连续型包括响应时间和服务价格，离散型包括吞吐量，可用性，可靠性和信誉度，n代表可度量属性的个数；考虑到不同的a_n取值范围有着很大的差别，对值进行标准化计算，把值都转化为[0，1]之间的数；

对于离散型，利用如下公式进行归一化计算：

其中，num代表a_n属性取值的个数，index代表a_n属性取值在所有离散取值范围中的索引；

对于连续型，利用最小-最大规范法进行归一化计算：

其中，代表功能相同的服务簇中a_n属性的最大值，代表功能相同的服务簇中a_n属性的最小值；

接着，对归一化计算后的QoS向量，计算2个Web服务的QoS相似度如下：

步骤2.2.4、综合相似度集成

综合原子服务的功能相似度、领域标签相似度、QoS相似度，获得两个原子服务的综合相似度，其计算方法如下所示：

sim(AS_i,AS_j)＝α*sim_func(AS_i,AS_j)+β*sim_tag(AS_i,AS_j)+λ*sim_QoS(AS_i,AS_j)

其中，α,β,λ为权重，在0到1之间，根据综合相似度即可得到服务相似矩阵，为GSSN聚类做好准备。

更进一步，所述步骤2.3中，GSSN聚类算法的步骤如下：

步骤2.3.1：将现有的服务关系存储至服务组合日志库L中，L＝{N,R}，其中N为各局部社交服务网节点的集合，R为各局部社交服务网社交关系的集合，即对任一局部社交服务网，其节点集合N_k＝{AS₁,AS₂,…AS_i}和社交关系集合R_k＝{AS_m,AS_n∈N_k|<AS₁,AS₂>,…,<AS_i,AS_j>}，有N＝{N₁∩N₂∩…∩N_k},R＝{R₁∩R₂∩…∩R_k}；k为正整数，代表局部社交服务网编号；由于现有的服务社交关系都记录在L中，读取L可推出各个局部社交服务网，并以此为基础生成PGSSN；

步骤2.3.2：遍历PGSSN中的AS，统计每个AS的强关系历史社交域并计算社交相似度，得到同簇服务；

步骤2.3.3：根据同簇服务，得到簇心服务，遍历所有簇心服务，将每个簇心服务的所有同簇服务聚为一个簇，根据簇中的簇心节点重复步骤2.3.3再次扩展服务簇，直到没有新的服务加入服务簇；

步骤2.3.4：对原子服务库中的AS，根据综合相似度，采用K-means算法聚类，划分至PGSSN中对应的服务簇中，优化PGSSN为GSSN。

本发明的技术构思为：首先对爬取的REST(Representational State Transfer)服务和SOAP(Simple Object Access Protocol)服务注册到原子服务库中，提取出相关描述信息特征，接着分别对服务进行功能相似度、领域标签(Tag)相似度、QoS相似度计算，其中QoS相似度来源于服务QoS信息库采集的信息。然后，生成综合相似度和相似矩阵。进一步，结合服务组合日志库中采集到的服务组合信息生成全局社交服务网，利用GSSN聚类算法优化GSSN并实现聚类，最后为用户提供可视分析。

为便于论述本发明提出的Web服务聚类方法，给出如下定义。

定义1：原子服务(Atomic Service，AS)是指可被独立调用且功能不可再分的Web服务，使用四元组来进行描述，AS＝{AS_name，AS_des，AS_in，AS_out}。其中：AS_name描述Web服务的名称；AS_des描述Web服务的文本信息描述，详细说明了Web服务的功能；AS_in描述Web服务的输入信息；AS_out描述Web服务的输出信息。

定义2：服务描述模型(Service Describe Model，SDM)是对AS的定义和表达，包括功能属性(Function Attribute，FA)和非功能性属性QoS。即SDM＝{FA,QoS}，FA、QoS所包含的详细属性分别参见表1、表2。

表1-功能属性表

表2-QoS属性表

定义3：全局社交服务网(Global Social Service Network，GSSN)是一个开放的有向图GSSN＝{V,E}，由节点V和有向边E组成，用来描述服务的社交情况。其中每个节点代表一个AS，每一条边代表AS之间的输入输出参数的依赖关系，即前一个AS的输出参数中至少存在一个参数是后一个AS的输入参数的依赖。GSSN表明了服务的社交状态并能为服务社交活动提供推测，规划，协作等依据。

定义4：社交属性(Social Attribute，SA)是指该服务与其他服务进行组合的能力及趋势。使用二元组来进行描述，SA＝{HSA,FSA}。其中，HSA、FSA分别代表历史社交域和未来社交域，HSA指目前该服务所具备的服务组合能力，FSA指未来该服务与他服务进行组合的趋势。HSA、FSA的具体定义见定义5和定义6。

定义5：历史社交域(History Social Area，HSA)。在GSSN中，从服务节点AS_i到服务节点AS_j的有向边记为<AS_i,AS_j>，其中，AS_i,AS_j∈V，HSA定义为从AS_i出发，路径长度为n的所能到达的服务节点集合，记为HSA(AS_i)ⁿ，n为正整数，代表所经过路径的长度。

定义6：未来社交域(Future Social Area，FSA)。FSA是指在GSSN中，目前没有与AS_i建立社交关系，但通过聚类后可能与AS_i建立社交关系的服务节点集合，记为FSA(AS_i)。

定义7：初始GSSN(Primitive Global Social Service Network，PGSSN)。PGSSN由多个局部社交服务网关联推导形成，是GSSN的初始集合。

定义8：强关系历史社交域(Strong Relation History Social Area，SRHSA)。对于HSA(AS_i)ⁿ，其社交关系的稳定性与所经过的路径长度成正比。n越小，AS_i与HSA(AS_i)ⁿ之间的社交关系越稳定。n越大，所经过的服务节点数越多，当某一服务节点失效时，信息将无法到达更远的服务节点，因此其社交关系越不稳定。定义当n为1时为AS_i的强关系历史社交域，记为SRHSA(AS_i),

定义9：社交相似度(Social Similarity，SS)。两个服务节点AS_i,AS_j在自己所在SRHSA中所能达到的服务集重合度越高，表明这两个服务的社交相似度越大，属于同一服务簇的可能性也越大，记为SS(AS_i,AS_j)。其计算公式如下：

定义10：同簇服务(Same Cluster Service，SCS)。在GSSN中，如果服务AS_i与服务AS_j的社交相似度大于等于社交相似度相似度阀值ε，则定义服务AS_i与服务AS_j互为同簇服务。其计算公式如下：

SCS_ε(AS_i)＝{AS_j∈SRHSA(AS_i)|SS(AS_i,AS_j)≥ε,ε＞0}

其中，ε是用于划分同簇与非同簇的相似度阀值。当一个服务拥有较多的同簇服务，本文认为其足够活跃，将其定义为簇心服务，用于扩大服务簇。

定义11：簇心服务(Cluster Center Service，CCS)。若服务AS_i的SCS个数超过某一临界值，则服务AS_i为簇心服务，定义为

其中，μ(μ>0)用于判定簇心服务的阀值。

本发明的有益效果主要表现在：(1)利用服务之间的社交相似度提高Web服务聚类精度。(2)根据服务聚类后的结果，利用服务社交属性中的未来社交域为服务推荐奠定基础。

附图说明

图1示出了全局社交服务网，其中，a)为局部社交服务网，b)为全局社交服务网。

图2示出了面向全局社交服务网的Web服务聚类框架。

图3示出了面向全局社交服务网的Web服务聚类流程。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种面向全局社交服务网的Web服务聚类方法，所述方法包括如下步骤：

第一步：建立一个面向全局社交服务网的Web服务聚类框架，其中全局社交服务网如图1所示，聚类框架结构如图2所示，框架分为服务注册模块、服务运行信息采集模块、服务聚类模块、服务可视化模块。

1.1、服务注册模块：该模块实现REST服务及SOAP服务信息的注册，将原子服务注册到服务库中，为服务运行QoS采集、服务组合、服务聚类提供相关的服务资源；

1.2、服务运行信息采集模块：该模块主要采集原子服务的组合日志以及原子服务的运行QoS信息，并分别记录到服务组合日志库、服务运行QoS信息库中；

1.3、服务聚类模块：核心模块，主要结合原子服务库中的AS、服务组合日志库、服务运行QoS信息库，采用GSSN聚类算法进行聚类，为服务可视化做好准备；

1.4、服务可视化模块：该模块通过可视化操作界面，基于GSSN，提供结合聚类的可视分析功能，辅助服务消费者更为直观的挖掘服务背后的隐藏信息；

第二步：基于所述聚类框架，对本文所提出的Web服务聚类方法进行详细说明，聚类步骤如图3所示，具体步骤如下：

步骤2.1：Web服务集成；针对采用WSDL描述的SOAP Web服务和采用自然语言描述的REST Web服务进行集成。所述Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站；

步骤2.1.1、SOAP服务集成

针对SOAP服务，爬取WSDL描述信息后，由于WSDL为一种XML，可采用dom4J等JAVA库对WSDL文档进行解析。由于一个WSDL中可能包含多个AS信息，提取出所有AS的服务名称、Tag标记信息、服务的描述文本、输入输出参数。其中，SOAP服务的WSDL解析过程如下：首先，获得WSDL的根节点，解析出所有的Service节点，获得每个AS的服务名称，根据WSDL中的服务描述信息，提取词语，移除停用词，计算词频得到Tag标记信息，然后解析出每个AS的方法名及其对应的输入输出参数。最终得到SOAP服务的名称、功能描述、输入输出参数、领域标签信息。

步骤2.1.2、REST服务集成

REST服务采用基于自然语言描述的HTML文档，HTML文档详细描述了REST服务的名称、功能、输入输出参数、领域标签信息。利用网络爬虫可对HTML文档进行爬取，网页去噪，分词，去停用词，再建立对应网页的数据词典进行服务特征提取，最后得到REST服务的详细信息。如PWeb上的服务详情页满足特定的编码规则，服务名称一般使用“h1”、“header”等语义化HTML5标签表示，tag标签使用CSS样式类“tags”指明等，利用这些规则，建立爬取规则库，爬取REST服务相关描述信息进行特征提取，其中，特征提取过程如下：首先，遍历REST服务相关网页，将句子划分为词语，移除无意义的词语如“a”、“the”等词汇。其次，建立表示输入、输出、标签、服务描述等规则的数据词典。进一步，在遍历文本过程中，遇到如“output”、“input”等数据词典中表征输入输出信息的词语，对其后面的句子进行输入输出特征提取；遇到如“provide”、“allow”等数据词典中表征服务功能描述信息词语，对其后面的句子进行描述信息提取；遇到如“category”、“tags”等数据词典中表征标签信息的词语，对其后面的句子进行Tag特征提取，最后返回REST服务特征信息。

步骤2.2：Web服务相似度计算；根据集成后的Web服务信息，结合服务运行日志中的QoS信息分别进行Web服务相似性计算。相似性计算主要包括以下4个过程：功能相似度计算、领域标签相似度、QoS相似度、最后综合前三步得到的结果，计算生成综合相似度；

步骤2.2.1、功能相似度计算

服务的聚类首先是功能聚类，即功能相同的服务聚为一簇，而功能大多采用自然语言描述。语义Web服务是Web服务的扩展，能够更加准确地表达Web服务功能含义，增强人与机器，机器与机器之间的交互性。通过语义描述，Web服务成为机器可读、可理解、可操作的实体，而WordNet是比较详尽的词语语义知识词典，用来度量不同词汇之间的语义相似度。当两个词汇的距离越大，其相似度越低，反之，两个词汇的距离越小，其相似程度越大。两个概念之间的相似度计算方法如下：

其中，O₁,O₂分别为不同的概念，Dis(O₁,O₂)代表2个概念之间的距离，是O₁与O₂之间的最短路径长度。

Sim_name为服务名称相似性，Sim_des为服务功能信息描述相似性，Sim_in为服务输入匹配度,Sim_out为服务输出匹配度。W_N,W_D,W_I,W_O分别为对应的权重，在0到1之间。

步骤2.2.2、领域标签相似度

领域标签信息也属于Web服务的功能性描述，如服务所属的领域，服务的来源，这些标签信息能够有效提高服务聚类的精度及查询效率。

给定Web服务AS_i以及其对应的标签集合T_i。根据Jaccard系数，计算出两个Web服务AS_i,AS_j之间的标签相似度如下：

其中，N(T_i∩T_j)表示同时拥有的标签数目。

步骤2.2.3、QoS相似度

现有的语义Web服务聚类方法主要从服务的功能属性出发，缺乏对QoS的考虑。随着服务数量的快速增长，服务的质量参差不齐，QoS成为用户在使用Web服务时考虑的重要指标。如何快速的从海量的服务中找到既能满足用户需求的又具有最优QoS的服务是服务发现的研究重点。

根据W3C在2003年给出的13个WEB服务QoS属性，本文选取其中便于度量的属性对Web服务的QoS进行度量，建立QoS向量如下所示：

V_QoS＝{a₁,a₂,…,a_n}

其中，a_n代表QoS属性，又可分为连续型和离散型，连续型如响应时间，服务价格等，离散型如吞吐量，可用性，可靠性，信誉度等，n代表可度量属性的个数。考虑到不同的a_n取值范围有着很大的差别，如价格为100元和响应时间为0.01秒，因此需要对值进行标准化计算，把值都转化为[0，1]之间的数。

对于离散型，利用如下公式进行归一化计算：

其中，num代表a_n属性取值的个数，index代表a_n属性取值在所有离散取值范围中的索引。

对于连续型，利用最小-最大规范法进行归一化计算：

其中，代表功能相同的服务簇中a_n属性的最大值，代表功能相同的服务簇中a_n属性的最小值。

步骤2.2.4、综合相似度集成

步骤2.3：GSSN聚类；

服务组合日志库中的信息代表着多个不同的局部社交服务网，记录着每个局部社交服务网中服务节点之间的连接关系，算法先通过将各个不同的局部社交服务网关联到一起生成一个初始GSSN，之后再结合GSSN聚类算法对GSSN进行进一步优化。GSSN聚类算法是在K-means聚类算法的基础上，结合服务在PGSSN中的社交属性，利用服务的社交相似度来进一步提高服务聚类的精度，同时利用FSA为服务推荐奠定基础。

GSSN聚类算法分为三阶段：

第一阶段，根据服务组合日志建立服务间的局部社交服务网，通过局部社交服务网的互相关联推导出PGSSN，初始PGSSN建立的依据为历史数据，仅能展现已有的服务关系。

第二阶段，对在PGSSN中的AS，统计AS的SRHSA，计算社交相似度，根据社交相似度进行聚类不断扩大服务簇。

第三阶段，对原子服务库中的AS，采用K-means算法，基于综合相似度进行聚类后，根据服务簇间相似度阀值划分至PGSSN中相似的服务簇中，融合后的新服务簇即为优化后的GSSN。

GSSN聚类算法具体步骤如下：

步骤2.3.1：将现有的服务关系存储至服务组合日志库L中，L＝{N,R}，其中N为各局部社交服务网节点的集合，R为各局部社交服务网社交关系的集合，即对任一局部社交服务网，其节点集合N_k＝{AS₁,AS₂,…AS_i}和社交关系集合R_k＝{AS_m,AS_n∈N_k|<AS₁,AS₂>,…,<AS_i,AS_j>}，有N＝{N₁∩N₂∩…∩N_k},R＝{R₁∩R₂∩…∩R_k}。(k为正整数，代表局部社交服务网编号)。由于现有的服务社交关系都记录在L中，读取L可推出各个局部社交服务网，并以此为基础生成PGSSN。

步骤2.3.2：遍历PGSSN中的AS，统计每个AS的强关系历史社交域并计算社交相似度，得到同簇服务。如SRHSA(AS₁)＝{AS₂,AS₃,AS₄,AS₅}，SRHSA(AS₆)＝{AS₂,AS₃,AS₄,AS₇}，则假设社交相似度阀值ε为0.5，0.75大于ε，AS₁与AS₆互为SCS。

步骤2.3.3：根据同簇服务，得到簇心服务，遍历所有簇心服务，将每个簇心服务的所有同簇服务聚为一个簇，根据簇中的簇心节点重复步骤2.3.3再次扩展服务簇，直到没有新的服务加入服务簇。

GSSN聚类是将在PGSSN中的服务划分为若干个子服务簇，使得具有相似社交相似度的服务归于同一簇，将在原子服务库中经K-means聚类后的服务划分至PGSSN中相似服务簇。优化后的GSSN结合服务社交属性进行聚类，有助于提高聚类的准确度，并为服务组合和服务推荐提供依据。

步骤2.4：GSSN可视化；

Claims

1.一种面向全局社交服务网的Web服务聚类方法，其特征在于：所述方法包括如下步骤：

第二步：基于所述聚类框架，Web服务聚类方法的步骤如下：

步骤2.3：GSSN聚类；

步骤2.4：GSSN可视化；

2.如权利要求1所述的一种面向全局社交服务网的Web服务聚类方法，其特征在于：所述步骤2.1的过程如下：

步骤2.1.1、SOAP服务集成

步骤2.1.2、REST服务集成

3.如权利要求1所述的一种面向全局社交服务网的Web服务聚类方法，其特征在于：所述步骤2.2中，所述相似性计算过程如下：

步骤2.2.1、功能相似度计算

sim_func(As_i,As_j)＝W_N×sim_name(As_i,As_j)+W_D×sim_des(As_i,As_j)

+W_I×sim_in(As_i,As_j)+W_O×sim_out(As_i,As_j)

步骤2.2.2、领域标签相似度

其中，N(T_i∩T_j)表示同时拥有的标签数目；

步骤2.2.3、QoS相似度

V_QoS＝{a₁,a₂,…,a_n}

对于离散型，利用如下公式进行归一化计算：

<mrow> <msubsup> <mi>a</mi> <mi>n</mi> <mo>&prime;</mo> </msubsup> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mi>i</mi> <mi>n</mi> <mi>d</mi> <mi>e</mi> <mi>x</mi> </mrow> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> </mrow>

对于连续型，利用最小-最大规范法进行归一化计算：

<mrow> <msubsup> <mi>a</mi> <mi>n</mi> <mo>&prime;</mo> </msubsup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>a</mi> <mi>n</mi> </msub> <mo>-</mo> <msub> <mi>min</mi> <msub> <mi>a</mi> <mi>n</mi> </msub> </msub> </mrow> <mrow> <msub> <mi>max</mi> <msub> <mi>a</mi> <mi>n</mi> </msub> </msub> <mo>-</mo> <msub> <mi>min</mi> <msub> <mi>a</mi> <mi>n</mi> </msub> </msub> </mrow> </mfrac> </mrow>

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mi>Q</mi> <mi>o</mi> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>AS</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>AS</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mrow> <mo>|</mo> <mover> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> <mover> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> </mrow> <mrow> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>a</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> <mo>&CenterDot;</mo> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>a</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> </mrow>

步骤2.2.4、综合相似度集成

sim(AS_i,AS_j)＝α*sim_func(AS_i,AS_j)+β*sim_tag(AS_i,AS_j)

+λ*sim_QoS(AS_i,AS_j)

4.如权利要求1或2所述的一种面向全局社交服务网的Web服务聚类方法，其特征在于：所述步骤2.3中，GSSN聚类算法的步骤如下：