CN104598559A

CN104598559A - 一种基于Web服务标签数据的联合聚类方法

Info

Publication number: CN104598559A
Application number: CN201510005433.0A
Authority: CN
Inventors: 吴健; 梁婷婷; 陈亮; 邓水光; 李莹; 尹建伟; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-01-06
Filing date: 2015-01-06
Publication date: 2015-05-06

Abstract

本发明属于Web服务领域，主要利用了Web服务标签数据与联合聚类算法，实现了一种对Web服务进行有效聚类的方法。本发明主要采用联合聚类的算法，首先对Web服务的WSDL文档及标签数据进行了一系列的预处理；然后根据选定的策略将两个词-服务矩阵相结合，获得最终的词-服务矩阵；接着采用联合聚类算法、 K均值聚类方法，获得最终的服务及词的聚类情况。另外，本发明针对标签数据信息不充分的情况，引入了标签推荐机制，使得标签数据更加完整可靠。本发明引入Web服务标签数据，提高了服务描述的可信度，从而提升了服务聚类效果。

Description

一种基于Web服务标签数据的联合聚类方法

技术领域

本发明属于Web服务领域，主要利用了Web服务标签数据与联合聚类算法，实现了一种对Web服务进行有效聚类的方法。

背景技术

SOA(Service-Oriented Architecture,面向服务的体系架构)是一种新型的分布式计算模型。其在电子商务、系统集成等领域中起到了越来越重要的作用。近年来，国内有关院校、研究单位、IT相关单位都比较重视软件体系结构的研究工作，面向服务软件体系结构的研究已经成为热点，比较多研究项目尚处于概念研究阶段。随着SOA技术的不断发展，中国的SOA架构模型和应用推广已经有了良好的需求环境。

在SOA思想中，服务是功能组件的基本单元，而通过发现和组合服务可以满足用户的各种需求。随着SOA的迅猛发展，互联网上的可用Web服务的普及率也在增长，有效地发现需要的服务变得不可或缺。Web服务发现是Web服务系统架构中的一个重要组成部分，其效果直接关系到服务复用的质量，服务组合的相容性和可替换性，以及能否真正实现服务的“即插即用”。研究表明，相较于传统的基于关键词匹配和简单分类进行服务发现(UDDI)的解决方案，采用基于服务搜索引擎的模型进行服务发现更为有效。Web服务聚类是提高Web服务搜索引擎效率的方法之一。目前对于服务聚类方法的研究，大部分都是基于Web服务描述语言WSDL文件计算服务间相似度以实现Web服务的聚类，但是单一的信息源和单向的聚类过程约束了服务聚类的准确率。因此，一种在WSDL文件基础上加入服务标签数据，能够同时聚类Web服务及描述服务的信息的服务聚类方法，已成为目前学术界与工业界的急切需求。

发明内容

Web服务是由服务提供商发布在互联网上的功能体，调用Web服务可以实现一定的功能。随着互联网上的可用Web服务的数量的激增，在海量的Web服务中找到充分满足用户需求的服务变得越来越困难。服务聚类是缓解服务发现困难的一个有效方法。

一种基于Web服务标签数据的联合聚类方法，包括如下步骤：

(1)数据预处理模块对Web服务的WSDL文档及标签数据进行预处理：包括过滤文本中的停用词，对过滤后的文本进行分词处理，利用TF-IDF算法赋予每个文本中每个词相应的权重并生成词-服务矩阵；

(2)数据整合模块根据整合WSDL文档数据和标签数据的策略，并根据选定的策略将两个词-服务矩阵相结合，获得最终的词-服务矩阵；

(3)服务联合聚类模块采用联合聚类算法，将Web服务联合聚类问题看作是二分图的划分问题并采用谱图划分算法，通过求解标准化后的词-服务矩阵的奇异矩阵，得到二分图划分的解，从而获得含有词聚类信息及Web服务聚类信息的向量；

(4)基于步骤(3)中获得的向量，采用K均值聚类方法，获得最终的服务及词的聚类情况。

优选的，所述步骤(1)中的标签数据信息不充分的情况，通过标签推荐模块，使得标签数据更加完整可靠。

优选的，所述标签推荐模块采用Sum、Vote等标签推荐策略，根据每个Web服务已有的标签，为其推荐新的标签，保证Web服务标签数据的可靠性。

优选的，数据预处理模块对从Web服务搜索引擎获取的WSDL文档和标签数据进行停用词过滤、分词处理，最后根据分词处理后的文本计算词频，利用TF-IDF算法生成词-服务矩阵。

优选的，所述数据整合模块从数据预处理模块中获取分别基于WSD文档和标签数据的两个词-服务矩阵，采用特定的整合策略，生成一个综合的词-服务矩阵。

优选的，所述服务联合聚类模块从数据整合模块输入整合后的词-服务矩阵，采用联合聚类算法，计算出含有词聚类及Web服务聚类信息的向量，并通过K均值算法获得最终聚类结果。

本发明主要采用联合聚类的算法，首先对Web服务的WSDL文档及标签数据进行了一系列的预处理，包括过滤文本中的停用词，如“on”,“of”等，对过滤后的文本进行分词处理，利用TF-IDF算法赋予每个文本中每个词相应的权重并生成词-服务矩阵；然后设计了整合WSDL文档数据和标签数据的策略，并根据选定的策略将两个词-服务矩阵相结合，获得最终的词-服务矩阵；接着采用联合聚类算法，将Web服务联合聚类问题看作是二分图的划分问题并采用谱图划分算法，通过求解标准化后的词-服务矩阵的奇异矩阵，得到二分图划分的解，从而获得含有词聚类信息及Web服务聚类信息的向量；最终基于上一步骤中获得的向量，采用K均值聚类方法，获得最终的服务及词的聚类情况。另外，本发明针对标签数据信息不充分的情况，引入了标签推荐机制，使得标签数据更加完整可靠。

整个Web服务聚类主要由四个部分组成：标签推荐模块、数据预处理模块、数据整合模块以及服务联合聚类模块。

标签推荐模块采用Sum、Vote等标签推荐策略，根据每个Web服务已有的标签，为其推荐新的标签，保证Web服务标签数据的可靠性。

数据预处理模块对从Web服务搜索引擎获取的WSDL文档和标签数据进行停用词过滤、分词处理，最后根据分词处理后的文本计算词频，利用TF-IDF算法生成词-服务矩阵。

数据整合模块从数据预处理模块中获取分别基于WSDL文档和标签数据的两个词-服务矩阵，采用特定的整合策略，生成一个综合的词-服务矩阵。

服务联合聚类模块从数据整合模块输入整合后的词-服务矩阵，采用联合聚类算法，计算出含有词聚类及Web服务聚类信息的向量，并通过K均值算法获得最终聚类结果。

本发明的优点如下：

1.聚类过程中在原来单一的信息源(WSDL文档)基础上，引入Web服务标签数据，提高了服务描述的可信度，从而提升了服务聚类效果。

2.传统聚类算法是单向的，即只对服务进行聚类，本发明同时聚类了服务和描述服务的词，两个方向上的聚类过程互相促进，很大程度上提高了服务聚类的准确率。

3.联合聚类算法中的参数很少，能够充分利用行列信息，实现过程较为简单。

附图说明

图1为整体结构图。

图2为服务联合聚类模块内部流程图。

图3为标签推荐模块内部流程图。

具体实施方式

在整个服务联合聚类过程中，将Web服务和其描述信息构造为以下二分图形式：

二分图：G＝(WS，TE，E)，其中WS为待聚类的Web服务集合，TE为词集合，分别来自WSDL文档和服务的标签数据。E可表示为集合{{ws_i,te_j}:ws_i∈WS,te_j∈TE}，若te_j是从服务ws_i中获取的，则边{ws_i,te_j}存在。二分图的邻接矩阵M可定义为以下形式：

同时R也可表示为以下形式：

M = [\begin{matrix} 0 & A \\ A^{T} & 0 \end{matrix}],

其中A是词-服务矩阵。

本发明中的聚类过程可看作二分图的划分问题，并将其表示为以下形式：

二分图划分：其中，V₁,V₂是划分Web服务和词混合的顶点集获得的两个子集。聚类的目标是使各个类别间的关联度最小，所以获得最优聚类效果等价于最小化二分图划分。

根据谱图划分原理，二分图最小划分问题可转化为求解广义特征值问题Lx＝λWx第二小特征值对应的特征向量的问题。其中L是二分图的拉普拉斯矩阵，W是一个顶点对角矩阵，对角线上的元素代表每个顶点自身的权重，即与该顶点有关联的边权重的累加。

根据奇异值分解算法及简单的矩阵运算，可以发现求解广义特征值问题可转换为对标准化后的矩阵A进行奇异值分解，标准化过程可表示为其中和分别表示为词顶点和服务顶点的对角矩阵。

通过奇异值分解求得A_n的从第二大奇异值对应的奇异向量开始的l＝[log₂K]个左奇异向量U＝[u₂,u₃,...,u_l+1]和右奇异向量，V＝[v₂,v₃,...,v_l+1]分别给出了词的划分和服务的划分。由和组成的l维指示向量X就是前面提到的广义特征值问题从第二小特征值对应的特征向量开始的l维特征向量。

标签推荐模型中有以下三种标签的定义：

服务现有标签：R，表示一个Web服务已有的标签集合。

候选标签：L_r，对于每一个现有标签集合中的标签r∈R，L_r是通过排序获得的与r共现关系最大的前m个标签，L是所有L_r的并集。

推荐标签：List，经过特定的策略排序后获得的前N个相关标签组成的集合。

标签推荐模型中度量标签的共现关系有多种计算方法，本发明中主要采用以下两种：

对称度量：根据Jaccard系数，两个标签t_i和t_j的共现关系可由下式计算得到：

J (t_{i}, t_{j}) = \frac{| t_{i} \cap t_{j} |}{| t_{i} \cup t_{j} |}

非对称度量：表示一个服务在已有标签t_i的前提下会被打上标签t_j的概率。

标签整合和排序有多种策略，本发明中主要采用的是Vote和Sum两种策略，其表示形式如下：

每个候选标签的排序分数可由score(c)＝∑_r∈Rvote(r,c)得到。

Sum：score(c)＝∑_r∈R(co(r,c)，ifc∈C_r)，表示每个候选标签的排序分数由其与现有标签集合中每个标签的共现关系总和得到。

通过标签整合和排序策略即可得到最终标签推荐列表List。

下面将结合图来说明整个服务联合聚类的过程：

从图1可以看出，整个联合聚类过程主要由数据预处理模块、数据整合模块及服务联合聚类模块三个部分顺序执行完成。数据预处理模块从Web服务搜索引擎中获取WSDL文档和标签数据，同时从由标签推荐模块生成的推荐标签列表中获取推荐的标签数据，经过停用词过滤，分词处理，计算词权重三个步骤完成数据预处理，分别生成针对两个数据源的词-服务矩阵；数据整合模块接收数据预处理模块产生的词-服务矩阵，从数据整合策略库中选择合适的整合策略，将两个词-服务矩阵整合成一个综合的词-服务矩阵，作为服务联合聚类模块的输入；最后，服务联合聚类模块采用联合聚类算法，将聚类问题转化为奇异值求解问题，得到最终的服务聚类结果。

图2介绍了服务联合聚类模块中的主要流程。服务联合聚类模块的输入为综合的词-服务矩阵A和聚类数K。首先用对A进行标准化；然后对A_n进行奇异值分解，从第二大奇异值对应的奇异向量开始，选取个左奇异向量U＝[u₂,u₃,...,u_l+1]和右奇异向量，V＝[v₂,v₃,...,v_l+1]；接下来通过对由和组成的l维指示向量X进行K均值算法，获得最终的聚类结果。

图3介绍了标签推荐模块中的主要流程。标签推荐模块的输入为某一服务现有标签R和待推荐的标签数N。首先根据所有服务的标签数据选取合适的度量方法，计算标签的共现关系，为每一个现有标签集合中的标签r∈R确定候选集L_r，L是所有L_r的并集；然后采用Sum、Vote整合排序策略对候选标签进行整合排序，选取前N个标签，得到最终标签推荐列表List。

Claims

1.一种基于Web服务标签数据的联合聚类方法，包括如下步骤：

数据预处理模块对Web服务的WSDL文档及标签数据进行预处理：包括过滤文本中的停用词，对过滤后的文本进行分词处理，利用TF-IDF算法赋予每个文本中每个词相应的权重并生成词-服务矩阵；

数据整合模块根据整合WSDL文档数据和标签数据的策略，并根据选定的策略将两个词-服务矩阵相结合，获得最终的词-服务矩阵；

服务联合聚类模块采用联合聚类算法，将Web服务联合聚类问题看作是二分图的划分问题并采用谱图划分算法，通过求解标准化后的词-服务矩阵的奇异矩阵，得到二分图划分的解，从而获得含有词聚类信息及Web服务聚类信息的向量；

基于步骤（3）中获得的向量，采用K均值聚类方法，获得最终的服务及词的聚类情况。

2.根据权利要求1所述的基于Web服务标签数据的联合聚类方法，其特征在于：所述步骤（1）中的标签数据信息不充分的情况，通过标签推荐模块，使得标签数据更加完整可靠。

3.根据权利要求2所述的基于Web服务标签数据的联合聚类方法，其特征在于：所述标签推荐模块采用Sum、Vote等标签推荐策略，根据每个Web服务已有的标签，为其推荐新的标签，保证Web服务标签数据的可靠性。

4.根据权利要求1-3任一所述的基于Web服务标签数据的联合聚类方法，其特征在于：数据预处理模块对从Web服务搜索引擎获取的WSDL文档和标签数据进行停用词过滤、分词处理，最后根据分词处理后的文本计算词频，利用TF-IDF算法生成词-服务矩阵。

5.根据权利要求1-3任一所述的基于Web服务标签数据的联合聚类方法，其特征在于：所述数据整合模块从数据预处理模块中获取分别基于WSD文档和标签数据的两个词-服务矩阵，采用特定的整合策略，生成一个综合的词-服务矩阵。

6.根据权利要求1-3任一所述的基于Web服务标签数据的联合聚类方法，其特征在于：所述服务联合聚类模块从数据整合模块输入整合后的词-服务矩阵，采用联合聚类算法，计算出含有词聚类及Web服务聚类信息的向量，并通过K均值算法获得最终聚类结果。