CN104598559A - 一种基于Web服务标签数据的联合聚类方法 - Google Patents

一种基于Web服务标签数据的联合聚类方法 Download PDF

Info

Publication number
CN104598559A
CN104598559A CN201510005433.0A CN201510005433A CN104598559A CN 104598559 A CN104598559 A CN 104598559A CN 201510005433 A CN201510005433 A CN 201510005433A CN 104598559 A CN104598559 A CN 104598559A
Authority
CN
China
Prior art keywords
service
web service
data
label
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510005433.0A
Other languages
English (en)
Inventor
吴健
梁婷婷
陈亮
邓水光
李莹
尹建伟
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201510005433.0A priority Critical patent/CN104598559A/zh
Publication of CN104598559A publication Critical patent/CN104598559A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于Web服务领域,主要利用了Web服务标签数据与联合聚类算法,实现了一种对Web服务进行有效聚类的方法。本发明主要采用联合聚类的算法,首先对Web服务的WSDL文档及标签数据进行了一系列的预处理;然后根据选定的策略将两个词-服务矩阵相结合,获得最终的词-服务矩阵;接着采用联合聚类算法、 K均值聚类方法,获得最终的服务及词的聚类情况。另外,本发明针对标签数据信息不充分的情况,引入了标签推荐机制,使得标签数据更加完整可靠。本发明引入Web服务标签数据,提高了服务描述的可信度,从而提升了服务聚类效果。

Description

一种基于Web服务标签数据的联合聚类方法
技术领域
本发明属于Web服务领域,主要利用了Web服务标签数据与联合聚类算法,实现了一种对Web服务进行有效聚类的方法。
背景技术
SOA(Service-Oriented Architecture,面向服务的体系架构)是一种新型的分布式计算模型。其在电子商务、系统集成等领域中起到了越来越重要的作用。近年来,国内有关院校、研究单位、IT相关单位都比较重视软件体系结构的研究工作,面向服务软件体系结构的研究已经成为热点,比较多研究项目尚处于概念研究阶段。随着SOA技术的不断发展,中国的SOA架构模型和应用推广已经有了良好的需求环境。
在SOA思想中,服务是功能组件的基本单元,而通过发现和组合服务可以满足用户的各种需求。随着SOA的迅猛发展,互联网上的可用Web服务的普及率也在增长,有效地发现需要的服务变得不可或缺。Web服务发现是Web服务系统架构中的一个重要组成部分,其效果直接关系到服务复用的质量,服务组合的相容性和可替换性,以及能否真正实现服务的“即插即用”。研究表明,相较于传统的基于关键词匹配和简单分类进行服务发现(UDDI)的解决方案,采用基于服务搜索引擎的模型进行服务发现更为有效。Web服务聚类是提高Web服务搜索引擎效率的方法之一。目前对于服务聚类方法的研究,大部分都是基于Web服务描述语言WSDL文件计算服务间相似度以实现Web服务的聚类,但是单一的信息源和单向的聚类过程约束了服务聚类的准确率。因此,一种在WSDL文件基础上加入服务标签数据,能够同时聚类Web服务及描述服务的信息的服务聚类方法,已成为目前学术界与工业界的急切需求。
发明内容
Web服务是由服务提供商发布在互联网上的功能体,调用Web服务可以实现一定的功能。随着互联网上的可用Web服务的数量的激增,在海量的Web服务中找到充分满足用户需求的服务变得越来越困难。服务聚类是缓解服务发现困难的一个有效方法。
一种基于Web服务标签数据的联合聚类方法,包括如下步骤:
(1)数据预处理模块对Web服务的WSDL文档及标签数据进行预处理:包括过滤文本中的停用词,对过滤后的文本进行分词处理,利用TF-IDF算法赋予每个文本中每个词相应的权重并生成词-服务矩阵;
(2)数据整合模块根据整合WSDL文档数据和标签数据的策略,并根据选定的策略将两个词-服务矩阵相结合,获得最终的词-服务矩阵;
(3)服务联合聚类模块采用联合聚类算法,将Web服务联合聚类问题看作是二分图的划分问题并采用谱图划分算法,通过求解标准化后的词-服务矩阵的奇异矩阵,得到二分图划分的解,从而获得含有词聚类信息及Web服务聚类信息的向量;
(4)基于步骤(3)中获得的向量,采用K均值聚类方法,获得最终的服务及词的聚类情况。
优选的,所述步骤(1)中的标签数据信息不充分的情况,通过标签推荐模块,使得标签数据更加完整可靠。
优选的,所述标签推荐模块采用Sum、Vote等标签推荐策略,根据每个Web服务已有的标签,为其推荐新的标签,保证Web服务标签数据的可靠性。
优选的,数据预处理模块对从Web服务搜索引擎获取的WSDL文档和标签数据进行停用词过滤、分词处理,最后根据分词处理后的文本计算词频,利用TF-IDF算法生成词-服务矩阵。
优选的,所述数据整合模块从数据预处理模块中获取分别基于WSD文档和标签数据的两个词-服务矩阵,采用特定的整合策略,生成一个综合的词-服务矩阵。
优选的,所述服务联合聚类模块从数据整合模块输入整合后的词-服务矩阵,采用联合聚类算法,计算出含有词聚类及Web服务聚类信息的向量,并通过K均值算法获得最终聚类结果。
本发明主要采用联合聚类的算法,首先对Web服务的WSDL文档及标签数据进行了一系列的预处理,包括过滤文本中的停用词,如“on”,“of”等,对过滤后的文本进行分词处理,利用TF-IDF算法赋予每个文本中每个词相应的权重并生成词-服务矩阵;然后设计了整合WSDL文档数据和标签数据的策略,并根据选定的策略将两个词-服务矩阵相结合,获得最终的词-服务矩阵;接着采用联合聚类算法,将Web服务联合聚类问题看作是二分图的划分问题并采用谱图划分算法,通过求解标准化后的词-服务矩阵的奇异矩阵,得到二分图划分的解,从而获得含有词聚类信息及Web服务聚类信息的向量;最终基于上一步骤中获得的向量,采用K均值聚类方法,获得最终的服务及词的聚类情况。另外,本发明针对标签数据信息不充分的情况,引入了标签推荐机制,使得标签数据更加完整可靠。
整个Web服务聚类主要由四个部分组成:标签推荐模块、数据预处理模块、数据整合模块以及服务联合聚类模块。
标签推荐模块采用Sum、Vote等标签推荐策略,根据每个Web服务已有的标签,为其推荐新的标签,保证Web服务标签数据的可靠性。
数据预处理模块对从Web服务搜索引擎获取的WSDL文档和标签数据进行停用词过滤、分词处理,最后根据分词处理后的文本计算词频,利用TF-IDF算法生成词-服务矩阵。
数据整合模块从数据预处理模块中获取分别基于WSDL文档和标签数据的两个词-服务矩阵,采用特定的整合策略,生成一个综合的词-服务矩阵。
服务联合聚类模块从数据整合模块输入整合后的词-服务矩阵,采用联合聚类算法,计算出含有词聚类及Web服务聚类信息的向量,并通过K均值算法获得最终聚类结果。
本发明的优点如下:
1.聚类过程中在原来单一的信息源(WSDL文档)基础上,引入Web服务标签数据,提高了服务描述的可信度,从而提升了服务聚类效果。
2.传统聚类算法是单向的,即只对服务进行聚类,本发明同时聚类了服务和描述服务的词,两个方向上的聚类过程互相促进,很大程度上提高了服务聚类的准确率。
3.联合聚类算法中的参数很少,能够充分利用行列信息,实现过程较为简单。
附图说明
图1为整体结构图。
图2为服务联合聚类模块内部流程图。
图3为标签推荐模块内部流程图。
具体实施方式
在整个服务联合聚类过程中,将Web服务和其描述信息构造为以下二分图形式:
二分图:G=(WS,TE,E),其中WS为待聚类的Web服务集合,TE为词集合,分别来自WSDL文档和服务的标签数据。E可表示为集合{{wsi,tej}:wsi∈WS,tej∈TE},若tej是从服务wsi中获取的,则边{wsi,tej}存在。二分图的邻接矩阵M可定义为以下形式:
同时R也可表示为以下形式:
M = 0 A A T 0 ,
其中A是词-服务矩阵。
本发明中的聚类过程可看作二分图的划分问题,并将其表示为以下形式:
二分图划分:其中,V1,V2是划分Web服务和词混合的顶点集获得的两个子集。聚类的目标是使各个类别间的关联度最小,所以获得最优聚类效果等价于最小化二分图划分。
根据谱图划分原理,二分图最小划分问题可转化为求解广义特征值问题Lx=λWx第二小特征值对应的特征向量的问题。其中L是二分图的拉普拉斯矩阵,W是一个顶点对角矩阵,对角线上的元素代表每个顶点自身的权重,即与该顶点有关联的边权重的累加。
根据奇异值分解算法及简单的矩阵运算,可以发现求解广义特征值问题可转换为对标准化后的矩阵A进行奇异值分解,标准化过程可表示为其中分别表示为词顶点和服务顶点的对角矩阵。
通过奇异值分解求得An的从第二大奇异值对应的奇异向量开始的l=[log2K]个左奇异向量U=[u2,u3,...,ul+1]和右奇异向量,V=[v2,v3,...,vl+1]分别给出了词的划分和服务的划分。由组成的l维指示向量X就是前面提到的广义特征值问题从第二小特征值对应的特征向量开始的l维特征向量。
标签推荐模型中有以下三种标签的定义:
服务现有标签:R,表示一个Web服务已有的标签集合。
候选标签:Lr,对于每一个现有标签集合中的标签r∈R,Lr是通过排序获得的与r共现关系最大的前m个标签,L是所有Lr的并集。
推荐标签:List,经过特定的策略排序后获得的前N个相关标签组成的集合。
标签推荐模型中度量标签的共现关系有多种计算方法,本发明中主要采用以下两种:
对称度量:根据Jaccard系数,两个标签ti和tj的共现关系可由下式计算得到:
J ( t i , t j ) = | t i ∩ t j | | t i ∪ t j |
非对称度量:表示一个服务在已有标签ti的前提下会被打上标签tj的概率。
标签整合和排序有多种策略,本发明中主要采用的是Vote和Sum两种策略,其表示形式如下:
每个候选标签的排序分数可由score(c)=∑r∈Rvote(r,c)得到。
Sum:score(c)=∑r∈R(co(r,c),ifc∈Cr),表示每个候选标签的排序分数由其与现有标签集合中每个标签的共现关系总和得到。
通过标签整合和排序策略即可得到最终标签推荐列表List。
下面将结合图来说明整个服务联合聚类的过程:
从图1可以看出,整个联合聚类过程主要由数据预处理模块、数据整合模块及服务联合聚类模块三个部分顺序执行完成。数据预处理模块从Web服务搜索引擎中获取WSDL文档和标签数据,同时从由标签推荐模块生成的推荐标签列表中获取推荐的标签数据,经过停用词过滤,分词处理,计算词权重三个步骤完成数据预处理,分别生成针对两个数据源的词-服务矩阵;数据整合模块接收数据预处理模块产生的词-服务矩阵,从数据整合策略库中选择合适的整合策略,将两个词-服务矩阵整合成一个综合的词-服务矩阵,作为服务联合聚类模块的输入;最后,服务联合聚类模块采用联合聚类算法,将聚类问题转化为奇异值求解问题,得到最终的服务聚类结果。
图2介绍了服务联合聚类模块中的主要流程。服务联合聚类模块的输入为综合的词-服务矩阵A和聚类数K。首先用对A进行标准化;然后对An进行奇异值分解,从第二大奇异值对应的奇异向量开始,选取个左奇异向量U=[u2,u3,...,ul+1]和右奇异向量,V=[v2,v3,...,vl+1];接下来通过对由组成的l维指示向量X进行K均值算法,获得最终的聚类结果。
图3介绍了标签推荐模块中的主要流程。标签推荐模块的输入为某一服务现有标签R和待推荐的标签数N。首先根据所有服务的标签数据选取合适的度量方法,计算标签的共现关系,为每一个现有标签集合中的标签r∈R确定候选集Lr,L是所有Lr的并集;然后采用Sum、Vote整合排序策略对候选标签进行整合排序,选取前N个标签,得到最终标签推荐列表List。

Claims (6)

1.一种基于Web服务标签数据的联合聚类方法,包括如下步骤:
数据预处理模块对Web服务的WSDL文档及标签数据进行预处理:包括过滤文本中的停用词,对过滤后的文本进行分词处理,利用TF-IDF算法赋予每个文本中每个词相应的权重并生成词-服务矩阵;
数据整合模块根据整合WSDL文档数据和标签数据的策略,并根据选定的策略将两个词-服务矩阵相结合,获得最终的词-服务矩阵;
服务联合聚类模块采用联合聚类算法,将Web服务联合聚类问题看作是二分图的划分问题并采用谱图划分算法,通过求解标准化后的词-服务矩阵的奇异矩阵,得到二分图划分的解,从而获得含有词聚类信息及Web服务聚类信息的向量;
基于步骤(3)中获得的向量,采用K均值聚类方法,获得最终的服务及词的聚类情况。
2.根据权利要求1所述的基于Web服务标签数据的联合聚类方法,其特征在于:所述步骤(1)中的标签数据信息不充分的情况,通过标签推荐模块,使得标签数据更加完整可靠。
3.根据权利要求2所述的基于Web服务标签数据的联合聚类方法,其特征在于:所述标签推荐模块采用Sum、Vote等标签推荐策略,根据每个Web服务已有的标签,为其推荐新的标签,保证Web服务标签数据的可靠性。
4.根据权利要求1-3任一所述的基于Web服务标签数据的联合聚类方法,其特征在于:数据预处理模块对从Web服务搜索引擎获取的WSDL文档和标签数据进行停用词过滤、分词处理,最后根据分词处理后的文本计算词频,利用TF-IDF算法生成词-服务矩阵。
5.根据权利要求1-3任一所述的基于Web服务标签数据的联合聚类方法,其特征在于:所述数据整合模块从数据预处理模块中获取分别基于WSD文档和标签数据的两个词-服务矩阵,采用特定的整合策略,生成一个综合的词-服务矩阵。
6.根据权利要求1-3任一所述的基于Web服务标签数据的联合聚类方法,其特征在于:所述服务联合聚类模块从数据整合模块输入整合后的词-服务矩阵,采用联合聚类算法,计算出含有词聚类及Web服务聚类信息的向量,并通过K均值算法获得最终聚类结果。
CN201510005433.0A 2015-01-06 2015-01-06 一种基于Web服务标签数据的联合聚类方法 Pending CN104598559A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510005433.0A CN104598559A (zh) 2015-01-06 2015-01-06 一种基于Web服务标签数据的联合聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510005433.0A CN104598559A (zh) 2015-01-06 2015-01-06 一种基于Web服务标签数据的联合聚类方法

Publications (1)

Publication Number Publication Date
CN104598559A true CN104598559A (zh) 2015-05-06

Family

ID=53124344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510005433.0A Pending CN104598559A (zh) 2015-01-06 2015-01-06 一种基于Web服务标签数据的联合聚类方法

Country Status (1)

Country Link
CN (1) CN104598559A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404619A (zh) * 2015-09-08 2016-03-16 华南理工大学 一种基于相似度的语义Web服务聚类标注方法
CN105630899A (zh) * 2015-12-21 2016-06-01 南通大学 一种公共卫生事件预警知识库的构建方法
CN111914859A (zh) * 2019-05-07 2020-11-10 中移(苏州)软件技术有限公司 一种服务复用方法、计算设备及计算机可读存储介质
CN112396078A (zh) * 2019-08-16 2021-02-23 中国移动通信有限公司研究院 一种服务分类方法、装置、设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622396A (zh) * 2011-11-30 2012-08-01 浙江大学 一种基于标签的web服务聚类方法
CN103944766A (zh) * 2014-04-30 2014-07-23 浙江大学 具有QoS关联关系的服务选择方法
CN104253830A (zh) * 2013-06-26 2014-12-31 浙江大学 一种基于位置的服务选择方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622396A (zh) * 2011-11-30 2012-08-01 浙江大学 一种基于标签的web服务聚类方法
CN104253830A (zh) * 2013-06-26 2014-12-31 浙江大学 一种基于位置的服务选择方法
CN103944766A (zh) * 2014-04-30 2014-07-23 浙江大学 具有QoS关联关系的服务选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAN WU等: "Clustering Web Services to Facilitate Service Discovery", 《KNOWLEDGE AND INFORMATION SYSTEM》 *
TINGTING LIANG等: "Co-clustering WSDL Documents to Bootstrap Service Discovery", 《IEEE 7TH INTERNATIONAL CONFERENCE ON SERVICE-ORIENTED COMPUTING AND APPLICATIONS》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404619A (zh) * 2015-09-08 2016-03-16 华南理工大学 一种基于相似度的语义Web服务聚类标注方法
CN105404619B (zh) * 2015-09-08 2018-09-14 华南理工大学 一种基于相似度的语义Web服务聚类标注方法
CN105630899A (zh) * 2015-12-21 2016-06-01 南通大学 一种公共卫生事件预警知识库的构建方法
CN105630899B (zh) * 2015-12-21 2019-11-08 南通大学 一种公共卫生事件预警知识库的构建方法
CN111914859A (zh) * 2019-05-07 2020-11-10 中移(苏州)软件技术有限公司 一种服务复用方法、计算设备及计算机可读存储介质
CN112396078A (zh) * 2019-08-16 2021-02-23 中国移动通信有限公司研究院 一种服务分类方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Zarzour et al. A new collaborative filtering recommendation algorithm based on dimensionality reduction and clustering techniques
Dang et al. An approach to integrating sentiment analysis into recommender systems
Duan et al. JointRec: A deep-learning-based joint cloud video recommendation framework for mobile IoT
Yu et al. Collaborative filtering with entity similarity regularization in heterogeneous information networks
Kuang et al. A personalized QoS prediction approach for CPS service recommendation based on reputation and location-aware collaborative filtering
US9875294B2 (en) Method and apparatus for classifying object based on social networking service, and storage medium
Meng et al. Leveraging concept association network for multimedia rare concept mining and retrieval
Kutlimuratov et al. Evolving hierarchical and tag information via the deeply enhanced weighted non-negative matrix factorization of rating predictions
CN106940801A (zh) 一种用于广域网络的深度强化学习推荐系统及方法
Cintia Ganesha Putri et al. Design of an unsupervised machine learning-based movie recommender system
CN102622396A (zh) 一种基于标签的web服务聚类方法
Cui et al. Dual implicit mining-based latent friend recommendation
Su et al. Adaptive affinity propagation with spectral angle mapper for semi-supervised hyperspectral band selection
US20140244614A1 (en) Cross-Domain Topic Space
CN103020712B (zh) 一种海量微博数据的分布式分类装置及方法
CN104598559A (zh) 一种基于Web服务标签数据的联合聚类方法
Pfadler et al. Billion-scale recommendation with heterogeneous side information at taobao
Serrano Intelligent recommender system for big data applications based on the random neural network
CN103095849A (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
CN105159918A (zh) 一种基于信任关联度的微博网络社区发现方法
Moon et al. Image patch analysis of sunspots and active regions-II. Clustering via matrix factorization
Qin A Survey of Long‐Tail Item Recommendation Methods
Xia E-commerce product recommendation method based on collaborative filtering technology
Yang et al. Constraint projections for semi‐supervised spectral clustering ensemble
Hidayati et al. The Influence of User Profile and Post Metadata on the Popularity of Image-Based Social Media: A Data Perspective

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150506

RJ01 Rejection of invention patent application after publication