CN107135092A - 一种面向全局社交服务网的Web服务聚类方法 - Google Patents

一种面向全局社交服务网的Web服务聚类方法 Download PDF

Info

Publication number
CN107135092A
CN107135092A CN201710153197.6A CN201710153197A CN107135092A CN 107135092 A CN107135092 A CN 107135092A CN 201710153197 A CN201710153197 A CN 201710153197A CN 107135092 A CN107135092 A CN 107135092A
Authority
CN
China
Prior art keywords
service
mrow
msub
cluster
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710153197.6A
Other languages
English (en)
Other versions
CN107135092B (zh
Inventor
陆佳炜
马俊
陈烘
肖刚
张元鸣
徐俊
李�杰
卢成炳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710153197.6A priority Critical patent/CN107135092B/zh
Publication of CN107135092A publication Critical patent/CN107135092A/zh
Application granted granted Critical
Publication of CN107135092B publication Critical patent/CN107135092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • H04L41/0273Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using web services for network management, e.g. simple object access protocol [SOAP]
    • H04L41/0286Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using web services for network management, e.g. simple object access protocol [SOAP] for search or classification or discovery of web services providing management functionalities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种面向全局社交服务网的Web服务聚类方法,包括如下步骤:第一步:建立一个面向全局社交服务网的Web服务聚类框架,框架分为服务注册模块、服务运行信息采集模块、服务聚类模块和服务可视化模块;第二步:基于所述聚类框架,Web服务聚类方法的步骤如下:步骤2.1:Web服务集成;步骤2.2:Web服务相似度计算;步骤2.3:GSSN聚类;步骤2.4:GSSN可视化;对聚类后的结果进行可视化,辅助用户更为直观的挖掘服务背后的隐藏信息。本发明提高Web服务聚类精度,具有较好的通用性。

Description

一种面向全局社交服务网的Web服务聚类方法
技术领域
本发明属于服务计算领域,特别涉及一种面向全局社交服务网的Web服务聚类方法。
背景技术
Web服务作为一种潜在的分布式服务架构解决方案,在互联网上具有重大影响。随着云计算的兴起,各类Web服务层出不穷,极大地促进了服务计算领域的发展。然而,目前Web服务并没有发挥其应有的价值,截止到2016年11月30日,Web服务编程网站PWeb(Programmable Web)上发布的Web服务已经超过16000个,但是发布在服务组合系统中的Web服务不超过4000个。许多已经发布的Web服务使用效率低下,未能被用户更好的发现、组合及调用,这也为软件开发者有效发现和重用服务资源带来了极大的挑战。
造成以上现象原因总结如下:现有的服务描述语言,如WSDL(Web ServicesDescription Language)、Web APIs(Web Application Programming Interface)、OWL-S(Ontology Web Language for Service),只将服务作为一个单独的服务孤岛去研究,并没有考虑服务之间的社交关系,这导致服务的发现和组合变得十分困难。UDDI(UniversalDescription,Discovery,and Integration)提供了一些服务分类法系统,但这些分类标准并不统一而且较为简单,无法保证所采用的分类方法能够正确反映服务的功能。对于发布在PWeb中的服务,服务消费者只看到该服务相关的文本描述信息,无法直接调用,也未能了解其关联服务的组合情况。
Web服务聚类是一种有效促进Web服务发现的技术。然而,现有的服务聚类方法主要关注服务功能属性或QoS(Quality of Service)属性,并没有考虑服务在网络中的社交属性,随着服务数量的急速增长,面临着服务发现效率低下等问题。社交属性存在于全局社交服务网GSSN(Global Social Service Network)之中,可用来支持服务发现、服务推荐,即若在全局社交服务网中,服务之间的依赖关系相似,共同依赖着大部分相同的其他服务,则这些服务同属于一类的可能性比较大。
目前,学术界分别就聚类和服务社交关系方面已经有所研究:
服务聚类研究方面,李征,王健等人提出了一种面向主题的领域服务聚类方法,该方法在对服务进行领域分类的基础上,结合概率、融合领域特性的领域服务聚类模型DSCM,然后基于该模型提出了一种面向主题的聚类方法。田刚,何克清等人提出了面向领域标签辅助的服务聚类方法,该方法建立DTWSC服务聚类模型基础上提高聚类效果。Liu和Wong从WSDL文档中提取了内容,上下文,主机名和服务名称四个特征,以便使用树遍历算法对Web服务进行聚类,通过归一化Google距离(NGD)来测量内容和上下文的相似性。
服务社交关系研究方面,W.Chen,I.Paik等人提出了通过构建全局社交服务网来实现更高QoS的服务发现,根据所提出已连接的特定服务原则来构建全局社交服务网。C.Cherifi,V.Labatut等人结合复杂网络来分析服务依赖网络的拓扑性质,如小世界和无标度以及社区结构等特性。郭峰,魏光等人提出一种面向服务Petri网模型及其结构化语义操作,针对服务的各种组合方式,根据所提出的组合算子来构建面向服务Petri网模型-扩展开放网。
上述研究中,聚类方面的研究只停留在服务的功能属性、QoS属性、或者领域标签属性上,并没有考虑服务的社交属性,而服务社交关系的研究多侧重于基于图论的理论研究。
发明内容
为了克服现有的Web服务聚类方法的精度较低、通用性较差的不足,本发明主要用于提高Web服务聚类精度,提供了一种可以对通过WSDL、自然语言等方式描述的Web服务进行聚类,具有较好的通用性的面向全局社交服务网的Web服务聚类方法。
本发明再有一目的是提供了一种Web服务聚类结果既可以用于Web服务发现、Web服务组合,还可以用于Web服务推荐,具有广泛的适用性的面向全局社交服务网的Web服务聚类方法。
本发明所采用的技术方案是:
一种面向全局社交服务网的Web服务聚类方法,所述方法包括如下步骤:
第一步:建立一个面向全局社交服务网的Web服务聚类框架,框架分为服务注册模块、服务运行信息采集模块、服务聚类模块和服务可视化模块;
1.1、服务注册模块:用于实现REST服务及SOAP服务信息的注册,将原子服务注册到服务库中,为服务运行QoS采集、服务组合、服务聚类提供相关的服务资源;
1.2、服务运行信息采集模块:用于采集原子服务的组合日志以及原子服务的运行QoS信息,并分别记录到服务组合日志库、服务运行QoS信息库中;
1.3、服务聚类模块:用于结合原子服务库中的AS、服务组合日志库、服务运行QoS信息库,采用GSSN聚类算法进行聚类,为服务可视化做好准备;
1.4、服务可视化模块:用于通过可视化操作界面,基于GSSN,提供结合聚类的可视分析功能,辅助服务消费者更为直观的挖掘服务背后的隐藏信息;
第二步:基于所述聚类框架,Web服务聚类方法的步骤如下:
步骤2.1:Web服务集成;针对采用WSDL描述的SOAP Web服务和采用自然语言描述的REST Web服务进行集成,所述Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站;
步骤2.2:Web服务相似度计算;根据集成后的Web服务信息,结合服务运行日志中的QoS信息分别进行Web服务相似性计算;相似性计算包括以下4个过程:功能相似度计算、领域标签相似度、QoS相似度、最后综合前三步得到的结果,计算生成综合相似度;
步骤2.3:GSSN聚类;
服务组合日志库中的信息代表着多个不同的局部社交服务网,记录着每个局部社交服务网中服务节点之间的连接关系,先通过将各个不同的局部社交服务网关联到一起生成一个初始GSSN,之后再结合GSSN聚类算法对GSSN进行进一步优化;GSSN聚类算法分为三阶段:
第一阶段,根据服务组合日志建立服务间的局部社交服务网,通过局部社交服务网的互相关联推导出PGSSN,初始PGSSN建立的依据为历史数据,仅能展现已有的服务关系;
第二阶段,对在PGSSN中的AS,统计AS的SRHSA,计算社交相似度,根据社交相似度进行聚类不断扩大服务簇;
第三阶段,对原子服务库中的AS,采用K-means算法,基于综合相似度进行聚类后,根据服务簇间相似度阀值划分至PGSSN中相似的服务簇中,融合后的新服务簇即为优化后的GSSN;
步骤2.4:GSSN可视化;
对聚类后的结果进行可视化,辅助用户更为直观的挖掘服务背后的隐藏信息。
进一步,所述步骤2.1的过程如下:
步骤2.1.1、SOAP服务集成
针对SOAP服务,爬取WSDL描述信息后,由于WSDL为一种XML,可采用dom4J等JAVA库对WSDL文档进行解析;由于一个WSDL中可能包含多个AS信息,提取出所有AS的服务名称、Tag标记信息、服务的描述文本、输入输出参数;其中,SOAP服务的WSDL解析过程如下:首先,获得WSDL的根节点,解析出所有的Service节点,获得每个AS的服务名称,根据WSDL中的服务描述信息,提取词语,移除停用词,计算词频得到Tag标记信息,然后解析出每个AS的方法名及其对应的输入输出参数;最终得到SOAP服务的名称、功能描述、输入输出参数、领域标签信息;
步骤2.1.2、REST服务集成
REST服务采用基于自然语言描述的HTML文档,HTML文档详细描述了REST服务的名称、功能、输入输出参数、领域标签信息;利用网络爬虫可对HTML文档进行爬取,网页去噪,分词,去停用词,再建立对应网页的数据词典进行服务特征提取,最后得到REST服务的详细信息;如PWeb上的服务详情页满足特定的编码规则,服务名称使用“h1”、“header”语义化HTML5标签表示,tag标签使用CSS样式类“tags”指明,利用这些规则,建立爬取规则库,爬取REST服务相关描述信息进行特征提取,其中,特征提取过程如下:首先,遍历REST服务相关网页,将句子划分为词语,移除无意义的词语如“a”、“the”词汇;其次,建立表示输入、输出、标签、服务描述等规则的数据词典;进一步,在遍历文本过程中,遇到如“output”、“input”数据词典中表征输入输出信息的词语,对其后面的句子进行输入输出特征提取;遇到如“provide”、“allow”数据词典中表征服务功能描述信息词语,对其后面的句子进行描述信息提取;遇到如“category”、“tags”数据词典中表征标签信息的词语,对其后面的句子进行Tag特征提取,最后返回REST服务特征信息。
再进一步,所述步骤2.2中,所述相似性计算过程如下:
步骤2.2.1、功能相似度计算
服务的聚类首先是功能聚类,即功能相同的服务聚为一簇,而功能大多采用自然语言描述;语义Web服务是Web服务的扩展,能够更加准确地表达Web服务功能含义,增强人与机器,机器与机器之间的交互性;通过语义描述,Web服务成为机器可读、可理解、可操作的实体,而WordNet是比较详尽的词语语义知识词典,用来度量不同词汇之间的语义相似度;当两个词汇的距离越大,其相似度越低,反之,两个词汇的距离越小,其相似程度越大;两个概念之间的相似度计算方法如下:
其中,O1,O2分别为不同的概念,Dis(O1,O2)代表2个概念之间的距离,是O1与O2之间的最短路径长度;
针对服务功能聚类问题,对特征提取后的服务名称、服务描述信息,服务输入输出参数进行概念相似度计算,采用WordNet语义词典构建领域本体层次结构,Web服务功能相似度计算方法如下:
simfunc(Asi,Asj)=WN×simname(Asi,Asj)+WD×simdes(Asi,Asj)+WI×simin(Asi,Asj)+WO×simout(Asi,Asj)
Simname为服务名称相似性,Simdes为服务功能信息描述相似性,Simin为服务输入匹配度,Simout为服务输出匹配度;WN,WD,WI,WO分别为对应的权重,在0到1之间;
步骤2.2.2、领域标签相似度
领域标签信息也属于Web服务的功能性描述,包括服务所属的领域和服务的来源;
给定Web服务ASi以及其对应的标签集合Ti,根据Jaccard系数,计算出两个Web服务ASi,ASj之间的标签相似度如下:
其中,N(Ti∩Tj)表示同时拥有的标签数目;
步骤2.2.3、QoS相似度
选取便于度量的属性对Web服务的QoS进行度量,建立QoS向量如下所示:
VQoS={a1,a2,…,an}
其中,an代表QoS属性,又可分为连续型和离散型,连续型包括响应时间和服务价格,离散型包括吞吐量,可用性,可靠性和信誉度,n代表可度量属性的个数;考虑到不同的an取值范围有着很大的差别,对值进行标准化计算,把值都转化为[0,1]之间的数;
对于离散型,利用如下公式进行归一化计算:
其中,num代表an属性取值的个数,index代表an属性取值在所有离散取值范围中的索引;
对于连续型,利用最小-最大规范法进行归一化计算:
其中,代表功能相同的服务簇中an属性的最大值,代表功能相同的服务簇中an属性的最小值;
接着,对归一化计算后的QoS向量,计算2个Web服务的QoS相似度如下:
步骤2.2.4、综合相似度集成
综合原子服务的功能相似度、领域标签相似度、QoS相似度,获得两个原子服务的综合相似度,其计算方法如下所示:
sim(ASi,ASj)=α*simfunc(ASi,ASj)+β*simtag(ASi,ASj)+λ*simQoS(ASi,ASj)
其中,α,β,λ为权重,在0到1之间,根据综合相似度即可得到服务相似矩阵,为GSSN聚类做好准备。
更进一步,所述步骤2.3中,GSSN聚类算法的步骤如下:
步骤2.3.1:将现有的服务关系存储至服务组合日志库L中,L={N,R},其中N为各局部社交服务网节点的集合,R为各局部社交服务网社交关系的集合,即对任一局部社交服务网,其节点集合Nk={AS1,AS2,…ASi}和社交关系集合Rk={ASm,ASn∈Nk|<AS1,AS2>,…,<ASi,ASj>},有N={N1∩N2∩…∩Nk},R={R1∩R2∩…∩Rk};k为正整数,代表局部社交服务网编号;由于现有的服务社交关系都记录在L中,读取L可推出各个局部社交服务网,并以此为基础生成PGSSN;
步骤2.3.2:遍历PGSSN中的AS,统计每个AS的强关系历史社交域并计算社交相似度,得到同簇服务;
步骤2.3.3:根据同簇服务,得到簇心服务,遍历所有簇心服务,将每个簇心服务的所有同簇服务聚为一个簇,根据簇中的簇心节点重复步骤2.3.3再次扩展服务簇,直到没有新的服务加入服务簇;
步骤2.3.4:对原子服务库中的AS,根据综合相似度,采用K-means算法聚类,划分至PGSSN中对应的服务簇中,优化PGSSN为GSSN。
本发明的技术构思为:首先对爬取的REST(Representational State Transfer)服务和SOAP(Simple Object Access Protocol)服务注册到原子服务库中,提取出相关描述信息特征,接着分别对服务进行功能相似度、领域标签(Tag)相似度、QoS相似度计算,其中QoS相似度来源于服务QoS信息库采集的信息。然后,生成综合相似度和相似矩阵。进一步,结合服务组合日志库中采集到的服务组合信息生成全局社交服务网,利用GSSN聚类算法优化GSSN并实现聚类,最后为用户提供可视分析。
为便于论述本发明提出的Web服务聚类方法,给出如下定义。
定义1:原子服务(Atomic Service,AS)是指可被独立调用且功能不可再分的Web服务,使用四元组来进行描述,AS={ASname,ASdes,ASin,ASout}。其中:ASname描述Web服务的名称;ASdes描述Web服务的文本信息描述,详细说明了Web服务的功能;ASin描述Web服务的输入信息;ASout描述Web服务的输出信息。
定义2:服务描述模型(Service Describe Model,SDM)是对AS的定义和表达,包括功能属性(Function Attribute,FA)和非功能性属性QoS。即SDM={FA,QoS},FA、QoS所包含的详细属性分别参见表1、表2。
表1-功能属性表
表2-QoS属性表
定义3:全局社交服务网(Global Social Service Network,GSSN)是一个开放的有向图GSSN={V,E},由节点V和有向边E组成,用来描述服务的社交情况。其中每个节点代表一个AS,每一条边代表AS之间的输入输出参数的依赖关系,即前一个AS的输出参数中至少存在一个参数是后一个AS的输入参数的依赖。GSSN表明了服务的社交状态并能为服务社交活动提供推测,规划,协作等依据。
定义4:社交属性(Social Attribute,SA)是指该服务与其他服务进行组合的能力及趋势。使用二元组来进行描述,SA={HSA,FSA}。其中,HSA、FSA分别代表历史社交域和未来社交域,HSA指目前该服务所具备的服务组合能力,FSA指未来该服务与他服务进行组合的趋势。HSA、FSA的具体定义见定义5和定义6。
定义5:历史社交域(History Social Area,HSA)。在GSSN中,从服务节点ASi到服务节点ASj的有向边记为<ASi,ASj>,其中,ASi,ASj∈V,HSA定义为从ASi出发,路径长度为n的所能到达的服务节点集合,记为HSA(ASi)n,n为正整数,代表所经过路径的长度。
定义6:未来社交域(Future Social Area,FSA)。FSA是指在GSSN中,目前没有与ASi建立社交关系,但通过聚类后可能与ASi建立社交关系的服务节点集合,记为FSA(ASi)。
定义7:初始GSSN(Primitive Global Social Service Network,PGSSN)。PGSSN由多个局部社交服务网关联推导形成,是GSSN的初始集合。
定义8:强关系历史社交域(Strong Relation History Social Area,SRHSA)。对于HSA(ASi)n,其社交关系的稳定性与所经过的路径长度成正比。n越小,ASi与HSA(ASi)n之间的社交关系越稳定。n越大,所经过的服务节点数越多,当某一服务节点失效时,信息将无法到达更远的服务节点,因此其社交关系越不稳定。定义当n为1时为ASi的强关系历史社交域,记为SRHSA(ASi),
定义9:社交相似度(Social Similarity,SS)。两个服务节点ASi,ASj在自己所在SRHSA中所能达到的服务集重合度越高,表明这两个服务的社交相似度越大,属于同一服务簇的可能性也越大,记为SS(ASi,ASj)。其计算公式如下:
定义10:同簇服务(Same Cluster Service,SCS)。在GSSN中,如果服务ASi与服务ASj的社交相似度大于等于社交相似度相似度阀值ε,则定义服务ASi与服务ASj互为同簇服务。其计算公式如下:
SCSε(ASi)={ASj∈SRHSA(ASi)|SS(ASi,ASj)≥ε,ε>0}
其中,ε是用于划分同簇与非同簇的相似度阀值。当一个服务拥有较多的同簇服务,本文认为其足够活跃,将其定义为簇心服务,用于扩大服务簇。
定义11:簇心服务(Cluster Center Service,CCS)。若服务ASi的SCS个数超过某一临界值,则服务ASi为簇心服务,定义为
其中,μ(μ>0)用于判定簇心服务的阀值。
本发明的有益效果主要表现在:(1)利用服务之间的社交相似度提高Web服务聚类精度。(2)根据服务聚类后的结果,利用服务社交属性中的未来社交域为服务推荐奠定基础。
附图说明
图1示出了全局社交服务网,其中,a)为局部社交服务网,b)为全局社交服务网。
图2示出了面向全局社交服务网的Web服务聚类框架。
图3示出了面向全局社交服务网的Web服务聚类流程。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种面向全局社交服务网的Web服务聚类方法,所述方法包括如下步骤:
第一步:建立一个面向全局社交服务网的Web服务聚类框架,其中全局社交服务网如图1所示,聚类框架结构如图2所示,框架分为服务注册模块、服务运行信息采集模块、服务聚类模块、服务可视化模块。
1.1、服务注册模块:该模块实现REST服务及SOAP服务信息的注册,将原子服务注册到服务库中,为服务运行QoS采集、服务组合、服务聚类提供相关的服务资源;
1.2、服务运行信息采集模块:该模块主要采集原子服务的组合日志以及原子服务的运行QoS信息,并分别记录到服务组合日志库、服务运行QoS信息库中;
1.3、服务聚类模块:核心模块,主要结合原子服务库中的AS、服务组合日志库、服务运行QoS信息库,采用GSSN聚类算法进行聚类,为服务可视化做好准备;
1.4、服务可视化模块:该模块通过可视化操作界面,基于GSSN,提供结合聚类的可视分析功能,辅助服务消费者更为直观的挖掘服务背后的隐藏信息;
第二步:基于所述聚类框架,对本文所提出的Web服务聚类方法进行详细说明,聚类步骤如图3所示,具体步骤如下:
步骤2.1:Web服务集成;针对采用WSDL描述的SOAP Web服务和采用自然语言描述的REST Web服务进行集成。所述Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站;
步骤2.1.1、SOAP服务集成
针对SOAP服务,爬取WSDL描述信息后,由于WSDL为一种XML,可采用dom4J等JAVA库对WSDL文档进行解析。由于一个WSDL中可能包含多个AS信息,提取出所有AS的服务名称、Tag标记信息、服务的描述文本、输入输出参数。其中,SOAP服务的WSDL解析过程如下:首先,获得WSDL的根节点,解析出所有的Service节点,获得每个AS的服务名称,根据WSDL中的服务描述信息,提取词语,移除停用词,计算词频得到Tag标记信息,然后解析出每个AS的方法名及其对应的输入输出参数。最终得到SOAP服务的名称、功能描述、输入输出参数、领域标签信息。
步骤2.1.2、REST服务集成
REST服务采用基于自然语言描述的HTML文档,HTML文档详细描述了REST服务的名称、功能、输入输出参数、领域标签信息。利用网络爬虫可对HTML文档进行爬取,网页去噪,分词,去停用词,再建立对应网页的数据词典进行服务特征提取,最后得到REST服务的详细信息。如PWeb上的服务详情页满足特定的编码规则,服务名称一般使用“h1”、“header”等语义化HTML5标签表示,tag标签使用CSS样式类“tags”指明等,利用这些规则,建立爬取规则库,爬取REST服务相关描述信息进行特征提取,其中,特征提取过程如下:首先,遍历REST服务相关网页,将句子划分为词语,移除无意义的词语如“a”、“the”等词汇。其次,建立表示输入、输出、标签、服务描述等规则的数据词典。进一步,在遍历文本过程中,遇到如“output”、“input”等数据词典中表征输入输出信息的词语,对其后面的句子进行输入输出特征提取;遇到如“provide”、“allow”等数据词典中表征服务功能描述信息词语,对其后面的句子进行描述信息提取;遇到如“category”、“tags”等数据词典中表征标签信息的词语,对其后面的句子进行Tag特征提取,最后返回REST服务特征信息。
步骤2.2:Web服务相似度计算;根据集成后的Web服务信息,结合服务运行日志中的QoS信息分别进行Web服务相似性计算。相似性计算主要包括以下4个过程:功能相似度计算、领域标签相似度、QoS相似度、最后综合前三步得到的结果,计算生成综合相似度;
步骤2.2.1、功能相似度计算
服务的聚类首先是功能聚类,即功能相同的服务聚为一簇,而功能大多采用自然语言描述。语义Web服务是Web服务的扩展,能够更加准确地表达Web服务功能含义,增强人与机器,机器与机器之间的交互性。通过语义描述,Web服务成为机器可读、可理解、可操作的实体,而WordNet是比较详尽的词语语义知识词典,用来度量不同词汇之间的语义相似度。当两个词汇的距离越大,其相似度越低,反之,两个词汇的距离越小,其相似程度越大。两个概念之间的相似度计算方法如下:
其中,O1,O2分别为不同的概念,Dis(O1,O2)代表2个概念之间的距离,是O1与O2之间的最短路径长度。
针对服务功能聚类问题,对特征提取后的服务名称、服务描述信息,服务输入输出参数进行概念相似度计算,采用WordNet语义词典构建领域本体层次结构,Web服务功能相似度计算方法如下:
simfunc(Asi,Asj)=WN×simname(Asi,Asj)+WD×simdes(Asi,Asj)+WI×simin(Asi,Asj)+WO×simout(Asi,Asj)
Simname为服务名称相似性,Simdes为服务功能信息描述相似性,Simin为服务输入匹配度,Simout为服务输出匹配度。WN,WD,WI,WO分别为对应的权重,在0到1之间。
步骤2.2.2、领域标签相似度
领域标签信息也属于Web服务的功能性描述,如服务所属的领域,服务的来源,这些标签信息能够有效提高服务聚类的精度及查询效率。
给定Web服务ASi以及其对应的标签集合Ti。根据Jaccard系数,计算出两个Web服务ASi,ASj之间的标签相似度如下:
其中,N(Ti∩Tj)表示同时拥有的标签数目。
步骤2.2.3、QoS相似度
现有的语义Web服务聚类方法主要从服务的功能属性出发,缺乏对QoS的考虑。随着服务数量的快速增长,服务的质量参差不齐,QoS成为用户在使用Web服务时考虑的重要指标。如何快速的从海量的服务中找到既能满足用户需求的又具有最优QoS的服务是服务发现的研究重点。
根据W3C在2003年给出的13个WEB服务QoS属性,本文选取其中便于度量的属性对Web服务的QoS进行度量,建立QoS向量如下所示:
VQoS={a1,a2,…,an}
其中,an代表QoS属性,又可分为连续型和离散型,连续型如响应时间,服务价格等,离散型如吞吐量,可用性,可靠性,信誉度等,n代表可度量属性的个数。考虑到不同的an取值范围有着很大的差别,如价格为100元和响应时间为0.01秒,因此需要对值进行标准化计算,把值都转化为[0,1]之间的数。
对于离散型,利用如下公式进行归一化计算:
其中,num代表an属性取值的个数,index代表an属性取值在所有离散取值范围中的索引。
对于连续型,利用最小-最大规范法进行归一化计算:
其中,代表功能相同的服务簇中an属性的最大值,代表功能相同的服务簇中an属性的最小值。
接着,对归一化计算后的QoS向量,计算2个Web服务的QoS相似度如下:
步骤2.2.4、综合相似度集成
综合原子服务的功能相似度、领域标签相似度、QoS相似度,获得两个原子服务的综合相似度,其计算方法如下所示:
sim(ASi,ASj)=α*simfunc(ASi,ASj)+β*simtag(ASi,ASj)+λ*simQoS(ASi,ASj)
其中,α,β,λ为权重,在0到1之间,根据综合相似度即可得到服务相似矩阵,为GSSN聚类做好准备。
步骤2.3:GSSN聚类;
服务组合日志库中的信息代表着多个不同的局部社交服务网,记录着每个局部社交服务网中服务节点之间的连接关系,算法先通过将各个不同的局部社交服务网关联到一起生成一个初始GSSN,之后再结合GSSN聚类算法对GSSN进行进一步优化。GSSN聚类算法是在K-means聚类算法的基础上,结合服务在PGSSN中的社交属性,利用服务的社交相似度来进一步提高服务聚类的精度,同时利用FSA为服务推荐奠定基础。
GSSN聚类算法分为三阶段:
第一阶段,根据服务组合日志建立服务间的局部社交服务网,通过局部社交服务网的互相关联推导出PGSSN,初始PGSSN建立的依据为历史数据,仅能展现已有的服务关系。
第二阶段,对在PGSSN中的AS,统计AS的SRHSA,计算社交相似度,根据社交相似度进行聚类不断扩大服务簇。
第三阶段,对原子服务库中的AS,采用K-means算法,基于综合相似度进行聚类后,根据服务簇间相似度阀值划分至PGSSN中相似的服务簇中,融合后的新服务簇即为优化后的GSSN。
GSSN聚类算法具体步骤如下:
步骤2.3.1:将现有的服务关系存储至服务组合日志库L中,L={N,R},其中N为各局部社交服务网节点的集合,R为各局部社交服务网社交关系的集合,即对任一局部社交服务网,其节点集合Nk={AS1,AS2,…ASi}和社交关系集合Rk={ASm,ASn∈Nk|<AS1,AS2>,…,<ASi,ASj>},有N={N1∩N2∩…∩Nk},R={R1∩R2∩…∩Rk}。(k为正整数,代表局部社交服务网编号)。由于现有的服务社交关系都记录在L中,读取L可推出各个局部社交服务网,并以此为基础生成PGSSN。
步骤2.3.2:遍历PGSSN中的AS,统计每个AS的强关系历史社交域并计算社交相似度,得到同簇服务。如SRHSA(AS1)={AS2,AS3,AS4,AS5},SRHSA(AS6)={AS2,AS3,AS4,AS7},则假设社交相似度阀值ε为0.5,0.75大于ε,AS1与AS6互为SCS。
步骤2.3.3:根据同簇服务,得到簇心服务,遍历所有簇心服务,将每个簇心服务的所有同簇服务聚为一个簇,根据簇中的簇心节点重复步骤2.3.3再次扩展服务簇,直到没有新的服务加入服务簇。
步骤2.3.4:对原子服务库中的AS,根据综合相似度,采用K-means算法聚类,划分至PGSSN中对应的服务簇中,优化PGSSN为GSSN。
GSSN聚类是将在PGSSN中的服务划分为若干个子服务簇,使得具有相似社交相似度的服务归于同一簇,将在原子服务库中经K-means聚类后的服务划分至PGSSN中相似服务簇。优化后的GSSN结合服务社交属性进行聚类,有助于提高聚类的准确度,并为服务组合和服务推荐提供依据。
步骤2.4:GSSN可视化;
对聚类后的结果进行可视化,辅助用户更为直观的挖掘服务背后的隐藏信息。

Claims (4)

1.一种面向全局社交服务网的Web服务聚类方法,其特征在于:所述方法包括如下步骤:
第一步:建立一个面向全局社交服务网的Web服务聚类框架,框架分为服务注册模块、服务运行信息采集模块、服务聚类模块和服务可视化模块;
1.1、服务注册模块:用于实现REST服务及SOAP服务信息的注册,将原子服务注册到服务库中,为服务运行QoS采集、服务组合、服务聚类提供相关的服务资源;
1.2、服务运行信息采集模块:用于采集原子服务的组合日志以及原子服务的运行QoS信息,并分别记录到服务组合日志库、服务运行QoS信息库中;
1.3、服务聚类模块:用于结合原子服务库中的AS、服务组合日志库、服务运行QoS信息库,采用GSSN聚类算法进行聚类,为服务可视化做好准备;
1.4、服务可视化模块:用于通过可视化操作界面,基于GSSN,提供结合聚类的可视分析功能,辅助服务消费者更为直观的挖掘服务背后的隐藏信息;
第二步:基于所述聚类框架,Web服务聚类方法的步骤如下:
步骤2.1:Web服务集成;针对采用WSDL描述的SOAP Web服务和采用自然语言描述的REST Web服务进行集成,所述Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站;
步骤2.2:Web服务相似度计算;根据集成后的Web服务信息,结合服务运行日志中的QoS信息分别进行Web服务相似性计算;相似性计算包括以下4个过程:功能相似度计算、领域标签相似度、QoS相似度、最后综合前三步得到的结果,计算生成综合相似度;
步骤2.3:GSSN聚类;
服务组合日志库中的信息代表着多个不同的局部社交服务网,记录着每个局部社交服务网中服务节点之间的连接关系,先通过将各个不同的局部社交服务网关联到一起生成一个初始GSSN,之后再结合GSSN聚类算法对GSSN进行进一步优化;GSSN聚类算法分为三阶段:
第一阶段,根据服务组合日志建立服务间的局部社交服务网,通过局部社交服务网的互相关联推导出PGSSN,初始PGSSN建立的依据为历史数据,仅能展现已有的服务关系;
第二阶段,对在PGSSN中的AS,统计AS的SRHSA,计算社交相似度,根据社交相似度进行聚类不断扩大服务簇;
第三阶段,对原子服务库中的AS,采用K-means算法,基于综合相似度进行聚类后,根据服务簇间相似度阀值划分至PGSSN中相似的服务簇中,融合后的新服务簇即为优化后的GSSN;
步骤2.4:GSSN可视化;
对聚类后的结果进行可视化,辅助用户更为直观的挖掘服务背后的隐藏信息。
2.如权利要求1所述的一种面向全局社交服务网的Web服务聚类方法,其特征在于:所述步骤2.1的过程如下:
步骤2.1.1、SOAP服务集成
针对SOAP服务,爬取WSDL描述信息后,由于WSDL为一种XML,可采用dom4J等JAVA库对WSDL文档进行解析;由于一个WSDL中可能包含多个AS信息,提取出所有AS的服务名称、Tag标记信息、服务的描述文本、输入输出参数;其中,SOAP服务的WSDL解析过程如下:首先,获得WSDL的根节点,解析出所有的Service节点,获得每个AS的服务名称,根据WSDL中的服务描述信息,提取词语,移除停用词,计算词频得到Tag标记信息,然后解析出每个AS的方法名及其对应的输入输出参数;最终得到SOAP服务的名称、功能描述、输入输出参数、领域标签信息;
步骤2.1.2、REST服务集成
REST服务采用基于自然语言描述的HTML文档,HTML文档详细描述了REST服务的名称、功能、输入输出参数、领域标签信息;利用网络爬虫可对HTML文档进行爬取,网页去噪,分词,去停用词,再建立对应网页的数据词典进行服务特征提取,最后得到REST服务的详细信息;如PWeb上的服务详情页满足特定的编码规则,服务名称使用“h1”、“header”语义化HTML5标签表示,tag标签使用CSS样式类“tags”指明,利用这些规则,建立爬取规则库,爬取REST服务相关描述信息进行特征提取,其中,特征提取过程如下:首先,遍历REST服务相关网页,将句子划分为词语,移除无意义的词语如“a”、“the”词汇;其次,建立表示输入、输出、标签、服务描述等规则的数据词典;进一步,在遍历文本过程中,遇到如“output”、“input”数据词典中表征输入输出信息的词语,对其后面的句子进行输入输出特征提取;遇到如“provide”、“allow”数据词典中表征服务功能描述信息词语,对其后面的句子进行描述信息提取;遇到如“category”、“tags”数据词典中表征标签信息的词语,对其后面的句子进行Tag特征提取,最后返回REST服务特征信息。
3.如权利要求1所述的一种面向全局社交服务网的Web服务聚类方法,其特征在于:所述步骤2.2中,所述相似性计算过程如下:
步骤2.2.1、功能相似度计算
服务的聚类首先是功能聚类,即功能相同的服务聚为一簇,而功能大多采用自然语言描述;语义Web服务是Web服务的扩展,能够更加准确地表达Web服务功能含义,增强人与机器,机器与机器之间的交互性;通过语义描述,Web服务成为机器可读、可理解、可操作的实体,而WordNet是比较详尽的词语语义知识词典,用来度量不同词汇之间的语义相似度;当两个词汇的距离越大,其相似度越低,反之,两个词汇的距离越小,其相似程度越大;两个概念之间的相似度计算方法如下:
<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> <mi>o</mi> <mi> </mi> <mi>log</mi> <mi> </mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>O</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>O</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>O</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>O</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mn>2</mn> <mrow> <mo>(</mo> <mi>D</mi> <mi>e</mi> <mi>p</mi> <mi>t</mi> <mi>h</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,O1,O2分别为不同的概念,Dis(O1,O2)代表2个概念之间的距离,是O1与O2之间的最短路径长度;
针对服务功能聚类问题,对特征提取后的服务名称、服务描述信息,服务输入输出参数进行概念相似度计算,采用WordNet语义词典构建领域本体层次结构,Web服务功能相似度计算方法如下:
simfunc(Asi,Asj)=WN×simname(Asi,Asj)+WD×simdes(Asi,Asj)
+WI×simin(Asi,Asj)+WO×simout(Asi,Asj)
Simname为服务名称相似性,Simdes为服务功能信息描述相似性,Simin为服务输入匹配度,Simout为服务输出匹配度;WN,WD,WI,WO分别为对应的权重,在0到1之间;
步骤2.2.2、领域标签相似度
领域标签信息也属于Web服务的功能性描述,包括服务所属的领域和服务的来源;
给定Web服务ASi以及其对应的标签集合Ti,根据Jaccard系数,计算出两个Web服务ASi,ASj之间的标签相似度如下:
<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mi>t</mi> <mi>a</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>AS</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>AS</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>&amp;cap;</mo> <msub> <mi>T</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mi>i</mi> </msub> <mo>&amp;cap;</mo> <msub> <mi>T</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,N(Ti∩Tj)表示同时拥有的标签数目;
步骤2.2.3、QoS相似度
选取便于度量的属性对Web服务的QoS进行度量,建立QoS向量如下所示:
VQoS={a1,a2,…,an}
其中,an代表QoS属性,又可分为连续型和离散型,连续型包括响应时间和服务价格,离散型包括吞吐量,可用性,可靠性和信誉度,n代表可度量属性的个数;考虑到不同的an取值范围有着很大的差别,对值进行标准化计算,把值都转化为[0,1]之间的数;
对于离散型,利用如下公式进行归一化计算:
<mrow> <msubsup> <mi>a</mi> <mi>n</mi> <mo>&amp;prime;</mo> </msubsup> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mi>i</mi> <mi>n</mi> <mi>d</mi> <mi>e</mi> <mi>x</mi> </mrow> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> </mrow>
其中,num代表an属性取值的个数,index代表an属性取值在所有离散取值范围中的索引;
对于连续型,利用最小-最大规范法进行归一化计算:
<mrow> <msubsup> <mi>a</mi> <mi>n</mi> <mo>&amp;prime;</mo> </msubsup> <mo>=</mo> <mfrac> <mrow> <msub> <mi>a</mi> <mi>n</mi> </msub> <mo>-</mo> <msub> <mi>min</mi> <msub> <mi>a</mi> <mi>n</mi> </msub> </msub> </mrow> <mrow> <msub> <mi>max</mi> <msub> <mi>a</mi> <mi>n</mi> </msub> </msub> <mo>-</mo> <msub> <mi>min</mi> <msub> <mi>a</mi> <mi>n</mi> </msub> </msub> </mrow> </mfrac> </mrow>
其中,代表功能相同的服务簇中an属性的最大值,代表功能相同的服务簇中an属性的最小值;
接着,对归一化计算后的QoS向量,计算2个Web服务的QoS相似度如下:
<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mi>Q</mi> <mi>o</mi> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>AS</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>AS</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>&amp;CenterDot;</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mrow> <mo>|</mo> <mover> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>&amp;RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> <mover> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>&amp;RightArrow;</mo> </mover> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <msub> <mi>a</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> </mrow> <mrow> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>a</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> <mo>&amp;CenterDot;</mo> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>a</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> </mrow>
步骤2.2.4、综合相似度集成
综合原子服务的功能相似度、领域标签相似度、QoS相似度,获得两个原子服务的综合相似度,其计算方法如下所示:
sim(ASi,ASj)=α*simfunc(ASi,ASj)+β*simtag(ASi,ASj)
+λ*simQoS(ASi,ASj)
其中,α,β,λ为权重,在0到1之间,根据综合相似度即可得到服务相似矩阵,为GSSN聚类做好准备。
4.如权利要求1或2所述的一种面向全局社交服务网的Web服务聚类方法,其特征在于:所述步骤2.3中,GSSN聚类算法的步骤如下:
步骤2.3.1:将现有的服务关系存储至服务组合日志库L中,L={N,R},其中N为各局部社交服务网节点的集合,R为各局部社交服务网社交关系的集合,即对任一局部社交服务网,其节点集合Nk={AS1,AS2,…ASi}和社交关系集合Rk={ASm,ASn∈Nk|<AS1,AS2>,…,<ASi,ASj>},有N={N1∩N2∩…∩Nk},R={R1∩R2∩…∩Rk};k为正整数,代表局部社交服务网编号;由于现有的服务社交关系都记录在L中,读取L可推出各个局部社交服务网,并以此为基础生成PGSSN;
步骤2.3.2:遍历PGSSN中的AS,统计每个AS的强关系历史社交域并计算社交相似度,得到同簇服务;
步骤2.3.3:根据同簇服务,得到簇心服务,遍历所有簇心服务,将每个簇心服务的所有同簇服务聚为一个簇,根据簇中的簇心节点重复步骤2.3.3再次扩展服务簇,直到没有新的服务加入服务簇;
步骤2.3.4:对原子服务库中的AS,根据综合相似度,采用K-means算法聚类,划分至PGSSN中对应的服务簇中,优化PGSSN为GSSN。
CN201710153197.6A 2017-03-15 2017-03-15 一种面向全局社交服务网的Web服务聚类方法 Active CN107135092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710153197.6A CN107135092B (zh) 2017-03-15 2017-03-15 一种面向全局社交服务网的Web服务聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710153197.6A CN107135092B (zh) 2017-03-15 2017-03-15 一种面向全局社交服务网的Web服务聚类方法

Publications (2)

Publication Number Publication Date
CN107135092A true CN107135092A (zh) 2017-09-05
CN107135092B CN107135092B (zh) 2019-11-05

Family

ID=59721905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710153197.6A Active CN107135092B (zh) 2017-03-15 2017-03-15 一种面向全局社交服务网的Web服务聚类方法

Country Status (1)

Country Link
CN (1) CN107135092B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182210A (zh) * 2017-12-18 2018-06-19 上海交通大学 基于页面信息解析的服务语义获取方法及系统
CN108804788A (zh) * 2018-05-25 2018-11-13 浙江工业大学 一种基于数据细胞模型的Web服务演化方法
CN109255125A (zh) * 2018-08-17 2019-01-22 浙江工业大学 一种基于改进DBSCAN算法的Web服务聚类方法
CN109284086A (zh) * 2018-08-17 2019-01-29 浙江工业大学 面向需求自适应的Web服务动态演化方法
CN110457556A (zh) * 2019-07-04 2019-11-15 重庆金融资产交易所有限责任公司 分布式爬虫系统架构、爬取数据的方法和计算机设备
CN110533072A (zh) * 2019-07-30 2019-12-03 浙江工业大学 Web环境下基于Bigraph结构的SOAP服务相似度计算与聚类方法
CN111553401A (zh) * 2020-04-22 2020-08-18 北京交通大学 一种应用在云服务推荐中基于图模型的QoS预测方法
CN111752984A (zh) * 2019-03-26 2020-10-09 中移(苏州)软件技术有限公司 一种信息处理方法、装置和存储介质
TWI716013B (zh) * 2018-08-29 2021-01-11 開曼群島商創新先進技術有限公司 安全檢測方法、設備及裝置
CN113239127A (zh) * 2021-05-13 2021-08-10 北方工业大学 科技服务关联网络的构建、依赖关系的识别方法及计算机产品
CN113343507A (zh) * 2021-07-07 2021-09-03 广州昇谷科技有限公司 一种面向水利勘测的Web服务组合发现方法
US11475090B2 (en) * 2020-07-15 2022-10-18 Group-Ib Global Private Limited Method and system for identifying clusters of affiliated web resources

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070156379A1 (en) * 2005-11-18 2007-07-05 Ashok Kulkarni Methods and systems for utilizing design data in combination with inspection data
CN101272328A (zh) * 2008-02-29 2008-09-24 吉林大学 基于智能代理系统的分散式社会网络聚类方法
CN101706790A (zh) * 2009-09-18 2010-05-12 浙江大学 搜索引擎中包含web对象的聚类方法
CN101833561A (zh) * 2010-02-12 2010-09-15 西安电子科技大学 面向自然语言处理的语义Web服务智能代理
CN102043863A (zh) * 2010-12-30 2011-05-04 浙江大学 一种Web服务聚类的方法
CN104360998A (zh) * 2014-08-13 2015-02-18 浙江工业大学 一种基于协作频度聚类的Web服务信任度评估方法
CN104699817A (zh) * 2015-03-24 2015-06-10 中国人民解放军国防科学技术大学 一种基于改进谱聚类的搜索引擎排序方法与系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070156379A1 (en) * 2005-11-18 2007-07-05 Ashok Kulkarni Methods and systems for utilizing design data in combination with inspection data
CN101272328A (zh) * 2008-02-29 2008-09-24 吉林大学 基于智能代理系统的分散式社会网络聚类方法
CN101706790A (zh) * 2009-09-18 2010-05-12 浙江大学 搜索引擎中包含web对象的聚类方法
CN101833561A (zh) * 2010-02-12 2010-09-15 西安电子科技大学 面向自然语言处理的语义Web服务智能代理
CN102043863A (zh) * 2010-12-30 2011-05-04 浙江大学 一种Web服务聚类的方法
CN104360998A (zh) * 2014-08-13 2015-02-18 浙江工业大学 一种基于协作频度聚类的Web服务信任度评估方法
CN104699817A (zh) * 2015-03-24 2015-06-10 中国人民解放军国防科学技术大学 一种基于改进谱聚类的搜索引擎排序方法与系统

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182210B (zh) * 2017-12-18 2020-11-17 上海交通大学 基于页面信息解析的服务语义获取方法及系统
CN108182210A (zh) * 2017-12-18 2018-06-19 上海交通大学 基于页面信息解析的服务语义获取方法及系统
CN108804788A (zh) * 2018-05-25 2018-11-13 浙江工业大学 一种基于数据细胞模型的Web服务演化方法
CN108804788B (zh) * 2018-05-25 2022-06-17 浙江工业大学 一种基于数据细胞模型的Web服务演化方法
CN109255125A (zh) * 2018-08-17 2019-01-22 浙江工业大学 一种基于改进DBSCAN算法的Web服务聚类方法
CN109284086A (zh) * 2018-08-17 2019-01-29 浙江工业大学 面向需求自适应的Web服务动态演化方法
CN109255125B (zh) * 2018-08-17 2023-07-14 浙江工业大学 一种基于改进DBSCAN算法的Web服务聚类方法
CN109284086B (zh) * 2018-08-17 2021-05-18 浙江工业大学 面向需求自适应的Web服务动态演化方法
TWI716013B (zh) * 2018-08-29 2021-01-11 開曼群島商創新先進技術有限公司 安全檢測方法、設備及裝置
US11201886B2 (en) 2018-08-29 2021-12-14 Advanced New Technologies Co., Ltd. Security detection method, device, and apparatus
CN111752984A (zh) * 2019-03-26 2020-10-09 中移(苏州)软件技术有限公司 一种信息处理方法、装置和存储介质
CN111752984B (zh) * 2019-03-26 2022-12-13 中移(苏州)软件技术有限公司 一种信息处理方法、装置和存储介质
CN110457556B (zh) * 2019-07-04 2023-11-14 重庆金融资产交易所有限责任公司 分布式爬虫系统架构、爬取数据的方法和计算机设备
CN110457556A (zh) * 2019-07-04 2019-11-15 重庆金融资产交易所有限责任公司 分布式爬虫系统架构、爬取数据的方法和计算机设备
CN110533072A (zh) * 2019-07-30 2019-12-03 浙江工业大学 Web环境下基于Bigraph结构的SOAP服务相似度计算与聚类方法
CN110533072B (zh) * 2019-07-30 2022-09-23 浙江工业大学 Web环境下基于Bigraph结构的SOAP服务相似度计算与聚类方法
CN111553401A (zh) * 2020-04-22 2020-08-18 北京交通大学 一种应用在云服务推荐中基于图模型的QoS预测方法
CN111553401B (zh) * 2020-04-22 2024-02-13 北京交通大学 一种应用在云服务推荐中基于图模型的QoS预测方法
US11475090B2 (en) * 2020-07-15 2022-10-18 Group-Ib Global Private Limited Method and system for identifying clusters of affiliated web resources
CN113239127A (zh) * 2021-05-13 2021-08-10 北方工业大学 科技服务关联网络的构建、依赖关系的识别方法及计算机产品
CN113239127B (zh) * 2021-05-13 2024-02-09 北方工业大学 科技服务关联网络的构建、依赖关系的识别方法及计算机产品
CN113343507A (zh) * 2021-07-07 2021-09-03 广州昇谷科技有限公司 一种面向水利勘测的Web服务组合发现方法
CN113343507B (zh) * 2021-07-07 2024-05-14 广州昇谷科技有限公司 一种面向水利勘测的Web服务组合发现方法

Also Published As

Publication number Publication date
CN107135092B (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN107135092B (zh) 一种面向全局社交服务网的Web服务聚类方法
CN106250412B (zh) 基于多源实体融合的知识图谱构建方法
Chaudhri et al. Knowledge graphs: introduction, history and, perspectives
CN105843897B (zh) 一种面向垂直领域的智能问答系统
US8635107B2 (en) Automatic expansion of an advertisement offer inventory
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN101430695A (zh) 利用单词相关度的本体自动生成
CN109558492A (zh) 一种适于事件归因的上市公司知识图谱构建方法及装置
CN104636402A (zh) 一种业务对象的分类、搜索、推送方法和系统
US20120310648A1 (en) Name identification rule generating apparatus and name identification rule generating method
CN112925901B (zh) 一种辅助在线问卷评估的评估资源推荐方法及其应用
CN103593336A (zh) 一种基于语义分析的知识推送系统及方法
Banić et al. Using big data and sentiment analysis in product evaluation
Çakir et al. Text mining analysis in Turkish language using big data tools
CN103559199A (zh) 网页信息抽取方法和装置
CN108122153A (zh) 电子商务环境下基于云计算处理模式的个性化推荐方法
Liu et al. Device‐Oriented Automatic Semantic Annotation in IoT
CN105589918B (zh) 一种提取页面信息的方法及装置
CN103955461A (zh) 一种基于本体集合概念相似度的语义匹配方法
CN107066585A (zh) 一种概率主题计算与匹配的舆情监测方法及系统
KR20150023973A (ko) 소셜 네트워크 정보 수집 및 분석 시스템
Pei et al. Constructing a global ontology by concept mapping using wikipedia thesaurus
Choi et al. Travel ontology for recommendation system based on semantic web
Yengi et al. Distributed recommender systems with sentiment analysis
Das et al. A review on text analytics process with a CV parser model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant