CN101695082B - 基于关系挖掘的服务组织方法及装置 - Google Patents

基于关系挖掘的服务组织方法及装置 Download PDF

Info

Publication number
CN101695082B
CN101695082B CN2009102356151A CN200910235615A CN101695082B CN 101695082 B CN101695082 B CN 101695082B CN 2009102356151 A CN2009102356151 A CN 2009102356151A CN 200910235615 A CN200910235615 A CN 200910235615A CN 101695082 B CN101695082 B CN 101695082B
Authority
CN
China
Prior art keywords
service
information
similarity
additional description
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009102356151A
Other languages
English (en)
Other versions
CN101695082A (zh
Inventor
李建欣
孙海龙
黄子乘
曲先洋
林伟
刘旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN2009102356151A priority Critical patent/CN101695082B/zh
Publication of CN101695082A publication Critical patent/CN101695082A/zh
Application granted granted Critical
Publication of CN101695082B publication Critical patent/CN101695082B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例涉及一种基于关系挖掘的服务组织方法及装置,其中,该基于关系挖掘的服务组织方法包括:对服务的描述信息进行预处理,并生成信息三元组;根据所述信息三元组计算所述服务的相似度;根据所述相似度对服务进行聚类,生成类别树,根据所述类别树完成服务定位。上述基于关系挖掘的服务组织方法及装置,利用服务相似度挖掘方法及根据上述服务相似度对服务进行聚类,有效地缩小了服务的搜索范围,提高了服务定位的效率。

Description

基于关系挖掘的服务组织方法及装置
技术领域
本发明实施例涉及数据挖掘技术领域,尤其涉及一种基于关系挖掘的服务组织方法及装置。 
背景技术
随着计算机网络应用的不断发展,信息系统的交互模式已由网络层系统互联向应用层服务集成迁移,网络(Web)技术的进一步发展和软件工程技术的进化相结合产生了面向服务的体系结构(Service OrientedArchitectures,SOA);随着SOA应用的普及,Web服务数目与日俱增,如何从大量已有服务中高效地定位所需的目标服务是Web服务急需解决的一个重要问题。目前Web基于关系挖掘的服务组织方法主要分为两类:第一类是语法级匹配,采用基于服务名称的字符串匹配,典型的系统有统一描述、发现和集成协议(Universal Description,Discovery and Integration,UDDI)系统,语法级服务发现实现相对简单,但查准率较低;第二类是语义级匹配,服务描述采用本体论的方法,增强了对Web服务的功能、行为的语义描述,在匹配算法上,依赖于逻辑演绎和推理,虽然查准率高,但匹配效率低、实用性差。由此可见,现有的基于关系挖掘的服务组织方法在实现难度、查询效率或者查询准确率等方面还有较大局限性。 
随着计算机的广泛应用,数据大量增加,运用数据挖掘技术可以从这些数据中提取出对决策有潜在价值的知识;把传统的数据挖掘技术引入服务发现领域可以为服务发现带来新的突破,目前,将数据挖掘技术引入服务发现领域的技术有UDDI技术,该技术定义了Web服务的发布与发现的方法,所谓“Web服务”,是指由企业发布的完成其特别商务需求的在线应用服务,其它 公司或应用软件能够通过因特网(Internet)来访问并使用该项在线服务,Web服务将逐渐成为电子商务应用构建的基础体系架构,但是,当需要找出哪些企业可以提供某种服务时,快速地发现并找到答案仍然十会困难;其中一个可选的方法是使用电话和每个合作伙伴进行联系找出合适的对象,另一个解决该问题的办法是在公司的每个网站上放置一个Web服务的描述文件,这样,那些依靠已经注册的统一资源定位符(URL)来工作的网络爬虫程序能够发现并为它们建立索引。可是这种定位Web服务的方法完全依赖爬虫程序的能力,且缺少一种机制来保证服务描述格式的一致性,无法便捷地跟踪不断发生的变化。UDDI提供了一种基于分布式的注册中心的方法,该注册中心维护了一个企业和企业提供的Web服务的全球目录,而且其中的信息描述格式是基于通用的可扩展标记语言(XML)格式的。UDDI计划的核心组件是UDDI商业注册,它使用一个XML文档来描述企业及其提供的Web服务,UDDI商业注册所提供的信息包含三个部分:“白页(White Page)”包括了地址、联系方法和已知的企业标识;“黄页(Yellow page)”包括了基于标准分类法的行业类别;“绿页(Green Page)”则包括了关于该企业所提供的Web服务的技术信息,其形式可能是一些指向文件或是URL的指针,而这些文件或URL是为服务发现机制服务的,所有的UDDI商业注册信息存储在UDDI商业注册中心中。 
另外,语义级服务定位技术是将语义融合到Web服务技术中去,对于该技术最重要的是要有一个强有力的描述Web服务的语言,德帕代理标记语言(DAML)组织制定的德帕代理标记语言服务(Darpa Agent Markup Language for Service,DAML-S)是一个在未来语义Web中使用Web服务的标准。DAML-S作为一个本体模型,它用基于DAML和本体推理层(OIL)的构造去定义Web服务;同时作为一种语言,DAMLS-S支持更强大的Web服务描述。此外,DAML-S还集成了过程模型(process model),不仅可以控制Web服务的控制流和数据流,而且可以控制Web服务的初始条件和处理结果。将DAML-S加入到Web服务之后,可以把Web服务的协议层次进行改造,DAML-S应用由过程模型、服务描述(service profile)、服务基础(service grounding)三个部分组成,其中,Service Profile说明了指定的Web服务能做什么的问题,Service profile可以替代UDDI中描述的部分来完成对Web服务的表达,DAML-S支持的一些特性,比如对Web服务性能的表达等等,都不是UDDI所能达到的。另外,还有一个不同点就是UDDI“绿页”中的绑定描述(如服务端口号)等信 息,在DAML-S结构中是由grounding来完成的。process model记录Web服务的初始条件、处理结果、控制流和工作流,即process model就是说明指定的Web服务是如何工作的:它的任务是什么;它按哪些步骤来完成;各个步骤的预期子结果是什么;需要哪些输入,什么时候需要;会报告哪些输出,什么时候报告等等。DAML-S process model可以说是process-mode和工作流(workflow)语言的一个超集,集建模语言、人工智能语言和类及其关系描述语言于一身,再加上良好的语义规范,使它能够更好地表述Web服务的工作性能。同时,DAML-S同样支持用WSDL来规范和说明Web服务接口,用报文(SOAP)来传递消息。 
但发明人在实施上述技术方案的过程中发现现有技术存在一些缺陷,例如,基于服务名称的字符串匹配,查找准确度较低,逐个遍历服务,效率很低;目前大多数已经存在的服务没有语义描述信息,如何把这些已存在的服务加上语义信息工作量庞大,同时,Web服务语义描述语言过于复杂,技术实现难度大,且缺乏灵活有效的服务匹配算法,不利于其实际应用。 
发明内容
本发明实施例提供一种基于关系挖掘的服务组织方法及装置,以提高服务定位效率。 
本发明实施例提供了一种基于关系挖掘的服务组织方法,该方法包括: 
对服务的描述信息进行预处理,并生成信息三元组; 
根据所述信息三元组计算所述服务的相似度; 
根据所述相似度对服务进行聚类,生成类别树,根据所述类别树完成服务定位; 
所述对服务的描述信息进行预处理,并生成信息三元组包括: 
从原始信息库获取服务描述语言WSDL文档地址和额外描述信息文档地址; 
根据所述服务描述语言WSDL文档地址载入所述服务描述语言WSDL文档,并对所述服务描述语言WSDL文档进行解析,获取服务名称和服务注释信息,并将所述服务名称和服务注释信息加入服务的标题信息中; 
获取服务中所有方法的列表,将列表中每个方法的信息加入该服务的主题信息中,所述每个方法的信息包括方法名称、注释、输入消息名称、输出消息名称; 
根据所述额外描述信息文档地址载入额外描述信息文档,并对所述额外描述信息文档进行解析,并将解析后的额外描述信息加入该服务的额外描述信息中; 
所述标题信息、主题信息和额外描述信息构成了所述服务的信息三元组。 
上述基于关系挖掘的服务组织方法,利用服务相似度挖掘方法及根据上述服务相似度对服务进行聚类,有效地缩小了服务的搜索范围,提高了服务 定位的效率。 
本发明实施例提供了一种基于关系挖掘的服务组织装置,该装置包括: 
生成单元,用于对服务的描述信息进行预处理,并生成信息三元组; 
计算单元,用于根据所述信息三元组计算所述服务的相似度; 
聚类单元,用于根据所述相似度对服务进行聚类,生成类别树,根据所述类别树完成服务定位; 
所述生成单元包括: 
第一信息获取模块,用于根据服务描述语言WSDL文档地址载入所述服务描述语言WSDL文档,并对所述服务描述语言WSDL文档进行解析,获取服务名称和服务注释信息,并将所述服务名称加入服务的标题信息中; 
第二信息获取模块,用于获取服务中所有方法的列表,将列表中每个方法的信息加入该服务的主题信息中,所述每个方法的信息包括装置名称、注释、输入消息名称、输出消息名称; 
第三信息获取模块,用于根据额外描述信息文档地址载入额外描述信息文档,并对所述额外描述信息文档进行解析,并将解析后的额外描述信息加入该服务的额外描述信息中; 
生成模块,用于根据所述标题信息、主题信息和额外描述信息,生成所述服务的信息三元组。 
上述基于关系挖掘的服务组织装置,利用生成单元生成信息三元组,利用计算单元计算服务的相似度,并利用聚类单元对上述服务进行聚类,有效地缩小了服务的搜索范围,提高了服务定位的效率。 
下面通过附图和实施例,对本发明实施例的技术方案做进一步的详细描述。 
附图说明
图1为本发明基于关系挖掘的服务组织方法实施例的流程图; 
图2为本发明服务挖掘过程实施例的流程图; 
图3为本发明文档预处理过程实施例的流程图; 
图4为本发明文本预处理过程实施例的流程图; 
图5为本发明类别树生成方法实施例的流程图; 
图6为本发明基于关系挖掘的服务组织装置实施例的结构示意图。 
具体实施方式
如图1所示,为本发明基于关系挖掘的服务组织方法实施例的流程图,该方法包括: 
步骤101、对服务的描述信息进行预处理,并生成信息三元组; 
首先对服务的各种描述信息进行预处理,从这些信息中提取出有意义的关键词并构造信息三元组; 
其中,该步骤可以包括: 
从原始信息库获取服务描述语言(WSDL)文档地址和额外描述信息文档地址; 
根据上述服务描述语言WSDL文档地址载入上述服务描述语言WSDL文档,并对上述服务描述语言WSDL文档进行解析,获取服务名称和服务注释,并将上述服务名称和服务注释加入服务的标题信息中; 
获取服务中所有方法的列表,将列表中每个方法的信息加入该服务的主题信息中,上述信息包括方法名称、注释、输入消息名称、输出消息名称; 
根据上述额外描述信息文档地址载入额外描述信息文档,并对上述额外描述信息文档进行解析,并将解析后的额外描述信息加入该服务的额外描述信息中; 
上述标题信息、主题信息和额外描述信息构成了上述服务的信息三元组; 
步骤102、根据上述信息三元组计算上述服务的相似度; 
在获得标题信息、主题信息和额外描述信息后,需对上述三类信息进行预处理,转换成符合标准的单词,然后利用如下公式计算第一服务和第二服务的相似度, 
Sim(W1,W2)= 
α*SimSet(W1.T,W2.T) 
+β*SimSet(W1.B,W2.B) 
+γ*SimSet(W1.A,W2.A) 
其中,W1表示第一服务,W2表示第二服务,Sim(W1,W2)表示第一服务和第二服务的相似度,T表示标题信息,B表示主题信息,A表示额外描述信息,SimSet(W1.T,W2.T)表示第一服务标题信息单词集合和第二服务标题信息单词集合的词义相似度,SimSet(W1.B,W2.B)表示第一服务主题信息单词集合和第二服务主题信息单词集合的词义相似度,SimSet(W1.A,W2.A)表示第一服务额外描述信息单词集合和第二服务额外描述信息单词集合的词义相似度,α、β、γ分别表示标题信息、主体信息和额外描述信息在第一服务和第二服务相似度中 的权重。 
步骤103、根据上述相似度对服务进行聚类,生成类别树,根据上述类别树完成服务定位。 
将两服务间的相似度表示为两点间距离,根据任意两点间距离均小于预定聚类直径生成类别树。 
上述基于关系挖掘的服务组织方法,利用服务相似度挖掘方法及根据上述服务相似度对服务进行聚类,有效地缩小了服务的搜索范围,提高了服务定位的效率。 
如图2所示,为本发明服务挖掘过程实施例的流程图,该过程包括: 
步骤201、从原始信息库获取服务WSDL文档和额外描述信息文档,并对上述文档进行预处理; 
步骤202、将预处理得到的关键词集合信息保存到挖掘信息库; 
步骤203、判断是否完成对所有服务的预处理,若是,执行步骤204,否则,转向步骤201; 
步骤204、从挖掘信息库取任意两个服务的关键词集合信息; 
步骤205、计算这两个服务的相似度值,把这个相似度值保存到挖掘信息库; 
步骤206、判断是否完成对所有相似度的计算,若是,执行步骤207,否则,转向步骤204; 
步骤207、从原始信息库读取一个服务; 
步骤208、聚类并更新类别树; 
步骤209、判断是否完成对所有服务的聚类,若是,执行步骤210,否则,转向步骤207; 
步骤210、将聚类结果保存到挖掘信息库。 
其中,上述步骤201中对文档进行预处理的过程如图3所示,该过程包括: 
步骤301、从原始信息库获取服务WSDL文档地址和额外描述信息文档地 址; 
步骤302、载入服务的WSDL文档并解析; 
步骤303、获取服务名称和服务注释信息,并将服务名称和服务注释信息加入服务标题信息T中; 
步骤304、获取服务中所有方法的列表; 
步骤305、把列表中每个方法的名称、注释、输入消息名称、输出消息名称等加入服务的主题信息B中; 
步骤306、载入服务的额外描述信息文档并解析; 
步骤307、把所有的额外描述信息都加入服务的额外描述信息A中; 
步骤308、保存解析后的服务功能描述信息三元组到挖掘信息库。 
通过上述步骤301-308,生成了信息三元组,生成三元组之后还需对三元组中的三类信息进行文本预处理,其过程如图4所示,该过程包括: 
步骤401、输入字符串; 
步骤402、按标点符号分词; 
由于英文单词用空格分开,故分词只需把非字母符号替换成空格; 
步骤403、拆除连接词; 
在WSDL文档中,服务名称、方法、参数含有重要的服务功能信息且一般采用Pascal或Camel大小写命名方式,需要进一步拆分,如RealTimeMarketData需拆分成real time market data。 
步骤404、过滤停用词; 
停用词(stopword)指句子中一些无描述功能作用的词,如a,the以及一些服务常用词如“http”、“post”、“soap”、“get”等,这些词需要被过滤,以提高相似度计算的效率和精度; 
步骤405、修正词形; 
由于一些词是以复数、过去式等非标准形态出现,需把这些词还原成标准形态; 
步骤406、过滤停用词; 
步骤407、提取名词; 
名词已基本可描述服务的功能信息,为了提高效率,只利用名词计算相似度; 
步骤408、输出单词集合。 
经过文本预处理后的三元组中的三类信息转换成标准形式,上述步骤205计算两服务间的相似度需要计算两关键词集合的相似度,计算关键词集合的相似度目前有多种方法,例如有基于编辑距离的方法、基于规则的方法、基于向量模型的方法、基于交集的方法、基于词频-文档频率(TF-IDF)的方法等,该实施例采用了马克(Mailk)等提出的词性相似度(Part-of-SpeechSimilarity)计算方法,在该方法中,给定两个关键词集合S1和S2,首先把S1和S2中的单词按词性分类,然后计算S1中的每个单词W1i到S2的距离并累加,再计算S2中的每个单词W2i到S1的距离并累加,最后把这两个累加值相加后除以S1和S2所含有单词数目的总和,即为集合S1和S2的相似度,具体计算公式如下: 
SimSet ps ( S 1 , S 2 ) = Σ w ∈ S 1 Sim m ( w , S 2 ) + Σ w ∈ S 2 Sim m ( w , S 1 ) | S 1 | + | S 2 |
其中,Simm(w,S)为单词W到词集合S的距离,这个距离的定义为词W和集合S中与词W词性相同且最为相似的词Wi的相似度值;对于词到词集合相似度的计算可以转换成两个单词相似度的计算,其计算公式如下: 
Sim ( w 1 , w 2 ) = - log [ min c 1 ∈ sen ( w 1 ) , c 2 ∈ sen ( w 2 ) len ( c 1 , c 2 ) ] 2 d max
其中,sen(w)是指单词w所有可能的词义集合,dmax指WordNet中名词层次结构树的最大深度,本实施例中只考虑WordNet中名词的上下位关系,len(c1,c2)为c1、c2在这个上下位关系层次结构树中c1、c2两个节点的最短距离。 
由于已知计算集合相似度的计算公式,那么采用如下公式可以进一步计算服务间的相似度: 
Sim(W1,W2)= 
α*SimSet(W1.T,W2.T) 
+β*SimSet(W1.B,W2.B) 
+γ*SimSet(W1.A,W2.A) 
其中,W1表示第一服务,W2表示第二服务,Sim(W1,W2)表示第一服务和第二服务的相似度,T表示标题信息,B表示主题信息,A表示额外描述信息,SimSet(W1.T,W2.T)表示第一服务标题信息单词集合和第二服务标题信息单词集合的词义相似度,SimSet(W1.B,W2.B)表示第一服务主题信息单词集合和第二服务主题信息单词集合的词义相似度,SimSet(W1.A,W2.A)表示第一服务额外描述信息单词集合和第二服务额外描述信息单词集合的词义相似度,α、β、γ分别表示标题信息、主体信息和额外描述信息在第一服务和第二服务相似度中的权重。 
在计算完服务间的相似度后,可把服务看成空间中的点,服务间的相似度看成两点间的距离,采用如图5所示的类别树生成方法可将距离最近的点聚类,该聚类过程包括: 
步骤501、输入类别树树根T; 
步骤502、输入服务Wi; 
步骤503、从服务集合中寻找与Wi最相近的服务Wj及所属类Tj,次相近的服务Wk及所属类Tk; 
步骤504、判断Tj是否存在,若不存在执行步骤505,若存在,执行步骤506; 
步骤505、构造一个类别Ti,将Wi加入Ti,将Ti加入树根T,转向步骤516; 
步骤506、判断Tk是否存在或Tk是否等于Tj,若Tk不存在或Tk等于Tj,执行步骤507,若Tk存在或Tk不等于Tj,执行步骤508, 
步骤507、将Wi加入到Tj,更新Tj决定是否分裂,转向步骤516; 
步骤508、将Wi加入到Tj,更新Tj; 
步骤509、判断Wi是否为Tj的中心点,若不是,执行步骤510,若是, 执行步骤511; 
步骤510、更新Tj决定是否分裂,转向步骤516; 
步骤511、判断Tk中服务数目是否为1,若是执行步骤512,否则,执行步骤513; 
步骤512、合并Tj和Tk为新的Tj,转向步骤510; 
步骤513、判断Wk是否为Tk的中心点,若是转向步骤510,否则,执行步骤514; 
步骤514、将Wk加入到Tj; 
步骤515、更新Tk决定是否分裂,转向步骤510; 
步骤516、判断是否处理完所有服务,若是聚类结束,否则转向步骤502。 
通过上述步骤501-516,较好地实现了自顶而下的递增式聚类,当读入第一个数据时,将其分为一类,后续读入的数据插入已有的一个合适类中,再跟据类别效应决定是否分裂或者合并相应的类,重复这样的聚类操作直到处理完所有数据,就可以得到一个合适的类别树。 
但是,在该聚类过程中有三个问题需要处理:数据读入顺序对聚类结果的影响;类别效应的计算;过度拟合的预防;本实施例对这三个问题的解决方法如下:(1)通过使用分裂和合并算法消除数据输入顺序的影响;(2)把一个类别看作一个球体,用球体的直径当作类别效应,如果球体的直径越小,则该类的类别效应越好;(3)设置一个球体直径的最大值来限制过度拟合,当球体直径小于这个最小值时,该类不再分裂。 
另外,在上述实施例中对类别直径与中心点的定义如下:一个类别中的所有点{n1,n2,..nn}中若以点ni为球心算出球体直径di,这个值比以其他任何点为球心球体直径都小,那么称di为该类别的直径,称ni为中心点;同时,对允许的最大聚类直径Dmax的定义如下:如果D>Dmax,则选择当前聚类中距离最大的两个点,以这两个点为种子,把其余点按距离远近分成两个类,分别计算这两个类的类直径,如果直径大于Dmax,则继续对这个类进行分裂直到类直径小于Dmax。 
采用上述聚类方法可有效缩小服务的搜索范围,提高服务的定位效率,假设要从M个服务中寻找1个与服务W最为相似的服务,如果事先没有进行聚类,则查找次数为M,如果事先已经聚类(假设有N个类,每个类中有Qi个服务,聚类准确度为a),查找算法按首先与每个类的中心点服务距离最近确定待寻找服务所在的类,然后再顺序查找这个类中的其他服务,那么平均查找次数K为: K = N + [ Σ i = 1 N ( Q i - 1 ) 2 M ] , 由此可见,搜索效率显著提高。 
如图6所示,为本发明基于关系挖掘的服务组织装置实施例的结构示意图,该装置包括:生成单元1,用于对服务的描述信息进行预处理,并生成信息三元组;计算单元2,用于根据上述信息三元组计算上述服务的相似度;聚类单元3,用于根据上述相似度对服务进行聚类,生成类别树,根据上述类别树完成服务定位。 
其中,上述生成单元可以包括:第一信息获取模块,用于根据上述服务描述语言WSDL文档地址载入上述服务描述语言WSDL文档,并对上述服务描述语言WSDL文档进行解析,获取服务名称,并将上述服务名称加入服务的标题信息中;第二信息获取模块,用于获取服务中所有方法的列表,将列表中每个方法的信息加入该服务的主题信息中,上述信息包括装置名称、注释、输入消息名称、输出消息名称;第三信息获取模块,用于根据上述额外描述信息文档地址载入额外描述信息文档,并对上述额外描述信息文档进行解析,并将解析后的额外描述信息加入该服务的额外描述信息中;生成模块,用于根据上述标题信息、主题信息和额外描述信息,生成上述服务的信息三元组。计算单元可以包括:计算模块,用于采用如下公式计算第一服务和第二服务的相似度, 
Sim(W1,W2)= 
α*SimSet(W1.T,W2.T) 
+β*SimSet(W1.B,W2.B) 
+γ*SimSet(W1.A,W2.A) 
其中,W1表示第一服务,W2表示第二服务,Sim(W1,W2)表示第一服务和第二服务的相似度,T表示标题信息,B表示主题信息,A表示额外描述信息, SimSet(W1.T,W2.T)表示第一服务标题信息单词集合和第二服务标题信息单词集合的词义相似度,SimSet(W1.B,W2.B)表示第一服务主题信息单词集合和第二服务主题信息单词集合的词义相似度,SimSet(W1.A,W2.A)表示第一服务额外描述信息单词集合和第二服务额外描述信息单词集合的词义相似度,α、β、γ分别表示标题信息、主体信息和额外描述信息在第一服务和第二服务相似度中的权重。 
另外,上述基于关系挖掘的服务组织装置还可以包括:转换单元,用于对生成单元生成的标题信息、主题信息和额外描述信息进行预处理,转换成符合标准的信息。 
进一步地,上述聚类单元还可以包括:聚类模块,用于将两服务间的相似度表示为两点间距离,根据任意两点间距离均小于预定聚类直径生成类别树。 
上述基于关系挖掘的服务组织装置,利用生成单元生成信息三元组,利用计算单元计算服务的相似度,并利用聚类单元对上述服务进行聚类,有效地缩小了服务的搜索范围,提高了服务定位的效率。 
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。 

Claims (8)

1.一种基于关系挖掘的服务组织方法,其特征在于包括:
对服务的描述信息进行预处理,并生成信息三元组;
根据所述信息三元组计算所述服务的相似度;
根据所述相似度对服务进行聚类,生成类别树,根据所述类别树完成服务定位;
所述对服务的描述信息进行预处理,并生成信息三元组包括:
从原始信息库获取服务描述语言WSDL文档地址和额外描述信息文档地址;
根据所述服务描述语言WSDL文档地址载入所述服务描述语言WSDL文档,并对所述服务描述语言WSDL文档进行解析,获取服务名称和服务注释信息,并将所述服务名称和服务注释信息加入服务的标题信息中;
获取服务中所有方法的列表,将列表中每个方法的信息加入该服务的主题信息中,所述每个方法的信息包括方法名称、注释、输入消息名称、输出消息名称;
根据所述额外描述信息文档地址载入额外描述信息文档,并对所述额外描述信息文档进行解析,并将解析后的额外描述信息加入该服务的额外描述信息中;
所述标题信息、主题信息和额外描述信息构成了所述服务的信息三元组。
2.根据权利要求1所述的基于关系挖掘的服务组织方法,其特征在于所述根据所述信息三元组计算所述服务的相似度包括:
采用如下公式计算第一服务和第二服务的相似度,
Sim(W1,W2)=
α*SimSet    (W1.T,W2.T)
+β*SimSet    (W1.B,W2.B)
+γ*SimSet    (W1.A,W2.A)
其中,W1表示第一服务,W2表示第二服务,Sim(W1,W2)表示第一服务和第二服务的相似度,T表示标题信息,B表示主题信息,A表示额外描述信息,SimSet(W1.T,W2.T)表示第一服务标题信息单词集合和第二服务标题信息单词集合的词义相似度,SimSet(W1.B,W2.B)表示第一服务主题信息单词集合和第二服务主题信息单词集合的词义相似度,SimSet(W1.A,W2.A)表示第一服务额外描述信息单词集合和第二服务额外描述信息单词集合的词义相似度,α、β、γ分别表示标题信息、主题信息和额外描述信息在第一服务和第二服务相似度中的权重。
3.根据权利要求1所述的基于关系挖掘的服务组织方法,其特征在于所述根据所述信息三元组计算所述服务的相似度之前还包括:
对所述标题信息、主题信息和额外描述信息进行预处理,转换成符合标准的信息。
4.根据权利要求1所述的基于关系挖掘的服务组织方法,其特征在于所述根据所述相似度对服务进行聚类,生成类别树包括:
将两服务间的相似度表示为两点间距离,根据任意两点间距离均小于预定聚类直径生成类别树。
5.一种基于关系挖掘的服务组织装置,其特征在于包括:
生成单元,用于对服务的描述信息进行预处理,并生成信息三元组;
计算单元,用于根据所述信息三元组计算所述服务的相似度;
聚类单元,用于根据所述相似度对服务进行聚类,生成类别树,根据所述类别树完成服务定位;
所述生成单元包括:
第一信息获取模块,用于根据服务描述语言WSDL文档地址载入所述服务描述语言WSDL文档,并对所述服务描述语言WSDL文档进行解析,获取服务名称和服务注释信息,并将所述服务名称加入服务的标题信息中;
第二信息获取模块,用于获取服务中所有方法的列表,将列表中每个方法的信息加入该服务的主题信息中,所述每个方法的信息包括装置名称、注释、输入消息名称、输出消息名称;
第三信息获取模块,用于根据额外描述信息文档地址载入额外描述信息文档,并对所述额外描述信息文档进行解析,并将解析后的额外描述信息加入该服务的额外描述信息中;
生成模块,用于根据所述标题信息、主题信息和额外描述信息,生成所述服务的信息三元组。
6.根据权利要求5所述的基于关系挖掘的服务组织装置,其特征在于所述计算单元包括:
计算模块,用于采用如下公式计算第一服务和第二服务的相似度,
Sim(W1,W2)=
α*SimSet    (W1.T,W2.T)
+β*SimSet   (W1.B,W2.B)
+γ*SimSet   (W1.A,W2.A)
其中,W1表示第一服务,W2表示第二服务,Sim(W1,W2)表示第一服务和第二服务的相似度,T表示标题信息,B表示主题信息,A表示额外描述信息,SimSet(W1.T,W2.T)表示第一服务标题信息单词集合和第二服务标题信息单词集合的词义相似度,SimSet(W1.B,W2.B)表示第一服务主题信息单词集合和第二服务主题信息单词集合的词义相似度,SimSet(W1.A,W2.A)表示第一服务额外描述信息单词集合和第二服务额外描述信息单词集合的词义相似度,α、β、γ分别表示标题信息、主题信息和额外描述信息在第一服务和第二服务相似度中的权重。
7.根据权利要求5所述的基于关系挖掘的服务组织装置,其特征在于还包括:
转换单元,用于对生成单元生成的标题信息、主题信息和额外描述信息进行预处理,转换成符合标准的信息。
8.根据权利要求5所述的基于关系挖掘的服务组织装置,其特征在于所述聚类单元包括:
聚类模块,用于将两服务间的相似度表示为两点间距离,根据任意两点间距离均小于预定聚类直径生成类别树。
CN2009102356151A 2009-09-30 2009-09-30 基于关系挖掘的服务组织方法及装置 Expired - Fee Related CN101695082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102356151A CN101695082B (zh) 2009-09-30 2009-09-30 基于关系挖掘的服务组织方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102356151A CN101695082B (zh) 2009-09-30 2009-09-30 基于关系挖掘的服务组织方法及装置

Publications (2)

Publication Number Publication Date
CN101695082A CN101695082A (zh) 2010-04-14
CN101695082B true CN101695082B (zh) 2012-08-22

Family

ID=42094022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102356151A Expired - Fee Related CN101695082B (zh) 2009-09-30 2009-09-30 基于关系挖掘的服务组织方法及装置

Country Status (1)

Country Link
CN (1) CN101695082B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693320B (zh) * 2012-06-01 2015-03-25 中国科学技术大学 一种搜索方法及装置
CN102891892A (zh) * 2012-09-28 2013-01-23 用友软件股份有限公司 用于面向服务架构系统的附加信息携带装置和方法
CN103077202B (zh) * 2012-12-27 2016-03-30 北京仿真中心 一种基于Web服务的仿真功能信息聚类方法
CN103559225B (zh) * 2013-10-21 2017-04-05 北京航空航天大学 Web服务资源库数据的清洗方法和服务器
CN103678548B (zh) * 2013-12-04 2016-09-21 清华大学 基于组合模式的失效服务替代推荐方法
CN104462279B (zh) * 2014-11-26 2018-05-18 北京国双科技有限公司 分析对象特征信息的获取方法和装置
CN105404693B (zh) * 2015-12-18 2018-12-25 浙江工商大学 一种基于需求语义的服务聚类方法
CN106874441B (zh) * 2017-02-07 2024-03-05 腾讯科技(上海)有限公司 智能问答方法和装置
US20200349204A1 (en) * 2018-07-31 2020-11-05 Ai Samurai Inc. Patent evaluation and determination method, patent evaluation and determination device, and patent evaluation and determination program
CN109284490B (zh) * 2018-09-13 2024-02-27 长沙劲旅网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN109992657B (zh) * 2019-04-03 2021-03-30 浙江大学 一种基于强化动态推理的对话式问题生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张荣清等.网格计算环境中的安全信任协商系统.《北京航空航天大学学报》.2006, *
胡志刚, 胡周君.计算服务网格中基于服务聚类的元任务调度算法.《小型微型计算机系统》.2009, *

Also Published As

Publication number Publication date
CN101695082A (zh) 2010-04-14

Similar Documents

Publication Publication Date Title
CN101695082B (zh) 基于关系挖掘的服务组织方法及装置
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN102279894B (zh) 基于语义的查找、集成和提供评论信息的方法及搜索系统
CN100541495C (zh) 一种个性化搜索引擎的搜索方法
CN101609399B (zh) 基于建模的智能化网站开发系统及方法
CN103838847A (zh) 一种面向海云协同网络计算环境的数据组织方法
CN105589953A (zh) 一种突发公共卫生事件互联网文本抽取方法
Visvam Devadoss et al. Efficient daily news platform generation using natural language processing
CN104978332A (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN104199938A (zh) 基于rss的农用土地信息发送方法和系统
Golden et al. Nanopublication beyond the sciences: the PeriodO period gazetteer
CN107748748B (zh) 水利水电技术标准全文检索系统
Greenberg Metadata and digital information
CN115269743A (zh) 一种用于数据融合的数据收集处理系统
Khan et al. When linguistics meets web technologies. Recent advances in modelling linguistic linked data
Jung Semantic wiki-based knowledge management system by interleaving ontology mapping tool
KR101684579B1 (ko) 지식 생성 시스템 및 방법
Ordiyasa et al. Enhancing Quality of Service for eGovernment interoperability based on adaptive ontology
CN116127047B (zh) 企业信息库的建立方法与装置
CN103927373A (zh) 基于增量式关联规则技术的动态大数据模型高效建立方法
KR100492785B1 (ko) 온톨로지 모델의 처리 시스템 및 방법, 그 프로그램이기록된 기록매체
Dierickx et al. Automated fact-checking to support professional practices: systematic literature review and meta-analysis
Cherkashin et al. Digital archives supporting document content inference
CN103377175A (zh) 基于分割的结构化文档转换
Yang Variable weight semantic graph‐based ontology mapping method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120822

Termination date: 20170930

CF01 Termination of patent right due to non-payment of annual fee