CN103279461B - 面向领域的Web服务文档质量评价方法 - Google Patents

面向领域的Web服务文档质量评价方法 Download PDF

Info

Publication number
CN103279461B
CN103279461B CN201310240129.5A CN201310240129A CN103279461B CN 103279461 B CN103279461 B CN 103279461B CN 201310240129 A CN201310240129 A CN 201310240129A CN 103279461 B CN103279461 B CN 103279461B
Authority
CN
China
Prior art keywords
service
attribute
web
web service
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310240129.5A
Other languages
English (en)
Other versions
CN103279461A (zh
Inventor
张祯
冯志勇
陈世展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Fangyuan Tianlun Technology Co ltd
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201310240129.5A priority Critical patent/CN103279461B/zh
Publication of CN103279461A publication Critical patent/CN103279461A/zh
Application granted granted Critical
Publication of CN103279461B publication Critical patent/CN103279461B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及Web服务技术领域,为提供一种对不同领域的Web服务的文档质量的评价方法,能够实现对于新的Web服务,预测其所属领域、包含的语义及其文档质量,从而减少专家评价Web服务文档质量的负担,提高服务发现效率,本发明采取的技术方案是,面向领域的Web服务文档质量评价方法,包括如下步骤:1)解析语义Web服务;2)将Web服务的数据随机分为10等分;3)建立决策树1、2、3;4)计算出性能度量;5)得到标注该服务的本体名称、标注该服务参数的本体概念;6)利返回该领域的性能度量值作为该Web服务文档质量的评价。本发明主要应用于Web服务技术。

Description

面向领域的Web服务文档质量评价方法
技术领域
本发明涉及Web服务技术领域,具体来说,涉及面向领域的Web服务文档质量评价。
技术背景
随着Web服务在工业界的广泛使用,Web服务技术不断发展,互联网上出现了大量的Web服务。由于服务开发者众多,存在很多提供相似或者相同功能的服务。因此,按照Web服务的功能可以将其分为不同的作用领域,每个领域都包含了大量的Web服务的集合。从服务发布的角度看,当服务开发者开发了一个Web服务,他关心的除了用户能否成功调用该Web服务,还有必要知道该服务的描述质量如何,从而开发高质量的Web服务,让服务注册中心识别,更好地让服务消费者使用;从服务管理的角度看,一个服务文档的描述质量直接影响了Web服务的语义,对于Web服务的发现、服务消费者的使用都有着重要的影响。
然而,Web服务文档质量好坏的判断需要专家知识与经验,这使得Web服务的管理产生了困难。当前研究Web服务质量的关注点在于将广泛的服务质量引入并扩展到Web服务质量属性中,对于Web服务的非功能的属性进行分析。由于使用标准的WSDL语言描述的Web服务不能够体现出Web服务的质量,因此,一些研究为Web服务引入语义网技术,提出了语义Web服务的概念,从而构建了基于本体的服务质量模型。基于服务质量的语义Web服务将本体作为词汇表提供明确的定义和机器可理解的语义,能够描述出Web服务的质量,例如DAML-QoS就是专为描述Web服务质量而开发的本体。此外,也有研究通过智能技术根据Web服务的质量属性将Web服务分成不同层次的事先定好的四类,从而用以评价Web服务。
以上技术仅对Web服务的质量评价提出了不同的解决方案,但是均未对于Web服务文档的描述质量进行分析,它们主要存在如下的问题:
1)主要考虑的是某个Web服务质量的通用属性,如可用性、可访问性、可靠性、安全性、响应时间等这些非功能属性,而没有考虑到对Web服务文档描述质量的评价。然而,服务质量的前提条件是服务的可用性,而文档描述的好坏决定了服务的可用性,较差的文档质量影响了服务消费者理解并调用服务,因此服务的文档质量是服务质量的基础,很有必要进行文档质量的评价工作;
2)无法实现服务管理中心对于不同领域的Web服务进行管理和组织。这些Web服务质量属性机制,忽略了对于不同领域的Web服务的质量差异,未体现出不同领域的Web服务质量属性在质量保证体系中的作用;同时,现有技术着重对单个Web服务个体进行服务质量评价,不仅具有难度,并且其准确性也不能够得以保障,本文以服务所属的领域为单位,对成组的Web服务进行分析,从统计意义上的对Web服务文档进行评价;
3)无法满足用户了解不同领域的Web服务质量的需求。用户可能需要知道所使用的Web服务所属的领域相对于其他领域的Web服务来说,其质量如何,以上方法均无法给出分析结果;
4)不可适用于大规模的Web服务的应用,也就是说,不能够广泛地用在实际工程中。
针对以上问题,有必要研究面向领域的Web服务文档描述质量评价的方法,对于成组的Web服务文档质量进行分析,这对于面向服务的系统研究具有重要影响,也有助于大规模的Web服务选择及管理。
发明内容
本发明旨在克服现有技术的不足,提供一种对不同领域的Web服务的文档质量的评价方法,能够实现对于新的Web服务,预测其所属领域、包含的语义及其文档质量,从而减少专家评价Web服务文档质量的负担,提高服务发现效率,有助于Web服务的管理,便于服务的发现和组织,为此,本发明采取的技术方案是,面向领域的Web服务文档质量评价方法,包括如下步骤:
1)解析语义Web服务,获取Web服务语义属性:服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称、标注该服务的本体概念,所有Web服务的语义属性作为输入数据集;
2)将Web服务的数据随机分为10等分,选择其中的9份作为训练数据,1份作为测试数据,进入步骤3);
3)对于训练数据,选定目标属性为Web服务所属领域,利用服务名称、服务接口名称、服务参数名称、服务参数类型、标注该服务的本体名称、标注该服务的本体概念6个Web服务的语义属性建立决策树1;
4)对于训练数据,选定目标属性为标注该服务的本体名称,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体概念6个Web服务的语义属性建立决策树2;
5)对于训练数据,选定目标属性为标注该服务的本体概念,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称6个Web服务的语义属性建立决策树3;
6)利用建立的决策树1对测试数据预测其服务所属领域,并根据数据已有的领域信息,对不同的领域的服务分别计算出如下性能度量:命中率tp-rate,错误正例率fp-rate,查准率precision,召回率recall,F测量F-measure,接受者操作特征曲线面积ROCArea;
7)选择另一份数据作为测试数据,重复步骤3)至步骤6)十次,直到每份数据轮流被测试,计算上述性能度量的平均值;
8)对于一个新的不在数据集中的Web服务,解析并获取Web服务各个属性的集合,若该服务是语义Web服务,例如OWL-S文件或者通过Web服务语义标注等手段处理后的服务,则进入步骤10);若不是语义Web服务,则进入步骤9);
9)将该Web服务的属性集合作为输入,分别利用决策树2和决策树3对该Web服务进行预测,从而得到标注该服务的本体名称、标注该服务参数的本体概念,进入步骤11);
10)将Web服务的语义属性集合作为输入,进行步骤4)和步骤5)的处理之后,进入步骤11);
11)利用决策树1预测该Web服务的所属领域,并返回该领域的性能度量值作为该Web服务文档质量的评价,从而达到预测该服务文档质量的目的。
上述的步骤1)中,读取Web服务文件,按照Web服务文档的结构特征将其解析成为四个部分:Web服务层,包括了服务的一般信息;接口层,包括了服务接口的信息;参数层,包括了服务的输入和输出参数的信息;语义基础层,包括了语义Web服务关联的本体信息及Web服务所属的领域信息。由此,可以获取Web服务的语义属性的集合T={X1,X2,X3,X4,X5,X6,X7},其中,X1-X7分别代表了服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称、标注该服务的本体概念,X4为0时代表了该参数是输入参数,为1则是输出参数,采用X1-X7这7个属性作为分类模型候选属性集。
本发明的步骤3)具体过程如下:
3.1创建根节点N;
3.2若当前训练数据集S属于同一个领域Di,则返回N为叶节点,标记为所属领域Di
3.3若候选属性集合T为空,或者S中所剩的样本数少于给定值Y,则返回N为叶节点,标记N为S中出现最多的领域;
3.4对于每个集合T中的属性,计算信息增益率;
3.5选定N的测试属性等于T中具有最高信息增益率的属性;
3.6对于每一个由节点N一个新的叶子节点,执行步骤3.7;
3.7若给叶子节点对应的训练数据集S′为空,则分裂此叶子节点生成新叶节点,将其标记为S中出现最多的服务领域,进入步骤3.8;否则,选择当前训练数据集为S′,该叶子节点为N,转至步骤3.2,继续对其进行分裂;
3.8计算每个节点的分类错误,进行剪枝。
步骤3.4需要计算每个属性的信息增益比,对于某个属性Xi,其信息增益率是通过如下公式进行计算:首先计算对于一个给定的Web服务集合所需的期望信息,由公式(1)给出:
I ( s 1 , ... ... , s m ) = Σ i = 1 m p i log 2 ( p i ) - - - ( 1 )
其中,S是s个测试服务的数据集合,服务所属领域D具有m个不同的值,si是服务数据属于领域Di的个数,pi是任意的服务数据属于领域Di的概率,取的值;
接下来计算属性Xi划分成子集的熵,由公式(2)给出:
E ( X i ) = Σ i = 1 v s i j + ... + s m j s I ( s i j , ... ... , s m j ) - - - ( 2 )
其中,设v是Xi的属性个数,则Xi具有v个子集s1,......,sv,si包含了在S中属性Xi具有值ai的数据集合,若Xi选作测试属性,则这些子集对应于由包含集合S的结点生成出来的分支,sij是si中属于领域Di的服务数据个数,熵值越小,子集划分的纯度越高;
由此,可计算出Xi在分支获得的信息增益,有公式(3)给出:
Gain(Xi)=I(s1,……,sm)–E(Xi)(3)
分裂信息的计算公式见公式(4):
S p l i t I n f o ( S , X i ) = - Σ i = 1 c | S i | | S | Log 2 | S i | | S |
其中,S1到S1是c个不同值的属性Xi分割S而形成的c个样本子集;
这样,在属性Xi上所得到的信息增益比为:
G a i n R a t i o ( S , X i ) = G a i n ( S , X i ) S p l i t I n f o ( S , X i ) - - - ( 5 )
由上述过程也可以得到步骤4)和步骤5)的具体过程。
所说的步骤6)按照不同的领域分别计算出各个性能度量过程如下所示:
6.1按照表1计算出tp,fp,tn,fn的值;
表1服务领域分类的混淆矩阵
6.2计算出命中率tp-rate和错误正例率fp-rate:tp-rate=tp/(tp+fn),fp-rate=fp/(fp+tn);
6.3计算出查准率precision以及召回率recall:precision=tp/(tp+fp),recall=tp/(tp+fn)=tp-rate;
6.4由precision和recall计算出F-measure:取β=1;
6.5令p(C1|X)为正类的概率,若p(C1|X)>θ,选X为正类,则对每一个θ可得到一对tp-rate,fp-rate,从而得到ROC曲线。
本发明具备下列技术效果:
本发明针对不同领域的Web服务,提供了一种评价Web服务文档质量的方法,从而减少专家评价Web服务文档质量的负担,填补自动评价Web服务文档质量的空白,有助于Web服务的管理,也便于Web服务的发现和组织。
附图说明
图1是本发明Web服务文档质量评价的整体流程图。
图2是本发明对新的Web服务预测其所属领域及其文档质量的流程图。
图3是本发明实验中服务的参数所在领域及所用本体中的分布,(a)是参数所在领域中的分布,(b)是参数在标注本体中的分布。
图4是本发明实验中对不同领域分类的结果。
具体实施方式
本发明采用的技术方案是:
1)解析语义Web服务,获取Web服务语义属性:服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称、标注该服务的本体概念。所有Web服务的语义属性作为输入数据集;
2)将Web服务的数据随机分为10等分,选择其中的9份作为训练数据,1份作为测试数据,进入步骤3);
3)对于训练数据,选定目标属性为Web服务所属领域,利用服务名称、服务接口名称、服务参数名称、服务参数类型、标注该服务的本体名称、标注该服务的本体概念6个Web服务的语义属性建立决策树1;
4)对于训练数据,选定目标属性为标注该服务的本体名称,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体概念6个Web服务的语义属性建立决策树2;
5)对于训练数据,选定目标属性为标注该服务的本体概念,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称6个Web服务的语义属性建立决策树3;
6)利用建立的决策树1对测试数据预测其服务所属领域,并根据数据已有的领域信息,对不同的领域的服务分别计算出如下性能度量:命中率tp-rate,错误正例率fp-rate,查准率precision,召回率recall,F测量F-measure,接受者操作特征曲线面积ROCArea;
7)选择另一份数据作为测试数据,重复步骤3)至步骤6)十次,直到每份数据轮流被测试,计算上述性能度量的平均值;
8)对于一个新的不在数据集中的Web服务,解析并获取Web服务各个属性的集合。若该服务语义Web服务,例如OWL-S文件或者通过Web服务语义标注等手段处理后的服务,则进入步骤10);若不是语义Web服务,则进入步骤9);
9)将该Web服务的属性集合作为输入,分别利用决策树2和决策树3对该Web服务进行预测,从而得到标注该服务的本体名称、标注该服务参数的本体概念,进入步骤11);
10)将Web服务的语义属性集合作为输入,进行步骤4)和步骤5)的处理之后,进入步骤11);
11)利用决策树1预测该Web服务的所属领域,并返回该领域的性能度量值作为该Web服务文档质量的评价,从而达到预测该服务文档质量的目的。
上述的步骤1)中,读取Web服务文档,按照Web服务文档的结构特征将其解析成为四个部分:Web服务层,包括了服务的一般信息;接口层,包括了服务接口的信息;参数层,包括了服务的输入和输出参数的信息;语义基础层,包括了语义Web服务关联的本体信息及Web服务所属的领域信息。由此,可以得到Web服务的语义属性的集合T={X1,X2,X3,X4,X5,X6,X7}。其中,X4为0时代表了该参数是输入参数,为1则是输出参数。我们将采用表中的X1-X7这7个属性作为分类模型候选属性集。
本发明的步骤3)具体过程如下:
3.1创建根节点N;
3.2若当前训练数据集S属于同一个领域Di,则返回N为叶节点,标记为所属领域Di
3.3若候选属性集合T为空,或者S中所剩的样本数少于给定值Y,则返回N为叶节点,标记N为S中出现最多的领域;
3.4对于每个集合T中的属性,计算信息增益率;
3.5选定N的测试属性等于T中具有最高信息增益率的属性;
3.6对于每一个由节点N一个新的叶子节点,执行步骤3.7;
3.7若给叶子节点对应的训练数据集S′为空,则分裂此叶子节点生成新叶节点,将其标记为S中出现最多的服务领域,进入步骤3.8;否则,选择当前训练数据集为S′,该叶子节点为N,转至步骤3.2,继续对其进行分裂;
3.8计算每个节点的分类错误,进行剪枝。
步骤3.4需要计算每个属性的信息增益比。对于某个属性Xi,其信息增益率是通过如下公式进行计算。首先计算对于一个给定的Web服务集合所需的期望信息,由公式(1)给出:
I ( s 1 , ... ... , s m ) = Σ i = 1 m p i log 2 ( p i ) - - - ( 1 )
其中,S是s个测试服务的数据集合,服务所属领域D具有m个不同的值,si是服务数据属于领域Di的个数。pi是任意的服务数据属于领域Di的概率,本文中取的值。
接下来计算属性Xi划分成子集的熵,由公式(2)给出:
E ( X i ) = Σ i = 1 v s i j + ... + s m j s I ( s i j , ... ... , s m j ) - - - ( 2 )
其中,设v是Xi的属性个数,则Xi具有v个子集s1,......,sv。si包含了在S中属性Xi具有值ai的数据集合。若Xi选作测试属性,则这些子集对应于由包含集合S的结点生成出来的分支。sij是si中属于领域Di的服务数据个数。熵值越小,子集划分的纯度越高。
由此,可计算出Xi在分支获得的信息增益,有公式(3)给出:
Gain(Xi)=I(s1,……,sm)–E(Xi)(3)
分裂信息的计算公式见公式(4):
S p l i t I n f o ( S , X i ) = - Σ i = 1 c | S i | | S | Log 2 | S i | | S | - - - ( 4 )
其中,S1到S1是c个不同值的属性Xi分割S而形成的c个样本子集。
这样,在属性Xi上所得到的信息增益比为:
G a i n R a t i o ( S , X i ) = G a i n ( S , X i ) S p l i t I n f o ( S , X i ) - - - ( 5 )
由上述过程也可以得到步骤4)和步骤5)的具体过程。
所说的步骤6)按照不同的领域分别计算出各个性能度量过程如下所示:
6.1按照表1计算出tp,fp,tn,fn的值;
表1服务领域分类的混淆矩阵
6.2计算出命中率tp-rate和错误正例率fp-rate:tp-rate=tp/(tp+fn),fp-rate=fp/(fp+tn);6.3计算出查准率precision以及召回率recall:precision=tp/(tp+fp),recall=tp/(tp+fn)=tp-rate;
6.4由precision和recall计算出F-measure:取β=1;
6.5令p(C1|X)为正类的概率,若p(C1|X)>θ,选X为正类,则对每一个θ可得到一对tp-rate,fp-rate,从而得到ROC曲线。
下面结合附图对本发明作进一步详细说明。
参见图1,评价对面向不同领域的Web服务文档质量时,需要进行以下的步骤:
1)解析语义Web服务,获取Web服务语义属性集合。按照Web服务文档的结构特征将其解析成为四个部分:Web服务层,包括了服务的一般信息,如服务名称X1;接口层,包括了服务接口的信息,如接口名称X2;参数层,包括了服务的输入参数和输出参数的信息,如参数名称X3和参数类型X4;语义基础层,包括了语义Web服务关联的本体信息及Web服务所属的领域信息,如本体名称X6以及本体中的概念X7。由此,可以得到。按照表2中的Web服务的语义属性及其描述得到这些属性的集合T={X1,X2,X3,X4,X5,X6,X7},其中,X4为0时代表了该参数是输入参数,为1则是输出参数。我们将采用表中的X1-X7这7个属性作为分类模型候选属性集。所有Web服务的语义属性作为输入数据集;
表2Web服务的语义属性及其描述
2)将Web服务的数据随机分为10等分,选择其中的9份作为训练数据,1份作为测试数据,进入步骤3);
3)对于训练数据,选定目标属性为Web服务所属领域,利用服务名称、服务接口名称、服务参数名称、服务参数类型、标注该服务的本体名称、标注该服务的本体概念6个Web服务的语义属性建立决策树1;
4)对于训练数据,选定目标属性为标注该服务的本体名称,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体概念6个Web服务的语义属性建立决策树2;
5)对于训练数据,选定目标属性为标注该服务的本体概念,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称6个Web服务的语义属性建立决策树3;
6)利用建立的决策树1对测试数据预测其服务所属领域,并根据数据已有的领域信息,对不同的领域的服务分别计算出如下性能度量:命中率tp-rate,错误正例率fp-rate,查准率precision,召回率recall,F测量F-measure,接受者操作特征曲线面积ROCArea;
7)选择另一份数据作为测试数据,重复步骤3)至步骤6)十次,直到每份数据轮流被测试,计算上述性能度量的平均值;
处理完以上步骤,我们就可以得到对于不同领域的Web服务文档质量的不同的评价值。
本发明的步骤3)具体过程如下:
3.1创建根节点N;
3.2若当前训练数据集S属于同一个领域Di,则返回N为叶节点,标记为所属领域Di
3.3若候选属性集合T为空,或者S中所剩的样本数少于给定值Y,则返回N为叶节点,标记N为S中出现最多的领域;
3.4对于每个集合T中的属性,计算信息增益率;
3.5选定N的测试属性等于T中具有最高信息增益率的属性;
3.6对于每一个由节点N一个新的叶子节点,执行步骤3.7;
3.7若给叶子节点对应的训练数据集S′为空,则分裂此叶子节点生成新叶节点,将其标记为S中出现最多的服务领域,进入步骤3.8;否则,选择当前训练数据集为S′,该叶子节点为N,转至步骤3.2,继续对其进行分裂;
3.8计算每个节点的分类错误,进行剪枝。
步骤3.4需要计算每个属性的信息增益比。对于某个属性Xi,其信息增益率是通过如下公式进行计算。首先计算对于一个给定的Web服务集合所需的期望信息,由公式(1)给出:
I ( s 1 , ... ... , s m ) = Σ i = 1 m p i log 2 ( p i ) - - - ( 1 )
其中,S是s个测试服务的数据集合,服务所属领域D具有m个不同的值,si是服务数据属于领域Di的个数。pi是任意的服务数据属于领域Di的概率,本文中取的值。
接下来计算属性Xi划分成子集的熵,由公式(2)给出:
E ( X i ) = Σ i = 1 v s i j + ... + s m j s I ( s i j , ... ... , s m j ) - - - ( 2 )
其中,设v是Xi的属性个数,则Xi具有v个子集s1,......,sv。si包含了在S中属性Xi具有值ai的数据集合。若Xi选作测试属性,则这些子集对应于由包含集合S的结点生成出来的分支。sij是si中属于领域Di的服务数据个数。熵值越小,子集划分的纯度越高。
由此,可计算出Xi在分支获得的信息增益,有公式(3)给出:
Gain(Xi)=I(s1,……,sm)–E(Xi)(3)
分裂信息的计算公式见公式(4):
S p l i t I n f o ( S , X i ) = - Σ i = 1 c | S i | | S | Log 2 | S i | | S | - - - ( 4 )
其中,S1到S1是c个不同值的属性Xi分割S而形成的c个样本子集。
这样,在属性Xi上所得到的信息增益比为:
G a i n R a t i o ( S , X i ) = G a i n ( SX i ) S p l i t I n f o ( S , X i ) - - - ( 5 )
由上述过程也可以得到步骤4)和步骤5)的具体过程。
所说的步骤6)按照不同的领域分别计算出各个性能度量过程如下所示:
6.1按照表1计算出tp,fp,tn,fn的值;
6.2计算出命中率tp-rate和错误正例率fp-rate:tp-rate=tp/(tp+fn),fp-rate=fp/(fp+tn);
6.3计算出查准率precision以及召回率recall:precision=tp/(tp+fp),recall=tp/(tp+fn)=tp-rate;
6.4由precision和recall计算出F-measure:取β=1;
6.5令p(C1|X)为正类的概率,若p(C1|X)>θ,选X为正类,则对每一个θ可得到一对tp-rate,fp-rate,从而得到ROC曲线。
参见图2,要对新的Web服务预测其所属领域及其文档质量,其具体过程如下:
1)对于一个新的不在数据集中的Web服务,解析并获取Web服务各个属性的集合。
2)若该服务是语义Web服务,例如OWL-S文件或者通过Web服务语义标注等手段处理后的服务,则进入步骤4);若不是语义Web服务,则进入步骤3);
3)将该Web服务的属性集合作为输入,分别利用决策树2和决策树3对该Web服务进行预测,从而得到标注该服务的本体名称、标注该服务的本体概念,进入步骤5);
4)将Web服务的语义属性集合作为输入,进行步骤4)和步骤5)的处理之后,进入步骤5);
5)利用决策树1预测该Web服务的所属领域,并返回该领域的性能度量值作为该Web服务的评价。
本文通过在Web服务测试集上实现了面向领域的Web服务文档质量评价方法。所选用的数据集是OWLS-TC4(OWL-SServiceRetrievalTestCollectionVersion4.0),该公开的数据集是用来评价OWL-S服务匹配算法的性能。通过服务解析之后,服务集的属性的具体情况见表3。该数据集覆盖了9个领域的1090个服务,服务在这9个领域中的分布如表4中所示。
表3OWLS-TC4服务情况
表4OWLS-TC4服务领域分布
从表3中还可以看出,OWLS-TC4服务集共包括3075个服务参数,与服务一同提供的还有68个现有本体,图3反映了参数在9个领域中的分布,以及参数在其标注本体中的分布。
通过本发明描述的方法,对得到的实验结果进行统计,可以计算出对领域进行分类的精度为86.58%。可见,在以上实验环境下,本方法所得到较高的精度值。
对于具体的9个领域,利用本面向领域的Web服务文档质量评价方法,得到的性能指标如图4所示。9个领域中,对于食物(food)领域的Web服务的分类效果最差,也说明其文档质量最差,F测量值为0.699。同时,对于仿真(simulation)领域的Web服务分类效果最好,说明其服务描述的质量最好。

Claims (3)

1.一种面向领域的Web服务文档质量评价方法,其特征是,包括如下步骤:
1)解析语义Web服务,获取Web服务语义属性:服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称、标注该服务的本体概念,所有Web服务的语义属性作为输入数据集;
2)将Web服务的数据随机分为10等分,选择其中的9份作为训练数据,1份作为测试数据,进入步骤3);
3)对于训练数据,选定目标属性为Web服务所属领域,利用服务名称、服务接口名称、服务参数名称、服务参数类型、标注该服务的本体名称、标注该服务的本体概念6个Web服务的语义属性建立决策树1;
4)对于训练数据,选定目标属性为标注该服务的本体名称,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体概念6个Web服务的语义属性建立决策树2;
5)对于训练数据,选定目标属性为标注该服务的本体概念,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称6个Web服务的语义属性建立决策树3;
6)利用建立的决策树1对测试数据预测其服务所属领域,并根据数据已有的领域信息,对不同领域的服务分别计算出如下性能度量:命中率tp-rate,错误正例率fp-rate,查准率precision,召回率recall,F测量F-measure,接受者操作特征曲线面积ROCArea;
7)选择另一份数据作为测试数据,重复步骤3)至步骤6)十次,直到每份数据轮流被测试,计算上述性能度量的平均值;
8)对于一个新的不在数据集中的Web服务,解析并获取Web服务各个属性的集合,如果该服务是语义Web服务,则进入步骤10);若不是语义Web服务,则进入步骤9);
9)将该Web服务的属性集合作为输入,分别利用决策树2和决策树3对该Web服务进行预测,从而得到标注该服务的本体名称、标注该服务参数的本体概念,进入步骤11);
10)将Web服务的语义属性集合作为输入,进行步骤4)和步骤5)的处理之后,进入步骤11);
11)利用决策树1预测该Web服务的所属领域,并返回该领域的性能度量值作为该Web服务文档质量的评价,从而达到预测该服务文档质量的目的;
步骤3)具体过程如下:
3.1创建根节点N;
3.2若当前训练数据集S属于同一个领域Di,则返回N为叶节点,标记为所属领域Di
3.3若候选属性集合T为空,或者S中所剩的样本数少于给定值Y,则返回N为叶节点,标记N为S中出现最多的领域;
3.4对于每个集合T中的属性,计算信息增益率;
3.5选定N的测试属性等于T中具有最高信息增益率的属性;
3.6对于每一个节点N添加一个新的叶子节点,执行步骤3.7;
3.7若给叶子节点对应的训练数据集S′为空,则分裂此叶子节点生成新叶节点,将其标记为S中出现最多的服务领域,进入步骤3.8;否则,选择当前训练数据集为S′,该叶子节点为N,转至步骤3.2,继续对其进行分裂;
3.8计算每个节点的分类错误,进行剪枝;
步骤3.4需要计算每个属性的信息增益比,对于某个属性Xi,其信息增益率是通过如下公式进行计算:首先计算对于一个给定的Web服务集合所需的期望信息,由公式(1)给出:
I ( n 1 , ... ... , n m ) = Σ i = 1 m p i log 2 ( p i ) - - - ( 1 )
其中,ni是服务数据属于领域Di的个数,pi是任意的服务数据属于领域Di的概率,取的值,S是s个测试服务的数据集合,服务所属领域D具有m个不同的值;
接下来计算属性Xi划分成子集的熵,由公式(2)给出:
E ( X i ) = Σ i = 1 v s i j + ... + s m j s I ( s i j , ... ... , s m j ) - - - ( 2 )
其中,设v是Xi的属性个数,则Xi对应的数据集分为v个子集s1,……,sv,si是在S中属性Xi具有值ai时的数据集合,若Xi选作测试属性,则这些子集对应于由包含集合S的结点生成出来的分支,sij是si中属于领域Di的服务数据个数,熵值越小,子集划分的纯度越高;
由此,计算出Xi在分支获得的信息增益,有公式(3)给出:
Gain(Xi)=I(s1,……,sm)–E(Xi)(3)
分裂信息的计算公式见公式(4):
S p l i t I n f o ( S , X i ) = - Σ i = 1 c | S i | | S | Log 2 S i S - - - ( 4 )
其中,S1到Sc是c个不同值的属性Xi分割S而形成的c个样本子集;
这样,在属性Xi上所得到的信息增益比为:
G a i n R a t i o ( S , X i ) = G a i n ( S , X i ) S p l i t I n f o ( S , X i ) - - - ( 5 )
由上述过程也可以得到步骤4)和步骤5)的具体过程。
2.如权利要求1所述的面向领域的Web服务文档质量评价方法,其特征是,上述的步骤1)中,读取Web服务文档,按照Web服务文档的结构特征将其解析成为四个部分:Web服务层,包括了服务的一般信息;接口层,包括了服务接口的信息;参数层,包括了服务的输入和输出参数的信息;语义基础层,包括了语义Web服务关联的本体信息及Web服务所属的领域信息,由此,得到Web服务的语义属性的集合T={X1,X2,X3,X4,X5,X6,X7},其中,X1-X7分别代表了服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称、标注该服务的本体概念,X4为0时代表了该参数是输入参数,为1则是输出参数,采用X1-X7这7个属性作为分类模型候选属性集。
3.如权利要求1所述的面向领域的Web服务文档质量评价方法,其特征是,步骤6)按照不同的领域分别计算出各个性能度量过程如下所示:
6.1按照表1计算出tp,fp,tn,fn的值;
表1服务领域分类的混淆矩阵
6.2计算出命中率tp-rate和错误正例率fp-rate:tp-rate=tp/(tp+fn),fp-rate=fp/(fp+tn);
6.3计算出查准率precision以及召回率recall:precision=tp/(tp+fp),recall=tp/(tp+fn)=tp-rate;
6.4由precision和recall计算出F-measure:取β=1;
6.5令p(C1|X)为正类的概率,若p(C1|X)>θ,选X为正类,则对每一个θ可得到一对tp-rate,fp-rate,从而得到ROC曲线。
CN201310240129.5A 2013-06-17 2013-06-17 面向领域的Web服务文档质量评价方法 Expired - Fee Related CN103279461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310240129.5A CN103279461B (zh) 2013-06-17 2013-06-17 面向领域的Web服务文档质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310240129.5A CN103279461B (zh) 2013-06-17 2013-06-17 面向领域的Web服务文档质量评价方法

Publications (2)

Publication Number Publication Date
CN103279461A CN103279461A (zh) 2013-09-04
CN103279461B true CN103279461B (zh) 2016-04-06

Family

ID=49061986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310240129.5A Expired - Fee Related CN103279461B (zh) 2013-06-17 2013-06-17 面向领域的Web服务文档质量评价方法

Country Status (1)

Country Link
CN (1) CN103279461B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699667B (zh) * 2013-12-24 2017-01-11 天津大学 Web服务的多维度语义模型建立方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799629A (zh) * 2012-06-26 2012-11-28 天津大学 Wsdl文件质量保证系统及其实现方法
US8386485B2 (en) * 2008-07-31 2013-02-26 George Mason Intellectual Properties, Inc. Case-based framework for collaborative semantic search
CN103095849A (zh) * 2013-02-07 2013-05-08 南京邮电大学 基于QoS属性预测和纠错的有监督Web服务发现方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8756323B2 (en) * 2010-11-26 2014-06-17 International Business Machines Corporation Semantic- and preference-based planning of cloud service templates

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386485B2 (en) * 2008-07-31 2013-02-26 George Mason Intellectual Properties, Inc. Case-based framework for collaborative semantic search
CN102799629A (zh) * 2012-06-26 2012-11-28 天津大学 Wsdl文件质量保证系统及其实现方法
CN103095849A (zh) * 2013-02-07 2013-05-08 南京邮电大学 基于QoS属性预测和纠错的有监督Web服务发现方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An weighted ontology-based semantic similarity algorithm for web service;Liu Min et al;《Expert Systems with Applications》;20091231;第36卷(第10期);12480-12490 *
On the functional quality of service (FQoS) to discover and compose interoperable web services;Buhwan Jeong et al;《Expert Systems with Applications》;20091231;第36卷(第3期);5411-5418 *
一种面向QoS的Web服务组测试方法TF;邓小鹏;《计算机研究与发展》;20090831;第46卷(第8期);1285-1293 *
基于语义的Web服务发布及发现机制研究;南柄飞;《中国优秀硕士学位论文全文数据库 信息科技辑》;20111215(第S2期);I139-346 *

Also Published As

Publication number Publication date
CN103279461A (zh) 2013-09-04

Similar Documents

Publication Publication Date Title
Feng et al. An expert recommendation algorithm based on Pearson correlation coefficient and FP-growth
Dufrenot et al. The trade-growth nexus in the developing countries: A quantile regression approach
US6961685B2 (en) Probability model selection using information-theoretic optimization criterion
Pezzoni et al. How to kill inventors: testing the Massacrator© algorithm for inventor disambiguation
CN103761254B (zh) 多领域服务主题匹配推荐方法
KR101732319B1 (ko) 목표 지향적 빅데이터 비즈니스 분석 프레임워크
CN104572449A (zh) 一种基于用例库的自动化测试方法
CN109711424B (zh) 一种基于决策树的行为规则获取方法、装置及设备
CN104834479A (zh) 面向云平台的自动优化存储系统配置的方法及系统
CN105279397A (zh) 一种识别蛋白质相互作用网络中关键蛋白质的方法
CN105069122A (zh) 一种基于用户行为的个性化推荐方法及其推荐装置
Türegün Financial performance evaluation by multi-criteria decision-making techniques
Harrell et al. Resampling, validating, describing, and simplifying the model
CN108885628A (zh) 数据分析方法候选决定装置
KR20200010624A (ko) 머신러닝을 이용한 빅데이터 통합진단 예측 시스템
Redhead et al. Reliable network inference from unreliable data: A tutorial on latent network modeling using STRAND.
CN116187524B (zh) 一种基于机器学习的供应链分析模型对比方法及装置
CN103377403B (zh) 企业业务组件建模方法和系统
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
Hsu et al. Technology and knowledge document cluster analysis for enterprise R&D strategic planning
CN114881343A (zh) 基于特征选择的电力系统短期负荷预测方法及装置
CN101226521A (zh) 一种用于多义性数据对象预测建模的机器学习方法
Liu et al. Scientific elites versus other scientists: who are better at taking advantage of the research collaboration network?
CN103279461B (zh) 面向领域的Web服务文档质量评价方法
CN117494760A (zh) 一种基于超大规模语言模型的富语义标签数据增广方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210713

Address after: 404, Yinxing technology building, No. 1301, sightseeing Road, Xinlan community, Guanlan street, Longhua District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Fangyuan Tianlun Technology Co.,Ltd.

Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92

Patentee before: Tianjin University

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160406