CN103279461B

CN103279461B - 面向领域的Web服务文档质量评价方法

Info

Publication number: CN103279461B
Application number: CN201310240129.5A
Authority: CN
Inventors: 张祯; 冯志勇; 陈世展
Original assignee: Tianjin University
Current assignee: Shenzhen Fangyuan Tianlun Technology Co ltd
Priority date: 2013-06-17
Filing date: 2013-06-17
Publication date: 2016-04-06
Anticipated expiration: 2033-06-17
Also published as: CN103279461A

Abstract

本发明涉及Web服务技术领域，为提供一种对不同领域的Web服务的文档质量的评价方法，能够实现对于新的Web服务，预测其所属领域、包含的语义及其文档质量，从而减少专家评价Web服务文档质量的负担，提高服务发现效率，本发明采取的技术方案是，面向领域的Web服务文档质量评价方法，包括如下步骤：1)解析语义Web服务；2)将Web服务的数据随机分为10等分；3)建立决策树1、2、3；4)计算出性能度量；5)得到标注该服务的本体名称、标注该服务参数的本体概念；6)利返回该领域的性能度量值作为该Web服务文档质量的评价。本发明主要应用于Web服务技术。

Description

面向领域的Web服务文档质量评价方法

技术领域

本发明涉及Web服务技术领域，具体来说，涉及面向领域的Web服务文档质量评价。

技术背景

随着Web服务在工业界的广泛使用，Web服务技术不断发展，互联网上出现了大量的Web服务。由于服务开发者众多，存在很多提供相似或者相同功能的服务。因此，按照Web服务的功能可以将其分为不同的作用领域，每个领域都包含了大量的Web服务的集合。从服务发布的角度看，当服务开发者开发了一个Web服务，他关心的除了用户能否成功调用该Web服务，还有必要知道该服务的描述质量如何，从而开发高质量的Web服务，让服务注册中心识别，更好地让服务消费者使用；从服务管理的角度看，一个服务文档的描述质量直接影响了Web服务的语义，对于Web服务的发现、服务消费者的使用都有着重要的影响。

然而，Web服务文档质量好坏的判断需要专家知识与经验，这使得Web服务的管理产生了困难。当前研究Web服务质量的关注点在于将广泛的服务质量引入并扩展到Web服务质量属性中，对于Web服务的非功能的属性进行分析。由于使用标准的WSDL语言描述的Web服务不能够体现出Web服务的质量，因此，一些研究为Web服务引入语义网技术，提出了语义Web服务的概念，从而构建了基于本体的服务质量模型。基于服务质量的语义Web服务将本体作为词汇表提供明确的定义和机器可理解的语义，能够描述出Web服务的质量，例如DAML-QoS就是专为描述Web服务质量而开发的本体。此外，也有研究通过智能技术根据Web服务的质量属性将Web服务分成不同层次的事先定好的四类，从而用以评价Web服务。

以上技术仅对Web服务的质量评价提出了不同的解决方案，但是均未对于Web服务文档的描述质量进行分析，它们主要存在如下的问题：

1)主要考虑的是某个Web服务质量的通用属性，如可用性、可访问性、可靠性、安全性、响应时间等这些非功能属性，而没有考虑到对Web服务文档描述质量的评价。然而，服务质量的前提条件是服务的可用性，而文档描述的好坏决定了服务的可用性，较差的文档质量影响了服务消费者理解并调用服务，因此服务的文档质量是服务质量的基础，很有必要进行文档质量的评价工作；

2)无法实现服务管理中心对于不同领域的Web服务进行管理和组织。这些Web服务质量属性机制，忽略了对于不同领域的Web服务的质量差异，未体现出不同领域的Web服务质量属性在质量保证体系中的作用；同时，现有技术着重对单个Web服务个体进行服务质量评价，不仅具有难度，并且其准确性也不能够得以保障，本文以服务所属的领域为单位，对成组的Web服务进行分析，从统计意义上的对Web服务文档进行评价；

3)无法满足用户了解不同领域的Web服务质量的需求。用户可能需要知道所使用的Web服务所属的领域相对于其他领域的Web服务来说，其质量如何，以上方法均无法给出分析结果；

4)不可适用于大规模的Web服务的应用，也就是说，不能够广泛地用在实际工程中。

针对以上问题，有必要研究面向领域的Web服务文档描述质量评价的方法，对于成组的Web服务文档质量进行分析，这对于面向服务的系统研究具有重要影响，也有助于大规模的Web服务选择及管理。

发明内容

本发明旨在克服现有技术的不足，提供一种对不同领域的Web服务的文档质量的评价方法，能够实现对于新的Web服务，预测其所属领域、包含的语义及其文档质量，从而减少专家评价Web服务文档质量的负担，提高服务发现效率，有助于Web服务的管理，便于服务的发现和组织，为此，本发明采取的技术方案是，面向领域的Web服务文档质量评价方法，包括如下步骤：

1)解析语义Web服务，获取Web服务语义属性：服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称、标注该服务的本体概念，所有Web服务的语义属性作为输入数据集；

2)将Web服务的数据随机分为10等分，选择其中的9份作为训练数据，1份作为测试数据，进入步骤3)；

3)对于训练数据，选定目标属性为Web服务所属领域,利用服务名称、服务接口名称、服务参数名称、服务参数类型、标注该服务的本体名称、标注该服务的本体概念6个Web服务的语义属性建立决策树1；

4)对于训练数据，选定目标属性为标注该服务的本体名称,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体概念6个Web服务的语义属性建立决策树2；

5)对于训练数据，选定目标属性为标注该服务的本体概念,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称6个Web服务的语义属性建立决策树3；

6)利用建立的决策树1对测试数据预测其服务所属领域，并根据数据已有的领域信息，对不同的领域的服务分别计算出如下性能度量：命中率tp-rate,错误正例率fp-rate,查准率precision,召回率recall,F测量F-measure,接受者操作特征曲线面积ROCArea；

7)选择另一份数据作为测试数据，重复步骤3)至步骤6)十次，直到每份数据轮流被测试，计算上述性能度量的平均值；

8)对于一个新的不在数据集中的Web服务，解析并获取Web服务各个属性的集合，若该服务是语义Web服务，例如OWL-S文件或者通过Web服务语义标注等手段处理后的服务，则进入步骤10)；若不是语义Web服务，则进入步骤9)；

9)将该Web服务的属性集合作为输入，分别利用决策树2和决策树3对该Web服务进行预测，从而得到标注该服务的本体名称、标注该服务参数的本体概念，进入步骤11)；

10)将Web服务的语义属性集合作为输入，进行步骤4)和步骤5)的处理之后，进入步骤11)；

11)利用决策树1预测该Web服务的所属领域，并返回该领域的性能度量值作为该Web服务文档质量的评价，从而达到预测该服务文档质量的目的。

上述的步骤1)中，读取Web服务文件，按照Web服务文档的结构特征将其解析成为四个部分：Web服务层，包括了服务的一般信息；接口层，包括了服务接口的信息；参数层，包括了服务的输入和输出参数的信息；语义基础层，包括了语义Web服务关联的本体信息及Web服务所属的领域信息。由此，可以获取Web服务的语义属性的集合T＝{X1,X2,X3,X4,X5,X6,X7}，其中，X1-X7分别代表了服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称、标注该服务的本体概念，X4为0时代表了该参数是输入参数，为1则是输出参数，采用X1-X7这7个属性作为分类模型候选属性集。

本发明的步骤3)具体过程如下：

3.1创建根节点N；

3.2若当前训练数据集S属于同一个领域D_i，则返回N为叶节点，标记为所属领域D_i；

3.3若候选属性集合T为空，或者S中所剩的样本数少于给定值Y，则返回N为叶节点，标记N为S中出现最多的领域；

3.4对于每个集合T中的属性，计算信息增益率；

3.5选定N的测试属性等于T中具有最高信息增益率的属性；

3.6对于每一个由节点N一个新的叶子节点，执行步骤3.7；

3.7若给叶子节点对应的训练数据集S′为空，则分裂此叶子节点生成新叶节点，将其标记为S中出现最多的服务领域，进入步骤3.8；否则，选择当前训练数据集为S′，该叶子节点为N，转至步骤3.2，继续对其进行分裂；

3.8计算每个节点的分类错误，进行剪枝。

步骤3.4需要计算每个属性的信息增益比，对于某个属性X_i，其信息增益率是通过如下公式进行计算：首先计算对于一个给定的Web服务集合所需的期望信息，由公式(1)给出：

I (s_{1}, ... ..., s_{m}) = Σ_{i = 1}^{m} p_{i} \log_{2} (p_{i}) - - - (1)

其中，S是s个测试服务的数据集合,服务所属领域D具有m个不同的值，s_i是服务数据属于领域D_i的个数，p_i是任意的服务数据属于领域D_i的概率，取的值；

接下来计算属性X_i划分成子集的熵，由公式(2)给出：

E (X_{i}) = Σ_{i = 1}^{v} \frac{s_{i j} + ... + s_{m j}}{s} I (s_{i j}, ... ..., s_{m j}) - - - (2)

其中，设v是X_i的属性个数，则X_i具有v个子集s₁,......,s_v，s_i包含了在S中属性X_i具有值a_i的数据集合，若X_i选作测试属性，则这些子集对应于由包含集合S的结点生成出来的分支，s_ij是s_i中属于领域D_i的服务数据个数，熵值越小，子集划分的纯度越高；

由此，可计算出X_i在分支获得的信息增益，有公式(3)给出：

Gain(X_i)＝I(s₁,……,s_m)–E(X_i)(3)

分裂信息的计算公式见公式(4):

S p l i t I n f o (S, X_{i}) = - Σ_{i = 1}^{c} \frac{| S i |}{| S |} {Log}_{2} \frac{| S i |}{| S |}

其中，S₁到S₁是c个不同值的属性X_i分割S而形成的c个样本子集；

这样，在属性X_i上所得到的信息增益比为：

G a i n R a t i o (S, X_{i}) = \frac{G a i n (S, X_{i})}{S p l i t I n f o (S, X_{i})} - - - (5)

由上述过程也可以得到步骤4)和步骤5)的具体过程。

所说的步骤6)按照不同的领域分别计算出各个性能度量过程如下所示：

6.1按照表1计算出tp,fp,tn,fn的值；

表1服务领域分类的混淆矩阵

6.2计算出命中率tp-rate和错误正例率fp-rate：tp-rate＝tp/(tp+fn),fp-rate＝fp/(fp+tn)；

6.3计算出查准率precision以及召回率recall：precision＝tp/(tp+fp)，recall＝tp/(tp+fn)＝tp-rate；

6.4由precision和recall计算出F-measure：取β＝1；

6.5令p(C₁|X)为正类的概率，若p(C₁|X)＞θ，选X为正类，则对每一个θ可得到一对tp-rate,fp-rate,从而得到ROC曲线。

本发明具备下列技术效果：

本发明针对不同领域的Web服务，提供了一种评价Web服务文档质量的方法，从而减少专家评价Web服务文档质量的负担，填补自动评价Web服务文档质量的空白，有助于Web服务的管理，也便于Web服务的发现和组织。

附图说明

图1是本发明Web服务文档质量评价的整体流程图。

图2是本发明对新的Web服务预测其所属领域及其文档质量的流程图。

图3是本发明实验中服务的参数所在领域及所用本体中的分布，(a)是参数所在领域中的分布，(b)是参数在标注本体中的分布。

图4是本发明实验中对不同领域分类的结果。

具体实施方式

本发明采用的技术方案是：

1)解析语义Web服务，获取Web服务语义属性：服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称、标注该服务的本体概念。所有Web服务的语义属性作为输入数据集；

8)对于一个新的不在数据集中的Web服务，解析并获取Web服务各个属性的集合。若该服务语义Web服务，例如OWL-S文件或者通过Web服务语义标注等手段处理后的服务，则进入步骤10)；若不是语义Web服务，则进入步骤9)；

上述的步骤1)中，读取Web服务文档，按照Web服务文档的结构特征将其解析成为四个部分：Web服务层，包括了服务的一般信息；接口层，包括了服务接口的信息；参数层，包括了服务的输入和输出参数的信息；语义基础层，包括了语义Web服务关联的本体信息及Web服务所属的领域信息。由此，可以得到Web服务的语义属性的集合T＝{X1,X2,X3,X4,X5,X6,X7}。其中，X4为0时代表了该参数是输入参数，为1则是输出参数。我们将采用表中的X1-X7这7个属性作为分类模型候选属性集。

本发明的步骤3)具体过程如下：

3.1创建根节点N；

3.4对于每个集合T中的属性，计算信息增益率；

3.5选定N的测试属性等于T中具有最高信息增益率的属性；

3.6对于每一个由节点N一个新的叶子节点，执行步骤3.7；

3.8计算每个节点的分类错误，进行剪枝。

步骤3.4需要计算每个属性的信息增益比。对于某个属性X_i，其信息增益率是通过如下公式进行计算。首先计算对于一个给定的Web服务集合所需的期望信息，由公式(1)给出：

I (s_{1}, ... ..., s_{m}) = Σ_{i = 1}^{m} p_{i} \log_{2} (p_{i}) - - - (1)

其中，S是s个测试服务的数据集合,服务所属领域D具有m个不同的值，s_i是服务数据属于领域D_i的个数。p_i是任意的服务数据属于领域D_i的概率，本文中取的值。

接下来计算属性X_i划分成子集的熵，由公式(2)给出：

E (X_{i}) = Σ_{i = 1}^{v} \frac{s_{i j + ... + s_{m j}}}{s} I (s_{i j}, ... ..., s_{m j}) - - - (2)

其中，设v是X_i的属性个数，则X_i具有v个子集s₁,......,s_v。s_i包含了在S中属性X_i具有值a_i的数据集合。若X_i选作测试属性，则这些子集对应于由包含集合S的结点生成出来的分支。s_ij是s_i中属于领域D_i的服务数据个数。熵值越小，子集划分的纯度越高。

由此，可计算出X_i在分支获得的信息增益，有公式(3)给出：

Gain(X_i)＝I(s₁,……,s_m)–E(X_i)(3)

分裂信息的计算公式见公式(4):

S p l i t I n f o (S, X_{i}) = - Σ_{i = 1}^{c} \frac{| S i |}{| S |} {Log}_{2} \frac{| S i |}{| S |} - - - (4)

其中，S₁到S₁是c个不同值的属性X_i分割S而形成的c个样本子集。

这样，在属性X_i上所得到的信息增益比为：

G a i n R a t i o (S, X_{i}) = \frac{G a i n (S, X_{i})}{S p l i t I n f o (S, X_{i})} - - - (5)

由上述过程也可以得到步骤4)和步骤5)的具体过程。

6.1按照表1计算出tp,fp,tn,fn的值；

表1服务领域分类的混淆矩阵

6.2计算出命中率tp-rate和错误正例率fp-rate：tp-rate＝tp/(tp+fn),fp-rate＝fp/(fp+tn)；6.3计算出查准率precision以及召回率recall：precision＝tp/(tp+fp)，recall＝tp/(tp+fn)＝tp-rate；

6.4由precision和recall计算出F-measure：取β＝1；

下面结合附图对本发明作进一步详细说明。

参见图1，评价对面向不同领域的Web服务文档质量时，需要进行以下的步骤：

1)解析语义Web服务，获取Web服务语义属性集合。按照Web服务文档的结构特征将其解析成为四个部分：Web服务层，包括了服务的一般信息，如服务名称X1；接口层，包括了服务接口的信息，如接口名称X2；参数层，包括了服务的输入参数和输出参数的信息，如参数名称X3和参数类型X4；语义基础层，包括了语义Web服务关联的本体信息及Web服务所属的领域信息，如本体名称X6以及本体中的概念X7。由此，可以得到。按照表2中的Web服务的语义属性及其描述得到这些属性的集合T＝{X1,X2,X3,X4,X5,X6,X7}，其中，X4为0时代表了该参数是输入参数，为1则是输出参数。我们将采用表中的X1-X7这7个属性作为分类模型候选属性集。所有Web服务的语义属性作为输入数据集；

表2Web服务的语义属性及其描述

处理完以上步骤，我们就可以得到对于不同领域的Web服务文档质量的不同的评价值。

本发明的步骤3)具体过程如下：

3.1创建根节点N；

3.4对于每个集合T中的属性，计算信息增益率；

3.5选定N的测试属性等于T中具有最高信息增益率的属性；

3.6对于每一个由节点N一个新的叶子节点，执行步骤3.7；

3.8计算每个节点的分类错误，进行剪枝。

I (s_{1}, ... ..., s_{m}) = Σ_{i = 1}^{m} p_{i} \log_{2} (p_{i}) - - - (1)

接下来计算属性X_i划分成子集的熵，由公式(2)给出：

E (X_{i}) = Σ_{i = 1}^{v} \frac{s_{i j + ... + s_{m j}}}{s} I (s_{i j}, ... ..., s_{m j}) - - - (2)

由此，可计算出X_i在分支获得的信息增益，有公式(3)给出：

Gain(X_i)＝I(s₁,……,s_m)–E(X_i)(3)

分裂信息的计算公式见公式(4):

S p l i t I n f o (S, X_{i}) = - Σ_{i = 1}^{c} \frac{| S i |}{| S |} {Log}_{2} \frac{| S i |}{| S |} - - - (4)

这样，在属性X_i上所得到的信息增益比为：

G a i n R a t i o (S, X_{i}) = \frac{G a i n ({SX}_{i})}{S p l i t I n f o (S, X_{i})} - - - (5)

由上述过程也可以得到步骤4)和步骤5)的具体过程。

6.1按照表1计算出tp,fp,tn,fn的值；

6.4由precision和recall计算出F-measure：取β＝1；

参见图2，要对新的Web服务预测其所属领域及其文档质量，其具体过程如下：

1)对于一个新的不在数据集中的Web服务，解析并获取Web服务各个属性的集合。

2)若该服务是语义Web服务，例如OWL-S文件或者通过Web服务语义标注等手段处理后的服务，则进入步骤4)；若不是语义Web服务，则进入步骤3)；

3)将该Web服务的属性集合作为输入，分别利用决策树2和决策树3对该Web服务进行预测，从而得到标注该服务的本体名称、标注该服务的本体概念，进入步骤5)；

4)将Web服务的语义属性集合作为输入，进行步骤4)和步骤5)的处理之后，进入步骤5)；

5)利用决策树1预测该Web服务的所属领域，并返回该领域的性能度量值作为该Web服务的评价。

本文通过在Web服务测试集上实现了面向领域的Web服务文档质量评价方法。所选用的数据集是OWLS-TC4(OWL-SServiceRetrievalTestCollectionVersion4.0),该公开的数据集是用来评价OWL-S服务匹配算法的性能。通过服务解析之后，服务集的属性的具体情况见表3。该数据集覆盖了9个领域的1090个服务，服务在这9个领域中的分布如表4中所示。

表3OWLS-TC4服务情况

表4OWLS-TC4服务领域分布

从表3中还可以看出，OWLS-TC4服务集共包括3075个服务参数，与服务一同提供的还有68个现有本体，图3反映了参数在9个领域中的分布，以及参数在其标注本体中的分布。

通过本发明描述的方法，对得到的实验结果进行统计，可以计算出对领域进行分类的精度为86.58％。可见，在以上实验环境下，本方法所得到较高的精度值。

对于具体的9个领域，利用本面向领域的Web服务文档质量评价方法，得到的性能指标如图4所示。9个领域中，对于食物(food)领域的Web服务的分类效果最差，也说明其文档质量最差，F测量值为0.699。同时，对于仿真(simulation)领域的Web服务分类效果最好，说明其服务描述的质量最好。

Claims

1.一种面向领域的Web服务文档质量评价方法，其特征是，包括如下步骤：

6)利用建立的决策树1对测试数据预测其服务所属领域，并根据数据已有的领域信息，对不同领域的服务分别计算出如下性能度量：命中率tp-rate,错误正例率fp-rate,查准率precision,召回率recall,F测量F-measure,接受者操作特征曲线面积ROCArea；

8)对于一个新的不在数据集中的Web服务，解析并获取Web服务各个属性的集合，如果该服务是语义Web服务，则进入步骤10)；若不是语义Web服务，则进入步骤9)；

11)利用决策树1预测该Web服务的所属领域，并返回该领域的性能度量值作为该Web服务文档质量的评价，从而达到预测该服务文档质量的目的；

步骤3)具体过程如下：

3.1创建根节点N；

3.4对于每个集合T中的属性，计算信息增益率；

3.5选定N的测试属性等于T中具有最高信息增益率的属性；

3.6对于每一个节点N添加一个新的叶子节点，执行步骤3.7；

3.8计算每个节点的分类错误，进行剪枝；

I (n_{1}, ... ..., n_{m}) = Σ_{i = 1}^{m} p_{i} \log_{2} (p_{i}) - - - (1)

其中，n_i是服务数据属于领域D_i的个数，p_i是任意的服务数据属于领域D_i的概率，取的值，S是s个测试服务的数据集合，服务所属领域D具有m个不同的值；

接下来计算属性X_i划分成子集的熵，由公式(2)给出：

E (X_{i}) = Σ_{i = 1}^{v} \frac{s_{i j + ... + s_{m j}}}{s} I (s_{i j}, ... ..., s_{m j}) - - - (2)

其中，设v是X_i的属性个数，则X_i对应的数据集分为v个子集s₁,……,s_v，s_i是在S中属性X_i具有值a_i时的数据集合，若X_i选作测试属性，则这些子集对应于由包含集合S的结点生成出来的分支，s_ij是s_i中属于领域D_i的服务数据个数，熵值越小，子集划分的纯度越高；

由此，计算出X_i在分支获得的信息增益，有公式(3)给出：

Gain(X_i)＝I(s₁,……,s_m)–E(X_i)(3)

分裂信息的计算公式见公式(4):

S p l i t I n f o (S, X_{i}) = - Σ_{i = 1}^{c} \frac{| S_{i} |}{| S |} {Log}_{2} \frac{S_{i}}{S} - - - (4)

其中，S₁到S_c是c个不同值的属性X_i分割S而形成的c个样本子集；

这样，在属性X_i上所得到的信息增益比为：

G a i n R a t i o (S, X_{i}) = \frac{G a i n (S, X_{i})}{S p l i t I n f o (S, X_{i})} - - - (5)

由上述过程也可以得到步骤4)和步骤5)的具体过程。

2.如权利要求1所述的面向领域的Web服务文档质量评价方法，其特征是，上述的步骤1)中，读取Web服务文档，按照Web服务文档的结构特征将其解析成为四个部分：Web服务层，包括了服务的一般信息；接口层，包括了服务接口的信息；参数层，包括了服务的输入和输出参数的信息；语义基础层，包括了语义Web服务关联的本体信息及Web服务所属的领域信息，由此，得到Web服务的语义属性的集合T＝{X1,X2,X3,X4,X5,X6,X7}，其中，X1-X7分别代表了服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称、标注该服务的本体概念，X4为0时代表了该参数是输入参数，为1则是输出参数，采用X1-X7这7个属性作为分类模型候选属性集。

3.如权利要求1所述的面向领域的Web服务文档质量评价方法，其特征是，步骤6)按照不同的领域分别计算出各个性能度量过程如下所示：

6.1按照表1计算出tp,fp,tn,fn的值；

表1服务领域分类的混淆矩阵

6.4由precision和recall计算出F-measure：取β＝1；