CN103279461B - 面向领域的Web服务文档质量评价方法 - Google Patents
面向领域的Web服务文档质量评价方法 Download PDFInfo
- Publication number
- CN103279461B CN103279461B CN201310240129.5A CN201310240129A CN103279461B CN 103279461 B CN103279461 B CN 103279461B CN 201310240129 A CN201310240129 A CN 201310240129A CN 103279461 B CN103279461 B CN 103279461B
- Authority
- CN
- China
- Prior art keywords
- service
- attribute
- web
- web service
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 11
- 238000003066 decision tree Methods 0.000 claims abstract description 29
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 28
- 238000012360 testing method Methods 0.000 claims description 27
- 238000013138 pruning Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及Web服务技术领域,为提供一种对不同领域的Web服务的文档质量的评价方法,能够实现对于新的Web服务,预测其所属领域、包含的语义及其文档质量,从而减少专家评价Web服务文档质量的负担,提高服务发现效率,本发明采取的技术方案是,面向领域的Web服务文档质量评价方法,包括如下步骤:1)解析语义Web服务;2)将Web服务的数据随机分为10等分;3)建立决策树1、2、3;4)计算出性能度量;5)得到标注该服务的本体名称、标注该服务参数的本体概念;6)利返回该领域的性能度量值作为该Web服务文档质量的评价。本发明主要应用于Web服务技术。
Description
技术领域
本发明涉及Web服务技术领域,具体来说,涉及面向领域的Web服务文档质量评价。
技术背景
随着Web服务在工业界的广泛使用,Web服务技术不断发展,互联网上出现了大量的Web服务。由于服务开发者众多,存在很多提供相似或者相同功能的服务。因此,按照Web服务的功能可以将其分为不同的作用领域,每个领域都包含了大量的Web服务的集合。从服务发布的角度看,当服务开发者开发了一个Web服务,他关心的除了用户能否成功调用该Web服务,还有必要知道该服务的描述质量如何,从而开发高质量的Web服务,让服务注册中心识别,更好地让服务消费者使用;从服务管理的角度看,一个服务文档的描述质量直接影响了Web服务的语义,对于Web服务的发现、服务消费者的使用都有着重要的影响。
然而,Web服务文档质量好坏的判断需要专家知识与经验,这使得Web服务的管理产生了困难。当前研究Web服务质量的关注点在于将广泛的服务质量引入并扩展到Web服务质量属性中,对于Web服务的非功能的属性进行分析。由于使用标准的WSDL语言描述的Web服务不能够体现出Web服务的质量,因此,一些研究为Web服务引入语义网技术,提出了语义Web服务的概念,从而构建了基于本体的服务质量模型。基于服务质量的语义Web服务将本体作为词汇表提供明确的定义和机器可理解的语义,能够描述出Web服务的质量,例如DAML-QoS就是专为描述Web服务质量而开发的本体。此外,也有研究通过智能技术根据Web服务的质量属性将Web服务分成不同层次的事先定好的四类,从而用以评价Web服务。
以上技术仅对Web服务的质量评价提出了不同的解决方案,但是均未对于Web服务文档的描述质量进行分析,它们主要存在如下的问题:
1)主要考虑的是某个Web服务质量的通用属性,如可用性、可访问性、可靠性、安全性、响应时间等这些非功能属性,而没有考虑到对Web服务文档描述质量的评价。然而,服务质量的前提条件是服务的可用性,而文档描述的好坏决定了服务的可用性,较差的文档质量影响了服务消费者理解并调用服务,因此服务的文档质量是服务质量的基础,很有必要进行文档质量的评价工作;
2)无法实现服务管理中心对于不同领域的Web服务进行管理和组织。这些Web服务质量属性机制,忽略了对于不同领域的Web服务的质量差异,未体现出不同领域的Web服务质量属性在质量保证体系中的作用;同时,现有技术着重对单个Web服务个体进行服务质量评价,不仅具有难度,并且其准确性也不能够得以保障,本文以服务所属的领域为单位,对成组的Web服务进行分析,从统计意义上的对Web服务文档进行评价;
3)无法满足用户了解不同领域的Web服务质量的需求。用户可能需要知道所使用的Web服务所属的领域相对于其他领域的Web服务来说,其质量如何,以上方法均无法给出分析结果;
4)不可适用于大规模的Web服务的应用,也就是说,不能够广泛地用在实际工程中。
针对以上问题,有必要研究面向领域的Web服务文档描述质量评价的方法,对于成组的Web服务文档质量进行分析,这对于面向服务的系统研究具有重要影响,也有助于大规模的Web服务选择及管理。
发明内容
本发明旨在克服现有技术的不足,提供一种对不同领域的Web服务的文档质量的评价方法,能够实现对于新的Web服务,预测其所属领域、包含的语义及其文档质量,从而减少专家评价Web服务文档质量的负担,提高服务发现效率,有助于Web服务的管理,便于服务的发现和组织,为此,本发明采取的技术方案是,面向领域的Web服务文档质量评价方法,包括如下步骤:
1)解析语义Web服务,获取Web服务语义属性:服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称、标注该服务的本体概念,所有Web服务的语义属性作为输入数据集;
2)将Web服务的数据随机分为10等分,选择其中的9份作为训练数据,1份作为测试数据,进入步骤3);
3)对于训练数据,选定目标属性为Web服务所属领域,利用服务名称、服务接口名称、服务参数名称、服务参数类型、标注该服务的本体名称、标注该服务的本体概念6个Web服务的语义属性建立决策树1;
4)对于训练数据,选定目标属性为标注该服务的本体名称,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体概念6个Web服务的语义属性建立决策树2;
5)对于训练数据,选定目标属性为标注该服务的本体概念,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称6个Web服务的语义属性建立决策树3;
6)利用建立的决策树1对测试数据预测其服务所属领域,并根据数据已有的领域信息,对不同的领域的服务分别计算出如下性能度量:命中率tp-rate,错误正例率fp-rate,查准率precision,召回率recall,F测量F-measure,接受者操作特征曲线面积ROCArea;
7)选择另一份数据作为测试数据,重复步骤3)至步骤6)十次,直到每份数据轮流被测试,计算上述性能度量的平均值;
8)对于一个新的不在数据集中的Web服务,解析并获取Web服务各个属性的集合,若该服务是语义Web服务,例如OWL-S文件或者通过Web服务语义标注等手段处理后的服务,则进入步骤10);若不是语义Web服务,则进入步骤9);
9)将该Web服务的属性集合作为输入,分别利用决策树2和决策树3对该Web服务进行预测,从而得到标注该服务的本体名称、标注该服务参数的本体概念,进入步骤11);
10)将Web服务的语义属性集合作为输入,进行步骤4)和步骤5)的处理之后,进入步骤11);
11)利用决策树1预测该Web服务的所属领域,并返回该领域的性能度量值作为该Web服务文档质量的评价,从而达到预测该服务文档质量的目的。
上述的步骤1)中,读取Web服务文件,按照Web服务文档的结构特征将其解析成为四个部分:Web服务层,包括了服务的一般信息;接口层,包括了服务接口的信息;参数层,包括了服务的输入和输出参数的信息;语义基础层,包括了语义Web服务关联的本体信息及Web服务所属的领域信息。由此,可以获取Web服务的语义属性的集合T={X1,X2,X3,X4,X5,X6,X7},其中,X1-X7分别代表了服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称、标注该服务的本体概念,X4为0时代表了该参数是输入参数,为1则是输出参数,采用X1-X7这7个属性作为分类模型候选属性集。
本发明的步骤3)具体过程如下:
3.1创建根节点N;
3.2若当前训练数据集S属于同一个领域Di,则返回N为叶节点,标记为所属领域Di;
3.3若候选属性集合T为空,或者S中所剩的样本数少于给定值Y,则返回N为叶节点,标记N为S中出现最多的领域;
3.4对于每个集合T中的属性,计算信息增益率;
3.5选定N的测试属性等于T中具有最高信息增益率的属性;
3.6对于每一个由节点N一个新的叶子节点,执行步骤3.7;
3.7若给叶子节点对应的训练数据集S′为空,则分裂此叶子节点生成新叶节点,将其标记为S中出现最多的服务领域,进入步骤3.8;否则,选择当前训练数据集为S′,该叶子节点为N,转至步骤3.2,继续对其进行分裂;
3.8计算每个节点的分类错误,进行剪枝。
步骤3.4需要计算每个属性的信息增益比,对于某个属性Xi,其信息增益率是通过如下公式进行计算:首先计算对于一个给定的Web服务集合所需的期望信息,由公式(1)给出:
其中,S是s个测试服务的数据集合,服务所属领域D具有m个不同的值,si是服务数据属于领域Di的个数,pi是任意的服务数据属于领域Di的概率,取的值;
接下来计算属性Xi划分成子集的熵,由公式(2)给出:
其中,设v是Xi的属性个数,则Xi具有v个子集s1,......,sv,si包含了在S中属性Xi具有值ai的数据集合,若Xi选作测试属性,则这些子集对应于由包含集合S的结点生成出来的分支,sij是si中属于领域Di的服务数据个数,熵值越小,子集划分的纯度越高;
由此,可计算出Xi在分支获得的信息增益,有公式(3)给出:
Gain(Xi)=I(s1,……,sm)–E(Xi)(3)
分裂信息的计算公式见公式(4):
其中,S1到S1是c个不同值的属性Xi分割S而形成的c个样本子集;
这样,在属性Xi上所得到的信息增益比为:
由上述过程也可以得到步骤4)和步骤5)的具体过程。
所说的步骤6)按照不同的领域分别计算出各个性能度量过程如下所示:
6.1按照表1计算出tp,fp,tn,fn的值;
表1服务领域分类的混淆矩阵
6.2计算出命中率tp-rate和错误正例率fp-rate:tp-rate=tp/(tp+fn),fp-rate=fp/(fp+tn);
6.3计算出查准率precision以及召回率recall:precision=tp/(tp+fp),recall=tp/(tp+fn)=tp-rate;
6.4由precision和recall计算出F-measure:取β=1;
6.5令p(C1|X)为正类的概率,若p(C1|X)>θ,选X为正类,则对每一个θ可得到一对tp-rate,fp-rate,从而得到ROC曲线。
本发明具备下列技术效果:
本发明针对不同领域的Web服务,提供了一种评价Web服务文档质量的方法,从而减少专家评价Web服务文档质量的负担,填补自动评价Web服务文档质量的空白,有助于Web服务的管理,也便于Web服务的发现和组织。
附图说明
图1是本发明Web服务文档质量评价的整体流程图。
图2是本发明对新的Web服务预测其所属领域及其文档质量的流程图。
图3是本发明实验中服务的参数所在领域及所用本体中的分布,(a)是参数所在领域中的分布,(b)是参数在标注本体中的分布。
图4是本发明实验中对不同领域分类的结果。
具体实施方式
本发明采用的技术方案是:
1)解析语义Web服务,获取Web服务语义属性:服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称、标注该服务的本体概念。所有Web服务的语义属性作为输入数据集;
2)将Web服务的数据随机分为10等分,选择其中的9份作为训练数据,1份作为测试数据,进入步骤3);
3)对于训练数据,选定目标属性为Web服务所属领域,利用服务名称、服务接口名称、服务参数名称、服务参数类型、标注该服务的本体名称、标注该服务的本体概念6个Web服务的语义属性建立决策树1;
4)对于训练数据,选定目标属性为标注该服务的本体名称,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体概念6个Web服务的语义属性建立决策树2;
5)对于训练数据,选定目标属性为标注该服务的本体概念,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称6个Web服务的语义属性建立决策树3;
6)利用建立的决策树1对测试数据预测其服务所属领域,并根据数据已有的领域信息,对不同的领域的服务分别计算出如下性能度量:命中率tp-rate,错误正例率fp-rate,查准率precision,召回率recall,F测量F-measure,接受者操作特征曲线面积ROCArea;
7)选择另一份数据作为测试数据,重复步骤3)至步骤6)十次,直到每份数据轮流被测试,计算上述性能度量的平均值;
8)对于一个新的不在数据集中的Web服务,解析并获取Web服务各个属性的集合。若该服务语义Web服务,例如OWL-S文件或者通过Web服务语义标注等手段处理后的服务,则进入步骤10);若不是语义Web服务,则进入步骤9);
9)将该Web服务的属性集合作为输入,分别利用决策树2和决策树3对该Web服务进行预测,从而得到标注该服务的本体名称、标注该服务参数的本体概念,进入步骤11);
10)将Web服务的语义属性集合作为输入,进行步骤4)和步骤5)的处理之后,进入步骤11);
11)利用决策树1预测该Web服务的所属领域,并返回该领域的性能度量值作为该Web服务文档质量的评价,从而达到预测该服务文档质量的目的。
上述的步骤1)中,读取Web服务文档,按照Web服务文档的结构特征将其解析成为四个部分:Web服务层,包括了服务的一般信息;接口层,包括了服务接口的信息;参数层,包括了服务的输入和输出参数的信息;语义基础层,包括了语义Web服务关联的本体信息及Web服务所属的领域信息。由此,可以得到Web服务的语义属性的集合T={X1,X2,X3,X4,X5,X6,X7}。其中,X4为0时代表了该参数是输入参数,为1则是输出参数。我们将采用表中的X1-X7这7个属性作为分类模型候选属性集。
本发明的步骤3)具体过程如下:
3.1创建根节点N;
3.2若当前训练数据集S属于同一个领域Di,则返回N为叶节点,标记为所属领域Di;
3.3若候选属性集合T为空,或者S中所剩的样本数少于给定值Y,则返回N为叶节点,标记N为S中出现最多的领域;
3.4对于每个集合T中的属性,计算信息增益率;
3.5选定N的测试属性等于T中具有最高信息增益率的属性;
3.6对于每一个由节点N一个新的叶子节点,执行步骤3.7;
3.7若给叶子节点对应的训练数据集S′为空,则分裂此叶子节点生成新叶节点,将其标记为S中出现最多的服务领域,进入步骤3.8;否则,选择当前训练数据集为S′,该叶子节点为N,转至步骤3.2,继续对其进行分裂;
3.8计算每个节点的分类错误,进行剪枝。
步骤3.4需要计算每个属性的信息增益比。对于某个属性Xi,其信息增益率是通过如下公式进行计算。首先计算对于一个给定的Web服务集合所需的期望信息,由公式(1)给出:
其中,S是s个测试服务的数据集合,服务所属领域D具有m个不同的值,si是服务数据属于领域Di的个数。pi是任意的服务数据属于领域Di的概率,本文中取的值。
接下来计算属性Xi划分成子集的熵,由公式(2)给出:
其中,设v是Xi的属性个数,则Xi具有v个子集s1,......,sv。si包含了在S中属性Xi具有值ai的数据集合。若Xi选作测试属性,则这些子集对应于由包含集合S的结点生成出来的分支。sij是si中属于领域Di的服务数据个数。熵值越小,子集划分的纯度越高。
由此,可计算出Xi在分支获得的信息增益,有公式(3)给出:
Gain(Xi)=I(s1,……,sm)–E(Xi)(3)
分裂信息的计算公式见公式(4):
其中,S1到S1是c个不同值的属性Xi分割S而形成的c个样本子集。
这样,在属性Xi上所得到的信息增益比为:
由上述过程也可以得到步骤4)和步骤5)的具体过程。
所说的步骤6)按照不同的领域分别计算出各个性能度量过程如下所示:
6.1按照表1计算出tp,fp,tn,fn的值;
表1服务领域分类的混淆矩阵
6.2计算出命中率tp-rate和错误正例率fp-rate:tp-rate=tp/(tp+fn),fp-rate=fp/(fp+tn);6.3计算出查准率precision以及召回率recall:precision=tp/(tp+fp),recall=tp/(tp+fn)=tp-rate;
6.4由precision和recall计算出F-measure:取β=1;
6.5令p(C1|X)为正类的概率,若p(C1|X)>θ,选X为正类,则对每一个θ可得到一对tp-rate,fp-rate,从而得到ROC曲线。
下面结合附图对本发明作进一步详细说明。
参见图1,评价对面向不同领域的Web服务文档质量时,需要进行以下的步骤:
1)解析语义Web服务,获取Web服务语义属性集合。按照Web服务文档的结构特征将其解析成为四个部分:Web服务层,包括了服务的一般信息,如服务名称X1;接口层,包括了服务接口的信息,如接口名称X2;参数层,包括了服务的输入参数和输出参数的信息,如参数名称X3和参数类型X4;语义基础层,包括了语义Web服务关联的本体信息及Web服务所属的领域信息,如本体名称X6以及本体中的概念X7。由此,可以得到。按照表2中的Web服务的语义属性及其描述得到这些属性的集合T={X1,X2,X3,X4,X5,X6,X7},其中,X4为0时代表了该参数是输入参数,为1则是输出参数。我们将采用表中的X1-X7这7个属性作为分类模型候选属性集。所有Web服务的语义属性作为输入数据集;
表2Web服务的语义属性及其描述
2)将Web服务的数据随机分为10等分,选择其中的9份作为训练数据,1份作为测试数据,进入步骤3);
3)对于训练数据,选定目标属性为Web服务所属领域,利用服务名称、服务接口名称、服务参数名称、服务参数类型、标注该服务的本体名称、标注该服务的本体概念6个Web服务的语义属性建立决策树1;
4)对于训练数据,选定目标属性为标注该服务的本体名称,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体概念6个Web服务的语义属性建立决策树2;
5)对于训练数据,选定目标属性为标注该服务的本体概念,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称6个Web服务的语义属性建立决策树3;
6)利用建立的决策树1对测试数据预测其服务所属领域,并根据数据已有的领域信息,对不同的领域的服务分别计算出如下性能度量:命中率tp-rate,错误正例率fp-rate,查准率precision,召回率recall,F测量F-measure,接受者操作特征曲线面积ROCArea;
7)选择另一份数据作为测试数据,重复步骤3)至步骤6)十次,直到每份数据轮流被测试,计算上述性能度量的平均值;
处理完以上步骤,我们就可以得到对于不同领域的Web服务文档质量的不同的评价值。
本发明的步骤3)具体过程如下:
3.1创建根节点N;
3.2若当前训练数据集S属于同一个领域Di,则返回N为叶节点,标记为所属领域Di;
3.3若候选属性集合T为空,或者S中所剩的样本数少于给定值Y,则返回N为叶节点,标记N为S中出现最多的领域;
3.4对于每个集合T中的属性,计算信息增益率;
3.5选定N的测试属性等于T中具有最高信息增益率的属性;
3.6对于每一个由节点N一个新的叶子节点,执行步骤3.7;
3.7若给叶子节点对应的训练数据集S′为空,则分裂此叶子节点生成新叶节点,将其标记为S中出现最多的服务领域,进入步骤3.8;否则,选择当前训练数据集为S′,该叶子节点为N,转至步骤3.2,继续对其进行分裂;
3.8计算每个节点的分类错误,进行剪枝。
步骤3.4需要计算每个属性的信息增益比。对于某个属性Xi,其信息增益率是通过如下公式进行计算。首先计算对于一个给定的Web服务集合所需的期望信息,由公式(1)给出:
其中,S是s个测试服务的数据集合,服务所属领域D具有m个不同的值,si是服务数据属于领域Di的个数。pi是任意的服务数据属于领域Di的概率,本文中取的值。
接下来计算属性Xi划分成子集的熵,由公式(2)给出:
其中,设v是Xi的属性个数,则Xi具有v个子集s1,......,sv。si包含了在S中属性Xi具有值ai的数据集合。若Xi选作测试属性,则这些子集对应于由包含集合S的结点生成出来的分支。sij是si中属于领域Di的服务数据个数。熵值越小,子集划分的纯度越高。
由此,可计算出Xi在分支获得的信息增益,有公式(3)给出:
Gain(Xi)=I(s1,……,sm)–E(Xi)(3)
分裂信息的计算公式见公式(4):
其中,S1到S1是c个不同值的属性Xi分割S而形成的c个样本子集。
这样,在属性Xi上所得到的信息增益比为:
由上述过程也可以得到步骤4)和步骤5)的具体过程。
所说的步骤6)按照不同的领域分别计算出各个性能度量过程如下所示:
6.1按照表1计算出tp,fp,tn,fn的值;
6.2计算出命中率tp-rate和错误正例率fp-rate:tp-rate=tp/(tp+fn),fp-rate=fp/(fp+tn);
6.3计算出查准率precision以及召回率recall:precision=tp/(tp+fp),recall=tp/(tp+fn)=tp-rate;
6.4由precision和recall计算出F-measure:取β=1;
6.5令p(C1|X)为正类的概率,若p(C1|X)>θ,选X为正类,则对每一个θ可得到一对tp-rate,fp-rate,从而得到ROC曲线。
参见图2,要对新的Web服务预测其所属领域及其文档质量,其具体过程如下:
1)对于一个新的不在数据集中的Web服务,解析并获取Web服务各个属性的集合。
2)若该服务是语义Web服务,例如OWL-S文件或者通过Web服务语义标注等手段处理后的服务,则进入步骤4);若不是语义Web服务,则进入步骤3);
3)将该Web服务的属性集合作为输入,分别利用决策树2和决策树3对该Web服务进行预测,从而得到标注该服务的本体名称、标注该服务的本体概念,进入步骤5);
4)将Web服务的语义属性集合作为输入,进行步骤4)和步骤5)的处理之后,进入步骤5);
5)利用决策树1预测该Web服务的所属领域,并返回该领域的性能度量值作为该Web服务的评价。
本文通过在Web服务测试集上实现了面向领域的Web服务文档质量评价方法。所选用的数据集是OWLS-TC4(OWL-SServiceRetrievalTestCollectionVersion4.0),该公开的数据集是用来评价OWL-S服务匹配算法的性能。通过服务解析之后,服务集的属性的具体情况见表3。该数据集覆盖了9个领域的1090个服务,服务在这9个领域中的分布如表4中所示。
表3OWLS-TC4服务情况
表4OWLS-TC4服务领域分布
从表3中还可以看出,OWLS-TC4服务集共包括3075个服务参数,与服务一同提供的还有68个现有本体,图3反映了参数在9个领域中的分布,以及参数在其标注本体中的分布。
通过本发明描述的方法,对得到的实验结果进行统计,可以计算出对领域进行分类的精度为86.58%。可见,在以上实验环境下,本方法所得到较高的精度值。
对于具体的9个领域,利用本面向领域的Web服务文档质量评价方法,得到的性能指标如图4所示。9个领域中,对于食物(food)领域的Web服务的分类效果最差,也说明其文档质量最差,F测量值为0.699。同时,对于仿真(simulation)领域的Web服务分类效果最好,说明其服务描述的质量最好。
Claims (3)
1.一种面向领域的Web服务文档质量评价方法,其特征是,包括如下步骤:
1)解析语义Web服务,获取Web服务语义属性:服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称、标注该服务的本体概念,所有Web服务的语义属性作为输入数据集;
2)将Web服务的数据随机分为10等分,选择其中的9份作为训练数据,1份作为测试数据,进入步骤3);
3)对于训练数据,选定目标属性为Web服务所属领域,利用服务名称、服务接口名称、服务参数名称、服务参数类型、标注该服务的本体名称、标注该服务的本体概念6个Web服务的语义属性建立决策树1;
4)对于训练数据,选定目标属性为标注该服务的本体名称,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体概念6个Web服务的语义属性建立决策树2;
5)对于训练数据,选定目标属性为标注该服务的本体概念,利用服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称6个Web服务的语义属性建立决策树3;
6)利用建立的决策树1对测试数据预测其服务所属领域,并根据数据已有的领域信息,对不同领域的服务分别计算出如下性能度量:命中率tp-rate,错误正例率fp-rate,查准率precision,召回率recall,F测量F-measure,接受者操作特征曲线面积ROCArea;
7)选择另一份数据作为测试数据,重复步骤3)至步骤6)十次,直到每份数据轮流被测试,计算上述性能度量的平均值;
8)对于一个新的不在数据集中的Web服务,解析并获取Web服务各个属性的集合,如果该服务是语义Web服务,则进入步骤10);若不是语义Web服务,则进入步骤9);
9)将该Web服务的属性集合作为输入,分别利用决策树2和决策树3对该Web服务进行预测,从而得到标注该服务的本体名称、标注该服务参数的本体概念,进入步骤11);
10)将Web服务的语义属性集合作为输入,进行步骤4)和步骤5)的处理之后,进入步骤11);
11)利用决策树1预测该Web服务的所属领域,并返回该领域的性能度量值作为该Web服务文档质量的评价,从而达到预测该服务文档质量的目的;
步骤3)具体过程如下:
3.1创建根节点N;
3.2若当前训练数据集S属于同一个领域Di,则返回N为叶节点,标记为所属领域Di;
3.3若候选属性集合T为空,或者S中所剩的样本数少于给定值Y,则返回N为叶节点,标记N为S中出现最多的领域;
3.4对于每个集合T中的属性,计算信息增益率;
3.5选定N的测试属性等于T中具有最高信息增益率的属性;
3.6对于每一个节点N添加一个新的叶子节点,执行步骤3.7;
3.7若给叶子节点对应的训练数据集S′为空,则分裂此叶子节点生成新叶节点,将其标记为S中出现最多的服务领域,进入步骤3.8;否则,选择当前训练数据集为S′,该叶子节点为N,转至步骤3.2,继续对其进行分裂;
3.8计算每个节点的分类错误,进行剪枝;
步骤3.4需要计算每个属性的信息增益比,对于某个属性Xi,其信息增益率是通过如下公式进行计算:首先计算对于一个给定的Web服务集合所需的期望信息,由公式(1)给出:
其中,ni是服务数据属于领域Di的个数,pi是任意的服务数据属于领域Di的概率,取的值,S是s个测试服务的数据集合,服务所属领域D具有m个不同的值;
接下来计算属性Xi划分成子集的熵,由公式(2)给出:
其中,设v是Xi的属性个数,则Xi对应的数据集分为v个子集s1,……,sv,si是在S中属性Xi具有值ai时的数据集合,若Xi选作测试属性,则这些子集对应于由包含集合S的结点生成出来的分支,sij是si中属于领域Di的服务数据个数,熵值越小,子集划分的纯度越高;
由此,计算出Xi在分支获得的信息增益,有公式(3)给出:
Gain(Xi)=I(s1,……,sm)–E(Xi)(3)
分裂信息的计算公式见公式(4):
其中,S1到Sc是c个不同值的属性Xi分割S而形成的c个样本子集;
这样,在属性Xi上所得到的信息增益比为:
由上述过程也可以得到步骤4)和步骤5)的具体过程。
2.如权利要求1所述的面向领域的Web服务文档质量评价方法,其特征是,上述的步骤1)中,读取Web服务文档,按照Web服务文档的结构特征将其解析成为四个部分:Web服务层,包括了服务的一般信息;接口层,包括了服务接口的信息;参数层,包括了服务的输入和输出参数的信息;语义基础层,包括了语义Web服务关联的本体信息及Web服务所属的领域信息,由此,得到Web服务的语义属性的集合T={X1,X2,X3,X4,X5,X6,X7},其中,X1-X7分别代表了服务名称、服务接口名称、服务参数名称、服务参数类型、服务所属领域、标注该服务的本体名称、标注该服务的本体概念,X4为0时代表了该参数是输入参数,为1则是输出参数,采用X1-X7这7个属性作为分类模型候选属性集。
3.如权利要求1所述的面向领域的Web服务文档质量评价方法,其特征是,步骤6)按照不同的领域分别计算出各个性能度量过程如下所示:
6.1按照表1计算出tp,fp,tn,fn的值;
表1服务领域分类的混淆矩阵
6.2计算出命中率tp-rate和错误正例率fp-rate:tp-rate=tp/(tp+fn),fp-rate=fp/(fp+tn);
6.3计算出查准率precision以及召回率recall:precision=tp/(tp+fp),recall=tp/(tp+fn)=tp-rate;
6.4由precision和recall计算出F-measure:取β=1;
6.5令p(C1|X)为正类的概率,若p(C1|X)>θ,选X为正类,则对每一个θ可得到一对tp-rate,fp-rate,从而得到ROC曲线。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310240129.5A CN103279461B (zh) | 2013-06-17 | 2013-06-17 | 面向领域的Web服务文档质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310240129.5A CN103279461B (zh) | 2013-06-17 | 2013-06-17 | 面向领域的Web服务文档质量评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103279461A CN103279461A (zh) | 2013-09-04 |
CN103279461B true CN103279461B (zh) | 2016-04-06 |
Family
ID=49061986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310240129.5A Expired - Fee Related CN103279461B (zh) | 2013-06-17 | 2013-06-17 | 面向领域的Web服务文档质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103279461B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699667B (zh) * | 2013-12-24 | 2017-01-11 | 天津大学 | Web服务的多维度语义模型建立方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799629A (zh) * | 2012-06-26 | 2012-11-28 | 天津大学 | Wsdl文件质量保证系统及其实现方法 |
US8386485B2 (en) * | 2008-07-31 | 2013-02-26 | George Mason Intellectual Properties, Inc. | Case-based framework for collaborative semantic search |
CN103095849A (zh) * | 2013-02-07 | 2013-05-08 | 南京邮电大学 | 基于QoS属性预测和纠错的有监督Web服务发现方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8756323B2 (en) * | 2010-11-26 | 2014-06-17 | International Business Machines Corporation | Semantic- and preference-based planning of cloud service templates |
-
2013
- 2013-06-17 CN CN201310240129.5A patent/CN103279461B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8386485B2 (en) * | 2008-07-31 | 2013-02-26 | George Mason Intellectual Properties, Inc. | Case-based framework for collaborative semantic search |
CN102799629A (zh) * | 2012-06-26 | 2012-11-28 | 天津大学 | Wsdl文件质量保证系统及其实现方法 |
CN103095849A (zh) * | 2013-02-07 | 2013-05-08 | 南京邮电大学 | 基于QoS属性预测和纠错的有监督Web服务发现方法及系统 |
Non-Patent Citations (4)
Title |
---|
An weighted ontology-based semantic similarity algorithm for web service;Liu Min et al;《Expert Systems with Applications》;20091231;第36卷(第10期);12480-12490 * |
On the functional quality of service (FQoS) to discover and compose interoperable web services;Buhwan Jeong et al;《Expert Systems with Applications》;20091231;第36卷(第3期);5411-5418 * |
一种面向QoS的Web服务组测试方法TF;邓小鹏;《计算机研究与发展》;20090831;第46卷(第8期);1285-1293 * |
基于语义的Web服务发布及发现机制研究;南柄飞;《中国优秀硕士学位论文全文数据库 信息科技辑》;20111215(第S2期);I139-346 * |
Also Published As
Publication number | Publication date |
---|---|
CN103279461A (zh) | 2013-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Feng et al. | An expert recommendation algorithm based on Pearson correlation coefficient and FP-growth | |
Dufrenot et al. | The trade-growth nexus in the developing countries: A quantile regression approach | |
US6961685B2 (en) | Probability model selection using information-theoretic optimization criterion | |
Pezzoni et al. | How to kill inventors: testing the Massacrator© algorithm for inventor disambiguation | |
CN103761254B (zh) | 多领域服务主题匹配推荐方法 | |
KR101732319B1 (ko) | 목표 지향적 빅데이터 비즈니스 분석 프레임워크 | |
CN104572449A (zh) | 一种基于用例库的自动化测试方法 | |
CN109711424B (zh) | 一种基于决策树的行为规则获取方法、装置及设备 | |
CN104834479A (zh) | 面向云平台的自动优化存储系统配置的方法及系统 | |
CN105279397A (zh) | 一种识别蛋白质相互作用网络中关键蛋白质的方法 | |
CN105069122A (zh) | 一种基于用户行为的个性化推荐方法及其推荐装置 | |
Türegün | Financial performance evaluation by multi-criteria decision-making techniques | |
Harrell et al. | Resampling, validating, describing, and simplifying the model | |
CN108885628A (zh) | 数据分析方法候选决定装置 | |
KR20200010624A (ko) | 머신러닝을 이용한 빅데이터 통합진단 예측 시스템 | |
Redhead et al. | Reliable network inference from unreliable data: A tutorial on latent network modeling using STRAND. | |
CN116187524B (zh) | 一种基于机器学习的供应链分析模型对比方法及装置 | |
CN103377403B (zh) | 企业业务组件建模方法和系统 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
Hsu et al. | Technology and knowledge document cluster analysis for enterprise R&D strategic planning | |
CN114881343A (zh) | 基于特征选择的电力系统短期负荷预测方法及装置 | |
CN101226521A (zh) | 一种用于多义性数据对象预测建模的机器学习方法 | |
Liu et al. | Scientific elites versus other scientists: who are better at taking advantage of the research collaboration network? | |
CN103279461B (zh) | 面向领域的Web服务文档质量评价方法 | |
CN117494760A (zh) | 一种基于超大规模语言模型的富语义标签数据增广方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210713 Address after: 404, Yinxing technology building, No. 1301, sightseeing Road, Xinlan community, Guanlan street, Longhua District, Shenzhen, Guangdong 518000 Patentee after: Shenzhen Fangyuan Tianlun Technology Co.,Ltd. Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92 Patentee before: Tianjin University |
|
TR01 | Transfer of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160406 |