CN103530419B

CN103530419B - 一种面向Web 服务描述的本体学习方法

Info

Publication number: CN103530419B
Application number: CN201310524073.6A
Authority: CN
Inventors: 何克清; 田刚; 王健
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2013-10-29
Filing date: 2013-10-29
Publication date: 2016-08-17
Anticipated expiration: 2033-10-29
Also published as: CN103530419A

Abstract

本发明公开了一种面向Web服务描述的本体学习方法，包括以下步骤：1：收集Web服务描述文档，得到文档中的输入输出参数，对每个输入输出参数预处理；2：使用hHDP方法以自下而上的学习方法生成主题的层次；3：使用“中国餐馆问题”采样方法估计层级主题；4：获得代表单词并构造初始本体，使用语义增强规则增强生成本体的语义形成最终本体。本发明的有益效果是：1.对使用WSDL描述的Web服务无监督学习生成本体，具有较好的通用性；2.既能够找出隐含的语义层次关系又能够利用保证学习出的本体语义丰富程度，具有较好的本体学习效果。3.学习的本体可以用于Web服务语义标注，能够支撑语义Web服务发现和推荐，具有较广泛的适用性。

Description

一种面向Web服务描述的本体学习方法

技术领域

本发明属于服务计算技术领域，特别涉及一种面向Web服务描述的本体学习方法。

背景技术

伴随着互联网计算环境和软件体系结构的变化，基于互联网的软件服务开发已经日趋流行。软件服务环境下各种计算资源高度分布和自治的本质特征对软件系统的开发带来了新挑战。面向服务的架构能够应对这种动态、多变和复杂的问题，因此随着面向服务的架构和软件即服务技术的发展，面向服务的软件开发开始蓬勃发展起来。在这种情况下，互联网上Web服务的规模开始快速增长，如截止到2013年9月16日，Web服务编程网站ProgrammableWeb上发布的Web服务数目已超过9900个，其它服务门户网站也发布了大量的Web服务。此外，很多企业也把遗留软件系统进行碎片化拆分和封装得到的Web服务部署到网络上。这样，Web服务规模的剧增为大众用户准确、高效地发现Web服务增加了困难。由于基于关键字查询的方法的查询结果往往不够准确，因此基于语义的查询受到了越来越多的关注，而语义查询的关键在于是否有可用的领域本体。手工方式建立本体的效率低下，因此有必要建立一种从已有Web服务描述中进行本体学习的方法，从而能够辅助领域专家建立高质量的领域本体。目前基于Web服务描述做本体学习的方法并不是很多，基于关联规则的方法能够发现语义关系紧密的概念，但是却难以发现层次语义关系。基于层次聚类方法的学习方法能够发现语义层次关系，但是在层次关系建立之后语义的进一步增强还有所欠缺。因此，面对互联网上Web服务的规模化增长，针对已有的基于Web服务描述的本体学习方法中存在的不足，如何进行准确、高效的Web服务本体学习，便成为服务计算领域中一个亟待解决的关键技术问题。

发明内容

为了解决上述技术问题，本发明提供了一种基于WSDL的Web服务描述中学习生成本体的方法，本发明具有良好的通用性。

本发明所采用的技术方案是：一种面向Web服务描述的本体学习方法，其特征在于，包括以下步骤：

步骤1：收集Web服务描述文档，对收集的Web服务描述文档进行预处理，得到Web服务描述文档中的输入输出参数，并对Web服务描述文档中每个输入输出参数预处理，得到一组原型单词的集合，对所述的原型单词进行进一步预处理，得到词性标注单词的集合；

步骤2：使用hHDP方法对步骤1中得到的原型单词以自下而上的学习方法生成原型单词所属主题的层次；

步骤3：使用“中国餐馆问题”的HDP采样模式计算出步骤2中生成的每一层主题层次的概率度量G_i，基准概率G₀和主题数目；

步骤4：计算主题中包含的原型单词的覆盖率并排序，覆盖率最大的单词对该主题的覆盖程度最大，将覆盖率最大的单词作为代表单词的候选，采用自下而上的方法抽取每个主题对应的代表单词；对词性标注单词使用模式分析技术分析参数中词汇之间的关系，并将这些关系的组织形式形成语义丰富的规则，当抽取出代表单词之后按照语义丰富的规则对生成的本体进一步扩充语义。

作为优选，步骤1中所述的Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。

作为优选，所述的步骤1，其具体实现包括以下子步骤：

步骤1.1：对Web服务描述文档进行解析，从中抽取该文档中的输入输出参数，对输入输出参数做预处理，得到一组原型单词的集合；所述的预处理包括按照分隔符对参数断词、扩充缩写词；

步骤1.2：针对步骤1.1的结果，将所述的原型单词进行词性标注，得到词性标注单词的集合，为模式分析做准备。

作为优选，所述的步骤2，其具体实现包括以下子步骤：

步骤2.1：根据原型单词的集合聚类出第一层主题作为目标本体结构的叶节点；

步骤2.2：所有主题包含词分布组成估计下一层次的观测值，即把每个主题看作一个新的文档，每个主题下面包含的单词又被当成新文档中的单词；

步骤2.3：使用Gibbs采样不断的重复上述的步骤2.1和步骤2.2，从而自动学习出主题的层次。

作为优选，所述的步骤3，其具体实现包括以下子步骤：

步骤3.1：对于收集Web服务描述文档，在步骤2的基础上，输入第j个文档的现有主题数目和参数α，根据“中国餐馆问题”的采样模式计算出第j篇文档中主题z的数目T_jz；

步骤3.2：根据文档j中和主题z相关的单词数目n_jz采样得出G_j；基于因子采样得出该层次的G₀；根据上述计算出的T_jz获得本层次的主题数目；

步骤3.3：采用自下而上的方式迭代步骤3.1-3.2，根据Dirichlet过程“富者更富”的特性，高层的主题数目逐步减少直至收敛至一个节点，得到每一层主题层次的主题数目；

其中，先验参数：α,γ， t_z是主题z的总数，t_.是主题的总数。

作为优选，所述的步骤4，其具体实现包括以下子步骤：

步骤4.1：在执行了HHDP方法的基础上，计算每个聚类主题中单词的覆盖率，并按照覆盖率的大小倒序排列；

步骤4.2：采用自底向上的方式抽取代表单词并构造本体的语义层次；

步骤4.3：利用模式分析技术分析参数中词汇之间的关系，从而建立语义丰富规则，同时在步骤4.2的基础上利用语义丰富规则对构造的本体语义进一步增强。

作为优选，步骤3中所述的每一层主题层次的主题数目，其具体计算方法如下：

p (z_{ji} = z | w_{ji}, z_{&Not; ji}) &Proportional; \frac{n_{j . z} + \frac{α t_{z}}{t_{.} + γ}}{n_{j . .} + α} \cdot \frac{n_{. iz} + H}{n_{. . z} + VH}

(式一)

p (z_{ji} = z_{new} | w_{ji}, z_{&Not; ji}) &Proportional; \frac{αγ}{(n_{j . .} + α) (t_{.} + γ)} \cdot \frac{1}{V}

(式二)

其中，式一为其中一层现有主题z的采样数，式二为新主题z_new的数目，先验参数：α,γ,H,V，n_j.z文档j中和主题z相关的单词数目，n_j..是文档j中的单词总数，t_z是主题z的总数，t_.是主题的总数，n_.iz是单词i在主题z下出现的总数，n_..z是主题z中的单词总数。

作为优选，步骤4中所述的代表单词的抽取方法如下：

首先计算主题中包含的原型单词的覆盖率：

Coverage (w_{i}, t_{z}) = Σ_{k = 1}^{n_{. . t_{z}}} p (w_{k} | t_{z}) * \overset{&OverBar;}{{Both}_{i, k}}

其中，w_i表示主题t_z中的第i个单词，表示主题t_z中所包含的单词总数，p(w_k|t_z)通过使用贝叶斯公式从p(t_z|w_k)获得，表示w_i和w_k是否在同一个Web服务中出现过，覆盖率表示了单词w_i对主题t_z的覆盖程度，即当w_i和主题中的其他单词一起出现的概率比较高的时候，说明它和其他单词的关系比较紧密，因此可以作为这个主题中与之相关单词的“代表”；

然后计算代表单词：

RepWor d_{t_{z}} = {&ForAll; w_{i} &Element; t_{z} | Coverage (w_{i}) = \max_{i &Element; 1 . . n_{. . t_{z}}} Coverage (w_{i}, t_{z})}

代表单词是主题t_z中覆盖率最高的单词，它代表了主题的语义。

本发明相对于现有技术具有如下优点：

1.可以对使用WSDL描述的Web服务进行学习，从而无监督的生成本体，具有较好的通用性；

2.“基于关联规则”的本体学习方法不能找出本体中概念的层次关系，而本方法能够找出隐含的语义层次关系；与基于HDP方法的层次聚类学习隐含语义层次的方法相比，本方法在保证相同语义层次的情况下还能够利用语义增强规则保证学习出的本体语义丰富程度更高；

3.因为本方法采用的是无监督的学习方法，所以参数推导不需要过多的经验值，这提高了方法的准确性；

4.学习方法生成的本体文件可以用于语义Web服务标注，从而支撑语义Web服务发现和语义Web服务推荐，具有广泛的适用性。

附图说明

图1：是本发明实施例的流程示意图。

图2：是本发明实施例的本体层次学习过程示意图。

图3：是本发明实施例的执行hHDP算法之后的生成的部分隐含语义层次示意图。

图4：是本发明实施例的学习出的语义层次样式示意图。

图5：是本发明实施例的语义进一步增强之后的学习结果示意图。

具体实施方式

以下经结合附图和具体实施例对本发明做进一步的阐述。

请见图1、图2，本发明所采用的技术方案是：一种面向Web服务描述的本体学习方法，其特征在于，包括以下步骤：

步骤1：收集Web服务描述文档，对收集的Web服务描述文档进行预处理，得到Web服务描述文档中的输入输出参数，并对Web服务描述文档中每个输入输出参数预处理，得到一组原型单词的集合，对所述的原型单词进行进一步预处理，得到词性标注单词的集合；其具体实现包括以下子步骤：

步骤1.1：对Web服务描述文档进行解析，从中抽取该文档中的输入输出参数，对输入输出参数做预处理，得到一组原型单词的集合；所述的预处理包括按照分隔符对参数断词、扩充缩写词；例如将参数cloud_height_min，拆成cloud，height，min三个词，然后扩充min为minimum；

步骤1.2：针对步骤1.1的结果，将所述的原型单词进行词性标注，得到词性标注单词的集合，为模式分析做准备；例如可以自利用wordnet等工具将步骤1.1中得到的单词cloud标注为名词，height标注为名词，minimum标注为名词等；

其中所述的Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。

步骤2：使用hHDP方法对步骤1中得到的原型单词以自下而上的学习方法生成原型单词所属主题的层次；其具体实现包括以下子步骤：

步骤3：使用“中国餐馆问题”的HDP采样模式计算出步骤2中生成的每一层主题层次的概率度量G_i，基准概率G₀和主题数目；其具体实现包括以下子步骤：

其中，对于每一层主题层次的主题数目，具体计算方法如下：

p (z_{ji} = z | w_{ji}, z_{&Not; ji}) &Proportional; \frac{n_{j . z} + \frac{α t_{z}}{t_{.} + γ}}{n_{j . .} + α} \cdot \frac{n_{. iz} + H}{n_{. . z} + VH}

(式一)

p (z_{ji} = z_{new} | w_{ji}, z_{&Not; ji}) &Proportional; \frac{αγ}{(n_{j . .} + α) (t_{.} + γ)} \cdot \frac{1}{V}

(式二)

其中，式一为其中一层现有主题z的采样数，式二为新主题z_new的数目，先验参数：α,γ,H,V，α=10.0，H=0.5，γ=1.0；n_j.z文档j中和主题z相关的单词数目，n_j..是文档j中的单词总数，t_z是主题z的总数，t_.是主题的总数，n_.iz是单词i在主题z下出现的总数，n_..z是主题z中的单词总数。

请见图3和图4，图3是本发明的执行hHDP算法之后的生成的部分隐含语义层次示意图，图4是本发明的学习出的语义层次样式示意图；步骤2和步骤3执行的过程都是hHDP算法的内容，直接调用hHDP算法即可达到如图3所示的效果，根据图3的结果构造如图4所示的主题之间的层次关系。

步骤4：计算主题中包含的原型单词的覆盖率并排序，覆盖率最大的单词对该主题的覆盖程度最大，将覆盖率最大的单词作为代表单词的候选，采用自下而上的方法抽取每个主题对应的代表单词，对词性标注单词使用模式分析技术分析参数中词汇之间的关系，并将这些关系的组织形式形成语义丰富的规则，当抽取出代表单词之后按照语义丰富的规则对生成的本体进一步扩充语义。其具体实现包括以下子步骤：

步骤4.3：利用模式分析技术分析参数中词汇之间的关系，从而建立语义丰富规则，同时在步骤4.2的基础上利用语义丰富规则对构造的本体语义进一步增强。例如为StartMonth添加到Month的子类关系语义等，请见图5，是本发明的语义进一步增强之后的学习结果示意图，为最终形成的本体。

其中，代表单词的抽取方法如下：

首先计算主题中包含的原型单词的覆盖率：

Coverage (w_{i}, t_{z}) = Σ_{k = 1}^{n_{. . t_{z}}} p (w_{k} | t_{z}) * \overset{&OverBar;}{Bot h_{i, k}}

其中，wi表示主题t_z中的第i个单词，表示主题t_z中所包含的单词总数，p(w_k|t_z)通过使用贝叶斯公式从p(t_z|w_k)获得，表示w_i和w_k是否在同一个Web服务中出现过，覆盖率表示了单词w_i对主题t_z的覆盖程度，即当w_i和主题中的其他单词一起出现的概率比较高的时候，说明它和其他单词的关系比较紧密，因此可以作为这个主题中与之相关单词的“代表”。

然后计算代表单词：

{RepWord}_{t_{z}} = {&ForAll; w_{i} &Element; t_{z} | Coverage (w_{i}) = \max_{i &Element; 1 . . n_{. . t_{z}}} overage (w_{i}, t_{z})}

下面是应用本发明的方法进行本体学习的具体实施例：以ProgrammableWeb（PWeb）网站上的Web服务进行基于Web服务描述的本体学习为实施例，详细描述本发明的实施过程。

ProgrammableWeb（http://www.programmableweb.com/）网站是目前互联网上可以公开访问的著名mashup和Web服务注册中心，截至2013年9月16日，注册的Web服务已超过9900个，包括遵循SOAP、REST、XML-RPC的各类Web API，并且提供了API服务的一些注册信息，比如API描述、名字、标签等。对于采用SOAP协议的API服务，还提供了描述该Web服务的WSDL文档。

首先，执行步骤1，使用PWeb网站提供的开放API从该网站收集Weather、Government等领域的SOAP服务的WSDL描述文件，并对其进行预处理。

然后，对收集的Web服务描述文档进行预处理，具体包括：对收集的每个Web服务描述文档进行解析，抽取该文档中的所有输入输出参数，并将参数做进一步处理，包括将参数拆分，词干还原。然后使用WordNet（http://wordnet.princeton.edu）将所有的单词进行词性标注。对参数的组成模式进行分析，并建立模式列表，方便步骤4对学习出的本体做语义增强。

接着，执行步骤2、3，使用基于HDP的无监督学习方法hHDP进行语义层次构建。在调用hHDP方法之后，系统将得到表1所示的结果。主题和主题之间具有层次关系，同级主题之间可以共享相同的子主题，但是共享子主题的概率是不相同的。通过主题与子主题的层次关系表达主题之间隐含的层次语义关系。

表1 执行hHDP方法之后主题和主题之间的概率

每个主题下都包含若干的单词，每个单词属于本主题的概率都是一个确定的数值，根据概率值可以得出该主题下单词分布，每个主题及其包含的单词的概率分布示例如表2所示。

表2 主题下top-10单词及其概率

请见图4，在得出每个单词在主题中的概率分布之后，基于这个概率分布计算每个单词对所在主题的覆盖率。通过计算覆盖率得到每个主题的代表单词，然后根据上文所述的语义层次构造算法建立语义层次，形成如图4所示的语义层次结构。

请见图5，根据在预处理阶段的模式分析建立的语义规则对生成的本体进行语义增强，得到如图5所示的结果。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种面向Web服务描述的本体学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向Web服务描述的本体学习方法，其特征在于：步骤1中所述的Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。

3.根据权利要求1所述的面向Web服务描述的本体学习方法，其特征在于：所述的步骤1，

其具体实现包括以下子步骤：

4.根据权利要求1所述的面向Web服务描述的本体学习方法，其特征在于：所述的步骤2，其具体实现包括以下子步骤：

5.根据权利要求1所述的面向Web服务描述的本体学习方法，其特征在于：所述的步骤3，其具体实现包括以下子步骤：

其中，先验参数：α,γ，t_z是主题z的总数，t.是主题的总数。

6.根据权利要求1所述的面向Web服务描述的本体学习方法，其特征在于：所述的步骤4，其具体实现包括以下子步骤：

7.根据权利要求1所述的面向Web服务描述的本体学习方法，其特征在于：步骤3中所述的每一层主题层次的主题数目，其具体计算方法如下：

(式一)

(式二)

其中，式一为其中一层现有主题z的采样数，式二为新主题z_new的数目，先验参数：α,γ ,H,V，n_j.z文档j中和主题z相关的单词数目，n_j..是文档j中的单词总数，t_z是主题z的总数，t.是主题的总数，n_.iz是单词i在主题z下出现的总数，n_..z是主题z中的单词总数；z_ji表示文档j中第i个单词所属的主题；w_ji表示文档j中第i个单词；表示文档j中除主题z_ji外其余的主题分布。

8.根据权利要求1所述的面向Web服务描述的本体学习方法，其特征在于：步骤4中所述的代表单词的抽取方法如下：

首先计算主题中包含的原型单词的覆盖率：

C o v e r a g e (w_{i}, t_{z}) = Σ_{k = 1}^{n_{.. t_{z}}} p (w_{k} | t_{z}) * \overset{&OverBar;}{{Both}_{i, k}}

其中，w_i表示主题t_z中的第i个单词，表示主题t_z中所包含的单词总数，p(w_k|t_z)通过使用贝叶斯公式从p(t_z|w_k)获得，表示w_i和w_k是否在同一个Web服务中出现过，覆盖率表示了单词w_i对主题t_z的覆盖程度；w_k表示主题t_z中的第k个单词，其中k为t_z中第k个单词的索引；

然后计算代表单词：

{RepWord}_{t_{z}} = {&ForAll; w_{i} &Element; t_{z} | C o v e r a g e (w_{i}) = \underset{i &Element; 1.. n_{.. t_{z}}}{m a x} C o v e r a g e (w_{i}, t_{z})}