CN106599086A

CN106599086A - 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法

Info

Publication number: CN106599086A
Application number: CN201611049185.0A
Authority: CN
Inventors: 田刚; 高艳峰; 孙承爱
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2017-04-26

Abstract

本发明公开了一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法，具体涉及服务计算技术领域。该方法具体按如下顺序进行：收集Web服务描述文档，对收集的Web服务描述文档进行预处理，得到Web服务描述文档中的特征词汇，并对Web服务描述文档中的词汇进行预处理，得到一组原型单词的集合；使用词嵌入训练模型Word2Vec训练步骤1中得到的原型单词的集合，得到原型单词的集合中每个单词的连续向量表示；使用Gaussian LDA模型对步骤1中得到的原型单词的集合进行训练，获得每个Web服务层次结构；使用步骤2训练得到的连续向量的集合丰富用户查询，得到扩展以后的用户查询；利用步骤2得到的服务层次结构，使用概率排序方法，得到针对扩展之后用户查询所对应的查询输出。

Description

一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法

技术领域

本发明涉及服务计算技术领域，具体涉及一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法。

背景技术

伴随着互联网计算环境和软件体系结构的变化，基于互联网的软件服务开发已经日趋流行。软件服务环境下各种计算资源高度分布和自治的本质特征对软件系统的开发带来了新挑战。面向服务的架构能够应对这种动态、多变和复杂的问题，因此随着面向服务的架构和软件即服务技术的发展，面向服务的软件开发开始蓬勃发展起来。在这种情况下，互联网上Web服务的规模开始快速增长，如WWW 2008的论文中统计发现：从2006年10月到2007年10月，通过搜索引擎得到的WSDL服务数目增长了286％。从2011年6月20日到2014年4月21日，著名服务注册网站ProgrammableWeb上的服务数一直在持续增长，在不到三年的时间里由3261个服务增长为11222个，增长幅度达到了244％。此外，很多企业也把遗留软件系统进行碎片化拆分和封装得到的Web服务部署到网络上。这样，Web服务规模的剧增为大众用户准确、高效地发现Web服务增加了困难。与此同时，互联网上发布的服务不论是基于XML描述的还是基于自然语言描述的都存在特征词汇较少(例如PWeb中70％以上的服务描述特征词小于100个)，转换之后的特征词汇统计信息不足的问题。这种语义稀疏的现象会导致无法进行有效的相似度计算，这为基于关键字的搜索方法带来了新的挑战。

因此，面对互联网上Web服务的规模化增长，针对现有的Web服务描述语义稀疏的特点，如何进行准确、高效的Web服务发现，便成为服务计算领域中一个亟待解决的关键技术问题。

发明内容

本发明的目的是针对上述不足，提出了一种能够进行准确、高效的Web服务发现的基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法。

本发明具体采用如下技术方案：

一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法，具体按如下顺序进行：

步骤1：收集Web服务描述文档，对收集的Web服务描述文档进行预处理，得到Web服务描述文档中的特征词汇，并对Web服务描述文档中的词汇进行预处理，得到一组原型单词的集合；

步骤2：使用词嵌入训练模型Word2Vec训练步骤1中得到的原型单词的集合，得到原型单词的集合中每个单词的连续向量表示；使用Gaussian LDA模型对步骤1中得到的原型单词的集合进行训练，获得每个Web服务层次结构；

步骤3：使用步骤2训练得到的连续向量的集合丰富用户查询，得到扩展以后的用户查询；利用步骤2得到的服务层次结构，使用概率排序方法，得到针对扩展之后用户查询所对应的查询输出。

优选地，步骤1中的Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。

优选地，所述步骤1中，具体包括以下子步骤：

对Web服务描述文档进行解析，从中抽取该文档中的特征词汇，对特征词汇做预处理，得到一组原型单词的集合，预处理包括去除停用词、取得单词词根和扩充缩写词。

优选地，所述步骤2中，具体包括以下子步骤：

步骤2.1：使用Word2Vec模型训练原型单词的集合，得到每个单词的连续词嵌入表达；

步骤2.2：基于步骤2.1中得到的词嵌入进行映射，遍历服务描述中的每一个单词，如果单词在词嵌入特征集合中，则直接使用词嵌入代替该单词；如果单词不在词嵌入集合中，该单词将被丢弃；经过多次迭代将服务描述中的单词转换成为词嵌入特征，从而将服务特征表示到连续词嵌入空间，为词嵌入主题模型Gaussian LDA构建输入；

步骤2.3：以步骤2.2得到的服务描述的词嵌入表示为输入，基于Gaussian LDA，挖掘服务知识，构建服务-主题分布和主题-词嵌入分布；在此基础上，基于上述两个分布建立服务-主题-词嵌入层次模型，从而将服务组织到不同的主题。

优选地，所述步骤2.3中，具体包括以下子步骤：

步骤2.3.1：在Gaussian LDA中，每个单词w对应的词嵌入v(w)∈R^M，其中M表示词嵌入的长度，这样每个单词就被表示到一个M维的连续空间，而每个主题z就被表示成词嵌入v上的一个多元高斯分布，其中均值为μ_z，协方差为Σ_z，以服务的词嵌入表达作为输入，经过Gibbs抽样，算法运行收敛之后，通过该多元高斯分布，建立主题-词嵌入层次；

步骤2.3.2：每个服务文档可以表示为主题的随机组合，它们的先验分布为参数为α的Dirichlet分布，在Gaussian LDA中，服务-主题分布的获得和LDA模型是一样的，以服务的词嵌入表达作为输入，经过Gibbs抽样之后得到收敛后的参数值，从而根据参数θ获得服务-主题分布；

步骤2.3.3:步骤2.3.2之后，单词、词嵌入、主题和服务文档存在如下关系：每个单词都有一个对应的词嵌入，每个词嵌入属于不同的主题，每个主题又隶属于不同的服务文档，根据上述关系，以获得的服务-主题分布和主题-词嵌入分布作为输入，建立服务-主题-词嵌入层次模型，从而将服务组织到不同的潜在主题。

优选地，所述步骤3中，具体包括以下子步骤：

步骤3.1：根据查询特征表达，使用步骤2.1训练的连续词嵌入表达，遍历用户查询中的每一个单词，如果单词在词嵌入特征集合中，则直接使用词嵌入代替该单词；如果单词不在词嵌入集合中，该单词将被丢弃；将用户查询映射为连续表达的词嵌入，为基于词嵌入的查询语义扩充和基于词嵌入主题模型的服务发现提供支持；

步骤3.2：根据步骤3.1中获得用户查询的词嵌入表示作为输入，并设定一个相似度阈值，遍历输入中的每一个词嵌入，检索与该词嵌入的相似度超过预定阈值的词嵌入，将该词嵌入作为扩充词保留，重复该过程直至输入中所有的词嵌入都被遍历一遍，最后返回添加了扩充词之后的用户查询向量；

步骤3.3：词嵌入表达的用户查询将基于一种概率表达映射为同服务的相似程度，根据服务-主题-词嵌入层次结构可以获得词嵌入同主题的相似度：P(e|z)，每个查询Q同主题的相似度能够表示为公式(1)：

其中z_f为主题，e_i为查询中包含的词嵌入；

同样根据服务-主题-词嵌入层次结构，可以获得主题同服务的相似度：P(z|s)，每个查询Q同服务s_i的相似程度如公式(2)所示：

其中Q为查询，s_i为服务，z_f为潜在特征，e_i为查询包含的词嵌入，T为主题的数目，P(Q|s_i)的取值表示查询和服务的相似程度，将被用来为用户提供服务匹配和排序的依据。

本发明具有如下有益效果：

(1)可以实现语义稀疏Web服务的组织和检索，具有较好的通用性；

(2)基于“词袋”模型的服务描述特征表达方法存在“维数过多”的问题，本方法通过引入词嵌入模型来将服务描述的表达映射到固定长度的词嵌入空间从而确保服务描述特征的维度。本方法在保证维数确定的情况下还能够利用词嵌入的语义相似特性增强服务描述的语义；

(3)因为本方法采用的是无监督的学习方法，所以参数推导不需要过多的经验值，提高了方法的准确性；

(4)学习方法建立的服务层次可以用于Web服务层次组织，从而支撑语义稀疏Web服务发现，具有广泛的适用性。

附图说明

图1为基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法的流程示意图；

图2为Gaussian LDA生成的Web服务层次示意图；

图3为运行步骤2之后得到的Web服务层次。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

如图1所示，一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法，具体按如下顺序进行：

步骤1中的Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。

步骤1中，具体包括以下子步骤：

步骤2中，具体包括以下子步骤：

如图2所示，本发明的执行Gaussian LDA算法之后的生成的服务层次模型示意图；步骤2.2和步骤2.3执行的过程都是Gaussian LDA算法的内容，通过运行Gaussian LDA，构造构建服务-主题分布和主题-词嵌入分布两个分布，基于两个分布可以建立服务的层次结构，达到如图2所示的效果。

步骤2.3中，具体包括以下子步骤：

如图3所示，为运行步骤2之后得到的Web服务层次。

步骤3中，具体包括以下子步骤：

其中z_f为主题，e_i为查询中包含的词嵌入；

其中Q为查询，s_i为服务，z_f为潜在特征，e_i为查询包含的词嵌入，T为主题的数目；P(Q|s_i)的取值表示查询和服务的相似程度，将被用来为用户提供服务匹配和排序的依据。

下面是结合本发明的方法进行语义稀疏服务发现的具体实施例：以ProgrammableWeb(PWeb，http://www.programmableweb.com/)网站上的Web服务进行基于Web服务描述的语义稀疏服务发现为实施例，详细描述本发明的实施过程。

PWeb网站是目前互联网上可以公开访问的著名mashup和Web服务注册中心，截至2016年5月1日，注册的Web服务已超过15000个，包括遵循SOAP、REST、XML-RPC的各类WebAPI，并且提供了API服务的一些注册信息，比如API描述、名字、标签等。对于采用SOAP协议的API服务，还提供了描述该Web服务的WSDL文档。

首先，执行步骤1，使用PWeb网站提供的开放API从该网站收集Weather、Government等领域的服务自然语义描述，并对其进行预处理。

然后，对收集的Web服务描述文档进行预处理，具体包括：对收集的每个Web服务描述文档进行预处理，抽取该文档中的所有核心特征词汇，并将词汇做进一步处理，包括词干还原、缩写词扩充等。

接着，执行步骤2，使用word2vec分布式表示方法的训练特征单词集合，建立每个单词的连续向量表示。在调用word2vec之后，系统将得到表1所示的结果。每个单词都获得一个连续向量的表达，向量的长度可以选择，本例中选择向量长度为50。

表1

训练得到每个单词的连续表示之后，使用Gaussian LDA模型建立Web服务的层次。建立的服务-主题层次如表2所示。

表2

建立的主题-单词层次如表3所示。

表3使用Gaussian LDA方法，建立的主题一单词层次

建立的主题-单词层次如表3所示。

表3

然后执行步骤3，利用连续向量的相似特性，扩展用户查询。例如，design扩展为design+plan。利用步骤2得到的服务层次结构，使用概率排序方法，得到针对扩展之后用户查询所对应的查询输出，最终返回的结果如表4所示。

表4

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法，其特征在于，具体按如下顺序进行：

2.如权利要求1所述的一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法，其特征在于，步骤1中的Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。

3.如权利要求1所述的一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法，其特征在于，所述步骤1中，具体包括以下子步骤：

4.如权利要求1所述的一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法，其特征在于，所述步骤2中，具体包括以下子步骤：

5.如权利要求4所述的一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法，其特征在于，所述步骤2.3中，具体包括以下子步骤：

6.如权利要求1所述的一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法，其特征在于，所述步骤3中，具体包括以下子步骤：

P (Q | z_{f}) = \underset{e_{i} &Element; Q}{Π} P (e_{i} | z_{f}) - - - (1)

其中z_f为主题，e_i为查询中包含的词嵌入；

P (Q | s_{i}) = \underset{e_{k} &Element; Q}{Π} P (e_{k} | s_{i}) = \underset{e_{k} &Element; Q}{Π} Σ_{z = 1}^{T} P (e_{k} | z_{f}) P (z_{f} | s_{i}) - - - (2)