CN108712466A

CN108712466A - 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法

Info

Publication number: CN108712466A
Application number: CN201810345829.3A
Authority: CN
Inventors: 田刚; 刘鹏飞; 孙承爱
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2018-10-26
Also published as: WO2019201068A1

Abstract

本发明提供了一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法，按如下顺序进行：收集Web服务描述文档，对收集的Web服务描述文档进行解析，得到Web服务描述文档中的特征词汇，并对Web服务描述文档中的词汇进行预处理，得到一组原型单词的集合；使用词嵌入训练模型Word2Vec训练原型单词的集合，得到原型单词的集合中每个单词的连续向量表示；使用Gaussian ATM模型得到的原型单词的集合进行训练，获得每个Web服务层次结构；使用训练得到的连续向量的集合丰富用户查询，得到扩展以后的用户查询；利用得到的服务层次结构，使用概率排序方法，得到针对扩展之后用户查询所对应的查询输出。本发明提供的方法能实现准确、高效的Web服务发现。

Description

一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法

技术领域

本发明涉及服务计算技术领域，具体涉及一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法。

背景技术

在信息化日益普及的今天，互联网的软件体系结构和其计算环境发生着急剧的变化，促成了基于互联网体系的软件服务开发的发展和普及。在多变的软件服务环境下，由于各种计算资源具有高度分布和自治的根本特征，所以软件系统的开发将会面临新挑战。可以使用基于面向服务思想的Web架构解决这种具有动态、多变和复杂的疑难问题，于是伴随着利用面向服务思想设计的架构和软件集为一体的服务技术快速发展，运用面向服务思想的软件开发开始迅速地发展起来。在这种环境发展下，互联网上Web服务的规模开始迅速扩大，如WWW 2008的论文中统计发现：从2006年10月到2007年10月约一年的时间里，利用搜索引擎得到的WSDL服务的数量同比增长了286％。并且从2011年6月20日到2014年4月21日，世界著名服务注册网站ProgrammableWeb上的接收到的服务数目一直在稳步增长，并在不到三年的时间里服务数目由3261个增长为11222个，其增长幅度已经达到244％。此外，越来越多的企业也通过碎片化拆分和封装把原来的遗留软件系统转换为Web服务并部署到网络上。出于这样的原因，Web服务规模不断剧增，使大众用户难以准确、高效地发现Web服务。同时，互联网上发布的Web服务不论是利用XML进行描述的还是利用自然语言描述的服务，都存在着其描述特征词汇较少(例如PWeb中的服务描述特征词小于100个的占70％以上)，并且在转换之后的特征词汇统计信息存在不足的问题。这种语义稀疏的现象使相似度计算无法有效的进行，此问题给次基于关键字的搜索方法带来了新的难题。

因此，在互联网Web服务的规模化持续增长的环境下，如何根据现有的Web服务描述语义稀疏的特点来进行准确、高效的Web服务发现，是现在服务计算领域中一个亟需解决的关键技术问题。

发明内容

针对现有的Web服务描述语义稀疏的特点，为了能实现准确、高效的Web服务发现，本发明提供了一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法。

本发明采用以下的技术方案：

一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法，包括以下步骤：

步骤1：收集Web服务描述文档，对收集的Web服务描述文档进行解析，得到Web服务描述文档中的特征词汇，并对Web服务描述文档中的特征词汇进行预处理，得到一组原型单词的集合；

步骤2：使用词嵌入训练模型Word2Vec训练步骤1中得到的原型单词的集合，得到原型单词的集合中每个单词的连续向量表示；

使用Gaussian ATM模型对步骤1中得到的原型单词的集合进行训练，获得每个Web服务的层次结构；

步骤3：使用步骤2训练得到的连续向量的集合丰富用户查询，得到扩展以后的用户查询；

利用步骤2得到的服务层次结构，使用概率排序方法，得到针对扩展之后用户查询所对应的查询输出。

优选地，步骤1中所述的Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。

优选地，所述步骤1中的预处理包括去除停用词、取得单词词根和扩充缩写词。

优选地，所述的步骤2，其具体实现包括以下子步骤：

步骤2.1：使用Word2Vec模型训练原型单词的集合，得到每个单词的连续词嵌入表达；

步骤2.2：基于步骤2.1中得到的词嵌入进行映射，遍历服务描述中的每一个单词，如果单词在词嵌入表达集合中，则直接使用词嵌入代替该单词；如果单词不在词嵌入表达集合中，该单词将被丢弃；

经过多次迭代将服务描述中的单词转换成为词嵌入表达，从而将服务特征表示到连续词嵌入空间，为词嵌入主题模型Gaussian ATM构建输入；

步骤2.3：以步骤2.2得到的服务描述的词嵌入表示为输入，基于Gaussian ATM，挖掘服务知识，构建服务-标签、标签-主题和主题-词嵌入分布，基于上述三个分布，建立服务-标签-主题-词嵌入层次模型，从而将服务组织到不同的主题。

优选地，所述步骤2.3，具体包括以下子步骤：

步骤2.3.1：在Gaussian ATM中，每个单词w对应的词嵌入v(w)∈R^M，其中M表示词嵌入的长度，这样每个单词就被表示到一个M维的连续空间，而每个主题z就被表示成词嵌入v上的一个多元高斯分布，其中均值为μ_z，协方差为Σ_z，以服务的词嵌入表达作为输入，经过Gibbs抽样，算法运行收敛之后，通过该多元高斯分布，建立主题-词嵌入层次；

步骤2.3.2：每个服务文档可以当作标签的均匀分布，它们的分布是预先可观测的，直接利用均匀分布的计算公式可以获得服务-标签分布；

步骤2.3.3：每个主题属于不同的标签，建立标签-主题层次的方式与步骤2.3.1类似，每个主题的先验分布为参数为α的Dirichlet分布，以标签的词嵌入表达作为输入，经过Gibbs抽样之后得到收敛后的参数值，从而根据参数θ获得标签-主题分布；

步骤2.3.4：步骤2.3.3之后，单词、词嵌入、标签、主题和服务文档存在如下关系：每个单词都有一个对应的词嵌入，每个词嵌入属于不同的主题，每个主题又隶属于不同的标签，每个标签又属于不同的服务，根据上述关系，以获得的服务-标签、标签-主题、主题-词嵌入分布作为输入，建立服务-标签-主题-词嵌入层次模型，从而将服务组织到不同的潜在主题。

优选地，所述步骤3中，具体包括以下子步骤：

步骤3.1：根据查询特征表达，使用步骤2.1训练的连续词嵌入表达，遍历用户查询中的每一个单词，如果单词在词嵌入表达集合中，则直接使用词嵌入代替该单词；如果单词不在词嵌入表达集合中，该单词将被丢弃；将用户查询映射为连续表达的词嵌入，为基于词嵌入的查询语义扩充和基于词嵌入主题模型的服务发现提供支持；

步骤3.2：根据步骤3.1中获得用户查询的词嵌入表示作为输入，并设定一个相似度阈值，遍历输入中的每一个词嵌入，检索与该词嵌入的相似度超过预定阈值的词嵌入，将该词嵌入作为扩充词保留，重复该过程直至输入中所有的词嵌入都被遍历一遍，最后返回添加了扩充词之后的用户查询向量；

步骤3.3：词嵌入表达的用户查询将基于一种概率表达映射为同服务的相似程度，根据服务-主题-词嵌入层次结构可以获得词嵌入同主题的相似度：P(e|z)，每个查询Q同主题的相似度能够表示为公式(1)：

其中z_f为主题，e_i为查询中包含的词嵌入；

同样根据服务-主题-词嵌入层次结构，可以获得主题同服务的相似度：P(z|t)，每个查询Q同服务t_i的相似程度如公式(2)所示：

其中Q为查询，t_i为标签，z_f为潜在特征，e_k为查询包含的词嵌入，Z为主题的数目；的取值表示查询和服务的相似程度，将被用来为用户提供服务匹配和排序的依据；

最后，计算每个查询Q同服务s_j的相似程度P(Q|s_j)，该概率的大小将被用来为用户提供服务匹配和排序的依据；

其中Q为查询，s_j为服务，t_i为标签，z_f为潜在特征，e_k为查询包含的词嵌入，Z为主题的数目，T为标签的数量；P(Q|s_j)的取值表示查询和服务的相似程度，将被用来为用户提供服务匹配和排序的依据。

本发明具有的有益效果是：

(1)可以实现语义稀疏Web服务的组织和检索，具有较好的通用性；

(2)基于“词袋”模型的服务描述特征表达方法存在“维数过多”的问题，本方法通过引入词嵌入模型来将服务描述的表达映射到固定长度的词嵌入空间从而确保服务描述特征的维度，本方法在保证维数确定的情况下还能够利用词嵌入的语义相似特性增强服务描述的语义；

(3)因为本方法采用的是无监督的学习方法，所以参数推导不需要过多的经验值，提高了方法的准确性；

(4)学习方法建立的服务层次可以用于Web服务层次组织，从而支撑语义稀疏Web服务发现，具有广泛的适用性。

附图说明

图1为基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法的流程示意图。

图2为Gaussian ATM生成的Web服务层次示意图。

图3为运行步骤2之后得到的Web服务层次。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

结合图1至图3，一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法，包括以下步骤：

步骤1：收集Web服务描述文档，对收集的Web服务描述文档进行解析，得到Web服务描述文档中的特征词汇，并对Web服务描述文档中的特征词汇进行预处理，得到一组原型单词的集合。

Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。

预处理包括去除停用词、取得单词词根和扩充缩写词等。

使用Gaussian ATM(Author-Topic-Model)模型对步骤1中得到的原型单词的集合进行训练，获得每个Web服务的层次结构。

其具体实现包括以下子步骤：

步骤2.3，具体包括以下子步骤：

如图2所示，图2是本发明的执行Gaussian ATM算法之后的生成的服务层次模型示意图。

在图2中，每个单词都有一个对应的词嵌入，每个词嵌入属于不同的主题，每个主题又隶属于不同的标签，每个标签又属于不同的服务。基于这个三个层次结构可以为用户提供灵活的服务查询体验。例如可以基于主题组织服务，单词分布类似的服务将划分到同一个主题从而将服务聚类。通过在类簇上查询服务减小搜索空间，提高查询效率。而在本发明中，我们利用该层次结构建立一种概率服务发现方法。

具体包括以下子步骤：

其中z_f为主题，e_i为查询中包含的词嵌入；

下面是应用本发明的方法进行语义稀疏服务发现的具体实施例：以ProgrammableWeb(PWeb，http://www.programmableweb.com/)网站上的Web服务进行基于Web服务描述的语义稀疏服务发现为实施例，详细描述本发明的实施过程。

PWeb网站是目前互联网上可以公开访问的著名mashup和Web服务注册中心，截至2016年5月1日，注册的Web服务已超过15000个，包括遵循SOAP、REST、XML-RPC的各类WebAPI，并且提供了API服务的一些注册信息，比如API描述、名字、标签等。对于采用SOAP协议的API服务，还提供了描述该Web服务的WSDL文档。

首先，执行步骤1，使用PWeb网站提供的开放API从该网站收集Weather、Government等领域的服务自然语义描述，并对其进行预处理。

然后，对收集的Web服务描述文档进行解析，具体包括：对收集的每个Web服务描述文档进行解析，抽取该文档中的所有核心特征词汇，并将词汇做进一步处理，包括词干还原、缩写词扩充等。

接着，执行步骤2，使用word2vec分布式表示方法的训练特征单词集合，建立每个单词的连续向量表示。在调用word2vec之后，系统将得到表1所示的结果。每个单词都获得一个连续向量的表达，向量的长度可以选择，本例中选择向量长度为50。

表1使用word2vec方法之后，单词的连续向量表达

训练得到每个单词的连续表示之后，使用Gaussian ATM模型建立Web服务的层次。建立的服务－主题层次如表2所示。

表2使用Gaussian ATM方法，建立的服务－标签层次

表3使用Gaussian ATM方法，建立的标签－主题层次

建立的主题－单词层次如表3所示。

表4使用Gaussian ATM方法，建立的主题－词嵌入层次

然后执行步骤3，利用连续向量的相似特性，扩展用户查询。例如，design扩展为design+plan。利用步骤2得到的服务层次结构，使用概率排序方法，得到针对扩展之后用户查询所对应的查询输出，最终返回的结果如表5所示。

表5查询与系统输出结果

请见图3，运行步骤2之后得到的Web服务层次如图3所示。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法，其特征在于，步骤1中所述的Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。

3.根据权利要求1所述的一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法，其特征在于，所述步骤1中的预处理包括去除停用词、取得单词词根和扩充缩写词。

4.根据权利要求1所述的一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法，其特征在于，所述的步骤2，其具体实现包括以下子步骤：

5.根据权利要求4所述的一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法，其特征在于，所述步骤2.3，具体包括以下子步骤：

6.根据权利要求4所述的一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法，其特征在于，所述步骤3中，具体包括以下子步骤：

其中z_f为主题，e_i为查询中包含的词嵌入；