CN111832289B

CN111832289B - 一种基于聚类和高斯lda的服务发现方法

Info

Publication number: CN111832289B
Application number: CN202010668037.7A
Authority: CN
Inventors: 徐玲; 聂彤羽; 鄢萌; 王子梁; 张文燕; 付春雷; 张小洪
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2023-08-11
Anticipated expiration: 2040-07-13
Also published as: CN111832289A

Abstract

本发明公开了一种基于聚类和高斯LDA的服务发现方法，包括如下步骤：对服务数据集进行数据解析，使用Doc2Vec和Word2Vec训练段落嵌入和词嵌入；使用修改的K‑Means算法将Doc2Vec向量集合聚类；基于词嵌入向量集扩展查询得到扩展的查询语句Q_e和扩展的查询向量V_qe；基于扩展的查询语句计算其与聚类所得的每一个聚类簇的Doc2Vec矩阵的平均余弦相似度，将相似度最高的簇作为目标簇；基于所选目标簇和训练所得的词嵌入向量，构建高斯LDA模型，得到“文档‑主题分布”和“主题的高斯分布”；使用两个分布计算目标簇中的各个服务与扩展后的用户查询匹配的概率并降序排列。本方法服务匹配准确性高。

Description

一种基于聚类和高斯LDA的服务发现方法

技术领域

本发明涉及服务计算技术领域，尤其涉及一种基于聚类和高斯LDA的服务发现方法。

背景技术

服务发现是服务科学的重要组成之一。随着面向服务的体系结构的日益普及，企业服务系统的开发有了极大地改变。此外，得益于面向服务计算以及云计算技术和移动互联网技术的迅猛发展，服务的开发、部署、访问、管理和维护成本大幅下降。这两个因素综合导致Web服务、API(应用程序编程接口)、云服务以及混搭等形式的服务的流行度的逐渐提高，海量服务应运而生。面对呈爆炸式增长的Web服务，如何根据用户需求高效、准确地匹配Web服务，是工业界和学术界共同关注的问题。

由于Web2.0技术的繁荣和发展，许多开发人员更喜欢以松散耦合的方式组合现有的RESTful Web服务。REST服务通常附带有以自然语言编写的非正式描述文档。由于服务描述广泛使用自然语言描述，基于自然语言描述的服务发现已经成为服务研究领域中迫切需要解决的问题。服务发现中，用户需求的质量是影响查询结果的一大因素，一个能够很好地反映用户需求的查询有助于获得更加相关的服务。传统的基于搜索引擎的服务发现方法存在用户需求描述和服务描述的语义稀疏问题，降低了服务发现的有效性。且Web服务数量的大量增多，阻碍了人们有效地使用和管理服务存储库。

发明内容

针对现有技术存在的上述问题，本发明要解决的技术问题是：服务发现所面临的Web服务数量多，管理和检索难度大以及用户查询存在语义稀疏性的问题。

为解决上述技术问题，本发明采用如下技术方案：

一种基于聚类和高斯LDA的服务发现方法，包括如下步骤：

S100：获取服务数据集和查询数据集：所述服务数据集中的每条服务数据由服务名称、服务描述组成；所述查询数据集中的每条查询数据由查询名称、候选服务名称和候选服务与查询的二进制相关性组成；

S200：对所获得的服务数据集和查询数据集中的所有数据进行数据预处理，包括文本分词，去除停用词，词干提取；

S300：对经过S200数据预处理后的服务数据集和查询数据集使用Word2Vec和Doc2Vec分别训练词嵌入向量集E＝{e₁，e₂，...，e_d}和段落嵌入向量集P＝{p₁，p₂，...，p_d}；

S400：基于得到的段落嵌入向量集P，通过修改的K-Means聚类算法进行无监督聚类，聚类个数K与服务数据集的标准分类数目相同；

S500：基于查询语句Q＝{w₁，w₂，...，w_m}和训练所得的词嵌入向量集E扩展查询得到扩展的查询语句Qe和扩展的查询向量V_qe；

S600：基于扩展的查询语句Q_e计算其与聚类所得的聚类簇的Doc2Vec矩阵：C＝{C₁，C₂，...，C_h}的平均相似度，将相似度最高的簇，作为目标簇；

S700：基于所选目标簇和训练所得的词嵌入向量，构建高斯LDA模型，通过吉布斯采样，经过有限次迭代收敛后即可得到“文档-主题分布”和“主题的高斯分布”；

S800：基于高斯LDA生成的两个分布与扩展的用户查询语句，将服务排序过程建模为查询表示与服务描述的主题表示之间的概率匹配，生成候选服务匹配列表。

作为优选，所述S400具体步骤如下：

S410：从服务数据段落嵌入向量集P＝{p₁，p₂，...，p_d}中选择K个初始聚类中心，并使其尽可能彼此远离；

S411：从P中随机选择一个样本作为第一个初始聚类中心μ₁；

S412：计算P中剩余每个样本点x与当前已有聚类中心的最短距离D(x)；

S413：计算样本点被选作下一个聚类中心的概率

S414：用轮盘法选出下一个聚类中心μ_i；

S415：重复S412-S414，直到选出K个初始聚类中心Mu＝{μ₁，μ₂，...，μ_k}；

S420：为服务数据段落嵌入向量集P＝{p₁，p₂，...，p_d}中的每一个样本点划分一个聚类簇；

S421：每个样本点x与K个聚类中心的余弦相似度

S422：找到与样本点x余弦相似度最大的聚类中心，将样本点划分到该聚类中心所属簇中；

S423：计算各个簇中样本点的均值如果新的均值向量μ′_i不等于原始聚类中心μ_i，则将聚类中心替换为新的均值向量μ′_i；

S424：重复S421-S423，直到μ_i＝μ′_i。

作为优选，所述S500的具体步骤包括：

S510：遍历Q中的每个单词w_i，从词嵌入集中得到该单词的词嵌入向量v_w和与其最相似的前10个词嵌入向量E.top_10_similar(w)；

S520：依次计算E.top_10_similar(w)词嵌入向量与单词w_i的余弦相似度，如果大于相似度阈值τ，则将该单词添加到Q_e，将其对应的词向量添加到扩展的查询向量V_qe。

作为优选，S600包含如下具体步骤：

S610：将Q_e映射为Doc2Vec向量PV_qe；

S620：计算计算PV_qe与聚类簇C_i中的各个服务描述文档的段落嵌入向量的余弦相似度，并将其取平均值sim_average，得到平均相似度最高的簇：cluster_select＝max(sim_average)作为该查询语句的目标簇。

作为优选，S700包含如下具体步骤：

S710：将目标簇中的每一个服务描述文档根据词嵌入向量的索引，映射为一个由词嵌入向量索引所组成的整数矩阵，作为高斯LDA的输入；

S720：高斯LDA模型中，每一个服务描述文档中的每一个单词都是一个词嵌入向量e∈R^M，每个主题k描述为一个以μ_k为均值，以∑_k为协方差的多元高斯分布；每一个词嵌入向量e与潜在主题z相关，每一个主题z与每一个服务描述文档s相关，用高斯LDA模型对服务描述文档建模可认为由两层构成：服务-主题层和主题-词嵌入层，从而生成两种分布：服务-主题分布和主题的高斯分布分布。

作为优选，S800包含如下具体步骤：

根据公式(1)计算用户查询与目标簇候选Web服务之间的相关性，相关性越大，该候选服务与用户查询越匹配，排名越靠前，由此生成目标簇候选服务匹配列表；

其中，Q_e表示扩展的查询语句，P(e|z)和P(z|s_i)分别表示概率的后验分布。

相对于现有技术，本发明至少具有如下优点：

本发明提出了一种基于聚类和高斯LDA的服务发现方法，服务聚类提高了服务管理性能，基于聚类类别匹配服务缩小了搜索空间，提高了检索效率。基于词嵌入的高斯LDA有效地捕捉了服务描述中的语义信息。查询扩展充分利用语料库上下文的关系，缓解了用户查询的语义稀疏，提高了服务匹配的准确性。本发明的服务发现性能优于传统的服务发现算法，可以应用于实际的服务发现系统的开发中，为服务科学，服务发现领域的研究做出贡献。

附图说明

图1为本发明的整体框架；

图2为参数Doc2Vec的维度vector_size对聚类效果的影响(基于聚类精度，聚类召回率，聚类F值)；

图3为参数查询扩展的相似性阈值τ对服务发现性能的影响(基于F值)

图4(a)为OWLS-TC4数据集下的聚类效果，图4(b)为ProgammableWeb数据集下的聚类效果。

图5(a)和图5(b)均为聚类效果对比(基于聚类精度，聚类召回率和聚类F值)；

图6为基于OWLS-TC4数据集的实验效果对比(基于精度)；

图7为基于OWLS-TC4数据集的实验效果对比(基于召回率)；

图8为基于OWLS-TC4数据集的实验效果对比(基于F值)。

图9为用高斯LDA服务建模的层次图。

图10为高斯LDA的图模型

具体实施方式

下面对本发明作进一步详细说明。

本文提出了一种基于聚类和高斯LDA的Web服务发现方法。模型整体分为三个部分：服务聚类，服务建模和服务查询。

服务聚类，包括服务聚类和聚类选择。服务聚类，使用Doc2Vec将数据集中的每一个Web服务描述文档表示为一个固定维数的向量，然后使用修改的K-Means算法将Doc2Vec向量集合聚类。聚类选择，使用服务查询模块的查询扩展来扩展用户查询之后，计算用户查询与每一个聚类簇的余弦相似度以进行聚类选择。

服务建模，使用Word2Vec将数据集中的所有单词表示为一个固定维数的向量，并将单词映射生成目标类的语料库。然后，将二者作为高斯LDA的输入，以训练获得“文档-主题”分布和“主题”的高斯分布。

服务查询，包括查询扩展和查询排序。查询扩展，使用服务建模模块中训练好的单词向量来扩展用户查询，以缓解用户查询的语义稀疏性。服务排序，使用高斯LDA训练得到的两个分布计算目标类中的各个服务与扩展后的用户查询匹配的概率，并以降序排列。模型整体结构图，如图1。

本发明使用了通用的Web服务数据集OWLS-TC4和从ProgammableWeb.com上获取的真实数据集进行模型构建、评估和对比。首先使用修改的K-Means聚类方法对已经映射成为段落向量的服务数据集聚类；其次，使用词嵌入向量的上下文信息来扩展用户查询和丰富服务描述，然后将丰富的服务描述加载到高斯LDA中，获取服务描述表示；最后，按照服务描述表示和扩展的服务查询之间的概率相关性对服务进行排序，以获得最符合用户需求的服务。

本发明中修改的K-Means算法是指将经典的K-Means++聚类算法中用欧氏距离衡量样本点之间的距离，修改为用余弦相似度衡量。

本发明使用Doc2Vec向量化每一个服务描述文档，然后，使用修改的K-Means算法对向量聚类，由于Doc2Vec可以捕获服务描述文档的潜在语义信息，因此，可以认为，每一个簇中的文档具有相同或类似的主题。用t-SNE(t-Distributed Stochastic NeighbourEmbedding)降维技术，可以将聚类结果映射到2维空间中，以达到可视化效果。

我们采用Doc2Vec+修改的K-Means算法将数据集聚类后，虽然每个簇中的服务数量各不相同，但是簇中每个文档存在一些潜在的关系，而用户需求往往是针对某一类型的服务。因此，我们可以将服务的搜索范围缩小到某一个类上，而不是搜索整个数据集，这样就可以提高服务发现的效率。

从获得的簇中找到最相似的类的方法是整个过程的关键步骤。本发明将每个簇中的服务描述文本视为具有同样的主题，这样就可以计算用户需求与每个簇中所有服务描述文档的平均语义相似度，平均语义相似度高的簇与用户需求更匹配。由于用户查询通常简短且语义稀疏，我们使用词嵌入空间中最邻近的词来扩展查询，即查询扩展，

本发明的高斯LDA建模是对聚类选择所得的目标簇进行建模，通过吉布斯采样进行有限次迭代后得到“服务—主题”分布和“主题”的高斯分布。

基于高斯LDA的服务建模框架是一个分层生成模型，如图9。在这个模型中，每一个服务描述文档中的每一个单词都是一个词嵌入向量e，每一个词嵌入向量e与潜在主题z相关。每一个主题z与每一个服务描述文档相关，因此用高斯LDA对服务描述文档建模可认为由两层构成：服务—主题层和主题—词嵌入层，从而可以生成两种分布：服务—主题分布和主题—词嵌入分布。具体来说，服务描述文档中的每一个单词可以使用Word2Vec训练得到固定维数(如：100维)的词嵌入向量，而一个服务描述文档就可以根据词嵌入向量的索引，映射为一个由词嵌入向量索引所组成的整数矩阵。将整个目标簇中的所有服务描述文档都映射为整数矩阵，作为高斯LDA的输入，最终就能够得到目标簇中所有服务描述文档的服务—主题分布和主题—词嵌入分布。

本发明的服务排序是对目标簇中的所有候选服务排序，将服务排序过程建模为查询表示与服务描述的主题表示之间的概率匹配，计算用户查询与目标簇候选Web服务之间的相关性，相关性越大，该候选服务与用户查询越匹配，排名越靠前。

参见图1，一种基于聚类和高斯LDA的服务发现方法，包括如下步骤：

S100：获取服务数据集和查询数据集：所述服务数据集中的每条服务数据由服务名称、服务描述组成；所述查询数据集中的每条查询数据由查询名称、候选服务名称和候选服务与查询的二进制相关性组成；针对OWLS-TC4服务检索测试集，使用基于java的Dom4J工具解析各类别服务文档，提取<serviceName>和<textDescription>的内容；使用Dom4J工具解析OWLS-TC4，提取查询<name>，候选服务<name>和查询与候选服务的二进制相关性<relevant>的内容。针对ProgammableWeb数据集，直接从中提取服务名称和服务描述文档内容。

S200：对所获得的服务数据集和查询数据集中的所有数据进行数据预处理，包括文本分词，去除停用词，词干提取；对Web服务描述文档和用户查询进行预处理操作，文本分词就是将一段英文文本表示为一个个单词，去除停用词就是利用人工建立了停用词表去除一些无意义的单词，词干提取就是将某一个单词的不同形式还原为词根的形式。经过以上处理，就可得到词根形式的单词集合。

S300：对经过S200数据预处理后的服务数据集和查询数据集使用Word2Vec和Doc2Vec分别训练词嵌入向量集E＝{e₁，e₂，...，e_d}和段落嵌入向量集P＝{p₁，p₂，...，p_d}；Word2Vec和Doc2Vec属于现有技术，使用Word2Vec和Doc2Vec分别训练词嵌入向量集E＝{e₁，e₂，...，e_d}和段落嵌入向量集P＝{p₁，p₂，...，p_d}是一种现有的方法，此处简述如下。

Word2Vec是由Google开源出的一个基于神经网络的用于训练词嵌入向量的工具包。它有两种模型：Skip-Gram和CBOW。CBOW模型(连续词袋模型)的思想是：已知词w的上下文Context(w)的词向量，需要预测w这个词的词向量。而Skip-Gram模型则于CBOW模型相反，它的思想是已知词w的词向量，需要预测w的上下文Context(w)的词向量。

Word2Vec能够自动学习单词之间的关系，使语义相似的词向量更加接近，而语义相反的词向量更加疏远。例如：“汽车”的词向量与“自行车”的词向量距离更加接近，而“汽车”的词向量与“共产”的词向量距离更加疏远。Word2Vec解决了用词袋模型训练的数据所具有的稀疏性和高维性。同时，使语义相似的词语更加接近，而语义相反的词语更加疏远，这就有利于在服务发现时扩展语义稀疏的用户描述，提高服务发现的性能。此外，由于Word2Vec激活的隐藏层数目少，有效地降低了计算的复杂度，使训练大规模Web服务数据集成为可能。

Doc2Vec是一个基于神经网络的用于训练段落向量的工具包。Doc2Vec类似于Word2Vec也有两种模型：PV-DM(Paragraph Vector with Distributed Memory，段落向量分布存储)和PV-DBOW(Paragraph Vector with Distributed Bag of Words，段落向量词袋分布)。PV-DM的思想是：在词嵌入的CBOW模型的基础上添加了一个段向量矩阵D，滑动窗口中的每个词向量分别表示为矩阵W，将矩阵D和一系列W取平均或者串联，就能预测段落滑动窗口外的下一个单词。PV-DBOW的思想是：在输入中忽略上下文单词，而迫使模型预测从输出段落中随机抽样的单词。具体来说，就是在每次随机梯度下降迭代中，对文本窗口进行采样，从中随机抽取一个单词并通过分类任务给出段落向量。

Doc2Vec能够用一个稠密的，固定长度的向量来表示不同长度的文本(句子、文档)，并且能更够捕捉到不同文本在语义上的相似性，得到与某个句子最相似的句子。解决了用词袋模型表示文档的词序问题以及数据的稀疏性和高维性。训练文本数据时，如果将PV-DBOW与PV-DM结合则能得到更好的效果。

S400：基于得到的段落嵌入向量集P，通过修改的K-Means聚类算法进行无监督聚类，聚类个数K与服务数据集的标准分类数目相同。

所述S400具体步骤如下：

由于本文所进行聚类的样本点是用服务描述文档训练得到文本向量，因此本文提出的修改的K-Means算法将采用使用余弦相似度来计算样本点与聚类中心点之间的距离，这种方法更能够把语义相似度高的样本点聚类到一起，从而提高服务聚类的效果。同时，结合K-Means++算法来优化初始聚类中心点的选取。

S411：从P中随机选择一个样本作为第一个初始聚类中心μ₁；

S413：计算样本点被选作下一个聚类中心的概率

S414：用轮盘法选出下一个聚类中心μ_i；

S421：每个样本点x与K个聚类中心的余弦相似度

S424：重复S421-S423，直到μ_i＝μ′_i。

S500：基于查询语句Q＝{w₁，w₂，...，w_m}和训练所得的词嵌入向量集E扩展查询得到扩展的查询语句Q_e和扩展的查询向量V_qe。

所述S500的具体步骤包括：

S510：遍历Q中的每个单词w_i，从词嵌入集中得到该单词的词嵌入向量v_w和于其最相似的前10个词嵌入向量E.top_10_similar(w)；

本发明使用了词嵌入邻近空间中的词来扩展查询，以解决用户查询的简短和语义稀疏的问题。附加了邻近空间中的词后，查询将能够体现更多的上下文信息，提高服务搜索的准确性。

S600：基于扩展的查询语句Q_e计算其与聚类所得的聚类簇的Doc2Vec矩阵：C＝{C₁，C₂，...，C_h}的平均相似度，将相似度最高的簇，作为目标簇。

S600包含如下具体步骤：

S610：将Q_e映射为Doc2Vec向量PV_qe；

S700：基于所选目标簇和训练所得的词嵌入向量，构建高斯LDA模型，通过吉布斯采样，经过有限次迭代收敛后即可得到“文档-主题分布”和“主题”的高斯分布。

S700包含如下具体步骤：

高斯LDA模型假设文档不是由词形序列所组成的，而是由词嵌入序列组成的。模型将词形w或者v_d，i(索引文档d，位置i处的词)记作v(w)∈R^M。由于此模型所观察的不再是离散数据而是M维的连续向量，所以将每个主题k描述维一个以μ_k为均值，以∑_k为协方差的多元高斯分布。与LDA一样，每个文档都被认为是主题的混合，它的比例通过对称的狄利克雷先验获得。高斯LDA的图模型如图10所示。

为了降低算法的复杂度，高斯LDA模型使用了协方差矩阵的柯列斯基分解(Cholesky decomposition)方法这种更快的推理技术，高斯LDA模型通过观察词向量组成的文档推断主题参数的后验分布，比例和分配给每个单词的主题，并推导出一个可分解的吉布斯采样器(公

式2)，它可以将主题分配重新分解为单个单词向量。

其中，z_-(d，i)表示为词嵌入集中的每个词当前指定的主题，不包括位于服务描述文档集d的位置i^th的服务描述；V_d是文档d的向量空间；t_v′(x|μ′，∑′)是以v′为自由度，μ′，∑′为参数的t分布。三元组ζ＝(μ，k，∑，v)表示先验分布的参数。需要注意的是公式2的第一部分，即表示文档d中主题k的概率的部分与LDA相同。这是因为从文档主题分布中为每个单词(词向量)生成主题分布的模型与LDA是相同的。公式2的第二部分，表示主题k分配给单词向量v_d，i的概率，是由多元t分布给出的，t分布的参数为(μ_k，K_k，∑_k，v_k)。后验预测分布的参数为：公式(3)～(7)。

K_k＝k+N_k (3)；

v_k＝v+N_k (5)；

其中，和C_k通过公式(8)和(9)得到：

其中，是采样平均值，C_k是向量的样本协方差与分配的主题k的比例形式。N_k表示所有文档中单词分配给主题k的计数。μ_k和∑_k表示主题分布的后验均值和协方差，K_k和v_k表示前验均值和协方差的强度。

S720：高斯LDA模型中，每一个服务描述文档中的每一个单词都是一个词嵌入向量e∈R^M，每个主题k描述为一个以μ_k为均值，以∑_k为协方差的多元高斯分布；每一个词嵌入向量e与潜在主题z相关，每一个主题z与每一个服务描述文档s相关，用高斯LDA模型对服务描述文档建模可认为由两层构成：服务-主题层和主题-词嵌入层，从而生成两种分布：服务-主题分布和主题的高斯分布。S800：基于高斯LDA生成的两个分布与扩展的用户查询语句，将服务排序过程建模为查询表示与服务描述的主题表示之间的概率匹配，生成候选服务匹配列表。

S800包含如下具体步骤：

如果要根据给定的用户查询，对目标簇中的所有候选服务排序，则需要推导出一种排序算法来衡量用户查询与目标簇候选Web服务之间的相关性，相关性越大，该候选服务与用户查询越匹配，排名越靠前。本发明将服务排序过程建模为查询表示与服务描述的主题表示之间的概率匹配。

服务排序过程依赖于对目标簇中的候选服务建模所生成的两个概率分布。具体来说，服务排序所生成的概率被定义为P(Q|s_i)，其中Q表示查询所包含的单词集，s_i表示目标簇中的第i个候选服务，使用高斯LDA建模后得到的分布，P(Q|s_i)可以由公式1计算得到。

其中，Q_e由查询扩展得到，P(e|z)和P(z|s_i)表示概率的后验分布。吉布斯采样得到各文档的主题概率分布和各主题的高斯分布参数：均值μ和协方差∑。由多元高斯分布的密度公式3.2对词嵌入集中的所有词向量进行计算，可得各词嵌入所对应的概率密度值。

要得到主题对应的主题词，需要将公式10计算结果排序，但是，因为p(X)的计算所得数值小，计算复杂性较高。所以，可以计算每个词向量与均值的距离来判断词向量的概率值排名，从而获得主题词。由矩阵θ可以计算得到P(z|s_i)，计算词嵌入与主题均值的距离可以衡量P(e|z)。

参数优化：

在模型的训练和构建过程中，需要设置一些超参数来控制和优化模型的训练效果。下面以OWLS-TC4测试数据集的参数调优为例，讨论的参数有：Doc2Vec的维度：vector_size，迭代次数epochs。查询扩展的阈值τ。

①Doc2Vec的维度：vector_size，迭代次数epochs。

对于不同的语料库，往往需要设置不同的Doc2Vec维度和迭代次数才可以使训练的效果达到最佳。根据多次实验确定迭代40次训练效果较好。本文设置维度：vector size∈[200，400]，步长为50，用精度，召回率和F值来衡量聚类效果，从图2可以看出，当维度：vector_size＝300时聚类效果最优。

②查询扩展的阈值τ。

相似度阈值τ控制着查询扩展的效果。若相似度阈值过高，可扩展的单词数目会变少；若相似度阈值过低，可能会引入一些不相关的单词。因此，为了获得一个更合适的相似度阈值，根据F1值通过V折交叉验证(V-fold Cross Validation)来调整参数，此方法首先将数据集平均分为V份，然后每次从V份中提取一份作为验证集，剩余V-1份作为训练集，经过V次迭代后，平均V次迭代的结果作为参数调优的结果。将实验的阈值变化范围设置为：τ∈[0.80，0.99]，步长为0.01。图3展示了不同相似性阈值τ对Web服务发现性能的影响。根据图3所示，随着阈值的变化F值的波动较大，原因应是聚类选择导致了目标簇选择的不同，服务排序导致了候选服务的排序不同。当阈值τ为0.90时，F值达到最大，因此本文将查询扩展的相似性阈值τ设置为0.90。

试验对比：

本发明选择的ProgammableWeb的真实数据集来自网站ProgammableWeb，OWLS-TC4检索测试集来自网站：http：//projects.semwebcentral.org/projects/owls-tc/。其中，ProgammableWeb的真实数据集包括一共有384个类，12919个API服务，每个类别的平均包含33.73个服务。OWLS-TC4检索测试集包括9个类别，1082个服务，还提供了42个与相关领域有关的查询，每个查询对应的候选服务具有二进制相关性(0表示不相关，1表示相关)。

为了实验的有效性，本发明仅选取了ProgammableWeb的真实数据集中服务数目大于50的类别，包括：工具，金融，广告，旅行等52个类，共10045个服务；OWLS-TC4测试数据集选取了所有的服务文档和相关性为1的候选服务数目大于等于50的查询语句。

1.服务发现性能的评价指标为精度Precision@K、召回率Recall@K、和F1-Measure@K。

精度表示服务排序列表的前N个服务(Top N)中与查询语句相关的服务数目和N的比值，精度基于(11)公式计算：

召回率是服务排序列表的前N个服务(Top N)中与查询语句相关的服务数目和查询相关性集的长度比值，召回率基于(5.2)公式计算：

F值是精度和召回率的调和平均值，F值基于(5.3)公式计算：

其中，Q表示用户查询集，P(q)表示查询q的服务排序列表的前N个服务，T(q)表示查询q的真实的服务相关性，Precision和Recall分别是准确率Precision@K和召回率Recall@K的缩写。

2.聚类性能的评价指标也为精度，召回率和F值，但是定义与服务发现性能评价指标略有不同。设Web服务的M个标准分类为：RSC＝{RC₁，RC₂，...，RC_M}，将Web服务聚类结果表示为ESC＝{EC₁，EC₂，...，EC_V}。精度和召回率指标定义如下：

其中，|EC_i|表示簇EC_i中的Web服务数目，|RC_i|表示RC_i中的Web服务数目，而|EC_i∩RC_i|表示成功放入簇RC_i的Web服务数目。

试验结构的对比和分析：

为了使得本发明的性能达到最优，需要设置参数有：Doc2Vec的维度vector_size和迭代次数epochs，Word2Vec的维度size和迭代次数iter，高斯LDA的主题数Topic和迭代次数iter，查询扩展的相似性阈值τ。通过对所有的参数组合进行实验，找到了最优的参数值选择。对于OWLS-TC4数据集而言，最优的参数值是：vector_size＝300，epochs＝40，size＝50，iter＝25，Topic＝3，iter＝10，τ＝0.90。对于ProgammableWeb数据集而言，最优的参数值是vector_size＝400，epochs＝20，size＝100，iter＝10，Topic＝3，iter＝20，τ＝0.75。

1.由于服务聚类是本发明的关键步骤，因此对比了几种不同的聚类方法，它们分别如下：

TFIDF-K:这个方法使用TF-IDF表示Web服务描述文档向量，然后使用K-Means算法对TF-IDF矩阵聚类。

Doc2Vec-K：这个方法使用Doc2Vec表示Web服务描述文档向量，然后使用K-Means算法对Doc2Vec矩阵聚类。

本发明提出基于Doc2Vec和修改的K-Means的聚类方法的称作Doc2Vec-RK。

①服务聚类由Dov2Vec段落向量训练，修改的K-Means算法聚类和聚类选择构成。本发明使用Doc2Vec中的DBOW模型来训练段落向量。OWLS-TC4测试数据集的训练参数为：min_count＝1,window＝10,vector_size＝300,epochs＝40。最终训练得到的矩阵大小为：1082*300。ProgammableWeb数据集的训练参数为：min_count＝5,window＝5,vector_size＝400,epochs＝20。最终训练得到的矩阵大小为：10045*400。

图4(a)展示了用t-SNE可视化修改的K-Means算法对数据集的段落向量聚类的效果。OWLS-TC4数据集被聚类为9类。根据图4(a)的结果，OWLS-TC4测试数据集被分为9类。同一类中元素聚类相对紧密，类间距相对较远，符合聚类期望。

图4(b)为t-SNE可视化服务聚类模型对数据集的段落向量聚类的效果，数据集被聚类为52类。由图4(b)可以看出虽然大部分相同颜色的点彼此聚集，但是簇与簇之间没有明显边界，相互叠加在一起。

表1展示了OWLS-TC4中查询语句：“City Countary Hotel Service”与9个簇的平均相似度。

表1

簇	平均相似度
		簇0	0.7668
簇1	0.6707
		簇2	0.4726
簇3	0.7573
		簇4	0.4928
簇5	0.4412
		簇6	0.5156
簇7	0.3574
		簇8	0.4208

②参见图5(a)可知Doc2Vec-RK的精度最高，F值最高；TFIDF-K的聚类方法召回率最高，但是精度最低，F值最低。这也能证明相比于经典的K-Means算法本发明提出的修改的K-Means算法更能够发现服务描述文档之间的语义相关性提高聚类精度，同时保持较高的召回率达到较好的F值。图5(b)可以看出，本发明的服务聚类模型略好于Doc2Vec+K-Means聚类方法，证明了修改的K-Means方法的有效性，而略差于TF-IDF+K-Means聚类模型，但是从训练的时间上来看，由于数据的大量增加TF-IDF的训练时间很长，这是由于TFIDF模型的数据稀疏性和维度灾难所导致的。

综合图5(a)和5图(b)，本发明提出的服务聚类方法的精度最高，F值最高；可以看出虽然TFIDF-K的召回率略高于Doc2Vec-K，但是其精度和F值则明显低于Doc2Vec-K，这是因为用TFIDF表示服务描述文档，无法表示文本词序，导致相同单词构成的不同文本有相同的TFIDF表示；TFIDF无法体现出上下文单词之间的关系，更无法捕捉到不同文本在语义上的相似性。而这些缺点都可以由Doc2Vec段落嵌入所弥补。Doc2Vec-K虽然召回率高于本发明，但精度和F值低于本发明，由此可以看出本发明将衡量样本点之间的距离的方法修改为余弦相似度确实更能够发现服务描述文档之间的语义相关性提高聚类精度，同时保持较高的召回率得到较好的F值，证明了修改的K-Means算法聚类的有效性。

2.为了进一步验证本发明的有效性，将其与传统的服务发现算法进行了对比，它们分别如下：

TFIDF-K：每一个服务描述文档被使用TF-IDF表示，接着使用K-Means聚类，使用LDA做聚类选择，最后通过计算用户查询与服务文档的余弦相似度来进行服务排序。

LDA：使用LDA来直接对服务描述文档建模，然后通过计算各查询语句与LDA构建的服务描述文档矩阵的相似度来进行服务排序。将LDA的主题数K设置为15。

Doc2Vec-K：首先使用Doc2Vec表示服务描述文档，然后使用K-Means算法聚类，最后计算用户查询与每一个服务描述文档的相似度。

本发明提出的基于聚类和高斯LDA的服务发现方法称作DK-GLDA-QE。

图6，图7，图8分别展示了所得到的精度，召回率和F值。由图可以看出，随着服务排序列表的服务数目N的增长，召回率和F值都在逐渐上涨，而精度在逐渐下跌。这是因为随着服务列表中服务的增多与测试集匹配的服务也在增多，从而召回率上涨。本发明使用的模型在精度，召回率和F值上都优于其他3个方法。

这表明基于聚类和高斯LDA的服务发现方法是有效的。对比四种方法可以发现，TFIDF-K的方法效果最差，主要原因是使用LDA进行聚类选择时，需要计算用户查询语句的LDA表示和各聚类簇的LDA表示的平均相似度，由于用户查询语句的语义稀疏性，LDA很难捕捉到用户查询语句的语义，也就很难准确地得到与用户查询语句最匹配的目标簇，这将会导致之后的服务排序效果变差。LDA是一种普遍使用的主题模型，被很多研究者参考和使用，从实验结果来看，它的服务发现性能略差于Doc2Vec-K，可能是由于Doc2Vec对服务描述文档建模可以利用服务描述文档的上下文信息，获得更多的语义信息。且由于Doc2Vec-K对服务进行聚类，可以将更多具有相似语义的服务描述文档聚集到一起，这样也提高的服务匹配的效率。

服务排序结果：

表2展示了OWLS-TC4数据集中查询“Car Bicycle price”的Top10服务排序结果。从语义上可以看出与查询语句的匹配度很高。

表3展示了ProgammableWeb数据集查询语句：“book travel tours andactivities for upcoming trips”(为即将到来的旅行寻找旅行线路和活动)的前10个最终查询到的服务。

表2

Top N	服务索引	服务名称
			1	79	Car Price service
2	60	Car1PersonBicyclePrice service
			3	70	4wheeledcar year price report service
4	72	4WheeledCar price service
			5	80	Car Price service
6	169	T-car price service
			7	59	Car1PersonBicyclePrice service
8	68	4WheeledCar2PersonBicyclePrice service
			9	126	Auto RecommendedPrice Color service
10	232	FastCar Recommended price service

表3

由表2可知，查询与簇0的平均相似度最高，达到了0.7668，与其余大部分簇的相似度较小，尤其与簇7最不相似只有0.3574的平均相似度。因此将选择簇0作为之后服务建模，服务查询的目标簇。

由表3可以看出，列表排名前10的服务有7个原属于“旅行”类别，都是关于旅行计划定制的服务，与用户查询的相关性很高。而另外三个服务虽然原属于其他类别，但也可从旅行线路，娱乐和天气等方面提供旅行计划定制的帮助。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于聚类和高斯LDA的服务发现方法，其特征在于，包括如下步骤：

S400：基于得到的段落嵌入向量集P，通过修改的K-Means聚类算法进行无监督聚类，聚类个数K与服务数据集的标准分类数目相同，具体步骤如下：

S411：从P中随机选择一个样本作为第一个初始聚类中心μ₁；

S413：计算样本点被选作下一个聚类中心的概率

S414：用轮盘法选出下一个聚类中心μ_i；

S421：每个样本点x与K个聚类中心的余弦相似度

S424：重复S421-S423，直到μ_i＝μ′_i；

S500：基于查询语句Q＝{w₁，w₂，...，w_m}和训练所得的词嵌入向量集E扩展查询得到扩展的查询语句Q_e和扩展的查询向量V_qe，具体步骤包括：

S520：依次计算E.top_10_similar(w)词嵌入向量与单词w_i的余弦相似度，如果大于相似度阈值τ，则将该单词添加到Q_e，将其对应的词向量添加到扩展的查询向量V_qe；

S600：基于扩展的查询语句Q_e计算其与聚类所得的聚类簇的Doc2Vec矩阵：C＝{C₁，C₂，...，C_h}的平均相似度，将相似度最高的簇，作为目标簇，具体步骤包括：

S610：将Q_e映射为Doc2Vec向量PV_qe；

S620：计算计算PV_qe与聚类簇C_i中的各个服务描述文档的段落嵌入向量的余弦相似度，并将其取平均值sim_average，得到平均相似度最高的簇：cluster_select＝max(sim_average)作为该查询语句的目标簇；

S700：基于所选目标簇和训练所得的词嵌入向量，构建高斯LDA模型，通过吉布斯采样，经过有限次迭代收敛后即得到“文档-主题分布”和“主题的高斯分布”，具体步骤：

S720：高斯LDA模型中，每一个服务描述文档中的每一个单词都是一个词嵌入向量e∈R^M，每个主题k描述为一个以μ_k为均值，以∑_k为协方差的多元高斯分布；每一个词嵌入向量e与潜在主题z相关，每一个主题z与每一个服务描述文档s相关，用高斯LDA模型对服务描述文档建模认为由两层构成：服务-主题层和主题-词嵌入层，从而生成两种分布：服务-主题分布和主题的高斯分布分布；

S800：基于高斯LDA生成的两个分布与扩展的用户查询语句，将服务排序过程建模为查询表示与服务描述的主题表示之间的概率匹配，生成候选服务匹配列表，具体步骤包括：

其中，Q_e表示扩展的查询语句，P(elz)和P(z|s_i)分别表示概率的后验分布。