CN111475608B

CN111475608B - 一种基于功能语义关联计算的Mashup服务特征表示方法

Info

Publication number: CN111475608B
Application number: CN202010127362.2A
Authority: CN
Inventors: 陆佳炜; 吴涵; 马超治; 张元鸣; 高飞; 肖刚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2022-06-17
Anticipated expiration: 2040-02-28
Also published as: CN111475608A

Abstract

一种基于功能语义关联计算的Mashup服务特征表示方法，所述方法包括以下步骤：第一步、对所有需要特征表示的Mashup服务数据进行预处理；第二步、基于预处理后的Mashup服务数据，进行功能名词提取操作；第三步、对于每条Mashup服务的功能名词集合FS，对每个功能名词的语义权重进行语义关联计算；第四步、基于第三步的语义权重计算结果，结合TF‑IDF算法与Word2Vec模型，进行Mashup语义特征向量的表示。本发明能够有效提升Mashup服务的匹配精度，以及服务搜索效率。

Description

一种基于功能语义关联计算的Mashup服务特征表示方法

技术领域

本发明涉及Mashup服务聚类领域，具体涉及一种基于功能语义关联计算的Mashup服务特征表示方法。

背景技术

近年来,随着大数据、云计算、移动互联网等信息技术的不断发展，Web服务所面临的业务场景也更加多样复杂，传统的单功能服务已经无法满足现实中灵活多变的用户需求。在这种背景下,Mashup技术被认为是解决该问题的一个关键途径。Mashup技术通过混搭多种不同功能的Web API服务，从而构建出一种全新的Web应用—Mashup服务。这一便捷高效的开发技术极大的提升了软件开发人员对于组合级应用的开发效率,它允许软件开发人员从类似ProgrammableWeb这样的公共服务仓库中，挑选出若干合适的Web API进行Mashup服务构建。因此，对于软件开发人员而言，如何挑选出最具参考价值的Mashup服务成为需要解决的重点问题。然而，主流的服务仓库中注册有数量庞大的Mashup服务，并且大多数的Mashup服务仅采用自然语言的方式对服务进行描述，缺乏规范性的Web服务描述语言(WSDL)文档,这无疑给服务搜索工作增加了极大的难度。

为了能让计算机精准定位满足用户需求的Mashup服务，国内外不少研究学者都将研究的重点聚焦于Mashup服务描述，利用TF-IDF、LDA、Word2Vec等模型来对服务描述文本进行功能特征表示，以此提升服务识别精度，加快服务搜索的效率。例如，Gao等人就利用TF-IDF技术将Mashup服务描述文本表示成TF-IDF向量，并在此基础上对Mashup服务进行聚类、推荐等工作。Shi等人通过结合Word2Vec和LDA，设计出一种增强LDA模型，用于生成高质量的词向量模型，进而提升Mashup服务的匹配精度。Cao等人利用Mashup服务的名称、描述、标签、类别、Web API等属性构建出一种新颖的Mashup网络模型，并结合LDA技术将该网络模型整合到Mashup服务主题模型的计算过程中，有效的提升了Mashup服务的匹配精度及聚类性能。

发明内容

为了能够有效提升Mashup服务的匹配精度，以及服务搜索效率。本发明提出了一种基于功能语义关联计算的Mashup服务特征表示方法。该方法首先对每条Mahsup服务描述文本进行了规范化处理，并根据Web API组合的标签对相应Mashup服务标签进行扩充。在此基础上，利用服务标签以及服务描述中的功能名词信息，进行功能语义关联计算，并将其计算结果作为语义制约因子嵌入TF-IDF权重公式，使权重计算敏感于文档的语义关联变化。最后，将权重计算结果与Word2Vec词向量相结合，构造出Mashup语义特征向量，使其更能反映服务真实的功能特征。

为了解决上述技术问题本发明所采用的技术方案是：

一种基于功能语义关联计算的Mashup服务特征表示方法，包括以下步骤：

第一步、对所有需要特征表示的Mashup服务数据进行预处理，过程如下：

步骤(1.1)遍历每条Mashup服务信息，针对性的提取出服务名称、服务描述、WebAPI组合信息、类别信息以及标签信息进行整理，进行步骤(1.2)；

步骤(1.2)如果遇到缺失服务描述或描述内容过于简短的情况，则直接将该服务剔除，进行步骤(1.3)；

步骤(1.3)如果遇到缺失服务名称的情况，则将设置特定的递增序列号作为默认的服务名称，进行步骤(1.4)；

步骤(1.4)对于每条服务的描述内容，将具有特殊语义的符号进行转义，例如将“$”改写为“dollar”。同时剔除“▲”、“#”这样不包含任何语义信息的字符，以便于在后一阶段提升功能词汇检索的运行效率。进行步骤(1.5)；

步骤(1.5)检查服务描述中的单词完整性，若有字母缺失的情况，先尽可能进行补全复原，而对于实在无法补全的单词，则将其剔除，进行步骤(1.6)；

步骤(1.6)根据每条Mashup服务的Web API组合属性，获取相应的Web API服务信息，进而利用这些Web API的标签对相应的Mashup服务标签进行扩充，使得扩充后的Mashup服务标签更能全面体现服务的功能特点，进行步骤(1.7)；

步骤(1.7)判断Mashup服务信息是否遍历完成，若否，则返回步骤(1.1)，否则，结束；

第二步、基于预处理后的Mashup服务数据，进行功能名词提取操作，过程如下：

步骤(2.1)遍历Mashup服务数据，对每条服务描述内容进行词性标注。进行步骤(2.2)；

步骤(2.2)基于步骤(2.1)的词性标注结果，过滤掉副词、形容词、量词这些没有实际语义的停用词，进行步骤(2.3)；

步骤(2.3)在剩余的名词中进行词形还原，去重后放入临时名词集合中，进行步骤(2.4)；

步骤(2.4)检查临时名词集合中是否掺杂了类似Mashup服务名称这样无功能语义的名词成分，若有，则剔除，而保留下来的其他名词则作为最终的功能名词集合FS。否则，将临时名词集合直接作为功能名词集合FS，进行步骤(2.5)；

步骤(2.5)判断Mashup服务是否遍历完成，若否，则返回步骤(2.1)，否则，结束；

第三步、对于每条Mashup服务的功能名词集合FS，对每个功能名词的语义权重进行语义关联计算，过程如下：

步骤(3.1)计算所有功能名词集合FS的平均长度LAvg，计算公式如下：

其中，Set(FS)表示存放FS的集合，|Set(FS)|则是该集合的长度，进行步骤(3.2)；

步骤(3.2)遍历各Mashup服务信息，包括对应的功能名词集合FS，计算名词间语义关联权重对最终语义权重的影响因子w，若当前FS的集合长度len(FS)不等于LAvg，那么影响因子w公式如下所示：

否则，w设为默认值0.5，进行步骤(3.3)；

步骤(3.3)遍历当前FS中的名词,计算第i个功能名词与其他名词之间的语义关联权重FSim_i，计算公式如下：

其中，WordNet(n_i,n_j)表示第i个功能名词与第j个功能名词之间的语义相似度，|FS|表示功能名词集合FS中所包含的名词个数，进行步骤(3.4)；

步骤(3.4)在当前服务的服务标签中，计算出与功能名词n_i语义相似性最大的值，作为n_i的语义权重校正量TSim_i，其中，语义相似性同样采用WordNet函数计算，进行步骤(3.5)；

步骤(3.5)计算出功能名词n_i的最终语义权重SW_i，并存于当前服务功能语义权重字典SimDic中，其中，SW_i计算公式如下：

SW_i＝w×Sim_i+(1-w)×TSim_i，w即为步骤(3.2)计算的影响因子，进行步骤(3.6)；

步骤(3.6)只将语义权重较高的前LAvg个单词存放于当前字典SimDic中，剔除其他单词，进行步骤(3.7)；

步骤(3.7)判断当前FS中的名词是否遍历完成，若否，则返回步骤(3.3)，否则，进行步骤(3.8)；

步骤(3.8)判断Mashup服务是否遍历完成，若否，则返回步骤(3.2)，否则，结束；

第四步、基于第三步的语义权重计算结果，结合TF-IDF算法与Word2Vec模型，进行Mashup语义特征向量的表示，过程如下：

传统的TF-IDF算法常被用于评估某个单词对于文档集合中的某一份文档的重要程度，其中，词频TF表示某个单词在指定文档中出现的频度，而逆文档频率IDF则用于表示单词区分文档的能力。TF-IDF的最终计算结果就是由TF值与IDF值相乘而得；

虽然TF-IDF值的计算方式比较快捷方便，但是仅以TF-IDF权重来衡量单词对于文档的重要性，仍然还是不够全面的。因此，对于每条Mashup服务，本发明基于第三步的语义权重计算结果，将字典SimDic中存放的单词进行最终的权重计算，将字典中每个单词x的语义权重SW_x嵌入到TF-IDF算法中。这样不仅去除了无实际语义单词对计算结果的干扰，而且使权重计算敏感于文档的语义关联变化，最终的单词权重TS_x计算公式如下所示：

其中，TF-IDF_xy表示单词x在服务描述文本y中的TF-IDF权重，在此基础上，本发明借助由谷歌新闻作为语料训练好的Word2Vec模型，将字典SimDic中的单词向量化，并结合TS计算公式进行Mashup语义特征向量的表示。其中，Word2Vec模型由Mikolov等人于2013年提出，该模型将文本中的内容词汇通过转换处理，化简为空间向量，词向量的数值受上下文的影响，蕴含了词与词之间相互的关联性。

步骤(4.1)遍历每条Mashup服务信息，包括对应的功能语义权重字典SimDic，进行步骤(4.2)；

步骤(4.2)初始化Mashup语义特征向量DVec_y，进行步骤(4.3)；

步骤(4.3)遍历当前字典SimDic中的单词x，并利用训练好的Word2Vec模型将其转化为词向量WVec_x，进行步骤(4.4)；

步骤(4.4)从当前字典SimDic中提取单词x的语义权重SW_x，并计算出单词x的TF-IDF权重TF-IDF_xy，进行步骤(4.5)；

步骤(4.5)结合TS计算公式，计算出单词x的TS权重TS_x，进行步骤(4.6)；

步骤(4.6)判断是否当前SimDic存在多个单词，并且语义权重SW_x为0，若是，则将将TS_x置为0，否则，直接进行步骤(4.7)；

步骤(4.7)对Mashup语义特征向量DVec_y进行累加计算，计算公式如下：

DVec_y+＝WVec_x×TS_x，进行步骤(4.8)；

步骤(4.8)判断当前字典SimDic中的单词是否遍历完成，若否，则返回步骤(4.3)，否则，进行步骤(4.9)；

步骤(4.9)判断Mashup服务信息是否遍历完成，若否，则返回步骤(4.1)，否则，结束。

本发明的有益效果是，根据Web API组合的标签对相应Mashup服务标签进行扩充，从而确保标签数量相对合理完善。然后，提取出各服务描述的功能名词集合，并计算它们的功能语义权重。进一步，结合TF-IDF模型与Word2Vec模型，将功能语义权重较高的若干名词表示成Mashup语义特征向量，使其更能反映服务真实的功能特征，进而提升Mashup服务的匹配精度以及搜索效率。

附图说明

图1为Mashup语义特征向量的构建过程图。

图2为功能名词提取过程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于功能语义关联计算的Mashup服务特征表示方法，其特征在于，所述方法包括以下步骤：

第一步、对所有需要特征表示的Mashup服务数据进行预处理；

第二步、基于预处理后的Mashup服务数据，进行功能名词提取操作；

第三步、对于每条Mashup服务的功能名词集合FS，对每个功能名词的语义权重进行语义关联计算；

对于每条Mashup服务，基于第三步的语义权重计算结果，将字典SimDic中存放的单词进行最终的权重计算，将字典中每个单词x的语义权重SW_x嵌入到TF-IDF算法中，最终的单词权重TS_x计算公式如下所示：

其中，TF-IDF_xy表示单词x在服务描述文本y中的TF-IDF权重，在此基础上，借助由谷歌新闻作为语料训练好的Word2Vec模型，将字典SimDic中的单词向量化，并结合TS计算公式进行Mashup语义特征向量的表示。

首先结合图1，对本发明所提方法的整体过程进行描述，描述内容如下：

在初始阶段，方法先对所有Mashup服务数据进行预处理，主要包括以下三个步骤：

服务元信息提取：提取出各Mashup服务的服务名称、服务描述、Web API组合信息、类别信息以及标签信息进行整理。其中，如果遇到缺失服务描述或描述内容过于简短的情况，则直接将该服务剔除；如果遇到缺失服务名称的情况，则将设置特定的递增序列号作为默认的服务名称，保证后续操作对于该服务的可操作性。

服务描述整理：对于每条服务的描述内容，首先将具有特殊语义的符号进行转义，例如将“$”改写为“dollar”。其次，剔除“▲”、“#”这样不包含任何语义信息的字符，以便于在后一阶段提升功能词汇检索的运行效率。最后，检查每个单词的完整性，若有字母缺失的情况，先尽可能进行补全复原，而对于实在无法补全的单词，则将其剔除。

服务标签扩充：根据每条服务的Web API组合属性，爬取相应的Web API服务信息，再利用这些Web API的标签对相应的Mashup服务标签进行扩充，使得扩充后的Mashup服务标签更能全面体现服务的功能特点。

基于预处理后的Mashup服务数据，方法先通过功能名词提取步骤来精准定位每条服务描述中的功能名词。进一步，利用语义关联计算步骤，来对上一步提取出的功能名词进行语义权重计算，并且在计算过程中充分考虑了服务标签与功能名词之间的关联性，确保语义权重的真实性与正确性。最后，方法将语义权重作为语义制约因子嵌入TF-IDF权重公式，并与Word2Vec词向量结合计算，构造出Mashup语义特征向量。

下面对本发明所述的Mashup服务特征表示方法做具体介绍，具体步骤如下：

步骤(1.7)判断Mashup服务信息是否遍历完成，若否，则返回步骤(1.1)，否则，结束。

第二步、基于预处理后的Mashup服务数据，结合图2流程，进行功能名词提取操作，过程如下：

步骤(2.1)遍历Mashup服务数据，使用Python NLTK工具对每条服务描述内容进行词性标注。其中，Python NLTK是一种自然语言处理工具包，主要功能包括形还原、词干化、词性分类，进行步骤(2.2)；

步骤(2.3)在剩余的名词中进行词形还原，去重后放入如图2中部所示的临时名词集合中。进行步骤(2.4)；

步骤(2.4)检查临时名词集合中是否存在无功能语义的名词成分，例如，图2临时名词集合中pricemachine、mashup这类没有实际功能语义的词汇。若有，那么需要将这些名词成分剔除，而保留下来的其他名词则作为最终的功能名词集合FS。否则，将临时名词集合直接作为功能名词集合FS，进行步骤(2.5)；

步骤(2.5)判断Mashup服务是否遍历完成，若否，则返回步骤(2.1)，否则，结束。

第三步、对于每条Mashup服务的功能名词集合FS，结合WordNet工具来对每个功能名词的语义权重进行语义关联计算，过程如下：

否则，w设为默认值0.5，进行步骤(3.3)；

其中，WordNet(n_i,n_j)表示第i个功能名词与第j个功能名词之间的语义相似度，|FS|表示功能名词集合FS中所包含的名词个数。WordNet是由普林斯顿大学认识科学实验室在心理学教授米勒的指导下建立和维护的英语词典，主要用于分析计算单词之间的语义关系。进行步骤(3.4)；

步骤(3.8)判断Mashup服务是否遍历完成，若否，则返回步骤(3.2)，否则，结束。

传统的TF-IDF算法常被用于评估某个单词对于文档集合中的某一份文档的重要程度，其中，词频TF表示某个单词在指定文档中出现的频度，而逆文档频率IDF则用于表示单词区分文档的能力。TF-IDF的最终计算结果就是由TF值与IDF值相乘而得。

虽然TF-IDF值的计算方式比较快捷方便，但是仅以TF-IDF权重来衡量单词对于文档的重要性，仍然还是不够全面的。例如，在Mashup服务描述中，一些词频较高的特殊名词、专属形容词往往也可以获得较高的TF-IDF权重值，但是这些单词却不具备太多的功能语义，无法反映出服务的实际功能特征。因此，对于每条Mashup服务，本发明基于第三步的语义权重计算结果，将字典SimDic中存放的单词进行最终的权重计算，将字典中每个单词x的语义权重SW_x嵌入到TF-IDF算法中。这样不仅去除了无实际语义单词对计算结果的干扰，而且使权重计算敏感于文档的语义关联变化。最终的单词权重TS_x计算公式如下所示：

其中，TF-IDF_xy表示单词x在服务描述文本y中的TF-IDF权重。在此基础上，本发明借助由谷歌新闻作为语料训练好的Word2Vec模型，将字典SimDic中的单词向量化，并结合TS计算公式进行Mashup语义特征向量的表示。其中，Word2Vec模型由Mikolov等人于2013年提出，该模型将文本中的内容词汇通过转换处理，化简为空间向量，词向量的数值受上下文的影响，蕴含了词与词之间相互的关联性。

步骤(4.2)初始化Mashup语义特征向量DVec_y，进行步骤(4.3)；

DVec_y+＝WVec_x×TS_x，进行步骤(4.8)；