CN111475608A - 一种基于功能语义关联计算的Mashup服务特征表示方法 - Google Patents

一种基于功能语义关联计算的Mashup服务特征表示方法 Download PDF

Info

Publication number
CN111475608A
CN111475608A CN202010127362.2A CN202010127362A CN111475608A CN 111475608 A CN111475608 A CN 111475608A CN 202010127362 A CN202010127362 A CN 202010127362A CN 111475608 A CN111475608 A CN 111475608A
Authority
CN
China
Prior art keywords
semantic
service
mashup
functional
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010127362.2A
Other languages
English (en)
Other versions
CN111475608B (zh
Inventor
陆佳炜
吴涵
马超治
张元鸣
高飞
肖刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010127362.2A priority Critical patent/CN111475608B/zh
Publication of CN111475608A publication Critical patent/CN111475608A/zh
Application granted granted Critical
Publication of CN111475608B publication Critical patent/CN111475608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

一种基于功能语义关联计算的Mashup服务特征表示方法,所述方法包括以下步骤:第一步、对所有需要特征表示的Mashup服务数据进行预处理;第二步、基于预处理后的Mashup服务数据,进行功能名词提取操作;第三步、对于每条Mashup服务的功能名词集合FS,对每个功能名词的语义权重进行语义关联计算;第四步、基于第三步的语义权重计算结果,结合TF‑IDF算法与Word2Vec模型,进行Mashup语义特征向量的表示。本发明能够有效提升Mashup服务的匹配精度,以及服务搜索效率。

Description

一种基于功能语义关联计算的Mashup服务特征表示方法
技术领域
本发明涉及Mashup服务聚类领域,具体涉及一种基于功能语义关联计算的Mashup服务特征表示方法。
背景技术
近年来,随着大数据、云计算、移动互联网等信息技术的不断发展,Web服务所面临的业务场景也更加多样复杂,传统的单功能服务已经无法满足现实中灵活多变的用户需求。在这种背景下,Mashup技术被认为是解决该问题的一个关键途径。Mashup技术通过混搭多种不同功能的Web API服务,从而构建出一种全新的Web应用—Mashup服务。这一便捷高效的开发技术极大的提升了软件开发人员对于组合级应用的开发效率,它允许软件开发人员从类似ProgrammableWeb这样的公共服务仓库中,挑选出若干合适的Web API进行Mashup服务构建。因此,对于软件开发人员而言,如何挑选出最具参考价值的Mashup服务成为需要解决的重点问题。然而,主流的服务仓库中注册有数量庞大的Mashup服务,并且大多数的Mashup服务仅采用自然语言的方式对服务进行描述,缺乏规范性的Web服务描述语言(WSDL)文档,这无疑给服务搜索工作增加了极大的难度。
为了能让计算机精准定位满足用户需求的Mashup服务,国内外不少研究学者都将研究的重点聚焦于Mashup服务描述,利用TF-IDF、LDA、Word2Vec等模型来对服务描述文本进行功能特征表示,以此提升服务识别精度,加快服务搜索的效率。例如,Gao等人就利用TF-IDF技术将Mashup服务描述文本表示成TF-IDF向量,并在此基础上对Mashup服务进行聚类、推荐等工作。Shi等人通过结合Word2Vec和LDA,设计出一种增强LDA模型,用于生成高质量的词向量模型,进而提升Mashup服务的匹配精度。Cao等人利用Mashup服务的名称、描述、标签、类别、Web API等属性构建出一种新颖的Mashup网络模型,并结合LDA技术将该网络模型整合到Mashup服务主题模型的计算过程中,有效的提升了Mashup服务的匹配精度及聚类性能。
发明内容
为了能够有效提升Mashup服务的匹配精度,以及服务搜索效率。本发明提出了一种基于功能语义关联计算的Mashup服务特征表示方法。该方法首先对每条Mahsup服务描述文本进行了规范化处理,并根据Web API组合的标签对相应Mashup服务标签进行扩充。在此基础上,利用服务标签以及服务描述中的功能名词信息,进行功能语义关联计算,并将其计算结果作为语义制约因子嵌入TF-IDF权重公式,使权重计算敏感于文档的语义关联变化。最后,将权重计算结果与Word2Vec词向量相结合,构造出Mashup语义特征向量,使其更能反映服务真实的功能特征。
为了解决上述技术问题本发明所采用的技术方案是:
一种基于功能语义关联计算的Mashup服务特征表示方法,包括以下步骤:
第一步、对所有需要特征表示的Mashup服务数据进行预处理,过程如下:
步骤(1.1)遍历每条Mashup服务信息,针对性的提取出服务名称、服务描述、WebAPI组合信息、类别信息以及标签信息进行整理,进行步骤(1.2);
步骤(1.2)如果遇到缺失服务描述或描述内容过于简短的情况,则直接将该服务剔除,进行步骤(1.3);
步骤(1.3)如果遇到缺失服务名称的情况,则将设置特定的递增序列号作为默认的服务名称,进行步骤(1.4);
步骤(1.4)对于每条服务的描述内容,将具有特殊语义的符号进行转义,例如将“$”改写为“dollar”。同时剔除“▲”、“#”这样不包含任何语义信息的字符,以便于在后一阶段提升功能词汇检索的运行效率。进行步骤(1.5);
步骤(1.5)检查服务描述中的单词完整性,若有字母缺失的情况,先尽可能进行补全复原,而对于实在无法补全的单词,则将其剔除,进行步骤(1.6);
步骤(1.6)根据每条Mashup服务的Web API组合属性,获取相应的Web API服务信息,进而利用这些Web API的标签对相应的Mashup服务标签进行扩充,使得扩充后的Mashup服务标签更能全面体现服务的功能特点,进行步骤(1.7);
步骤(1.7)判断Mashup服务信息是否遍历完成,若否,则返回步骤(1.1),否则,结束;
第二步、基于预处理后的Mashup服务数据,进行功能名词提取操作,过程如下:
步骤(2.1)遍历Mashup服务数据,对每条服务描述内容进行词性标注。进行步骤(2.2);
步骤(2.2)基于步骤(2.1)的词性标注结果,过滤掉副词、形容词、量词这些没有实际语义的停用词,进行步骤(2.3);
步骤(2.3)在剩余的名词中进行词形还原,去重后放入临时名词集合中,进行步骤(2.4);
步骤(2.4)检查临时名词集合中是否掺杂了类似Mashup服务名称这样无功能语义的名词成分,若有,则剔除,而保留下来的其他名词则作为最终的功能名词集合FS。否则,将临时名词集合直接作为功能名词集合FS,进行步骤(2.5);
步骤(2.5)判断Mashup服务是否遍历完成,若否,则返回步骤(2.1),否则,结束;
第三步、对于每条Mashup服务的功能名词集合FS,对每个功能名词的语义权重进行语义关联计算,过程如下:
步骤(3.1)计算所有功能名词集合FS的平均长度LAvg,计算公式如下:
Figure BDA0002394799840000031
其中,Set(FS)表示存放FS的集合,|Set(FS)|则是该集合的长度,进行步骤(3.2);
步骤(3.2)遍历各Mashup服务信息,包括对应的功能名词集合FS,计算名词间语义关联权重对最终语义权重的影响因子w,若当前FS的集合长度len(FS)不等于LAvg,那么影响因子w公式如下所示:
Figure BDA0002394799840000032
否则,w设为默认值0.5,进行步骤(3.3);
步骤(3.3)遍历当前FS中的名词,计算第i个功能名词与其他名词之间的语义关联权重FSimi,计算公式如下:
Figure BDA0002394799840000033
其中,WordNet(ni,nj)表示第i个功能名词与第j个功能名词之间的语义相似度,|FS|表示功能名词集合FS中所包含的名词个数,进行步骤(3.4);
步骤(3.4)在当前服务的服务标签中,计算出与功能名词ni语义相似性最大的值,作为ni的语义权重校正量TSimi,其中,语义相似性同样采用WordNet函数计算,进行步骤(3.5);
步骤(3.5)计算出功能名词ni的最终语义权重SWi,并存于当前服务功能语义权重字典SimDic中,其中,SWi计算公式如下:
SWi=w×Simi+(1-w)×TSimi,w即为步骤(3.2)计算的影响因子,进行步骤(3.6);
步骤(3.6)只将语义权重较高的前LAvg个单词存放于当前字典SimDic中,剔除其他单词,进行步骤(3.7);
步骤(3.7)判断当前FS中的名词是否遍历完成,若否,则返回步骤(3.3),否则,进行步骤(3.8);
步骤(3.8)判断Mashup服务是否遍历完成,若否,则返回步骤(3.2),否则,结束;
第四步、基于第三步的语义权重计算结果,结合TF-IDF算法与Word2Vec模型,进行Mashup语义特征向量的表示,过程如下:
传统的TF-IDF算法常被用于评估某个单词对于文档集合中的某一份文档的重要程度,其中,词频TF表示某个单词在指定文档中出现的频度,而逆文档频率IDF则用于表示单词区分文档的能力。TF-IDF的最终计算结果就是由TF值与IDF值相乘而得;
虽然TF-IDF值的计算方式比较快捷方便,但是仅以TF-IDF权重来衡量单词对于文档的重要性,仍然还是不够全面的。因此,对于每条Mashup服务,本发明基于第三步的语义权重计算结果,将字典SimDic中存放的单词进行最终的权重计算,将字典中每个单词x的语义权重SWx嵌入到TF-IDF算法中。这样不仅去除了无实际语义单词对计算结果的干扰,而且使权重计算敏感于文档的语义关联变化,最终的单词权重TSx计算公式如下所示:
Figure BDA0002394799840000041
其中,TF-IDFxy表示单词x在服务描述文本y中的TF-IDF权重,在此基础上,本发明借助由谷歌新闻作为语料训练好的Word2Vec模型,将字典SimDic中的单词向量化,并结合TS计算公式进行Mashup语义特征向量的表示。其中,Word2Vec模型由Mikolov等人于2013年提出,该模型将文本中的内容词汇通过转换处理,化简为空间向量,词向量的数值受上下文的影响,蕴含了词与词之间相互的关联性。
步骤(4.1)遍历每条Mashup服务信息,包括对应的功能语义权重字典SimDic,进行步骤(4.2);
步骤(4.2)初始化Mashup语义特征向量DVecy,进行步骤(4.3);
步骤(4.3)遍历当前字典SimDic中的单词x,并利用训练好的Word2Vec模型将其转化为词向量WVecx,进行步骤(4.4);
步骤(4.4)从当前字典SimDic中提取单词x的语义权重SWx,并计算出单词x的TF-IDF权重TF-IDFxy,进行步骤(4.5);
步骤(4.5)结合TS计算公式,计算出单词x的TS权重TSx,进行步骤(4.6);
步骤(4.6)判断是否当前SimDic存在多个单词,并且语义权重SWx为0,若是,则将将TSx置为0,否则,直接进行步骤(4.7);
步骤(4.7)对Mashup语义特征向量DVecy进行累加计算,计算公式如下:
DVecy+=WVecx×TSx,进行步骤(4.8);
步骤(4.8)判断当前字典SimDic中的单词是否遍历完成,若否,则返回步骤(4.3),否则,进行步骤(4.9);
步骤(4.9)判断Mashup服务信息是否遍历完成,若否,则返回步骤(4.1),否则,结束。
本发明的有益效果是,根据Web API组合的标签对相应Mashup服务标签进行扩充,从而确保标签数量相对合理完善。然后,提取出各服务描述的功能名词集合,并计算它们的功能语义权重。进一步,结合TF-IDF模型与Word2Vec模型,将功能语义权重较高的若干名词表示成Mashup语义特征向量,使其更能反映服务真实的功能特征,进而提升Mashup服务的匹配精度以及搜索效率。
附图说明
图1为Mashup语义特征向量的构建过程图。
图2为功能名词提取过程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于功能语义关联计算的Mashup服务特征表示方法,其特征在于,所述方法包括以下步骤:
第一步、对所有需要特征表示的Mashup服务数据进行预处理;
第二步、基于预处理后的Mashup服务数据,进行功能名词提取操作;
第三步、对于每条Mashup服务的功能名词集合FS,对每个功能名词的语义权重进行语义关联计算;
第四步、基于第三步的语义权重计算结果,结合TF-IDF算法与Word2Vec模型,进行Mashup语义特征向量的表示,过程如下:
对于每条Mashup服务,基于第三步的语义权重计算结果,将字典SimDic中存放的单词进行最终的权重计算,将字典中每个单词x的语义权重SWx嵌入到TF-IDF算法中,最终的单词权重TSx计算公式如下所示:
Figure BDA0002394799840000061
其中,TF-IDFxy表示单词x在服务描述文本y中的TF-IDF权重,在此基础上,借助由谷歌新闻作为语料训练好的Word2Vec模型,将字典SimDic中的单词向量化,并结合TS计算公式进行Mashup语义特征向量的表示。
首先结合图1,对本发明所提方法的整体过程进行描述,描述内容如下:
在初始阶段,方法先对所有Mashup服务数据进行预处理,主要包括以下三个步骤:
服务元信息提取:提取出各Mashup服务的服务名称、服务描述、Web API组合信息、类别信息以及标签信息进行整理。其中,如果遇到缺失服务描述或描述内容过于简短的情况,则直接将该服务剔除;如果遇到缺失服务名称的情况,则将设置特定的递增序列号作为默认的服务名称,保证后续操作对于该服务的可操作性。
服务描述整理:对于每条服务的描述内容,首先将具有特殊语义的符号进行转义,例如将“$”改写为“dollar”。其次,剔除“▲”、“#”这样不包含任何语义信息的字符,以便于在后一阶段提升功能词汇检索的运行效率。最后,检查每个单词的完整性,若有字母缺失的情况,先尽可能进行补全复原,而对于实在无法补全的单词,则将其剔除。
服务标签扩充:根据每条服务的Web API组合属性,爬取相应的Web API服务信息,再利用这些Web API的标签对相应的Mashup服务标签进行扩充,使得扩充后的Mashup服务标签更能全面体现服务的功能特点。
基于预处理后的Mashup服务数据,方法先通过功能名词提取步骤来精准定位每条服务描述中的功能名词。进一步,利用语义关联计算步骤,来对上一步提取出的功能名词进行语义权重计算,并且在计算过程中充分考虑了服务标签与功能名词之间的关联性,确保语义权重的真实性与正确性。最后,方法将语义权重作为语义制约因子嵌入TF-IDF权重公式,并与Word2Vec词向量结合计算,构造出Mashup语义特征向量。
下面对本发明所述的Mashup服务特征表示方法做具体介绍,具体步骤如下:
第一步、对所有需要特征表示的Mashup服务数据进行预处理,过程如下:
步骤(1.1)遍历每条Mashup服务信息,针对性的提取出服务名称、服务描述、WebAPI组合信息、类别信息以及标签信息进行整理,进行步骤(1.2);
步骤(1.2)如果遇到缺失服务描述或描述内容过于简短的情况,则直接将该服务剔除,进行步骤(1.3);
步骤(1.3)如果遇到缺失服务名称的情况,则将设置特定的递增序列号作为默认的服务名称,进行步骤(1.4);
步骤(1.4)对于每条服务的描述内容,将具有特殊语义的符号进行转义,例如将“$”改写为“dollar”。同时剔除“▲”、“#”这样不包含任何语义信息的字符,以便于在后一阶段提升功能词汇检索的运行效率。进行步骤(1.5);
步骤(1.5)检查服务描述中的单词完整性,若有字母缺失的情况,先尽可能进行补全复原,而对于实在无法补全的单词,则将其剔除,进行步骤(1.6);
步骤(1.6)根据每条Mashup服务的Web API组合属性,获取相应的Web API服务信息,进而利用这些Web API的标签对相应的Mashup服务标签进行扩充,使得扩充后的Mashup服务标签更能全面体现服务的功能特点,进行步骤(1.7);
步骤(1.7)判断Mashup服务信息是否遍历完成,若否,则返回步骤(1.1),否则,结束。
第二步、基于预处理后的Mashup服务数据,结合图2流程,进行功能名词提取操作,过程如下:
步骤(2.1)遍历Mashup服务数据,使用Python NLTK工具对每条服务描述内容进行词性标注。其中,Python NLTK是一种自然语言处理工具包,主要功能包括形还原、词干化、词性分类,进行步骤(2.2);
步骤(2.2)基于步骤(2.1)的词性标注结果,过滤掉副词、形容词、量词这些没有实际语义的停用词,进行步骤(2.3);
步骤(2.3)在剩余的名词中进行词形还原,去重后放入如图2中部所示的临时名词集合中。进行步骤(2.4);
步骤(2.4)检查临时名词集合中是否存在无功能语义的名词成分,例如,图2临时名词集合中pricemachine、mashup这类没有实际功能语义的词汇。若有,那么需要将这些名词成分剔除,而保留下来的其他名词则作为最终的功能名词集合FS。否则,将临时名词集合直接作为功能名词集合FS,进行步骤(2.5);
步骤(2.5)判断Mashup服务是否遍历完成,若否,则返回步骤(2.1),否则,结束。
第三步、对于每条Mashup服务的功能名词集合FS,结合WordNet工具来对每个功能名词的语义权重进行语义关联计算,过程如下:
步骤(3.1)计算所有功能名词集合FS的平均长度LAvg,计算公式如下:
Figure BDA0002394799840000081
其中,Set(FS)表示存放FS的集合,|Set(FS)|则是该集合的长度,进行步骤(3.2);
步骤(3.2)遍历各Mashup服务信息,包括对应的功能名词集合FS,计算名词间语义关联权重对最终语义权重的影响因子w,若当前FS的集合长度len(FS)不等于LAvg,那么影响因子w公式如下所示:
Figure BDA0002394799840000082
否则,w设为默认值0.5,进行步骤(3.3);
步骤(3.3)遍历当前FS中的名词,计算第i个功能名词与其他名词之间的语义关联权重FSimi,计算公式如下:
Figure BDA0002394799840000083
其中,WordNet(ni,nj)表示第i个功能名词与第j个功能名词之间的语义相似度,|FS|表示功能名词集合FS中所包含的名词个数。WordNet是由普林斯顿大学认识科学实验室在心理学教授米勒的指导下建立和维护的英语词典,主要用于分析计算单词之间的语义关系。进行步骤(3.4);
步骤(3.4)在当前服务的服务标签中,计算出与功能名词ni语义相似性最大的值,作为ni的语义权重校正量TSimi,其中,语义相似性同样采用WordNet函数计算,进行步骤(3.5);
步骤(3.5)计算出功能名词ni的最终语义权重SWi,并存于当前服务功能语义权重字典SimDic中,其中,SWi计算公式如下:
SWi=w×Simi+(1-w)×TSimi,w即为步骤(3.2)计算的影响因子,进行步骤(3.6);
步骤(3.6)只将语义权重较高的前LAvg个单词存放于当前字典SimDic中,剔除其他单词,进行步骤(3.7);
步骤(3.7)判断当前FS中的名词是否遍历完成,若否,则返回步骤(3.3),否则,进行步骤(3.8);
步骤(3.8)判断Mashup服务是否遍历完成,若否,则返回步骤(3.2),否则,结束。
第四步、基于第三步的语义权重计算结果,结合TF-IDF算法与Word2Vec模型,进行Mashup语义特征向量的表示,过程如下:
传统的TF-IDF算法常被用于评估某个单词对于文档集合中的某一份文档的重要程度,其中,词频TF表示某个单词在指定文档中出现的频度,而逆文档频率IDF则用于表示单词区分文档的能力。TF-IDF的最终计算结果就是由TF值与IDF值相乘而得。
虽然TF-IDF值的计算方式比较快捷方便,但是仅以TF-IDF权重来衡量单词对于文档的重要性,仍然还是不够全面的。例如,在Mashup服务描述中,一些词频较高的特殊名词、专属形容词往往也可以获得较高的TF-IDF权重值,但是这些单词却不具备太多的功能语义,无法反映出服务的实际功能特征。因此,对于每条Mashup服务,本发明基于第三步的语义权重计算结果,将字典SimDic中存放的单词进行最终的权重计算,将字典中每个单词x的语义权重SWx嵌入到TF-IDF算法中。这样不仅去除了无实际语义单词对计算结果的干扰,而且使权重计算敏感于文档的语义关联变化。最终的单词权重TSx计算公式如下所示:
Figure BDA0002394799840000091
其中,TF-IDFxy表示单词x在服务描述文本y中的TF-IDF权重。在此基础上,本发明借助由谷歌新闻作为语料训练好的Word2Vec模型,将字典SimDic中的单词向量化,并结合TS计算公式进行Mashup语义特征向量的表示。其中,Word2Vec模型由Mikolov等人于2013年提出,该模型将文本中的内容词汇通过转换处理,化简为空间向量,词向量的数值受上下文的影响,蕴含了词与词之间相互的关联性。
步骤(4.1)遍历每条Mashup服务信息,包括对应的功能语义权重字典SimDic,进行步骤(4.2);
步骤(4.2)初始化Mashup语义特征向量DVecy,进行步骤(4.3);
步骤(4.3)遍历当前字典SimDic中的单词x,并利用训练好的Word2Vec模型将其转化为词向量WVecx,进行步骤(4.4);
步骤(4.4)从当前字典SimDic中提取单词x的语义权重SWx,并计算出单词x的TF-IDF权重TF-IDFxy,进行步骤(4.5);
步骤(4.5)结合TS计算公式,计算出单词x的TS权重TSx,进行步骤(4.6);
步骤(4.6)判断是否当前SimDic存在多个单词,并且语义权重SWx为0,若是,则将将TSx置为0,否则,直接进行步骤(4.7);
步骤(4.7)对Mashup语义特征向量DVecy进行累加计算,计算公式如下:
DVecy+=WVecx×TSx,进行步骤(4.8);
步骤(4.8)判断当前字典SimDic中的单词是否遍历完成,若否,则返回步骤(4.3),否则,进行步骤(4.9);
步骤(4.9)判断Mashup服务信息是否遍历完成,若否,则返回步骤(4.1),否则,结束。

Claims (5)

1.一种基于功能语义关联计算的Mashup服务特征表示方法,其特征在于,所述方法包括以下步骤:
第一步、对所有需要特征表示的Mashup服务数据进行预处理;
第二步、基于预处理后的Mashup服务数据,进行功能名词提取操作;
第三步、对于每条Mashup服务的功能名词集合FS,对每个功能名词的语义权重进行语义关联计算;
第四步、基于第三步的语义权重计算结果,结合TF-IDF算法与Word2Vec模型,进行Mashup语义特征向量的表示,过程如下:
对于每条Mashup服务,基于第三步的语义权重计算结果,将字典SimDic中存放的单词进行最终的权重计算,将字典中每个单词x的语义权重SWx嵌入到TF-IDF算法中,最终的单词权重TSx计算公式如下所示:
Figure FDA0002394799830000011
其中,TF-IDFxy表示单词x在服务描述文本y中的TF-IDF权重,在此基础上,借助由谷歌新闻作为语料训练好的Word2Vec模型,将字典SimDic中的单词向量化,并结合TS计算公式进行Mashup语义特征向量的表示。
2.如权利要求1所述的一种基于功能语义关联计算的Mashup服务特征表示方法,其特征在于,所述第一步的过程如下:
步骤(1.1)遍历每条Mashup服务信息,针对性的提取出服务名称、服务描述、Web API组合信息、类别信息以及标签信息进行整理,进行步骤(1.2);
步骤(1.2)如果遇到缺失服务描述或描述内容过于简短的情况,则直接将该服务剔除,进行步骤(1.3);
步骤(1.3)如果遇到缺失服务名称的情况,则将设置特定的递增序列号作为默认的服务名称,进行步骤(1.4);
步骤(1.4)对于每条服务的描述内容,将具有特殊语义的符号进行转义,例如将“$”改写为“dollar”,同时剔除“▲”、“#”这样不包含任何语义信息的字符,以便于在后一阶段提升功能词汇检索的运行效率,进行步骤(1.5);
步骤(1.5)检查服务描述中的单词完整性,若有字母缺失的情况,先尽可能进行补全复原,而对于实在无法补全的单词,则将其剔除,进行步骤(1.6);
步骤(1.6)根据每条Mashup服务的Web API组合属性,获取相应的Web API服务信息,进而利用这些Web API的标签对相应的Mashup服务标签进行扩充,使得扩充后的Mashup服务标签更能全面体现服务的功能特点,进行步骤(1.7);
步骤(1.7)判断Mashup服务信息是否遍历完成,若否,则返回步骤(1.1),否则,结束。
3.如权利要求1或2所述的一种基于功能语义关联计算的Mashup服务特征表示方法,其特征在于,所述第二步的过程如下:
步骤(2.1)遍历Mashup服务数据,对每条服务描述内容进行词性标注,进行步骤(2.2);
步骤(2.2)基于步骤(2.1)的词性标注结果,过滤掉副词、形容词、量词这些没有实际语义的停用词,进行步骤(2.3);
步骤(2.3)在剩余的名词中进行词形还原,去重后放入临时名词集合中,进行步骤(2.4);
步骤(2.4)检查临时名词集合中是否掺杂了类似Mashup服务名称这样无功能语义的名词成分,若有,则剔除,而保留下来的其他名词则作为最终的功能名词集合FS,否则,将临时名词集合直接作为功能名词集合FS,进行步骤(2.5);
步骤(2.5)判断Mashup服务是否遍历完成,若否,则返回步骤(2.1),否则,结束。
4.如权利要求1或2所述的一种基于功能语义关联计算的Mashup服务特征表示方法,其特征在于,第三步、对于每条Mashup服务的功能名词集合FS,对每个功能名词的语义权重进行语义关联计算,过程如下:
步骤(3.1)计算所有功能名词集合FS的平均长度LAvg,计算公式如下:
Figure FDA0002394799830000021
其中,Set(FS)表示存放FS的集合,|Set(FS)|则是该集合的长度,进行步骤(3.2);
步骤(3.2)遍历各Mashup服务信息,包括对应的功能名词集合FS,计算名词间语义关联权重对最终语义权重的影响因子w,若当前FS的集合长度len(FS)不等于LAvg,那么影响因子w公式如下所示:
Figure FDA0002394799830000022
否则,w设为默认值0.5,进行步骤(3.3);
步骤(3.3)遍历当前FS中的名词,计算第i个功能名词与其他名词之间的语义关联权重FSimi,计算公式如下:
Figure FDA0002394799830000023
其中,WordNet(ni,nj)表示第i个功能名词与第j个功能名词之间的语义相似度,|FS|表示功能名词集合FS中所包含的名词个数,进行步骤(3.4);
步骤(3.4)在当前服务的服务标签中,计算出与功能名词ni语义相似性最大的值,作为ni的语义权重校正量TSimi,其中,语义相似性同样采用WordNet函数计算,进行步骤(3.5);
步骤(3.5)计算出功能名词ni的最终语义权重SWi,并存于当前服务功能语义权重字典SimDic中,其中,SWi计算公式如下:
SWi=w×Simi+(1-w)×TSimi,w即为步骤(3.2)计算的影响因子,进行步骤(3.6);
步骤(3.6)只将语义权重较高的前LAvg个单词存放于当前字典SimDic中,剔除其他单词,进行步骤(3.7);
步骤(3.7)判断当前FS中的名词是否遍历完成,若否,则返回步骤(3.3),否则,进行步骤(3.8);
步骤(3.8)判断Mashup服务是否遍历完成,若否,则返回步骤(3.2),否则,结束。
5.如权利要求1或2所述的一种基于功能语义关联计算的Mashup服务特征表示方法,其特征在于,所述第四步的过程如下:
步骤(4.1)遍历每条Mashup服务信息,包括对应的功能语义权重字典SimDic,进行步骤(4.2);
步骤(4.2)初始化Mashup语义特征向量DVecy,进行步骤(4.3);
步骤(4.3)遍历当前字典SimDic中的单词x,并利用训练好的Word2Vec模型将其转化为词向量WVecx,进行步骤(4.4);
步骤(4.4)从当前字典SimDic中提取单词x的语义权重SWx,并计算出单词x的TF-IDF权重TF-IDFxy,进行步骤(4.5);
步骤(4.5)结合TS计算公式,计算出单词x的TS权重TSx,进行步骤(4.6);
步骤(4.6)判断是否当前SimDic存在多个单词,并且语义权重SWx为0,若是,则将将TSx置为0,否则,直接进行步骤(4.7);
步骤(4.7)对Mashup语义特征向量DVecy进行累加计算,计算公式如下:
DVecy+=WVecx×TSx,进行步骤(4.8);
步骤(4.8)判断当前字典SimDic中的单词是否遍历完成,若否,则返回步骤(4.3),否则,进行步骤(4.9);
步骤(4.9)判断Mashup服务信息是否遍历完成,若否,则返回步骤(4.1),否则,结束。
CN202010127362.2A 2020-02-28 2020-02-28 一种基于功能语义关联计算的Mashup服务特征表示方法 Active CN111475608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010127362.2A CN111475608B (zh) 2020-02-28 2020-02-28 一种基于功能语义关联计算的Mashup服务特征表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010127362.2A CN111475608B (zh) 2020-02-28 2020-02-28 一种基于功能语义关联计算的Mashup服务特征表示方法

Publications (2)

Publication Number Publication Date
CN111475608A true CN111475608A (zh) 2020-07-31
CN111475608B CN111475608B (zh) 2022-06-17

Family

ID=71747042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010127362.2A Active CN111475608B (zh) 2020-02-28 2020-02-28 一种基于功能语义关联计算的Mashup服务特征表示方法

Country Status (1)

Country Link
CN (1) CN111475608B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836489A (zh) * 2021-01-25 2021-05-25 浙江工业大学 一种基于互联网服务单词语义权重的文本主题挖掘方法
CN112836488A (zh) * 2021-01-25 2021-05-25 浙江工业大学 基于TWE-NMF模型的Web服务描述文档语义挖掘方法
CN113139056A (zh) * 2021-04-25 2021-07-20 中国工商银行股份有限公司 网络数据的聚类方法、聚类装置、电子设备及介质
CN113343078A (zh) * 2021-05-11 2021-09-03 浙江工业大学 基于主题模型聚类的Web API推荐方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404693A (zh) * 2015-12-18 2016-03-16 浙江工商大学 一种基于需求语义的服务聚类方法
CN110659363A (zh) * 2019-07-30 2020-01-07 浙江工业大学 基于膜计算的Web服务混合进化聚类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404693A (zh) * 2015-12-18 2016-03-16 浙江工商大学 一种基于需求语义的服务聚类方法
CN110659363A (zh) * 2019-07-30 2020-01-07 浙江工业大学 基于膜计算的Web服务混合进化聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姜波等: "基于需求功能语义的服务聚类方法", 《计算机学报》 *
曹步清等: "融合SOM功能聚类与DeepFM质量预测的API服务推荐方法", 《计算机学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836489A (zh) * 2021-01-25 2021-05-25 浙江工业大学 一种基于互联网服务单词语义权重的文本主题挖掘方法
CN112836488A (zh) * 2021-01-25 2021-05-25 浙江工业大学 基于TWE-NMF模型的Web服务描述文档语义挖掘方法
CN112836488B (zh) * 2021-01-25 2024-02-20 浙江工业大学 基于TWE-NMF模型的Web服务描述文档语义挖掘方法
CN112836489B (zh) * 2021-01-25 2024-03-22 浙江工业大学 一种基于互联网服务单词语义权重的文本主题挖掘方法
CN113139056A (zh) * 2021-04-25 2021-07-20 中国工商银行股份有限公司 网络数据的聚类方法、聚类装置、电子设备及介质
CN113343078A (zh) * 2021-05-11 2021-09-03 浙江工业大学 基于主题模型聚类的Web API推荐方法

Also Published As

Publication number Publication date
CN111475608B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN111475608B (zh) 一种基于功能语义关联计算的Mashup服务特征表示方法
CN111222305B (zh) 一种信息结构化方法和装置
CN112231447B (zh) 一种中文文档事件抽取的方法和系统
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN111950287B (zh) 一种基于文本的实体识别方法及相关装置
CN111475607B (zh) 一种基于Mashup服务功能特征表示与密度峰值检测的Web数据聚类方法
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN111061882A (zh) 一种知识图谱构建方法
CN110929498A (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN114266256A (zh) 一种领域新词的提取方法及系统
Rathod Extractive text summarization of Marathi news articles
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN110990003A (zh) 一种基于词嵌入技术的api推荐方法
CN108491407B (zh) 一种面向代码检索的查询扩展方法
CN111881685A (zh) 基于小粒度策略混合模型的汉语命名实体识别方法及系统
Altınel et al. Performance Analysis of Different Sentiment Polarity Dictionaries on Turkish Sentiment Detection
CN114238735B (zh) 一种互联网数据智能采集方法
CN114238616A (zh) 一种专家信息检测方法和存储设备
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN113657090A (zh) 一种军事新闻长文本层次化事件抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant