CN108712466A - 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法 - Google Patents

一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法 Download PDF

Info

Publication number
CN108712466A
CN108712466A CN201810345829.3A CN201810345829A CN108712466A CN 108712466 A CN108712466 A CN 108712466A CN 201810345829 A CN201810345829 A CN 201810345829A CN 108712466 A CN108712466 A CN 108712466A
Authority
CN
China
Prior art keywords
word
service
theme
embedded
web service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810345829.3A
Other languages
English (en)
Inventor
田刚
刘鹏飞
孙承爱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN201810345829.3A priority Critical patent/CN108712466A/zh
Publication of CN108712466A publication Critical patent/CN108712466A/zh
Priority to PCT/CN2019/079967 priority patent/WO2019201068A1/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法,按如下顺序进行:收集Web服务描述文档,对收集的Web服务描述文档进行解析,得到Web服务描述文档中的特征词汇,并对Web服务描述文档中的词汇进行预处理,得到一组原型单词的集合;使用词嵌入训练模型Word2Vec训练原型单词的集合,得到原型单词的集合中每个单词的连续向量表示;使用Gaussian ATM模型得到的原型单词的集合进行训练,获得每个Web服务层次结构;使用训练得到的连续向量的集合丰富用户查询,得到扩展以后的用户查询;利用得到的服务层次结构,使用概率排序方法,得到针对扩展之后用户查询所对应的查询输出。本发明提供的方法能实现准确、高效的Web服务发现。

Description

一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现 方法
技术领域
本发明涉及服务计算技术领域,具体涉及一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法。
背景技术
在信息化日益普及的今天,互联网的软件体系结构和其计算环境发生着急剧的变化,促成了基于互联网体系的软件服务开发的发展和普及。在多变的软件服务环境下,由于各种计算资源具有高度分布和自治的根本特征,所以软件系统的开发将会面临新挑战。可以使用基于面向服务思想的Web架构解决这种具有动态、多变和复杂的疑难问题,于是伴随着利用面向服务思想设计的架构和软件集为一体的服务技术快速发展,运用面向服务思想的软件开发开始迅速地发展起来。在这种环境发展下,互联网上Web服务的规模开始迅速扩大,如WWW 2008的论文中统计发现:从2006年10月到2007年10月约一年的时间里,利用搜索引擎得到的WSDL服务的数量同比增长了286%。并且从2011年6月20日到2014年4月21日,世界著名服务注册网站ProgrammableWeb上的接收到的服务数目一直在稳步增长,并在不到三年的时间里服务数目由3261个增长为11222个,其增长幅度已经达到244%。此外,越来越多的企业也通过碎片化拆分和封装把原来的遗留软件系统转换为Web服务并部署到网络上。出于这样的原因,Web服务规模不断剧增,使大众用户难以准确、高效地发现Web服务。同时,互联网上发布的Web服务不论是利用XML进行描述的还是利用自然语言描述的服务,都存在着其描述特征词汇较少(例如PWeb中的服务描述特征词小于100个的占70%以上),并且在转换之后的特征词汇统计信息存在不足的问题。这种语义稀疏的现象使相似度计算无法有效的进行,此问题给次基于关键字的搜索方法带来了新的难题。
因此,在互联网Web服务的规模化持续增长的环境下,如何根据现有的Web服务描述语义稀疏的特点来进行准确、高效的Web服务发现,是现在服务计算领域中一个亟需解决的关键技术问题。
发明内容
针对现有的Web服务描述语义稀疏的特点,为了能实现准确、高效的Web服务发现,本发明提供了一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法。
本发明采用以下的技术方案:
一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法,包括以下步骤:
步骤1:收集Web服务描述文档,对收集的Web服务描述文档进行解析,得到Web服务描述文档中的特征词汇,并对Web服务描述文档中的特征词汇进行预处理,得到一组原型单词的集合;
步骤2:使用词嵌入训练模型Word2Vec训练步骤1中得到的原型单词的集合,得到原型单词的集合中每个单词的连续向量表示;
使用Gaussian ATM模型对步骤1中得到的原型单词的集合进行训练,获得每个Web服务的层次结构;
步骤3:使用步骤2训练得到的连续向量的集合丰富用户查询,得到扩展以后的用户查询;
利用步骤2得到的服务层次结构,使用概率排序方法,得到针对扩展之后用户查询所对应的查询输出。
优选地,步骤1中所述的Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。
优选地,所述步骤1中的预处理包括去除停用词、取得单词词根和扩充缩写词。
优选地,所述的步骤2,其具体实现包括以下子步骤:
步骤2.1:使用Word2Vec模型训练原型单词的集合,得到每个单词的连续词嵌入表达;
步骤2.2:基于步骤2.1中得到的词嵌入进行映射,遍历服务描述中的每一个单词,如果单词在词嵌入表达集合中,则直接使用词嵌入代替该单词;如果单词不在词嵌入表达集合中,该单词将被丢弃;
经过多次迭代将服务描述中的单词转换成为词嵌入表达,从而将服务特征表示到连续词嵌入空间,为词嵌入主题模型Gaussian ATM构建输入;
步骤2.3:以步骤2.2得到的服务描述的词嵌入表示为输入,基于Gaussian ATM,挖掘服务知识,构建服务-标签、标签-主题和主题-词嵌入分布,基于上述三个分布,建立服务-标签-主题-词嵌入层次模型,从而将服务组织到不同的主题。
优选地,所述步骤2.3,具体包括以下子步骤:
步骤2.3.1:在Gaussian ATM中,每个单词w对应的词嵌入v(w)∈RM,其中M表示词嵌入的长度,这样每个单词就被表示到一个M维的连续空间,而每个主题z就被表示成词嵌入v上的一个多元高斯分布,其中均值为μz,协方差为Σz,以服务的词嵌入表达作为输入,经过Gibbs抽样,算法运行收敛之后,通过该多元高斯分布,建立主题-词嵌入层次;
步骤2.3.2:每个服务文档可以当作标签的均匀分布,它们的分布是预先可观测的,直接利用均匀分布的计算公式可以获得服务-标签分布;
步骤2.3.3:每个主题属于不同的标签,建立标签-主题层次的方式与步骤2.3.1类似,每个主题的先验分布为参数为α的Dirichlet分布,以标签的词嵌入表达作为输入,经过Gibbs抽样之后得到收敛后的参数值,从而根据参数θ获得标签-主题分布;
步骤2.3.4:步骤2.3.3之后,单词、词嵌入、标签、主题和服务文档存在如下关系:每个单词都有一个对应的词嵌入,每个词嵌入属于不同的主题,每个主题又隶属于不同的标签,每个标签又属于不同的服务,根据上述关系,以获得的服务-标签、标签-主题、主题-词嵌入分布作为输入,建立服务-标签-主题-词嵌入层次模型,从而将服务组织到不同的潜在主题。
优选地,所述步骤3中,具体包括以下子步骤:
步骤3.1:根据查询特征表达,使用步骤2.1训练的连续词嵌入表达,遍历用户查询中的每一个单词,如果单词在词嵌入表达集合中,则直接使用词嵌入代替该单词;如果单词不在词嵌入表达集合中,该单词将被丢弃;将用户查询映射为连续表达的词嵌入,为基于词嵌入的查询语义扩充和基于词嵌入主题模型的服务发现提供支持;
步骤3.2:根据步骤3.1中获得用户查询的词嵌入表示作为输入,并设定一个相似度阈值,遍历输入中的每一个词嵌入,检索与该词嵌入的相似度超过预定阈值的词嵌入,将该词嵌入作为扩充词保留,重复该过程直至输入中所有的词嵌入都被遍历一遍,最后返回添加了扩充词之后的用户查询向量;
步骤3.3:词嵌入表达的用户查询将基于一种概率表达映射为同服务的相似程度,根据服务-主题-词嵌入层次结构可以获得词嵌入同主题的相似度:P(e|z),每个查询Q同主题的相似度能够表示为公式(1):
其中zf为主题,ei为查询中包含的词嵌入;
同样根据服务-主题-词嵌入层次结构,可以获得主题同服务的相似度:P(z|t),每个查询Q同服务ti的相似程度如公式(2)所示:
其中Q为查询,ti为标签,zf为潜在特征,ek为查询包含的词嵌入,Z为主题的数目;的取值表示查询和服务的相似程度,将被用来为用户提供服务匹配和排序的依据;
最后,计算每个查询Q同服务sj的相似程度P(Q|sj),该概率的大小将被用来为用户提供服务匹配和排序的依据;
其中Q为查询,sj为服务,ti为标签,zf为潜在特征,ek为查询包含的词嵌入,Z为主题的数目,T为标签的数量;P(Q|sj)的取值表示查询和服务的相似程度,将被用来为用户提供服务匹配和排序的依据。
本发明具有的有益效果是:
(1)可以实现语义稀疏Web服务的组织和检索,具有较好的通用性;
(2)基于“词袋”模型的服务描述特征表达方法存在“维数过多”的问题,本方法通过引入词嵌入模型来将服务描述的表达映射到固定长度的词嵌入空间从而确保服务描述特征的维度,本方法在保证维数确定的情况下还能够利用词嵌入的语义相似特性增强服务描述的语义;
(3)因为本方法采用的是无监督的学习方法,所以参数推导不需要过多的经验值,提高了方法的准确性;
(4)学习方法建立的服务层次可以用于Web服务层次组织,从而支撑语义稀疏Web服务发现,具有广泛的适用性。
附图说明
图1为基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法的流程示意图。
图2为Gaussian ATM生成的Web服务层次示意图。
图3为运行步骤2之后得到的Web服务层次。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
结合图1至图3,一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法,包括以下步骤:
步骤1:收集Web服务描述文档,对收集的Web服务描述文档进行解析,得到Web服务描述文档中的特征词汇,并对Web服务描述文档中的特征词汇进行预处理,得到一组原型单词的集合。
Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。
预处理包括去除停用词、取得单词词根和扩充缩写词等。
步骤2:使用词嵌入训练模型Word2Vec训练步骤1中得到的原型单词的集合,得到原型单词的集合中每个单词的连续向量表示;
使用Gaussian ATM(Author-Topic-Model)模型对步骤1中得到的原型单词的集合进行训练,获得每个Web服务的层次结构。
其具体实现包括以下子步骤:
步骤2.1:使用Word2Vec模型训练原型单词的集合,得到每个单词的连续词嵌入表达;
步骤2.2:基于步骤2.1中得到的词嵌入进行映射,遍历服务描述中的每一个单词,如果单词在词嵌入表达集合中,则直接使用词嵌入代替该单词;如果单词不在词嵌入表达集合中,该单词将被丢弃;
经过多次迭代将服务描述中的单词转换成为词嵌入表达,从而将服务特征表示到连续词嵌入空间,为词嵌入主题模型Gaussian ATM构建输入;
步骤2.3:以步骤2.2得到的服务描述的词嵌入表示为输入,基于Gaussian ATM,挖掘服务知识,构建服务-标签、标签-主题和主题-词嵌入分布,基于上述三个分布,建立服务-标签-主题-词嵌入层次模型,从而将服务组织到不同的主题。
步骤2.3,具体包括以下子步骤:
步骤2.3.1:在Gaussian ATM中,每个单词w对应的词嵌入v(w)∈RM,其中M表示词嵌入的长度,这样每个单词就被表示到一个M维的连续空间,而每个主题z就被表示成词嵌入v上的一个多元高斯分布,其中均值为μz,协方差为Σz,以服务的词嵌入表达作为输入,经过Gibbs抽样,算法运行收敛之后,通过该多元高斯分布,建立主题-词嵌入层次;
步骤2.3.2:每个服务文档可以当作标签的均匀分布,它们的分布是预先可观测的,直接利用均匀分布的计算公式可以获得服务-标签分布;
步骤2.3.3:每个主题属于不同的标签,建立标签-主题层次的方式与步骤2.3.1类似,每个主题的先验分布为参数为α的Dirichlet分布,以标签的词嵌入表达作为输入,经过Gibbs抽样之后得到收敛后的参数值,从而根据参数θ获得标签-主题分布;
步骤2.3.4:步骤2.3.3之后,单词、词嵌入、标签、主题和服务文档存在如下关系:每个单词都有一个对应的词嵌入,每个词嵌入属于不同的主题,每个主题又隶属于不同的标签,每个标签又属于不同的服务,根据上述关系,以获得的服务-标签、标签-主题、主题-词嵌入分布作为输入,建立服务-标签-主题-词嵌入层次模型,从而将服务组织到不同的潜在主题。
如图2所示,图2是本发明的执行Gaussian ATM算法之后的生成的服务层次模型示意图。
在图2中,每个单词都有一个对应的词嵌入,每个词嵌入属于不同的主题,每个主题又隶属于不同的标签,每个标签又属于不同的服务。基于这个三个层次结构可以为用户提供灵活的服务查询体验。例如可以基于主题组织服务,单词分布类似的服务将划分到同一个主题从而将服务聚类。通过在类簇上查询服务减小搜索空间,提高查询效率。而在本发明中,我们利用该层次结构建立一种概率服务发现方法。
步骤3:使用步骤2训练得到的连续向量的集合丰富用户查询,得到扩展以后的用户查询;
利用步骤2得到的服务层次结构,使用概率排序方法,得到针对扩展之后用户查询所对应的查询输出。
具体包括以下子步骤:
步骤3.1:根据查询特征表达,使用步骤2.1训练的连续词嵌入表达,遍历用户查询中的每一个单词,如果单词在词嵌入表达集合中,则直接使用词嵌入代替该单词;如果单词不在词嵌入表达集合中,该单词将被丢弃;将用户查询映射为连续表达的词嵌入,为基于词嵌入的查询语义扩充和基于词嵌入主题模型的服务发现提供支持;
步骤3.2:根据步骤3.1中获得用户查询的词嵌入表示作为输入,并设定一个相似度阈值,遍历输入中的每一个词嵌入,检索与该词嵌入的相似度超过预定阈值的词嵌入,将该词嵌入作为扩充词保留,重复该过程直至输入中所有的词嵌入都被遍历一遍,最后返回添加了扩充词之后的用户查询向量;
步骤3.3:词嵌入表达的用户查询将基于一种概率表达映射为同服务的相似程度,根据服务-主题-词嵌入层次结构可以获得词嵌入同主题的相似度:P(e|z),每个查询Q同主题的相似度能够表示为公式(1):
其中zf为主题,ei为查询中包含的词嵌入;
同样根据服务-主题-词嵌入层次结构,可以获得主题同服务的相似度:P(z|t),每个查询Q同服务ti的相似程度如公式(2)所示:
其中Q为查询,ti为标签,zf为潜在特征,ek为查询包含的词嵌入,Z为主题的数目;的取值表示查询和服务的相似程度,将被用来为用户提供服务匹配和排序的依据;
最后,计算每个查询Q同服务sj的相似程度P(Q|sj),该概率的大小将被用来为用户提供服务匹配和排序的依据;
其中Q为查询,sj为服务,ti为标签,zf为潜在特征,ek为查询包含的词嵌入,Z为主题的数目,T为标签的数量;P(Q|sj)的取值表示查询和服务的相似程度,将被用来为用户提供服务匹配和排序的依据。
下面是应用本发明的方法进行语义稀疏服务发现的具体实施例:以ProgrammableWeb(PWeb,http://www.programmableweb.com/)网站上的Web服务进行基于Web服务描述的语义稀疏服务发现为实施例,详细描述本发明的实施过程。
PWeb网站是目前互联网上可以公开访问的著名mashup和Web服务注册中心,截至2016年5月1日,注册的Web服务已超过15000个,包括遵循SOAP、REST、XML-RPC的各类WebAPI,并且提供了API服务的一些注册信息,比如API描述、名字、标签等。对于采用SOAP协议的API服务,还提供了描述该Web服务的WSDL文档。
首先,执行步骤1,使用PWeb网站提供的开放API从该网站收集Weather、Government等领域的服务自然语义描述,并对其进行预处理。
然后,对收集的Web服务描述文档进行解析,具体包括:对收集的每个Web服务描述文档进行解析,抽取该文档中的所有核心特征词汇,并将词汇做进一步处理,包括词干还原、缩写词扩充等。
接着,执行步骤2,使用word2vec分布式表示方法的训练特征单词集合,建立每个单词的连续向量表示。在调用word2vec之后,系统将得到表1所示的结果。每个单词都获得一个连续向量的表达,向量的长度可以选择,本例中选择向量长度为50。
表1使用word2vec方法之后,单词的连续向量表达
训练得到每个单词的连续表示之后,使用Gaussian ATM模型建立Web服务的层次。建立的服务-主题层次如表2所示。
表2使用Gaussian ATM方法,建立的服务-标签层次
表3使用Gaussian ATM方法,建立的标签-主题层次
建立的主题-单词层次如表3所示。
表4使用Gaussian ATM方法,建立的主题-词嵌入层次
然后执行步骤3,利用连续向量的相似特性,扩展用户查询。例如,design扩展为design+plan。利用步骤2得到的服务层次结构,使用概率排序方法,得到针对扩展之后用户查询所对应的查询输出,最终返回的结果如表5所示。
表5查询与系统输出结果
请见图3,运行步骤2之后得到的Web服务层次如图3所示。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (6)

1.一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法,其特征在于,包括以下步骤:
步骤1:收集Web服务描述文档,对收集的Web服务描述文档进行解析,得到Web服务描述文档中的特征词汇,并对Web服务描述文档中的特征词汇进行预处理,得到一组原型单词的集合;
步骤2:使用词嵌入训练模型Word2Vec训练步骤1中得到的原型单词的集合,得到原型单词的集合中每个单词的连续向量表示;
使用Gaussian ATM模型对步骤1中得到的原型单词的集合进行训练,获得每个Web服务的层次结构;
步骤3:使用步骤2训练得到的连续向量的集合丰富用户查询,得到扩展以后的用户查询;
利用步骤2得到的服务层次结构,使用概率排序方法,得到针对扩展之后用户查询所对应的查询输出。
2.根据权利要求1所述的一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法,其特征在于,步骤1中所述的Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。
3.根据权利要求1所述的一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法,其特征在于,所述步骤1中的预处理包括去除停用词、取得单词词根和扩充缩写词。
4.根据权利要求1所述的一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法,其特征在于,所述的步骤2,其具体实现包括以下子步骤:
步骤2.1:使用Word2Vec模型训练原型单词的集合,得到每个单词的连续词嵌入表达;
步骤2.2:基于步骤2.1中得到的词嵌入进行映射,遍历服务描述中的每一个单词,如果单词在词嵌入表达集合中,则直接使用词嵌入代替该单词;如果单词不在词嵌入表达集合中,该单词将被丢弃;
经过多次迭代将服务描述中的单词转换成为词嵌入表达,从而将服务特征表示到连续词嵌入空间,为词嵌入主题模型Gaussian ATM构建输入;
步骤2.3:以步骤2.2得到的服务描述的词嵌入表示为输入,基于Gaussian ATM,挖掘服务知识,构建服务-标签、标签-主题和主题-词嵌入分布,基于上述三个分布,建立服务-标签-主题-词嵌入层次模型,从而将服务组织到不同的主题。
5.根据权利要求4所述的一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法,其特征在于,所述步骤2.3,具体包括以下子步骤:
步骤2.3.1:在Gaussian ATM中,每个单词w对应的词嵌入v(w)∈RM,其中M表示词嵌入的长度,这样每个单词就被表示到一个M维的连续空间,而每个主题z就被表示成词嵌入v上的一个多元高斯分布,其中均值为μz,协方差为Σz,以服务的词嵌入表达作为输入,经过Gibbs抽样,算法运行收敛之后,通过该多元高斯分布,建立主题-词嵌入层次;
步骤2.3.2:每个服务文档可以当作标签的均匀分布,它们的分布是预先可观测的,直接利用均匀分布的计算公式可以获得服务-标签分布;
步骤2.3.3:每个主题属于不同的标签,建立标签-主题层次的方式与步骤2.3.1类似,每个主题的先验分布为参数为α的Dirichlet分布,以标签的词嵌入表达作为输入,经过Gibbs抽样之后得到收敛后的参数值,从而根据参数θ获得标签-主题分布;
步骤2.3.4:步骤2.3.3之后,单词、词嵌入、标签、主题和服务文档存在如下关系:每个单词都有一个对应的词嵌入,每个词嵌入属于不同的主题,每个主题又隶属于不同的标签,每个标签又属于不同的服务,根据上述关系,以获得的服务-标签、标签-主题、主题-词嵌入分布作为输入,建立服务-标签-主题-词嵌入层次模型,从而将服务组织到不同的潜在主题。
6.根据权利要求4所述的一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法,其特征在于,所述步骤3中,具体包括以下子步骤:
步骤3.1:根据查询特征表达,使用步骤2.1训练的连续词嵌入表达,遍历用户查询中的每一个单词,如果单词在词嵌入表达集合中,则直接使用词嵌入代替该单词;如果单词不在词嵌入表达集合中,该单词将被丢弃;将用户查询映射为连续表达的词嵌入,为基于词嵌入的查询语义扩充和基于词嵌入主题模型的服务发现提供支持;
步骤3.2:根据步骤3.1中获得用户查询的词嵌入表示作为输入,并设定一个相似度阈值,遍历输入中的每一个词嵌入,检索与该词嵌入的相似度超过预定阈值的词嵌入,将该词嵌入作为扩充词保留,重复该过程直至输入中所有的词嵌入都被遍历一遍,最后返回添加了扩充词之后的用户查询向量;
步骤3.3:词嵌入表达的用户查询将基于一种概率表达映射为同服务的相似程度,根据服务-主题-词嵌入层次结构可以获得词嵌入同主题的相似度:P(e|z),每个查询Q同主题的相似度能够表示为公式(1):
其中zf为主题,ei为查询中包含的词嵌入;
同样根据服务-主题-词嵌入层次结构,可以获得主题同服务的相似度:P(z|t),每个查询Q同服务ti的相似程度如公式(2)所示:
其中Q为查询,ti为标签,zf为潜在特征,ek为查询包含的词嵌入,Z为主题的数目;的取值表示查询和服务的相似程度,将被用来为用户提供服务匹配和排序的依据;
最后,计算每个查询Q同服务sj的相似程度P(Q|sj),该概率的大小将被用来为用户提供服务匹配和排序的依据;
其中Q为查询,sj为服务,ti为标签,zf为潜在特征,ek为查询包含的词嵌入,Z为主题的数目,T为标签的数量;P(Q|sj)的取值表示查询和服务的相似程度,将被用来为用户提供服务匹配和排序的依据。
CN201810345829.3A 2018-04-18 2018-04-18 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法 Pending CN108712466A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810345829.3A CN108712466A (zh) 2018-04-18 2018-04-18 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法
PCT/CN2019/079967 WO2019201068A1 (zh) 2018-04-18 2019-03-28 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810345829.3A CN108712466A (zh) 2018-04-18 2018-04-18 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法

Publications (1)

Publication Number Publication Date
CN108712466A true CN108712466A (zh) 2018-10-26

Family

ID=63866976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810345829.3A Pending CN108712466A (zh) 2018-04-18 2018-04-18 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法

Country Status (2)

Country Link
CN (1) CN108712466A (zh)
WO (1) WO2019201068A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134798A (zh) * 2019-05-15 2019-08-16 八戒科技服务有限公司 一种创新需求挖掘方法、系统、终端及介质
WO2019201068A1 (zh) * 2018-04-18 2019-10-24 山东科技大学 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法
CN111475609A (zh) * 2020-02-28 2020-07-31 浙江工业大学 一种围绕主题建模的改进型K-means服务聚类方法
CN112749281A (zh) * 2021-01-19 2021-05-04 青岛科技大学 一种融合服务协作关系的Restful类型Web服务聚类方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487805B (zh) * 2020-11-30 2024-02-02 武汉大学 一种基于元学习框架的小样本Web服务分类方法
CN113887245B (zh) * 2021-12-02 2022-03-25 腾讯科技(深圳)有限公司 一种模型训练方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110270870A1 (en) * 2010-04-30 2011-11-03 International Business Machines Corporation Web service discovery via data abstraction model and condition creation
CN102622396A (zh) * 2011-11-30 2012-08-01 浙江大学 一种基于标签的web服务聚类方法
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
CN106599086A (zh) * 2016-11-25 2017-04-26 山东科技大学 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法
CN106874397A (zh) * 2017-01-16 2017-06-20 华南理工大学 一种面向物联网设备的自动语义标注方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108712466A (zh) * 2018-04-18 2018-10-26 山东科技大学 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110270870A1 (en) * 2010-04-30 2011-11-03 International Business Machines Corporation Web service discovery via data abstraction model and condition creation
CN102622396A (zh) * 2011-11-30 2012-08-01 浙江大学 一种基于标签的web服务聚类方法
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
CN106599086A (zh) * 2016-11-25 2017-04-26 山东科技大学 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法
CN106874397A (zh) * 2017-01-16 2017-06-20 华南理工大学 一种面向物联网设备的自动语义标注方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019201068A1 (zh) * 2018-04-18 2019-10-24 山东科技大学 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法
CN110134798A (zh) * 2019-05-15 2019-08-16 八戒科技服务有限公司 一种创新需求挖掘方法、系统、终端及介质
CN111475609A (zh) * 2020-02-28 2020-07-31 浙江工业大学 一种围绕主题建模的改进型K-means服务聚类方法
CN111475609B (zh) * 2020-02-28 2022-04-05 浙江工业大学 一种围绕主题建模的改进型K-means服务聚类方法
CN112749281A (zh) * 2021-01-19 2021-05-04 青岛科技大学 一种融合服务协作关系的Restful类型Web服务聚类方法

Also Published As

Publication number Publication date
WO2019201068A1 (zh) 2019-10-24

Similar Documents

Publication Publication Date Title
CN108712466A (zh) 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法
CN106599086A (zh) 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法
CN105512245B (zh) 一种基于回归模型建立企业画像的方法
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN101079024B (zh) 一种专业词表动态生成系统和方法
CN101645064B (zh) 一种浅层自然口语理解系统及方法
CN106484767A (zh) 一种跨媒体的事件抽取方法
CN108124477A (zh) 基于伪数据改进分词器以处理自然语言
JP2021111415A (ja) テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム
CN111625658A (zh) 基于知识图谱的语音交互方法、装置、设备及存储介质
CN108304424B (zh) 文本关键词提取方法及文本关键词提取装置
CN111881290A (zh) 一种基于加权语义相似度的配网多源网架实体融合方法
CN105631468A (zh) 一种基于rnn的图片描述自动生成方法
CN106446045A (zh) 基于对话交互的用户画像的构建方法及系统
US10713302B2 (en) Search processing method and device
CN106933972A (zh) 利用自然语言处理技术定义数据元素的方法以及装置
Elshater et al. godiscovery: Web service discovery made efficient
US10217455B2 (en) Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system
CN106446051A (zh) Eagle媒资深度搜索方法
CN110347401B (zh) 一种基于语义相似度的API Framework服务发现方法
CN103150409A (zh) 一种用户检索词推荐的方法及系统
CN105956023A (zh) 一种生僻字库网络化应用的方法及系统
CN103530419A (zh) 一种面向Web 服务描述的本体学习方法
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN110633468A (zh) 一种关于对象特征提取的信息处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181026