CN106599086A - 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法 - Google Patents

一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法 Download PDF

Info

Publication number
CN106599086A
CN106599086A CN201611049185.0A CN201611049185A CN106599086A CN 106599086 A CN106599086 A CN 106599086A CN 201611049185 A CN201611049185 A CN 201611049185A CN 106599086 A CN106599086 A CN 106599086A
Authority
CN
China
Prior art keywords
word
embedded
service
theme
web service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611049185.0A
Other languages
English (en)
Inventor
田刚
高艳峰
孙承爱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN201611049185.0A priority Critical patent/CN106599086A/zh
Publication of CN106599086A publication Critical patent/CN106599086A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法,具体涉及服务计算技术领域。该方法具体按如下顺序进行:收集Web服务描述文档,对收集的Web服务描述文档进行预处理,得到Web服务描述文档中的特征词汇,并对Web服务描述文档中的词汇进行预处理,得到一组原型单词的集合;使用词嵌入训练模型Word2Vec训练步骤1中得到的原型单词的集合,得到原型单词的集合中每个单词的连续向量表示;使用Gaussian LDA模型对步骤1中得到的原型单词的集合进行训练,获得每个Web服务层次结构;使用步骤2训练得到的连续向量的集合丰富用户查询,得到扩展以后的用户查询;利用步骤2得到的服务层次结构,使用概率排序方法,得到针对扩展之后用户查询所对应的查询输出。

Description

一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现 方法
技术领域
本发明涉及服务计算技术领域,具体涉及一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法。
背景技术
伴随着互联网计算环境和软件体系结构的变化,基于互联网的软件服务开发已经日趋流行。软件服务环境下各种计算资源高度分布和自治的本质特征对软件系统的开发带来了新挑战。面向服务的架构能够应对这种动态、多变和复杂的问题,因此随着面向服务的架构和软件即服务技术的发展,面向服务的软件开发开始蓬勃发展起来。在这种情况下,互联网上Web服务的规模开始快速增长,如WWW 2008的论文中统计发现:从2006年10月到2007年10月,通过搜索引擎得到的WSDL服务数目增长了286%。从2011年6月20日到2014年4月21日,著名服务注册网站ProgrammableWeb上的服务数一直在持续增长,在不到三年的时间里由3261个服务增长为11222个,增长幅度达到了244%。此外,很多企业也把遗留软件系统进行碎片化拆分和封装得到的Web服务部署到网络上。这样,Web服务规模的剧增为大众用户准确、高效地发现Web服务增加了困难。与此同时,互联网上发布的服务不论是基于XML描述的还是基于自然语言描述的都存在特征词汇较少(例如PWeb中70%以上的服务描述特征词小于100个),转换之后的特征词汇统计信息不足的问题。这种语义稀疏的现象会导致无法进行有效的相似度计算,这为基于关键字的搜索方法带来了新的挑战。
因此,面对互联网上Web服务的规模化增长,针对现有的Web服务描述语义稀疏的特点,如何进行准确、高效的Web服务发现,便成为服务计算领域中一个亟待解决的关键技术问题。
发明内容
本发明的目的是针对上述不足,提出了一种能够进行准确、高效的Web服务发现的基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法。
本发明具体采用如下技术方案:
一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法,具体按如下顺序进行:
步骤1:收集Web服务描述文档,对收集的Web服务描述文档进行预处理,得到Web服务描述文档中的特征词汇,并对Web服务描述文档中的词汇进行预处理,得到一组原型单词的集合;
步骤2:使用词嵌入训练模型Word2Vec训练步骤1中得到的原型单词的集合,得到原型单词的集合中每个单词的连续向量表示;使用Gaussian LDA模型对步骤1中得到的原型单词的集合进行训练,获得每个Web服务层次结构;
步骤3:使用步骤2训练得到的连续向量的集合丰富用户查询,得到扩展以后的用户查询;利用步骤2得到的服务层次结构,使用概率排序方法,得到针对扩展之后用户查询所对应的查询输出。
优选地,步骤1中的Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。
优选地,所述步骤1中,具体包括以下子步骤:
对Web服务描述文档进行解析,从中抽取该文档中的特征词汇,对特征词汇做预处理,得到一组原型单词的集合,预处理包括去除停用词、取得单词词根和扩充缩写词。
优选地,所述步骤2中,具体包括以下子步骤:
步骤2.1:使用Word2Vec模型训练原型单词的集合,得到每个单词的连续词嵌入表达;
步骤2.2:基于步骤2.1中得到的词嵌入进行映射,遍历服务描述中的每一个单词,如果单词在词嵌入特征集合中,则直接使用词嵌入代替该单词;如果单词不在词嵌入集合中,该单词将被丢弃;经过多次迭代将服务描述中的单词转换成为词嵌入特征,从而将服务特征表示到连续词嵌入空间,为词嵌入主题模型Gaussian LDA构建输入;
步骤2.3:以步骤2.2得到的服务描述的词嵌入表示为输入,基于Gaussian LDA,挖掘服务知识,构建服务-主题分布和主题-词嵌入分布;在此基础上,基于上述两个分布建立服务-主题-词嵌入层次模型,从而将服务组织到不同的主题。
优选地,所述步骤2.3中,具体包括以下子步骤:
步骤2.3.1:在Gaussian LDA中,每个单词w对应的词嵌入v(w)∈RM,其中M表示词嵌入的长度,这样每个单词就被表示到一个M维的连续空间,而每个主题z就被表示成词嵌入v上的一个多元高斯分布,其中均值为μz,协方差为Σz,以服务的词嵌入表达作为输入,经过Gibbs抽样,算法运行收敛之后,通过该多元高斯分布,建立主题-词嵌入层次;
步骤2.3.2:每个服务文档可以表示为主题的随机组合,它们的先验分布为参数为α的Dirichlet分布,在Gaussian LDA中,服务-主题分布的获得和LDA模型是一样的,以服务的词嵌入表达作为输入,经过Gibbs抽样之后得到收敛后的参数值,从而根据参数θ获得服务-主题分布;
步骤2.3.3:步骤2.3.2之后,单词、词嵌入、主题和服务文档存在如下关系:每个单词都有一个对应的词嵌入,每个词嵌入属于不同的主题,每个主题又隶属于不同的服务文档,根据上述关系,以获得的服务-主题分布和主题-词嵌入分布作为输入,建立服务-主题-词嵌入层次模型,从而将服务组织到不同的潜在主题。
优选地,所述步骤3中,具体包括以下子步骤:
步骤3.1:根据查询特征表达,使用步骤2.1训练的连续词嵌入表达,遍历用户查询中的每一个单词,如果单词在词嵌入特征集合中,则直接使用词嵌入代替该单词;如果单词不在词嵌入集合中,该单词将被丢弃;将用户查询映射为连续表达的词嵌入,为基于词嵌入的查询语义扩充和基于词嵌入主题模型的服务发现提供支持;
步骤3.2:根据步骤3.1中获得用户查询的词嵌入表示作为输入,并设定一个相似度阈值,遍历输入中的每一个词嵌入,检索与该词嵌入的相似度超过预定阈值的词嵌入,将该词嵌入作为扩充词保留,重复该过程直至输入中所有的词嵌入都被遍历一遍,最后返回添加了扩充词之后的用户查询向量;
步骤3.3:词嵌入表达的用户查询将基于一种概率表达映射为同服务的相似程度,根据服务-主题-词嵌入层次结构可以获得词嵌入同主题的相似度:P(e|z),每个查询Q同主题的相似度能够表示为公式(1):
其中zf为主题,ei为查询中包含的词嵌入;
同样根据服务-主题-词嵌入层次结构,可以获得主题同服务的相似度:P(z|s),每个查询Q同服务si的相似程度如公式(2)所示:
其中Q为查询,si为服务,zf为潜在特征,ei为查询包含的词嵌入,T为主题的数目,P(Q|si)的取值表示查询和服务的相似程度,将被用来为用户提供服务匹配和排序的依据。
本发明具有如下有益效果:
(1)可以实现语义稀疏Web服务的组织和检索,具有较好的通用性;
(2)基于“词袋”模型的服务描述特征表达方法存在“维数过多”的问题,本方法通过引入词嵌入模型来将服务描述的表达映射到固定长度的词嵌入空间从而确保服务描述特征的维度。本方法在保证维数确定的情况下还能够利用词嵌入的语义相似特性增强服务描述的语义;
(3)因为本方法采用的是无监督的学习方法,所以参数推导不需要过多的经验值,提高了方法的准确性;
(4)学习方法建立的服务层次可以用于Web服务层次组织,从而支撑语义稀疏Web服务发现,具有广泛的适用性。
附图说明
图1为基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法的流程示意图;
图2为Gaussian LDA生成的Web服务层次示意图;
图3为运行步骤2之后得到的Web服务层次。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
如图1所示,一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法,具体按如下顺序进行:
步骤1:收集Web服务描述文档,对收集的Web服务描述文档进行预处理,得到Web服务描述文档中的特征词汇,并对Web服务描述文档中的词汇进行预处理,得到一组原型单词的集合;
步骤2:使用词嵌入训练模型Word2Vec训练步骤1中得到的原型单词的集合,得到原型单词的集合中每个单词的连续向量表示;使用Gaussian LDA模型对步骤1中得到的原型单词的集合进行训练,获得每个Web服务层次结构;
步骤3:使用步骤2训练得到的连续向量的集合丰富用户查询,得到扩展以后的用户查询;利用步骤2得到的服务层次结构,使用概率排序方法,得到针对扩展之后用户查询所对应的查询输出。
步骤1中的Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。
步骤1中,具体包括以下子步骤:
对Web服务描述文档进行解析,从中抽取该文档中的特征词汇,对特征词汇做预处理,得到一组原型单词的集合,预处理包括去除停用词、取得单词词根和扩充缩写词。
步骤2中,具体包括以下子步骤:
步骤2.1:使用Word2Vec模型训练原型单词的集合,得到每个单词的连续词嵌入表达;
步骤2.2:基于步骤2.1中得到的词嵌入进行映射,遍历服务描述中的每一个单词,如果单词在词嵌入特征集合中,则直接使用词嵌入代替该单词;如果单词不在词嵌入集合中,该单词将被丢弃;经过多次迭代将服务描述中的单词转换成为词嵌入特征,从而将服务特征表示到连续词嵌入空间,为词嵌入主题模型Gaussian LDA构建输入;
步骤2.3:以步骤2.2得到的服务描述的词嵌入表示为输入,基于Gaussian LDA,挖掘服务知识,构建服务-主题分布和主题-词嵌入分布;在此基础上,基于上述两个分布建立服务-主题-词嵌入层次模型,从而将服务组织到不同的主题。
如图2所示,本发明的执行Gaussian LDA算法之后的生成的服务层次模型示意图;步骤2.2和步骤2.3执行的过程都是Gaussian LDA算法的内容,通过运行Gaussian LDA,构造构建服务-主题分布和主题-词嵌入分布两个分布,基于两个分布可以建立服务的层次结构,达到如图2所示的效果。
步骤2.3中,具体包括以下子步骤:
步骤2.3.1:在Gaussian LDA中,每个单词w对应的词嵌入v(w)∈RM,其中M表示词嵌入的长度,这样每个单词就被表示到一个M维的连续空间,而每个主题z就被表示成词嵌入v上的一个多元高斯分布,其中均值为μz,协方差为Σz,以服务的词嵌入表达作为输入,经过Gibbs抽样,算法运行收敛之后,通过该多元高斯分布,建立主题-词嵌入层次;
步骤2.3.2:每个服务文档可以表示为主题的随机组合,它们的先验分布为参数为α的Dirichlet分布,在Gaussian LDA中,服务-主题分布的获得和LDA模型是一样的,以服务的词嵌入表达作为输入,经过Gibbs抽样之后得到收敛后的参数值,从而根据参数θ获得服务-主题分布;
步骤2.3.3:步骤2.3.2之后,单词、词嵌入、主题和服务文档存在如下关系:每个单词都有一个对应的词嵌入,每个词嵌入属于不同的主题,每个主题又隶属于不同的服务文档,根据上述关系,以获得的服务-主题分布和主题-词嵌入分布作为输入,建立服务-主题-词嵌入层次模型,从而将服务组织到不同的潜在主题。
如图3所示,为运行步骤2之后得到的Web服务层次。
步骤3中,具体包括以下子步骤:
步骤3.1:根据查询特征表达,使用步骤2.1训练的连续词嵌入表达,遍历用户查询中的每一个单词,如果单词在词嵌入特征集合中,则直接使用词嵌入代替该单词;如果单词不在词嵌入集合中,该单词将被丢弃;将用户查询映射为连续表达的词嵌入,为基于词嵌入的查询语义扩充和基于词嵌入主题模型的服务发现提供支持;
步骤3.2:根据步骤3.1中获得用户查询的词嵌入表示作为输入,并设定一个相似度阈值,遍历输入中的每一个词嵌入,检索与该词嵌入的相似度超过预定阈值的词嵌入,将该词嵌入作为扩充词保留,重复该过程直至输入中所有的词嵌入都被遍历一遍,最后返回添加了扩充词之后的用户查询向量;
步骤3.3:词嵌入表达的用户查询将基于一种概率表达映射为同服务的相似程度,根据服务-主题-词嵌入层次结构可以获得词嵌入同主题的相似度:P(e|z),每个查询Q同主题的相似度能够表示为公式(1):
其中zf为主题,ei为查询中包含的词嵌入;
同样根据服务-主题-词嵌入层次结构,可以获得主题同服务的相似度:P(z|s),每个查询Q同服务si的相似程度如公式(2)所示:
其中Q为查询,si为服务,zf为潜在特征,ei为查询包含的词嵌入,T为主题的数目;P(Q|si)的取值表示查询和服务的相似程度,将被用来为用户提供服务匹配和排序的依据。
下面是结合本发明的方法进行语义稀疏服务发现的具体实施例:以ProgrammableWeb(PWeb,http://www.programmableweb.com/)网站上的Web服务进行基于Web服务描述的语义稀疏服务发现为实施例,详细描述本发明的实施过程。
PWeb网站是目前互联网上可以公开访问的著名mashup和Web服务注册中心,截至2016年5月1日,注册的Web服务已超过15000个,包括遵循SOAP、REST、XML-RPC的各类WebAPI,并且提供了API服务的一些注册信息,比如API描述、名字、标签等。对于采用SOAP协议的API服务,还提供了描述该Web服务的WSDL文档。
首先,执行步骤1,使用PWeb网站提供的开放API从该网站收集Weather、Government等领域的服务自然语义描述,并对其进行预处理。
然后,对收集的Web服务描述文档进行预处理,具体包括:对收集的每个Web服务描述文档进行预处理,抽取该文档中的所有核心特征词汇,并将词汇做进一步处理,包括词干还原、缩写词扩充等。
接着,执行步骤2,使用word2vec分布式表示方法的训练特征单词集合,建立每个单词的连续向量表示。在调用word2vec之后,系统将得到表1所示的结果。每个单词都获得一个连续向量的表达,向量的长度可以选择,本例中选择向量长度为50。
表1
训练得到每个单词的连续表示之后,使用Gaussian LDA模型建立Web服务的层次。建立的服务-主题层次如表2所示。
表2
建立的主题-单词层次如表3所示。
表3使用Gaussian LDA方法,建立的主题一单词层次
建立的主题-单词层次如表3所示。
表3
然后执行步骤3,利用连续向量的相似特性,扩展用户查询。例如,design扩展为design+plan。利用步骤2得到的服务层次结构,使用概率排序方法,得到针对扩展之后用户查询所对应的查询输出,最终返回的结果如表4所示。
表4
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (6)

1.一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法,其特征在于,具体按如下顺序进行:
步骤1:收集Web服务描述文档,对收集的Web服务描述文档进行预处理,得到Web服务描述文档中的特征词汇,并对Web服务描述文档中的词汇进行预处理,得到一组原型单词的集合;
步骤2:使用词嵌入训练模型Word2Vec训练步骤1中得到的原型单词的集合,得到原型单词的集合中每个单词的连续向量表示;使用Gaussian LDA模型对步骤1中得到的原型单词的集合进行训练,获得每个Web服务层次结构;
步骤3:使用步骤2训练得到的连续向量的集合丰富用户查询,得到扩展以后的用户查询;利用步骤2得到的服务层次结构,使用概率排序方法,得到针对扩展之后用户查询所对应的查询输出。
2.如权利要求1所述的一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法,其特征在于,步骤1中的Web服务描述文档来源于能够被访问的Web服务注册中心或Web服务门户网站。
3.如权利要求1所述的一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法,其特征在于,所述步骤1中,具体包括以下子步骤:
对Web服务描述文档进行解析,从中抽取该文档中的特征词汇,对特征词汇做预处理,得到一组原型单词的集合,预处理包括去除停用词、取得单词词根和扩充缩写词。
4.如权利要求1所述的一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法,其特征在于,所述步骤2中,具体包括以下子步骤:
步骤2.1:使用Word2Vec模型训练原型单词的集合,得到每个单词的连续词嵌入表达;
步骤2.2:基于步骤2.1中得到的词嵌入进行映射,遍历服务描述中的每一个单词,如果单词在词嵌入特征集合中,则直接使用词嵌入代替该单词;如果单词不在词嵌入集合中,该单词将被丢弃;经过多次迭代将服务描述中的单词转换成为词嵌入特征,从而将服务特征表示到连续词嵌入空间,为词嵌入主题模型Gaussian LDA构建输入;
步骤2.3:以步骤2.2得到的服务描述的词嵌入表示为输入,基于Gaussian LDA,挖掘服务知识,构建服务-主题分布和主题-词嵌入分布;在此基础上,基于上述两个分布建立服务-主题-词嵌入层次模型,从而将服务组织到不同的主题。
5.如权利要求4所述的一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法,其特征在于,所述步骤2.3中,具体包括以下子步骤:
步骤2.3.1:在Gaussian LDA中,每个单词w对应的词嵌入v(w)∈RM,其中M表示词嵌入的长度,这样每个单词就被表示到一个M维的连续空间,而每个主题z就被表示成词嵌入v上的一个多元高斯分布,其中均值为μz,协方差为Σz,以服务的词嵌入表达作为输入,经过Gibbs抽样,算法运行收敛之后,通过该多元高斯分布,建立主题-词嵌入层次;
步骤2.3.2:每个服务文档可以表示为主题的随机组合,它们的先验分布为参数为α的Dirichlet分布,在Gaussian LDA中,服务-主题分布的获得和LDA模型是一样的,以服务的词嵌入表达作为输入,经过Gibbs抽样之后得到收敛后的参数值,从而根据参数θ获得服务-主题分布;
步骤2.3.3:步骤2.3.2之后,单词、词嵌入、主题和服务文档存在如下关系:每个单词都有一个对应的词嵌入,每个词嵌入属于不同的主题,每个主题又隶属于不同的服务文档,根据上述关系,以获得的服务-主题分布和主题-词嵌入分布作为输入,建立服务-主题-词嵌入层次模型,从而将服务组织到不同的潜在主题。
6.如权利要求1所述的一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法,其特征在于,所述步骤3中,具体包括以下子步骤:
步骤3.1:根据查询特征表达,使用步骤2.1训练的连续词嵌入表达,遍历用户查询中的每一个单词,如果单词在词嵌入特征集合中,则直接使用词嵌入代替该单词;如果单词不在词嵌入集合中,该单词将被丢弃;将用户查询映射为连续表达的词嵌入,为基于词嵌入的查询语义扩充和基于词嵌入主题模型的服务发现提供支持;
步骤3.2:根据步骤3.1中获得用户查询的词嵌入表示作为输入,并设定一个相似度阈值,遍历输入中的每一个词嵌入,检索与该词嵌入的相似度超过预定阈值的词嵌入,将该词嵌入作为扩充词保留,重复该过程直至输入中所有的词嵌入都被遍历一遍,最后返回添加了扩充词之后的用户查询向量;
步骤3.3:词嵌入表达的用户查询将基于一种概率表达映射为同服务的相似程度,根据服务-主题-词嵌入层次结构可以获得词嵌入同主题的相似度:P(e|z),每个查询Q同主题的相似度能够表示为公式(1):
P ( Q | z f ) = Π e i ∈ Q P ( e i | z f ) - - - ( 1 )
其中zf为主题,ei为查询中包含的词嵌入;
同样根据服务-主题-词嵌入层次结构,可以获得主题同服务的相似度:P(z|s),每个查询Q同服务si的相似程度如公式(2)所示:
P ( Q | s i ) = Π e k ∈ Q P ( e k | s i ) = Π e k ∈ Q Σ z = 1 T P ( e k | z f ) P ( z f | s i ) - - - ( 2 )
其中Q为查询,si为服务,zf为潜在特征,ei为查询包含的词嵌入,T为主题的数目,P(Q|si)的取值表示查询和服务的相似程度,将被用来为用户提供服务匹配和排序的依据。
CN201611049185.0A 2016-11-25 2016-11-25 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法 Pending CN106599086A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611049185.0A CN106599086A (zh) 2016-11-25 2016-11-25 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611049185.0A CN106599086A (zh) 2016-11-25 2016-11-25 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法

Publications (1)

Publication Number Publication Date
CN106599086A true CN106599086A (zh) 2017-04-26

Family

ID=58593201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611049185.0A Pending CN106599086A (zh) 2016-11-25 2016-11-25 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法

Country Status (1)

Country Link
CN (1) CN106599086A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107436942A (zh) * 2017-07-28 2017-12-05 广州市香港科大霍英东研究院 基于社交媒体的词嵌入方法、系统、终端设备及存储介质
CN108549718A (zh) * 2018-04-23 2018-09-18 南京大学 一种通用主题嵌入模型联合训练方法
CN108712466A (zh) * 2018-04-18 2018-10-26 山东科技大学 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和系统
CN110134798A (zh) * 2019-05-15 2019-08-16 八戒科技服务有限公司 一种创新需求挖掘方法、系统、终端及介质
CN107562919B (zh) * 2017-09-13 2020-07-17 云南大学 一种基于信息检索的多索引集成软件构件检索方法及系统
CN111539784A (zh) * 2020-04-10 2020-08-14 上海交通大学 基于组合语义学习的服务包推荐方法及系统
CN111651164A (zh) * 2020-04-29 2020-09-11 南京航空航天大学 代码标识符的归一化方法、装置
CN111832289A (zh) * 2020-07-13 2020-10-27 重庆大学 一种基于聚类和高斯lda的服务发现方法
CN112836490A (zh) * 2021-01-25 2021-05-25 浙江工业大学 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129479A (zh) * 2011-04-29 2011-07-20 南京邮电大学 一种基于概率潜在语义分析模型的万维网服务发现方法
CN102855312A (zh) * 2012-08-24 2013-01-02 武汉大学 一种面向领域主题的Web服务聚类方法
CN103530419A (zh) * 2013-10-29 2014-01-22 武汉大学 一种面向Web 服务描述的本体学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129479A (zh) * 2011-04-29 2011-07-20 南京邮电大学 一种基于概率潜在语义分析模型的万维网服务发现方法
CN102855312A (zh) * 2012-08-24 2013-01-02 武汉大学 一种面向领域主题的Web服务聚类方法
CN103530419A (zh) * 2013-10-29 2014-01-22 武汉大学 一种面向Web 服务描述的本体学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GANG TIAN等: ""Gaussian LDA and Word Embedding for Semantic Sparse Web Service Discovery"", 《COLLABORATE COMPUTING:NETWORKING,APPLICATIONS AND WORKSHARING:12TH INTERNATIONAL CONFERENCE,COLLABORATECOM 2016》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107436942A (zh) * 2017-07-28 2017-12-05 广州市香港科大霍英东研究院 基于社交媒体的词嵌入方法、系统、终端设备及存储介质
CN107562919B (zh) * 2017-09-13 2020-07-17 云南大学 一种基于信息检索的多索引集成软件构件检索方法及系统
WO2019201068A1 (zh) * 2018-04-18 2019-10-24 山东科技大学 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法
CN108712466A (zh) * 2018-04-18 2018-10-26 山东科技大学 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法
CN108549718A (zh) * 2018-04-23 2018-09-18 南京大学 一种通用主题嵌入模型联合训练方法
CN108549718B (zh) * 2018-04-23 2019-10-18 南京大学 一种通用主题嵌入模型联合训练方法
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和系统
CN110134798A (zh) * 2019-05-15 2019-08-16 八戒科技服务有限公司 一种创新需求挖掘方法、系统、终端及介质
CN111539784A (zh) * 2020-04-10 2020-08-14 上海交通大学 基于组合语义学习的服务包推荐方法及系统
CN111539784B (zh) * 2020-04-10 2023-05-26 上海交通大学 基于组合语义学习的服务包推荐方法及系统
CN111651164A (zh) * 2020-04-29 2020-09-11 南京航空航天大学 代码标识符的归一化方法、装置
CN111832289A (zh) * 2020-07-13 2020-10-27 重庆大学 一种基于聚类和高斯lda的服务发现方法
CN111832289B (zh) * 2020-07-13 2023-08-11 重庆大学 一种基于聚类和高斯lda的服务发现方法
CN112836490A (zh) * 2021-01-25 2021-05-25 浙江工业大学 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法
CN112836490B (zh) * 2021-01-25 2024-05-10 浙江工业大学 云计算模式中融合词嵌入和非负矩阵分解技术的服务建模方法

Similar Documents

Publication Publication Date Title
CN106599086A (zh) 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN108712466A (zh) 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法
CN1936893B (zh) 基于互联网信息的输入法词频库的生成方法和系统
CN105631468A (zh) 一种基于rnn的图片描述自动生成方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN104809176A (zh) 藏语实体关系抽取方法
CN102262634A (zh) 一种自动问答方法及系统
CN108124477A (zh) 基于伪数据改进分词器以处理自然语言
CN103699525A (zh) 一种基于文本多维度特征自动生成摘要的方法和装置
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN105631749A (zh) 基于统计数据的用户画像计算方法
CN109635107A (zh) 多数据源的语义智能分析及事件场景还原的方法及装置
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN103150409B (zh) 一种用户检索词推荐的方法及系统
CN103440343B (zh) 一种面向领域服务目标的知识库构建方法
CN110781285A (zh) 一种科技文献检索意图构建方法
CN109145083A (zh) 一种基于深度学习的候选答案选取方法
Devika et al. A semantic graph-based keyword extraction model using ranking method on big social data
CN106446051A (zh) Eagle媒资深度搜索方法
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
CN103530419B (zh) 一种面向Web 服务描述的本体学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170426

RJ01 Rejection of invention patent application after publication