CN112214335A - 基于知识图谱和相似度网络的Web服务发现方法 - Google Patents

基于知识图谱和相似度网络的Web服务发现方法 Download PDF

Info

Publication number
CN112214335A
CN112214335A CN202011092858.7A CN202011092858A CN112214335A CN 112214335 A CN112214335 A CN 112214335A CN 202011092858 A CN202011092858 A CN 202011092858A CN 112214335 A CN112214335 A CN 112214335A
Authority
CN
China
Prior art keywords
matrix
service
entity
embedding
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011092858.7A
Other languages
English (en)
Other versions
CN112214335B (zh
Inventor
于扬
邢镔
刘兰徽
姚娟
曾骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Industrial Big Data Innovation Center Co ltd
Chongqing University
Original Assignee
Chongqing Industrial Big Data Innovation Center Co ltd
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Industrial Big Data Innovation Center Co ltd, Chongqing University filed Critical Chongqing Industrial Big Data Innovation Center Co ltd
Priority to CN202011092858.7A priority Critical patent/CN112214335B/zh
Publication of CN112214335A publication Critical patent/CN112214335A/zh
Application granted granted Critical
Publication of CN112214335B publication Critical patent/CN112214335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/547Remote procedure calls [RPC]; Web services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于知识图谱和相似度网络的Web服务发现方法,主要包括如下步骤:使用Word2Vec、知识图谱嵌入和LDA分别获得词嵌入矩阵,实体嵌入矩阵和主题嵌入矩阵;对主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵进行矩阵对齐;S300:将对齐后的主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵作为CNN的输入以提取深层服务描述信息即用户服务的特征向量;计算用户服务的特征向量与所有已存服务的特征向量的相似度得分,并按照相似度得分,由高到低排序,输出相似性得分前top‑k所对应的已存服务作为发现结果。通过实验表明本发明方法在多种评估指标上均优于现有方法。

Description

基于知识图谱和相似度网络的Web服务发现方法
技术领域
本发明涉及服务计算技术领域,特别涉及服务发现技术领域,具体涉及基于知识图谱和相似度网络的Web服务发现方法。
背景技术
Web服务发现是根据服务请求者的需求查找和定位现有Web服务的过程。服务提供商在向存储库注册服务时提供了许多相似性的功能描述,例如基于自然语言描述的服务信息,服务类别,服务提供者名称等。
现有的服务发现方法主要依赖于关键字匹配的信息检索技术。但是,由于用户检索的信息中的语法稀疏问题(关键字稀疏性),搜索引擎可能会返回大量不相关的服务。为了解决关键字稀疏问题,一些研究工作通过扩展搜索查询以实现更好的发现性能,尽管需求扩展在某种程度上改善了服务发现的结果,但是这些研究并未在能够更好地反映服务本身特征的服务描述信息上付出很大的努力。另一种方法是将具有类似功能的服务聚类在一起,减少发现空间以改善发现结果。Web服务的聚类方法主要依靠概率主题模型和启发式信息来挖掘服务功能特征。然而,当前基于概率主题模型(LDA)的方法主要基于词包统计模型,该模型主要从服务描述中提取显式特征,而忽略了服务描述中隐含的上下文信息和服务之间的深层逻辑关系。换句话说,由于服务描述是由短文本组成的,这将导致相当大的语义稀疏性问题,并对服务的特征表示产生不利影响,不利于进一步的基于相似度排序的服务发现方法。此外,对于人类来说,判断两个服务之间是否相似是一项自然的任务。然而对于算法来说,它并不总是能够成功地匹配包含相似元素的服务。服务被特征向量所描述,虽然可以使用余弦相似度直接度量相似性,但可能会忽略到数据集中可能存在的数据依赖关系,常规的度量方法可能无法捕捉到这种关系。
发明内容
针对现有技术存在的上述问题,本发明要解决的技术问题是:服务发现中如何取服务描述文档的隐含上下文信息和如何使描述服务的特征向量更具人类感知特性。
为解决上述第一个技术问题,本发明采用如下技术方案:基于知识图谱和相似度网络的Web服务发现方法,主要包括如下步骤:
S100:使用Word2Vec获得用户服务的词嵌入矩阵,使用知识图谱嵌入获得用户服务的实体嵌入矩阵,使用LDA获得用户服务的主题嵌入矩阵;
S200:对S100得到的主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵进行矩阵对齐,使主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵三个特征向量的维度相同;
S300:将经过S200对齐后的主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵作为CNN的输入以提取深层服务描述信息即用户服务的特征向量;
S400:将服务存储库中的所有已存服务通过S100-S300得到对应的已存服务的特征向量;
S500:计算用户服务的特征向量与所有已存服务的特征向量的相似度得分,并按照相似度得分,由高到低排序,输出相似性得分前top-k所对应的已存服务作为发现结果。
作为改进,所述S100中使用Word2Vec获得用户服务的词嵌入矩阵的方法为:
S111:对用于用户服务描述的服务描述文档进行预处理;
S112:经过预处理后的每个服务描述文档中的每个单词通过训练好的Word2Vec模型将其投影为词向量
Figure BDA0002722743280000021
Figure BDA0002722743280000022
就是用户服务的词嵌入矩阵,其中d是词向量的维数。
作为改进,所述S100中使用知识图谱嵌入获得用户服务的实体嵌入矩阵的方法为:
S121:使用实体链接将服务描述文档中的实体与提供商实体和知识图谱中的实体进行匹配,然后在知识图谱中构造一个包含该实体的子图;
S122:使用TransD的方法对实体执行表示学习,并获取其实体向量
Figure BDA0002722743280000023
选择实体的一跳内的所有实体一同进行嵌入作为服务实体嵌入矩阵
Figure BDA0002722743280000024
其中K是实体向量的维数。
作为改进,所述S100中使用LDA获得用户服务的主题分布向量的方法为:采用LDA对服务描述文档建模,获得用户服务描述的主题嵌入矩阵
Figure BDA0002722743280000025
Y为实体向量的维数。
作为改进,所述S200中将主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵进行矩阵对齐的方法为:给所述主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵分别乘以可训练的转移矩阵
Figure BDA0002722743280000026
进行矩阵对齐,使特征向量的维度相同。
作为改进,所述S400中将CNN提取深层服务描述信息即用户服务的特征向量的方法为:
将主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵作为CNN的输入,滤波器的大小为
Figure BDA0002722743280000027
并且卷积过程为:
Figure BDA0002722743280000028
其中I为输入,表示为特征图,大小为U×V,通道数为C,
Figure BDA0002722743280000031
为输出,大小为R×l×D,经过最大池化操作后,服务的特征向量为:
Figure BDA0002722743280000032
作为改进,所述S500中计算用户服务的特征向量与已存服务的特征向量的相似度得分的方法为:使用神经网络来学习一个相似函数H(·)来计算用户服务的特征向量与已存服务的特征向量的相似性度得分Si,j,该神经网络由一组完全连接的层组成,激活函数设置为Sigmoid;
Sij=H(f(Si,Wf),f(Sj,Wf),WH) (9);
其中,WH是可学习参数。
作为改进,定义公式(10)所述的损失函数对相似函数H(·)的权重WH进行优化:
Figure BDA0002722743280000033
其中,sim(Ii,Ij)表示两个服务使用余弦相似度计算出的相似度得分,其中sxi,sj是学习到的相似度得分,δ是可优化的参数。
相对于现有技术,本发明至少具有如下优点:
本发明方法通过将服务描述中的实体和提供商实体链接到知识图谱,利用丰富的外部知识扩展服务描述文档的信息,同时结合Word2Vec模型和LDA模型获得高质量的特征向量,使用CNN提取服务描述的隐藏上下文信息以获得信息丰富的服务向量表示。为了更好地适应人类的认知,设计了一个相似度网络学习了一个相似度函数,用于计算服务之间的相似度,从而进行服务发现过程。在从ProgrammableWeb上爬取的真实数据集上进行的大量实验表明,本发明与基准方法相比有显著改进。
附图说明
图1为本发明方法的总体框架图。
图2为不同N值对应的精度。
图3为不同N值对应的召回。
图4为不同N值对应的F–Measure。
具体实施方式
下面对本发明作进一步详细说明。
本发明方法使用知识图谱来连接服务描述和规格中的实体以获得丰富的外部信息,从而增强服务描述的语义信息。使用卷积神经网络(CNN)提取服务的特征向量作为神经相似网络的输入,神经相似网络会学习一个相似度函数,用于计算服务和请求之间的相似度以支持服务发现过程。通过对ProgrammableWeb爬取的真实服务数据集的大量实验表明,就多种评估指标而言,KSN优于现有的Web服务发现方法。
基于知识图谱和相似度网络的Web服务发现方法,主要包括如下步骤:
S100:使用Word2Vec获得用户服务的词嵌入矩阵,使用知识图谱嵌入获得用户服务的实体嵌入矩阵,使用LDA获得用户服务的主题嵌入矩阵。
具体地,使用Word2Vec获得用户服务的词嵌入矩阵的方法为:
S111:为了获得服务描述的嵌入向量,首先对用于用户服务描述的服务描述文档进行预处理,包括分词,大小写转化,去除生僻字符等,这种预处理在本领域较为常见,属于现有技术。
S112:经过预处理后的每个服务描述文档中的每个单词通过训练好的Word2Vec模型将其投影为词向量
Figure BDA0002722743280000041
Figure BDA0002722743280000042
就是用户服务的词嵌入矩阵,其中d是词向量的维数。Word2Vec模型属于现有技术,本发明使用现有技术中已经训练好的Word2Vec模型模型,将已经训练好的Word2Vec模型转用到Web服务发现中。
知识图谱是由实体和关系组成的多关系图。每个边代表两个实体,它们之间通过特定的关系连接,具体来说是三元组的格式:(h,r,t)。h,r和t分别代表头实体,关系和尾实体,例如三元组(Google,CEO,SundarPichai)表示为Google的CEO是Sundar-Pichai。知识图谱嵌入的主要思想是将实体和关系嵌入到一个低纬空间,转换为低维向量,同时保留知识图谱的原始结构。
具体地,使用知识图谱嵌入获得用户服务的实体嵌入矩阵的方法为:
S121:使用实体链接将服务描述文档中的实体与提供商实体和知识图谱中的实体进行匹配,然后在知识图谱中构造一个包含该实体的子图;
S122:使用TransD的方法对实体执行表示学习,并获取其实体向量
Figure BDA0002722743280000043
选择实体的一跳内的所有实体一同进行嵌入作为服务实体嵌入矩阵
Figure BDA0002722743280000044
其中K是实体向量的维数。
图2展示了对服务描述中实体和提供商实体进行嵌入的过程。
TransD方法定义了两个向量空间:关系空间和实体空间,每个实体和关系由两个向量表示。第一个向量获取实体/关系的含义,另一个用于构造映射矩阵。例如,给定一个三元组(h,r,t),它的向量是h,hp,r,rp,t,tp,其中下标p表示投影向量。其中h,hp,t,tp∈Rn和r,rp∈Rm。对于每个三元组(h,r,t),设置两个映射矩阵Mrh,Mrt∈Rm×n将实体从实体空间投影到关系空间。它们的定义如下:
Figure BDA0002722743280000051
Figure BDA0002722743280000052
得分函数定义为:
Figure BDA0002722743280000053
其中,
Figure BDA0002722743280000054
hip,hip(i=1,2,3)和关系rp是投影相邻,hi⊥和ti⊥分别是头实体和尾实体的投影向量。所使用的损失函数定义为:
L=∑(h,r,t)∈S(h′,r′,t′)∈S′[γ+fr(h,t)-fr(h′,t′)]+ (4);
其中γ是超参数,S和S′是正确三元组和不正确三元组的集合。
具体地,使用LDA获得用户服务的主题分布向量的方法为:采用LDA对服务描述文档建模,获得用户服务描述的主题嵌入矩阵
Figure BDA0002722743280000055
Y为实体向量的维数。LDA潜在狄利克雷分配模型,是一种概率主题模型,可以识别文档中的主题并挖掘语料库中的隐藏信息,是现有技术,本发明将该LDA模型转用到Web服务发现中。
由于服务描述文档中主题的数量有限,并且主题向量的生成质量高度依赖于主题数目T的选择,因此在实验中,本发明将实体嵌入的维度设置为等同主题向量的维度以确保实验的可靠性。即Y=K=T。其中T为主题的数目,Web服务语料库中的单词数目为N,
Figure BDA0002722743280000056
是一个长度为T的向量,表示描述文档D中所有主题的比例,ψ是一个长度为N的向量,表示所有单词的分布,α和β是先验参数,LDA以所有的描述文档为输入,利用Gibbs取样方法可以近似估计潜在变量
Figure BDA00027227432800000512
ψ和Zi的后验分布。在训练过程中,建立马尔可夫链,并从中提取主题样本,改变链的状态进行更新。经过LDA对描述文档的建模后,本发明可以得到第i个文档的主题分布,表示
Figure BDA0002722743280000057
S200:对S100得到的主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵进行矩阵对齐,使主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵三个特征向量的维度相同。
具体地,将主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵进行矩阵对齐的方法为:
给所述主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵分别乘以可训练的转移矩阵
Figure BDA0002722743280000058
进行矩阵对齐,使特征向量的维度相同。因此,本发明可以获得转移的实体嵌入矩阵
Figure BDA0002722743280000059
词嵌入矩阵
Figure BDA00027227432800000510
和主题嵌入矩阵
Figure BDA00027227432800000511
其中,
Figure BDA0002722743280000061
Figure BDA0002722743280000062
Figure BDA0002722743280000063
S300:将经过S200对齐后的主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵作为CNN的输入以提取深层服务描述信息即用户服务的特征向量。
具体地,将CNN提取深层服务描述信息即用户服务的特征向量的方法为:
将主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵作为CNN的输入,滤波器的大小为
Figure BDA0002722743280000064
并且卷积过程为:
Figure BDA0002722743280000065
其中I为输入,表示为特征图,大小为U×V,通道数为C,
Figure BDA0002722743280000066
为输出,大小为R×l×D,经过最大池化操作后,服务的特征向量为:
Figure BDA0002722743280000067
S400:将服务存储库中的所有已存服务通过S100-S300得到对应的已存服务的特征向量。
具体地,计算用户服务的特征向量与已存服务的特征向量的相似度得分的方法为:使用神经网络来学习一个相似函数H(·)来计算用户服务的特征向量与已存服务的特征向量的相似性度得分Si,j,该神经网络由一组完全连接的层组成,激活函数设置为Sigmoid;
Sij=H(f(Si,Wf),f(Sj,Wf),WH) (9);
其中,WH是可学习参数。
作为改进,定义公式(10)所述的损失函数对相似函数H(·)的权重WH进行优化:
Figure BDA0002722743280000068
其中,sim(Ii,Ij)表示两个服务使用余弦相似度计算出的相似度得分,其中sxi,sj是学习到的相似度得分,而δ是可优化的参数。
S500:计算用户服务的特征向量与所有已存服务的特征向量的相似度得分,并按照相似度得分,由高到低排序,输出相似性得分前top-k所对应的已存服务作为发现结果。具体实施时,预设阈值,如果相似度得分高于定义的阈值,则称为正样本。继续评估,每次选择和重新排名,直到只有最好的样本在列表顶部。从收集到的最佳样本中选择最佳top-k作为发现结果。
实验分析:
数据集:
本发明的数据集是在Programmableweb上爬网的13884个服务API,包括API名称,API提供商信息,服务描述和所属类别。此外,本发明搜索数据集中所有发生的实体以及Microsoft Satori知识图谱中它们的一跳内的实体,并以高于0.9的置信度提取其中的(三元组),同时还删除了448个不会包含任何实体的服务。服务处理后的数据集描述如表1所示。最后,本发明随机选择70%的服务作为训练集,并随机选择30%的服务作为测试集。在实验中,本发明发现通过该划分获得的结果是最佳的。
表1预处理后的数据集统计
#API 13436
#description 13436
#entities 15220
#relations 24
#triples 59071
“#”denotes“the number of”
评价指标
使用Precision,Recall,F-Measure评估本发明方法,这些指标定义为:
Figure BDA0002722743280000071
Figure BDA0002722743280000072
Figure BDA0002722743280000073
其中|R(c)|是与服务C相似的相关服务列表中的服务数量。|T(c)|是与测试查询C关联的排名服务的前n个列表中的服务数量。
对比实验
为了证明本发明的KSN的性能,本发明将KSN与以下方法进行了比较:
We-LDA使用从Word2vec模型中学到的词向量来增强LDA模型,使用K-means++算法对服务进行聚类,并将聚类结果用于服务发现。
T-CNN使用卷积神经网络提取文本的特征向量,并使用学习的特征向量直接计算文本之间的相似度。
DeepWSC是一个深度神经网络框架,它结合了递归神经网络和卷积神经网络来提取服务描述中的特征,并使用K-means++算法对服务进行聚类。
WSC-GCN首先以Web服务的名称,描述文字,标签为基本语料,根据单词共现和单词来构建“Words和Web服务描述文档”的异构图形网络,利用图卷积神经网络提取特征。
KSN:本发明方法结合知识图谱获取服务描述的外部信息,使用卷积神经网络提取服务特征向量,并设计用于服务发现的监督相似网络。
实验设置
为了证明知识图谱嵌入对于服务发现的有效性以及本发明方法的可行性,本发明进行了对比实验进行验证。由于T-CNN和DeepWSC都是深度学习方法,为了比较公平性,本发明将词向量维度统一设置为128,过滤器统一设置为50,使用SGD训练模型,对于WE-LDA,此外,采用随机分区工具Sklearn,将数据集分为70%训练集和30%的测试集。KSN模型的一些重要参数包括:Learning rate=0.02,Epochs=20,Dropout=0.5。所有的实验在IntelCore i5-6200U CPU上运行。
本发明中有两个可以学习的参数:主题数目K和δ,设K为50,δ为0.6。这与本发明的KSN主题设置的数量一致。
实验结果
首先本发明进行了消融实验,以显示融合知识图谱信息的重要性。本发明报告了服务发现的F-Measure,结果如表2所示。
表2不同KG嵌入和KG嵌入去除的结果比较
Figure BDA0002722743280000081
可以看出,该模型的F-Measure在删除知识嵌入后,显著降低。值得注意的是,在移除知识嵌入后,本发明将服务描述的主题向量和词向量进行了串联操作喂给神经相似网络。服务实体的知识图谱嵌入使F-Measure提高了14.5%。另外,当选择对子图2跳内实体进行嵌入时,性能有所下降,本发明分析这是因为2跳内实体的嵌入引入了部分与服务不相关的实体,导致知识噪音。
图2,图3和图4分别展示了通过每种方法获得的精度,召回和F-Measure。结果如下:
随着N值的增加,每种方法的召回和F-Measure逐渐增加,而准确性逐渐降低。这是因为随着N的值增加,这意味着将有更多服务无法与候选服务进行比较。本发明可以观察到,深度学习方法T-CNN,DeepWSC以及WSC-GCN和本发明的KSN优于WE-LDA。表明基于深度学习的方法得到的服务特征向量有助于提高服务发现性能。一个原因是它可以捕获服务描述文档的隐式上下文信息,并且可以更准确表示服务之间的关系。并且通过神经网络处理后的向量的语义程度要远高于LDA模型的服务主体概率分布。WSC-GCN在三个评价指标上都优于T-CNN和DeepWSC,表示将服务看作为网络的这种思想有助于提高服务发现性能,当N取5时,在F-Measure指标上,WSC-GCN相比于T-CNN和DeepWSC分别提升了14%和7%。本发明的方法KSN结合了知识图谱,以扩展服务描述文档的外部知识。相比于WSC-GCN,当N=5时,有接近5%的提升,一个原因是本发明实验所用的数据集比较小,WSC-GCN将服务建模为图的形式,会导致图的稀疏性。而KSN对小规模数据集有着更好适应性。当N=5时,服务发现的精度达到72%,远高于WE-LDA的44.6%,T-CNN的58.5%和DeepWSC的62%。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.基于知识图谱和相似度网络的Web服务发现方法,其特征在于,主要包括如下步骤:
S100:使用Word2Vec获得用户服务的词嵌入矩阵,使用知识图谱嵌入获得用户服务的实体嵌入矩阵,使用LDA获得用户服务的主题嵌入矩阵;
S200:对S100得到的主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵进行矩阵对齐,使主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵三个特征向量的维度相同;
S300:将经过S200对齐后的主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵作为CNN的输入以提取深层服务描述信息即用户服务的特征向量;
S400:将服务存储库中的所有已存服务通过S100-S300得到对应的已存服务的特征向量;
S500:计算用户服务的特征向量与所有已存服务的特征向量的相似度得分,并按照相似度得分,由高到低排序,输出相似性得分前top-k所对应的已存服务作为发现结果。
2.如权利要求1所述的基于知识图谱和相似度网络的Web服务发现方法,其特征在于,所述S100中使用Word2Vec获得用户服务的词嵌入矩阵的方法为:
S111:对用于用户服务描述的服务描述文档进行预处理;
S112:经过预处理后的每个服务描述文档中的每个单词通过训练好的Word2Vec模型将其投影为词向量
Figure FDA0002722743270000011
Figure FDA0002722743270000012
就是用户服务的词嵌入矩阵,其中d是词向量的维数。
3.如权利要求1或2所述的基于知识图谱和相似度网络的Web服务发现方法,其特征在于,所述S100中使用知识图谱嵌入获得用户服务的实体嵌入矩阵的方法为:
S121:使用实体链接将服务描述文档中的实体与提供商实体和知识图谱中的实体进行匹配,然后在知识图谱中构造一个包含该实体的子图;
S122:使用TransD的方法对实体执行表示学习,并获取其实体向量
Figure FDA0002722743270000013
选择实体的一跳内的所有实体一同进行嵌入作为服务实体嵌入矩阵
Figure FDA0002722743270000014
其中K是实体向量的维数。
4.如权利要求3所述的基于知识图谱和相似度网络的Web服务发现方法,其特征在于,所述S100中使用LDA获得用户服务的主题分布向量的方法为:采用LDA对服务描述文档建模,获得用户服务描述的主题嵌入矩阵
Figure FDA0002722743270000015
Y为主题向量的维数。
5.如权利要求4所述的基于知识图谱和相似度网络的Web服务发现方法,其特征在于,所述S200中将主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵进行矩阵对齐的方法为:
给所述主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵分别乘以可训练的转移矩阵
Figure FDA0002722743270000021
进行矩阵对齐,使特征向量的维度相同。
6.如权利要求5所述的基于知识图谱和相似度网络的Web服务发现方法,其特征在于,所述S400中将CNN提取深层服务描述信息即用户服务的特征向量的方法为:
将主题嵌入矩阵,词嵌入矩阵和实体嵌入矩阵作为CNN的输入,滤波器的大小为
Figure FDA0002722743270000022
并且卷积过程为:
Figure FDA0002722743270000023
其中I为输入,表示为特征图,大小为U×V,通道数为C,
Figure FDA0002722743270000024
为输出,大小为R×l×D,经过最大池化操作后,服务的特征向量为:
Figure FDA0002722743270000025
7.如权利要求6所述的基于知识图谱和相似度网络的Web服务发现方法,其特征在于,所述S500中计算用户服务的特征向量与已存服务的特征向量的相似度得分的方法为:使用神经网络来学习一个相似函数H(·)来计算用户服务的特征向量与已存服务的特征向量的相似性度得分Si,j,该神经网络由一组完全连接的层组成,激活函数设置为Sigmoid;
Sij=H(f(Si,Wf),f(Sj,Wf),WH) (9);
其中,WH是可学习参数。
8.如权利要求7所述的基于知识图谱和相似度网络的Web服务发现方法,其特征在于,定义公式(10)所述的损失函数对相似函数H(·)的权重WH进行优化:
Figure FDA0002722743270000026
其中,sim(Ii,Ij)表示两个服务使用余弦相似度计算出的相似度得分,其中sxi,sj是学习到的相似度得分,δ是可优化的参数。
CN202011092858.7A 2020-10-13 2020-10-13 基于知识图谱和相似度网络的Web服务发现方法 Active CN112214335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011092858.7A CN112214335B (zh) 2020-10-13 2020-10-13 基于知识图谱和相似度网络的Web服务发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011092858.7A CN112214335B (zh) 2020-10-13 2020-10-13 基于知识图谱和相似度网络的Web服务发现方法

Publications (2)

Publication Number Publication Date
CN112214335A true CN112214335A (zh) 2021-01-12
CN112214335B CN112214335B (zh) 2023-12-01

Family

ID=74054057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011092858.7A Active CN112214335B (zh) 2020-10-13 2020-10-13 基于知识图谱和相似度网络的Web服务发现方法

Country Status (1)

Country Link
CN (1) CN112214335B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966096A (zh) * 2021-04-07 2021-06-15 重庆大学 一种基于多任务学习的云服务发现方法
CN112989803A (zh) * 2021-02-25 2021-06-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接模型
CN113377909A (zh) * 2021-06-09 2021-09-10 平安科技(深圳)有限公司 释义分析模型训练方法、装置、终端设备及存储介质
CN114912637A (zh) * 2022-05-21 2022-08-16 重庆大学 人机物知识图谱制造产线运维决策方法及系统、存储介质
CN115309912A (zh) * 2022-08-08 2022-11-08 重庆大学 集成电驱结构的知识图谱构建方法、智能推理方法和快速设计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629010A (zh) * 2018-05-07 2018-10-09 南京大学 一种基于主题和服务组合信息的web服务推荐方法
CN109255033A (zh) * 2018-11-05 2019-01-22 桂林电子科技大学 一种基于位置服务领域的知识图谱的推荐方法
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法
CN110851620A (zh) * 2019-10-29 2020-02-28 天津大学 一种基于文本嵌入和结构嵌入联合的知识表示方法
CN110941698A (zh) * 2019-11-18 2020-03-31 陕西师范大学 一种基于bert下卷积神经网络的服务发现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629010A (zh) * 2018-05-07 2018-10-09 南京大学 一种基于主题和服务组合信息的web服务推荐方法
CN109255033A (zh) * 2018-11-05 2019-01-22 桂林电子科技大学 一种基于位置服务领域的知识图谱的推荐方法
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法
CN110851620A (zh) * 2019-10-29 2020-02-28 天津大学 一种基于文本嵌入和结构嵌入联合的知识表示方法
CN110941698A (zh) * 2019-11-18 2020-03-31 陕西师范大学 一种基于bert下卷积神经网络的服务发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
柯健: "融合语义相似度的协同过滤服务推荐算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2020, no. 6 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989803A (zh) * 2021-02-25 2021-06-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接模型
CN112966096A (zh) * 2021-04-07 2021-06-15 重庆大学 一种基于多任务学习的云服务发现方法
CN112966096B (zh) * 2021-04-07 2022-05-24 重庆大学 一种基于多任务学习的云服务发现方法
CN113377909A (zh) * 2021-06-09 2021-09-10 平安科技(深圳)有限公司 释义分析模型训练方法、装置、终端设备及存储介质
CN113377909B (zh) * 2021-06-09 2023-07-11 平安科技(深圳)有限公司 释义分析模型训练方法、装置、终端设备及存储介质
CN114912637A (zh) * 2022-05-21 2022-08-16 重庆大学 人机物知识图谱制造产线运维决策方法及系统、存储介质
CN114912637B (zh) * 2022-05-21 2023-08-29 重庆大学 人机物知识图谱制造产线运维决策方法及系统、存储介质
CN115309912A (zh) * 2022-08-08 2022-11-08 重庆大学 集成电驱结构的知识图谱构建方法、智能推理方法和快速设计方法

Also Published As

Publication number Publication date
CN112214335B (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN112214335B (zh) 基于知识图谱和相似度网络的Web服务发现方法
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN111353030B (zh) 基于旅游领域知识图谱的知识问答检索方法及装置
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
US8073877B2 (en) Scalable semi-structured named entity detection
CN111832289B (zh) 一种基于聚类和高斯lda的服务发现方法
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
CN111522910B (zh) 一种基于文物知识图谱的智能语义检索方法
CN110309268B (zh) 一种基于概念图的跨语言信息检索方法
CN108710894B (zh) 一种基于聚类代表点的主动学习标注方法和装置
Wu et al. Webiq: Learning from the web to match deep-web query interfaces
CN109784405B (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN110727839A (zh) 自然语言查询的语义解析
Landthaler et al. Extending Full Text Search for Legal Document Collections Using Word Embeddings.
CN113076411B (zh) 一种基于知识图谱的医疗查询扩展方法
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
KR101976081B1 (ko) 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램
CN112559684A (zh) 一种关键词提取及信息检索方法
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN114519351A (zh) 一种基于用户意图嵌入图谱学习的主题文本快速检测方法
Dourado et al. Bag of textual graphs (BoTG): A general graph‐based text representation model
CN114004236B (zh) 融入事件实体知识的汉越跨语言新闻事件检索方法
Trabelsi et al. A hybrid deep model for learning to rank data tables
CN111581365B (zh) 一种谓词抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant