CN113342988A - 一种基于lda跨域的构建服务知识图谱实现服务组合优化的方法及系统 - Google Patents
一种基于lda跨域的构建服务知识图谱实现服务组合优化的方法及系统 Download PDFInfo
- Publication number
- CN113342988A CN113342988A CN202110474463.1A CN202110474463A CN113342988A CN 113342988 A CN113342988 A CN 113342988A CN 202110474463 A CN202110474463 A CN 202110474463A CN 113342988 A CN113342988 A CN 113342988A
- Authority
- CN
- China
- Prior art keywords
- service
- constructing
- knowledge graph
- description information
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于LDA跨域的构建服务知识图谱实现服务组合的方法及系统,包括:(1)抓取服务数据;(2)处理语义信息:对服务描述等信息进行处理,对响应的服务描述信息进行修正,使得不同领域的服务在能保持原有特性的基础上,和相近领域的服务保持关联,使抽取出来不同服务实体之间的关联关系更加合理紧密地连接不同领域的服务;(3)构建语义本体库;(4)构建知识图谱:抽取上述服务领域知识的实体以及实体之间的关系,导入Neo4j数据库中;(5)服务组合优化:基于已构建的知识图谱,利用部分可观察马尔科夫决策过程给服务组合问题建模,并结合基于循环神经网络的深度强化学习优化服务组合过程。本发明能实现服务组合的优化。
Description
技术领域
本发明涉及一种基于LDA跨域的构建服务知识图谱实现服务组合的方法及系统,属于服务组合优化领域。
背景技术
服务组合(service composition)是指以特定方式(取决于服务组合语言)按给定应用逻辑将若干服务组合成为一个逻辑整体的方法、过程和技术。它主要是通过组合不同服务来获得更大粒度的服务,最终由多个单一服务或者简单服务实现支持解决复杂问题或实现复杂功能业务需求的组合服务。依据构建服务组合过程中的人工参与程度,由高到低依次可分为基于工作流的人工服务组合、交互式的服务组合以及自动服务组合。
但是在实际应用中,由于网络环境的不可预知性以及服务自身的演变甚至外部环境的变化都会导致服务组合的动态变化,这依然会给现有的服务组合技术的计算效率带来极大挑战。因此,服务组合方面在计算机领域需要研究的就是如何在组合过程中尽量减少人工的干涉的同时,自动地快速提供满足用户功能需求的服务组合,那么语义驱动的服务组合是有效实现这一需求的方式,即在语义层面上对服务的功能性属性和非功能性属性相关信息进行描述,通过服务语义信息的匹配进行服务组合。
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱本质上就是语义网络的知识库,因此通过知识图谱去结合语义信息挖掘服务之间的关系,从而实现有效组合具有天然的优势。
循环神经网络(Recurrent Neural Network,RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。循环神经网络对符合时间顺序、逻辑顺序等这类具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,因此在解决机器翻译、语音识别、时序分析等NLP领域广为应用。
发明内容
针对现有技术的不足,本发明提供了一种基于LDA跨域的服务知识图谱实现服务组合的方法。
本发明将服务的属性划分为三类,分别为基础属性、功能属性、特征属性。其中,Web服务的功能属性主要包括服务的IOPR:服务的输入(Input)、输出(Output)、前置条件(Precondition)和服务结果(Result),这是影响服务之间状态变化以及拓扑排序的强相关功能性属性。服务的基础属性包括服务名称、服务文本描述、供应商信息等。这些信息通常是通过自然语言描述的,为服务请求者提供服务的基本描述。对此,本发明在保证服务强相关功能性属性关联关系的基础上,使用HanLP对服务描述信息进行处理,并依据不同领域的标签对信息进行一定的修正,从而使得抽取出来的不同服务实体之间的关联关系能够更加合理紧密地连接不同领域的服务,从而起到知识融合的效果。在此基础上构建知识图谱,充分利用知识图谱对语义信息之间关联关系的挖掘,以及循环神经网络对服务时序进行处理分析,实现服务组合的优化。
本发明还提供了一种基于LDA跨域的服务知识图谱实现服务组合的系统。
术语解释:
1、隐含狄利克雷分布,简称LDA(Latent Dirichlet allocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由Blei,DavidM.、吴恩达和Jordan,MichaelI于2003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。
2、独热编码,即One-Hot-coding,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。在触发器资源丰富的FPGA或ASIC设计中,采用独热编码皆可以使电路特性能得到保证又可以充分利用触发器数量多的优势。
3、吉布斯采样(Gibbs sampling)是统计学中用于马尔科夫蒙特卡洛(MCMC)的一种算法,用于在难以直接采样时从某一多变量概率分布中近似抽取样本序列。该序列可用于近似联合分布、部分变量的边缘分布或计算积分(如某一变量的期望值)。某些变量可能为已知变量,故对这些变量并不需要采样。
3、AXISAPI,AXIS是一个开源、建基于XML的Web服务架构。它包含了Java和C++语言实现的SOAP服务器,以及各种公用服务及API以生成和部署Web服务应用。
4、WSDL文件,WebServices Description Language(WSDL Web服务语言)是一个用于精确描述Web Service的文档格式。WSDL文档是一个遵循WSDL XML模式的XML文档(文档实例);WSDL它从句法层面对Web服务的功能进行描述,包括4个不同的粒度:数据类型(Datatype)、消息(Message)、方法(Operation)和访问端口(PortType)。这只是提供了Web服务的接口描述,对服务的行为约束和属性描述缺乏进一步的支持。
5、OWL-S文件,OWL-S是语义Web服务标记语言的标准,它比WSDL更能向用户提供可理解的服务资源的描述形式,提高服务选取与推荐的准确性。语义Web服务的主要方法是利用Ontology来描述Web服务,然后通过这些带有语义信息的描述实现Web服务来实现服务的自动发现,调用和组合。语义Web和Web服务是语义Web服务的两大支撑技术,OWL-S是连接两大技术的桥梁。语义Web服务及相关标准(OWL-S等)对于Web及Web服务应用的深化具有重要意义,同时也具有很好的发展前景。目前OWL-S等语义Web服务相关标准的应用还主要是研究性、示范性的。
6、WSDL2OWL-S Converter,WSDL2OWL-S Converter是一个基于Web的工具,提供从WSDL服务描述到OWL-S描述的部分转换。经过转换侯,该功能能够提供完整的ServiceGrounding描述,以及部分Service Model和ServiceProfile的描述。
8、Neo4j数据库,Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。
9、部分可观察马尔科夫(POMDP),部分可观察马尔可夫决策过程(PartiallyObservable Markov Decision Process,缩写:POMDP),是一种通用化的马尔可夫决策过程。POMDP模拟智能体决策程序是假设系统动态由MDP决定,但是智能体无法直接观察状态。相反的,它必须要根据模型的全域与部分区域观察结果来推断状态的分布。
本发明的技术方案如下:
一种基于LDA跨域的构建服务知识图谱实现服务组合的方法,包括步骤如下:
(1)抓取服务数据:抓取服务描述信息,对服务描述信息进行分词处理,并对服务描述信息根据不同服务固有的类别进行领域划分;
(2)处理语义信息:使用自然语言处理技术,对服务描述信息和领域标签信息进行处理,是指:依据不同领域的标签信息,对响应的服务描述信息进行修正,使得不同领域的服务在保持原有特性的基础上,和相近领域的服务保持关联,使抽取出来不同服务实体之间的关联关系更加合理紧密地连接不同领域的服务;
(3)构建语义本体库;通过对WSDL文件以及服务描述信息的语义提取,将语义信息转化为语义本体描述存入语义本体库;
(4)构建知识图谱:抽取上述服务领域知识的服务即实体以及实体之间的关系,以csv格式导入Neo4j数据库中;
(5)服务组合优化:基于已构建的知识图谱,构建自适应性深度强化学习组合网络,基于自适应性深度强化学习组合网络深度强化学习优化服务组合。
进一步优选的,步骤(1)中,通过网络爬虫从programmableweb.com网站进行服务数据检索,抓取服务描述信息。
进一步优选的,步骤(1)中,对服务描述信息进行分词处理,是指:对服务描述信息依次进行去停用词、标注词性、分词处理。
根据本发明优选的,步骤(2)中,处理语义信息,包括步骤如下:
a、使用隐含狄利克雷分布分析服务描述信息和地理位置信息;
使用隐含狄利克雷分布该非监督聚类算法用来计算每个服务相近的主题模型,并将服务描述信息投影映射到由多个主题组成的向量空间,其中,领域标签信息(就是网站对该服务打的tags)经过独热编码被视为特殊的词汇,该特殊的词汇以出现的频率被添加到服务描述信息中去;
被添加的Top-N词汇l在形式上满足如下式(I):
式(I)中,γ系数由公式确定,ω、η、δ都是在程序中手动设定的参数,用以限制γ的范围,li是指文档中出现的不同词语在该文档中的频率;fwd是指文档中出现的不同词语在全部语料库中的频率;fl是不同服务的Top-N地理位置计数频率;
b、直接使用服务描述信息和原始的隐含狄利克雷去估计整体数据集上的参数是比较困难的。使用吉布斯采样进行近似处理,具体是指:输入服务描述d、参数α和β、主题数目K、地理位置信息l,参数α和β是在隐含狄利克雷分布中所需要的参数,进行服务语义建模,在服务语义建模之后,获得文档-主题概率分布矩阵φ和主题-词语概率分布矩阵Θ。
进一步优选的,步骤b的具体实现过程包括:
c、对Top-N词汇l使用聚类算法聚类并进行过滤,将Top-N词汇l以步骤a所述的以出现的频率添加相应的服务描述信息中去;
d、初始化列统计变量,对语料库每个词进行吉布斯采样,采样主题词,并赋予每一个服务描述文档可能的主题词,不断进行收敛与更新,直至获取到最终的主题词共现频率矩阵;
e、统计语料库的主题词汇共现频率矩阵,获取到服从多项式分布的主题-词语概率分布矩阵Θ和文档-主题概率分布矩阵φ。
其中,文档-主题概率分布矩阵φ是LDA算法输出之一,描述了文档-主题的联合概率分布,即不同文档对应于各个主题的采样概率。主题-词语概率分布矩阵Θ是LDA算法输出之一,描述了主题-词语的联合概率分布,即不同主题对应于各个词语的采样概率。
根据本发明优选的,步骤(3)中,构建语义本体库,包括步骤如下:
f、如果语义本体库中的服务无服务描述信息,则使用AXISAPI自动生成WSDL文件的服务描述信息,进入步骤g;否则,结束;
g、使用OWL-S API提供的工具WSDL2OWL-S Converter,通过输入服务的WSDL文件来导入服务描述信息,转换后获取到一个OWL-S文件,用来存储服务的服务描述信息,例如,服务名称:LocationService;服务描述(也即服务语义信息):这是一个用来获取位置信息的服务,既得语义本体库。并在后续添加新服务的过程中进行修正。
根据本发明优选的,步骤(4)中,构建知识图谱,包括步骤如下:
h、基于上述步骤实现的服务描述信息的抽取以及关系的抽取;
步骤(1)中对服务描述信息进行分词处理后得到若干主题词;文档-主题概率分布矩阵φ是指服务描述信息与主题词的相关度;这是服务描述信息的抽取;
服务的输入参数和输出参数信息存在于OWL-S文件中,即实现了对关系的抽取;
再通过服务注册中心获取服务注册表,根据服务注册表中服务事实,获取其输入状态及输出状态;
i、基于已有特征构建知识图谱,分为两部分:
第一部分:基于输入状态及输出状态(功能性属性)构建知识图谱,抽取出的关系三元组为(服务,输入状态,输入关系)以及(服务、输出状态,输出关系);输入关系是指对应的服务的输入状态;输出关系是指对应的服务的输出状态;
第二部分:基于主题(非功能性属性)构建知识图谱,抽取出的关系三元组为(服务,主题,服务主题为),一个服务有多个主题,一个主题下有多个服务;步骤(1)中对服务描述信息进行分词处理后得到若干主题词就是主题-词语概率分布矩阵Θ中的词语,对词语进行聚类处理获取一个个主题,文档-主题概率分布矩阵φ就是服务描述信息(文档就是服务描述文本)与每个主题聚类的相关度,排序后选取相关度最高的前三个主题聚类的前三个主题词建立三元组,存储在csv文件中;
j、将步骤i抽取出的所有关系三元组以CSV格式导入到Neo4j数据库中;
k、再插入新服务时,先通过neo4j数据库的Cypher语句查询该服务以及输入、输出状态是否存在于知识图谱中,如果已经存在,则只将新服务与输入状态及输出状态进行连接,如果不存在,则将新服务连同输入状、输出状态以及对应关系一同插入到知识图谱中。
根据本发明优选的,步骤(5)中,服务组合优化,包括步骤如下:
构建自适应性深度强化学习组合网络,所述自适应性深度强化学习组合网络包括输入层、隐藏层、全连接层及输出层;将服务(实体)以及与其邻接的所有输出关系作为状态-动作对输入自适应性深度强化学习组合网络中输入层后,经过多个长短期记忆单元组成的一个隐藏层和一个全连接层的非线程变换,输出每个状态-动作对的Q值,最终得到一个具有最大化累计反馈值的服务序列,即实现了服务组合优化。
根据本发明优选的,在自适应性深度强化学习组合网络训练过程中,采用Q-learning算法去进行迭代收敛,并增加目标值网络来缓解线性网络表示值函数出现的不稳定现象,采用Dropout防止训练过程中可能出现过拟合和费时问题,即:
在自适应性深度强化学习组合网络训练时,每个神经单元以概率p被保留(dropout丢弃率为1-p);
在测试阶段,每个神经单元都是存在的,权重参数w要乘以p,成为pw;Q-learning算法迭代收敛公式如式(Ⅲ)所示:
Q(s,a)←(1-α)Q(s,a)+α[γ+γmaxa′Q(s′,a′)] (Ⅲ)
式(Ⅲ)中,α是学习率,γ表示折扣因子,Q(s,a)是在状态s下执行动作a的值,maxa′Q(s′,a′)表示在状态s′下采用动作a′所得到的最优奖赏值。
一种基于LDA跨域的构建服务知识图谱实现服务组合的系统,包括服务数据抓取模块、语义信息处理模块、语义本体库构建模块、知识图谱构建模块、服务组合优化模块;
所述服务数据抓取模块,用于实现所述步骤(1);所述语义信息处理模块,用于实现所述步骤(2);所述语义本体库构建模块,用于实现所述步骤(3);所述知识图谱构建模块,用于实现所述步骤(4);所述服务组合优化模块,用于实现所述步骤(5)。
本发明的有益效果为:
1、本发明利用LDA算法结合服务的领域标签信息对服务语义信息进行处理,使得不同服务实体之间的关联关系能够更加合理紧密地连接不同领域的服务,从而起到知识融合的效果。
2、本发明充分利用知识图谱对语义信息之间关联关系的挖掘能力,从有限的服务描述信息中挖掘的服务之间的联系,更好的服务于服务组合,有效提高了组合效率和性能,尤其是在针对大规模动态性服务组合的场景下,图存储的优化效果更为显著。
3、本发明避开了强化学习的局限性,利用其优秀的决策能力,以及深度学习的感知能力,通过循环神经网络对服务时序进行处理分析,充分保证了服务组合的效率和自适应性。
附图说明
图1为本发明基于LDA跨域的构建服务知识图谱实现服务组合的方法整体框架示意图;
图2为构建自适应性深度强化学习组合网络的示意图;
图3为自适应性深度强化学习组合网络的网络架构图。
具体实施方式
下面通过实施例并结合附图对本发明做进一步说明,但不限于此。
实施例1
一种基于LDA跨域的构建服务知识图谱实现服务组合的方法,如图1所示,将LDA算法、知识图谱以及循环神经网络优化后应用于服务组合过程以实现服务组合的优化,下面所写就是抓取了programmableweb.com网站的数据进行处理并进行服务组合。包括步骤如下:
(1)抓取服务数据:抓取服务描述信息,服务描述信息就是从网站抓取的网站对于该服务的introduction,比如,服务A:这是一个用来获取当前地理位置的API,tags:位置获取,company:Google,对服务描述信息进行分词处理,并对服务描述信息根据不同服务固有的类别进行领域划分;
利用python编写网络爬虫,通过网络爬虫从programmableweb.com网站进行服务数据检索,抓取服务描述信息。
对服务描述信息使用HanLP进行基础的分词处理,是指:对服务描述信息依次进行去停用词、标注词性、分词处理。
步骤(1)中,对服务描述信息根据不同服务固有的类别进行领域划分,例如,从网站爬取下来的数据集中的一条数据为:
name:私募年报审计服务;descr:1、出具私募审计报告;2、协助管理人审计报送;3、专业审计咨询服务;tags:私募审计###专项服务;
其中,name是服务名称,descr是服务描述信息,tags是领域标签信息,就是网站对该服务打的tags,即该服务划分到的领域。
(2)处理语义信息:使用自然语言处理技术,对服务描述信息和领域标签信息进行处理,是指:依据不同领域的标签信息,对响应的服务描述信息进行修正,使得不同领域的服务在保持原有特性的基础上,和相近领域的服务保持关联,使抽取出来不同服务实体之间的关联关系更加合理紧密地连接不同领域的服务;
制定不同领域,其中收集的服务主要包括4个大类,分别是恒生,医康,滴滴,通信。
制定不同标签,其中将收集的服务依照其内在属性关系,分为590类。
(3)构建语义本体库;通过对WSDL文件以及服务描述信息的语义提取,将语义信息转化为语义本体描述存入语义本体库;
(4)构建知识图谱:抽取上述服务领域知识的服务即实体以及实体之间的关系,以csv格式导入Neo4j数据库中;
(5)服务组合优化:基于已构建的知识图谱,利用部分可观察马尔科夫决策过程(POMDP)给服务组合问题建模,并结合基于循环神经网络的深度强化学习优化服务组合过程。构建自适应性深度强化学习组合网络,基于自适应性深度强化学习组合网络深度强化学习优化服务组合。
实施例2
根据实施例1所述的一种基于LDA跨域的构建服务知识图谱实现服务组合的方法,其区别在于:
步骤(2)中,处理语义信息,包括步骤如下:
a、使用隐含狄利克雷分布分析服务描述信息和地理位置信息;
使用隐含狄利克雷分布该非监督聚类算法用来计算每个服务相近的主题模型,并将服务描述信息投影映射到由多个主题组成的向量空间,其中,领域标签信息(就是网站对该服务打的tags)经过独热编码被视为特殊的词汇,该特殊的词汇以出现的频率被添加到服务描述信息中去;
被添加的Top-N词汇l在形式上满足如下式(I):
式(I)中,γ系数由公式确定,ω、η、δ都是在程序中手动设定的参数,用以限制γ的范围,li是指文档中出现的不同词语在该文档中的频率;fwd是指文档中出现的不同词语在全部语料库中的频率;fl是不同服务的Top-N地理位置计数频率;
b、直接使用服务描述信息和原始的隐含狄利克雷去估计整体数据集上的参数是比较困难的。使用吉布斯采样进行近似处理,具体是指:输入服务描述d、参数α和β、主题数目K、地理位置信息l,参数α和β是在隐含狄利克雷分布中所需要的参数,进行服务语义建模,在服务语义建模之后,获得文档-主题概率分布矩阵φ和主题-词语概率分布矩阵Θ。
步骤b的具体实现过程包括:
c、对Top-N词汇l使用聚类算法聚类并进行过滤,将Top-N词汇l以步骤a所述的以出现的频率添加相应的服务描述信息中去;
d、初始化列统计变量,对语料库每个词进行吉布斯采样,采样主题词,并赋予每一个服务描述文档可能的主题词,不断进行收敛与更新,直至获取到最终的主题词共现频率矩阵;
e、统计语料库的主题词汇共现频率矩阵,获取到服从多项式分布的主题-词语概率分布矩阵Θ和文档-主题概率分布矩阵φ。
其中,文档-主题概率分布矩阵φ是LDA算法输出之一,描述了文档-主题的联合概率分布,即不同文档对应于各个主题的采样概率。主题-词语概率分布矩阵Θ是LDA算法输出之一,描述了主题-词语的联合概率分布,即不同主题对应于各个词语的采样概率。
步骤(3)中,构建语义本体库,包括步骤如下:
f、如果语义本体库中的服务无服务描述信息,则使用AXISAPI自动生成WSDL文件的服务描述信息,进入步骤g;否则,结束;
g、使用OWL-S API提供的工具WSDL2OWL-S Converter,通过输入服务的WSDL文件来导入服务描述信息,转换后获取到一个OWL-S文件,用来存储服务的服务描述信息,例如,服务名称:LocationService;服务描述(也即服务语义信息):这是一个用来获取位置信息的服务,既得语义本体库。并在后续添加新服务的过程中进行修正。
步骤(4)中,构建知识图谱,包括步骤如下:
h、基于上述步骤实现的服务描述信息的抽取以及关系的抽取;
步骤(1)中对服务描述信息进行分词处理后得到若干主题词;文档-主题概率分布矩阵φ是指服务描述信息与主题词的相关度;这是服务描述信息的抽取;
服务的输入参数和输出参数信息存在于OWL-S文件中,即实现了对关系的抽取;一个服务必然是对输入数据进行处理然后输出结果的,可以把一个函数看做一个服务,函数的参数就是输入参数,return的就是输出参数,这个都是直接存储在owl-s文件里的。比如说一个查询火车票的服务,输入参数是起始地和目的地以及时间,输出参数就是对应火车信息。
再通过服务注册中心获取服务注册表,根据服务注册表中服务事实,获取其输入状态及输出状态;服务注册表本质就是一个map,服务注册信息是在新增一个服务的时候添加到表里然后存到服务器的数据库中,用的时候直接获取即可。
i、基于已有特征构建知识图谱,分为两部分:
第一部分:基于输入状态及输出状态(功能性属性)构建知识图谱,抽取出的关系三元组为(服务,输入状态,输入关系)以及(服务、输出状态,输出关系);输入关系是指对应的服务的输入状态;输出关系是指对应的服务的输出状态;例如,关系三元组是指(实体1,实体2,实体1与实体2之间的关系),上述关系三元组中第一个实体是服务A,第二个实体是服务的输入参数1,第三个元素是服务和服务之间的关系,即服务A的输入参数为1。
第二部分:基于主题(非功能性属性)构建知识图谱,抽取出的关系三元组为(服务,主题,服务主题为),一个服务有多个主题,一个主题下有多个服务;步骤(1)中对服务描述信息进行分词处理后得到若干主题词就是主题-词语概率分布矩阵Θ中的词语,对词语进行聚类处理获取一个个主题,文档-主题概率分布矩阵φ就是服务描述信息(文档就是服务描述文本)与每个主题聚类的相关度,排序后选取相关度最高的前三个主题聚类的前三个主题词建立三元组,存储在csv文件中;
j、将步骤i抽取出的所有关系三元组以CSV格式导入到Neo4j数据库中;
k、再插入新服务时,先通过neo4j数据库的Cypher语句查询该服务以及输入、输出状态是否存在于知识图谱中,如果已经存在,则只将新服务与输入状态及输出状态进行连接,如果不存在,则将新服务连同输入状、输出状态以及对应关系一同插入到知识图谱中。
步骤(5)中,服务组合优化,包括步骤如下:
如图2所示,基于部分可观察马尔科夫(POMDP)构建服务组合模型(自适应性深度强化学习组合网络):因为服务组合优化的最大目标就是最大化用户的满足度,这就要从所提供的服务的非功能性属性出发,即主题相关度,所以本发明基于服务的非功能性属性来定义强化学习中的奖励函数,在当前状态下选择一个候选服务执行,同时环境给出反馈信号,将服务的主题归一化处理后模拟环境信号,该聚合值就是强化学习中环境的反馈信息和奖励函数,得到一个具有最大化累计反馈值即聚合值的服务序列;
其中归一化处理过程遵循式(II):
式(II)中,r(s)是指聚合值;m表示单个服务的相关主题聚类个数,wi表示单个服务的第i个主题在文档-主题概率分布矩阵φ中的概率值;
利用循环神经网络进行深度强化学习优化服务组合流程,构建具备自适应性的深度强化学习组合网络,将状态和动作信息输入自适应性深度强化学习组合网络后,经过多个长短期记忆单元组成的一个隐藏层和一个全连接层的非线程变换,输出每个状态和动作信息的Q值,最终得到一个具有最大化累计反馈值的服务序列;
在训练具备自适应性的深度强化学习组合网络时,改进传统的Q-Learning算法,增加目标值网络来缓解线性网络表示值函数出现的不稳定现象,并采用Dropout防止训练过程中可能出现过拟合和费时问题。
利用循环神经网络进行深度强化学习优化服务组合流程,构建自适应性深度强化学习组合网络,如图3所示,自适应性深度强化学习组合网络包括输入层、隐藏层、全连接层及输出层;将服务(实体)以及与其邻接的所有输出关系作为状态-动作对输入自适应性深度强化学习组合网络中输入层后,经过多个长短期记忆单元组成的一个隐藏层和一个全连接层的非线程变换,输出每个状态-动作对的Q值,最终得到一个具有最大化累计反馈值的服务序列,即实现了服务组合优化。
在自适应性深度强化学习组合网络训练过程中,采用Q-learning算法去进行迭代收敛,并增加目标值网络来缓解线性网络表示值函数出现的不稳定现象,采用Dropout防止训练过程中可能出现过拟合和费时问题,即:
在自适应性深度强化学习组合网络训练时,每个神经单元以概率p被保留(dropout丢弃率为1-p);
在测试阶段,每个神经单元都是存在的,权重参数w要乘以p,成为:pw;测试时乘上p的原因:考虑第一隐藏层的一个神经元在dropout之前的输出是x,那么dropout之后的期望值是E=px+(1-p)0,在测试时该神经元总是激活,为了保持同样的输出期望值并使下一层也得到同样的结果,需要调整x→px.其中p是Bernoulli分布(0-1分布)中值为1的概率。
Q-learning算法迭代收敛公式如式(Ⅲ)所示:
Q(s,a)←(1-α)Q(s,a)+α[γ+γmaxa′Q(s′,a′)] (Ⅲ)
式(Ⅲ)中,α是学习率,γ表示折扣因子,Q(s,a)是在状态s下执行动作a的值,maxa′Q(s′,a′)表示在状态s′下采用动作a′所得到的最优奖赏值。
实施例3
一种基于LDA跨域的构建服务知识图谱实现服务组合的系统,包括服务数据抓取模块、语义信息处理模块、语义本体库构建模块、知识图谱构建模块、服务组合优化模块;
所述服务数据抓取模块,用于实现所述步骤(1);所述语义信息处理模块,用于实现所述步骤(2);所述语义本体库构建模块,用于实现所述步骤(3);所述知识图谱构建模块,用于实现所述步骤(4);所述服务组合优化模块,用于实现所述步骤(5)。
Claims (10)
1.一种基于LDA跨域的构建服务知识图谱实现服务组合的方法,其特征在于,包括步骤如下:
(1)抓取服务数据:抓取服务描述信息,对服务描述信息进行分词处理,并对服务描述信息根据不同服务固有的类别进行领域划分;
(2)处理语义信息:使用自然语言处理技术,对服务描述信息和领域标签信息进行处理,是指:依据不同领域的标签信息,对响应的服务描述信息进行修正,使得不同领域的服务在保持原有特性的基础上,和相近领域的服务保持关联;
(3)构建语义本体库;通过对WSDL文件以及服务描述信息的语义提取,将语义信息转化为语义本体描述存入语义本体库;
(4)构建知识图谱:抽取服务即实体以及实体之间的关系,以csv格式导入Neo4j数据库中;
(5)服务组合优化:基于已构建的知识图谱,构建自适应性深度强化学习组合网络,基于自适应性深度强化学习组合网络深度强化学习优化服务组合。
2.根据权利要求1所述的一种基于LDA跨域的构建服务知识图谱实现服务组合的方法,其特征在于,步骤(2)中,处理语义信息,包括步骤如下:
a、使用隐含狄利克雷分布分析服务描述信息和地理位置信息;
使用隐含狄利克雷分布用来计算每个服务相近的主题模型,并将服务描述信息投影映射到由多个主题组成的向量空间,其中,领域标签信息经过独热编码被视为特殊的词汇,该特殊的词汇以出现的频率被添加到服务描述信息中去;
被添加的Top-N词汇l在形式上满足如下式(I):
式(I)中,γ系数由公式确定,ω、η、δ都是在程序中手动设定的参数,用以限制γ的范围,li是指文档中出现的不同词语在该文档中的频率;fwd是指文档中出现的不同词语在全部语料库中的频率;fl是不同服务的Top-N地理位置计数频率;
b、使用吉布斯采样进行近似处理,具体是指:输入服务描述d、参数α和β、主题数目K、地理位置信息l,参数α和β是在隐含狄利克雷分布中所需要的参数,进行服务语义建模,在服务语义建模之后,获得文档-主题概率分布矩阵φ和主题-词语概率分布矩阵Θ。
3.根据权利要求2所述的一种基于LDA跨域的构建服务知识图谱实现服务组合的方法,其特征在于,步骤b的具体实现过程包括:
c、对Top-N词汇l使用聚类算法聚类并进行过滤,将Top-N词汇l以步骤a所述的以出现的频率添加相应的服务描述信息中去;
d、初始化列统计变量,对语料库每个词进行吉布斯采样,采样主题词,并赋予每一个服务描述文档可能的主题词,不断进行收敛与更新,直至获取到最终的主题词共现频率矩阵;
e、统计语料库的主题词汇共现频率矩阵,获取到服从多项式分布的主题-词语概率分布矩阵Θ和文档-主题概率分布矩阵φ。
4.根据权利要求1所述的一种基于LDA跨域的构建服务知识图谱实现服务组合的方法,其特征在于,步骤(3)中,构建语义本体库,包括步骤如下:
f、如果语义本体库中的服务无服务描述信息,则自动生成服务描述信息,进入步骤g;否则,结束;
g、导入服务描述信息,存储服务的服务描述信息,既得语义本体库。
5.根据权利要求3所述的一种基于LDA跨域的构建服务知识图谱实现服务组合的方法,其特征在于,步骤(4)中,构建知识图谱,包括步骤如下:
h、基于上述步骤实现的服务描述信息的抽取以及关系的抽取;通过服务注册中心获取服务注册表,根据服务注册表中服务事实,获取其输入状态及输出状态;
步骤(1)中对服务描述信息进行分词处理后得到若干主题词;文档-主题概率分布矩阵φ是指服务描述信息与主题词的相关度;这是服务描述信息的抽取;
服务的输入参数和输出参数信息存在于OWL-S文件中,即实现了对关系的抽取;
i、基于已有特征构建知识图谱,分为两部分:
第一部分:基于输入状态及输出状态构建知识图谱,抽取出的关系三元组为(服务,输入状态,输入关系)以及(服务、输出状态,输出关系);输入关系是指对应的服务的输入状态;输出关系是指对应的服务的输出状态;
第二部分:基于主题构建知识图谱,抽取出的关系三元组为(服务,主题,服务主题为),一个服务有多个主题,一个主题下有多个服务;步骤(1)中对服务描述信息进行分词处理后得到若干主题词就是主题-词语概率分布矩阵Θ中的词语,对词语进行聚类处理获取一个个主题,文档-主题概率分布矩阵φ就是服务描述信息与每个主题聚类的相关度,排序后选取相关度最高的前三个主题聚类的前三个主题词建立三元组,存储在csv文件中;
j、将步骤i抽取出的所有关系三元组以CSV格式导入到Neo4j数据库中;
k、再插入新服务时,先通过neo4j数据库的Cypher语句查询该服务以及输入、输出状态是否存在于知识图谱中,如果已经存在,则只将新服务与输入状态及输出状态进行连接,如果不存在,则将新服务连同输入状、输出状态以及对应关系一同插入到知识图谱中。
6.根据权利要求5所述的一种基于LDA跨域的构建服务知识图谱实现服务组合的方法,其特征在于,步骤(5)中,服务组合优化,包括步骤如下:
构建自适应性深度强化学习组合网络,所述自适应性深度强化学习组合网络包括输入层、隐藏层、全连接层及输出层;将服务以及与其邻接的所有输出关系作为状态-动作对输入自适应性深度强化学习组合网络中输入层后,经过多个长短期记忆单元组成的一个隐藏层和一个全连接层的非线程变换,输出每个状态-动作对的Q值,最终得到一个具有最大化累计反馈值的服务序列,即实现了服务组合优化。
7.根据权利要求6所述的一种基于LDA跨域的构建服务知识图谱实现服务组合的方法,其特征在于,在自适应性深度强化学习组合网络训练过程中,采用Q-learning算法去进行迭代收敛,并增加目标值网络来缓解线性网络表示值函数出现的不稳定现象,采用Dropout防止训练过程中可能出现过拟合和费时问题,即:
在自适应性深度强化学习组合网络训练时,每个神经单元以概率p被保留;
在测试阶段,每个神经单元都是存在的,权重参数w要乘以p,成为pw;Q-learning算法迭代收敛公式如式(Ⅲ)所示:
Q(s,a)←(1-α)Q(s,a)+α[γ+γmaxa′Q(s′,a′)] (Ⅲ)
式(Ⅲ)中,α是学习率,γ表示折扣因子,Q(s,a)是在状态s下执行动作a的值,maxa′Q(s2,a′)表示在状态s′下采用动作a′所得到的最优奖赏值。
8.根据权利要求1所述的一种基于LDA跨域的构建服务知识图谱实现服务组合的方法,其特征在于,步骤(1)中,通过网络爬虫从programmableweb.com网站进行服务数据检索,抓取服务描述信息。
9.根据权利要求1所述的一种基于LDA跨域的构建服务知识图谱实现服务组合的方法,其特征在于,步骤(1)中,对服务描述信息进行分词处理,是指:对服务描述信息依次进行去停用词、标注词性、分词处理。
10.一种基于LDA跨域的构建服务知识图谱实现服务组合的系统,其特征在于,用于实现权利要求1-9任一所述的基于LDA跨域的构建服务知识图谱实现服务组合的方法,包括服务数据抓取模块、语义信息处理模块、语义本体库构建模块、知识图谱构建模块、服务组合优化模块;
所述服务数据抓取模块,用于实现所述步骤(1);所述语义信息处理模块,用于实现所述步骤(2);所述语义本体库构建模块,用于实现所述步骤(3);所述知识图谱构建模块,用于实现所述步骤(4);所述服务组合优化模块,用于实现所述步骤(5)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110474463.1A CN113342988B (zh) | 2021-04-29 | 2021-04-29 | 一种基于lda跨域的构建服务知识图谱实现服务组合优化的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110474463.1A CN113342988B (zh) | 2021-04-29 | 2021-04-29 | 一种基于lda跨域的构建服务知识图谱实现服务组合优化的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113342988A true CN113342988A (zh) | 2021-09-03 |
CN113342988B CN113342988B (zh) | 2022-03-04 |
Family
ID=77469051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110474463.1A Active CN113342988B (zh) | 2021-04-29 | 2021-04-29 | 一种基于lda跨域的构建服务知识图谱实现服务组合优化的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113342988B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372125A (zh) * | 2021-12-03 | 2022-04-19 | 北京北明数科信息技术有限公司 | 基于知识图谱的政务知识库构建方法、系统、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102571752A (zh) * | 2011-12-03 | 2012-07-11 | 山东大学 | 基于服务关联索引图的QoS感知Top-k服务组合系统 |
KR20130078037A (ko) * | 2011-12-30 | 2013-07-10 | 건국대학교 산학협력단 | 온 더 플라이 학습 기반 검색을 이용한 큐 오 에스 인식 웹 서비스 구성방법 |
CN103530419A (zh) * | 2013-10-29 | 2014-01-22 | 武汉大学 | 一种面向Web 服务描述的本体学习方法 |
CN109711810A (zh) * | 2018-12-28 | 2019-05-03 | 航天信息股份有限公司 | 一种以事件为中心的信息栅格资源协同服务系统 |
CN110083706A (zh) * | 2019-03-22 | 2019-08-02 | 西安电子科技大学 | 一种面向物联网微服务框架及其服务组合方法 |
CN110263263A (zh) * | 2019-06-28 | 2019-09-20 | 常州工学院 | 一种基于用户社交信息和服务配置信息的服务组合推荐方法 |
US20200322218A1 (en) * | 2019-04-02 | 2020-10-08 | At&T Intellectual Property I, L.P. | Detect impact of network maintenance in software defined infrastructure |
CN111813955A (zh) * | 2020-07-01 | 2020-10-23 | 浙江工商大学 | 一种基于知识图谱表示学习的服务聚类方法 |
WO2021051031A1 (en) * | 2019-09-14 | 2021-03-18 | Oracle International Corporation | Techniques for adaptive and context-aware automated service composition for machine learning (ml) |
-
2021
- 2021-04-29 CN CN202110474463.1A patent/CN113342988B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102571752A (zh) * | 2011-12-03 | 2012-07-11 | 山东大学 | 基于服务关联索引图的QoS感知Top-k服务组合系统 |
KR20130078037A (ko) * | 2011-12-30 | 2013-07-10 | 건국대학교 산학협력단 | 온 더 플라이 학습 기반 검색을 이용한 큐 오 에스 인식 웹 서비스 구성방법 |
CN103530419A (zh) * | 2013-10-29 | 2014-01-22 | 武汉大学 | 一种面向Web 服务描述的本体学习方法 |
CN109711810A (zh) * | 2018-12-28 | 2019-05-03 | 航天信息股份有限公司 | 一种以事件为中心的信息栅格资源协同服务系统 |
CN110083706A (zh) * | 2019-03-22 | 2019-08-02 | 西安电子科技大学 | 一种面向物联网微服务框架及其服务组合方法 |
US20200322218A1 (en) * | 2019-04-02 | 2020-10-08 | At&T Intellectual Property I, L.P. | Detect impact of network maintenance in software defined infrastructure |
CN110263263A (zh) * | 2019-06-28 | 2019-09-20 | 常州工学院 | 一种基于用户社交信息和服务配置信息的服务组合推荐方法 |
WO2021051031A1 (en) * | 2019-09-14 | 2021-03-18 | Oracle International Corporation | Techniques for adaptive and context-aware automated service composition for machine learning (ml) |
CN111813955A (zh) * | 2020-07-01 | 2020-10-23 | 浙江工商大学 | 一种基于知识图谱表示学习的服务聚类方法 |
Non-Patent Citations (3)
Title |
---|
JIN DIAO等: "cientific Workflow Recommendation Based on Service Knowledge Graph", 《2020 IEEE INTERNATIONAL CONFERENCE ON KNOWLEDGE GRAPH (ICKG)》 * |
及历荣: "知识图谱下基于图规划的交通信息服务组合算法研究", 《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》 * |
顾明珠: "基于深度强化学习的大规模自适应服务组合问题研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372125A (zh) * | 2021-12-03 | 2022-04-19 | 北京北明数科信息技术有限公司 | 基于知识图谱的政务知识库构建方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113342988B (zh) | 2022-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Collaborative learning-based industrial IoT API recommendation for software-defined devices: the implicit knowledge discovery perspective | |
Bharadiya | A comparative study of business intelligence and artificial intelligence with big data analytics | |
CN113822494B (zh) | 风险预测方法、装置、设备及存储介质 | |
US20150058412A1 (en) | Methods and systems for auto-generating models of networks for network management purposes | |
Sidhu et al. | A machine learning approach to software model refactoring | |
CN110297911A (zh) | 物联网(iot)计算环境中认知数据管护的方法和系统 | |
CN109804371B (zh) | 用于语义知识迁移的方法和装置 | |
Guo et al. | Multi-label classification methods for green computing and application for mobile medical recommendations | |
Bobek et al. | Towards model-agnostic ensemble explanations | |
Li et al. | Study on the interaction between big data and artificial intelligence | |
Berki et al. | Requirements engineering and process modelling in software quality management—towards a generic process metamodel | |
Fallucchi et al. | Supporting humanitarian logistics with intelligent applications for disaster management | |
CN113342988B (zh) | 一种基于lda跨域的构建服务知识图谱实现服务组合优化的方法及系统 | |
Lee et al. | A systematic idea generation approach for developing a new technology: Application of a socio-technical transition system | |
Bibri et al. | Data science for urban sustainability: Data mining and data-analytic thinking in the next wave of city analytics | |
Wen et al. | From generative ai to generative internet of things: Fundamentals, framework, and outlooks | |
Hüllermeier | Similarity-based inference as evidential reasoning | |
Khanam et al. | A Web Service Discovery Scheme Based on Structural and Semantic Similarity. | |
Azouzi et al. | Collaborative e-learning process discovery in multi-tenant cloud | |
Johnpaul et al. | General representational automata using deep neural networks | |
CN115293479A (zh) | 舆情分析工作流系统及其方法 | |
Jiao et al. | Neural network data mining clustering optimization algorithm | |
Fernandez-Garcia et al. | Evolving mashup interfaces using a distributed machine learning and model transformation methodology | |
Wu et al. | Mining trajectory patterns with point-of-interest and behavior-of-interest | |
Komamizu et al. | Exploring Identical Users on GitHub and Stack Overflow. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |