CN103955461A

CN103955461A - 一种基于本体集合概念相似度的语义匹配方法

Info

Publication number: CN103955461A
Application number: CN201410079771.4A
Authority: CN
Inventors: 蔡鸿明; 步丰林; 陈昊鹏; 麦宜清
Original assignee: SUZHOU HONGRAN INFORMATION TECHNOLOGY Co Ltd
Current assignee: SUZHOU HONGRAN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-03-06
Filing date: 2014-03-06
Publication date: 2014-07-30

Abstract

本发明涉及一种基于本体集合概念相似度的语义匹配方法，基于需求群组计算出语义相似度作为服务群组中信息服务加入或者去除的基础，其语义相似度为信息服务与需求群组的输入语义相似度与输出语义相似度的数学加权平均值，即所述的信息服务与需求群组的语义匹配度Sim_matching(SS,QS)的计算公式为：Sim_matching(SS,QS)=w_rg*Sim_ipput(SS,QS)+w_ws*Sim_out(SS,QS)。本发明使得服务请求在语义层面上聚集，然后再进行服务匹配，可实现高并发服务请求环境下基于需求群组的调度支持，从执行上提高了服务运行的效率和可替换性，提高服务性能。

Description

一种基于本体集合概念相似度的语义匹配方法

【技术领域】

本发明涉及信息系统领域，具体涉及一种基于本体集合概念相似度的语义匹配方法。

【背景技术】

开放动态的网络中，特别是云计算以及网格计算环境下，Web服务越来越多，Web服务方式将应用程序功能以一种通用的方式进行调用和交互，对于大规模系统应用具有促进作用。从众多的服务中发现与用户需求相匹配的Web 服务成为Web 服务系统中一个关键问题。现有的Web 服务描述文件WSDL主要描述了Web 服务的调用操作方式，而缺少对Web 服务功能的描述；服务注册机制UDDI通过对服务注册信息(如服务名称，分类，公司名称等)进行关键词的精确匹配来发现服务，这种语法级的服务匹配在服务的查全率和查准率方面都无法达到令人满意的效果。如何在现有服务描述中加入服务的功能描述，即语义信息，通过服务语义的匹配来准确地查找服务成为关注的焦点。在W3C组织提出语义Web 服务描述语言OWL-S之后，卡内基梅隆大学的Massimo Paolucci 等人提出了语义Web服务的OWL-S/UDDI 匹配算法，该算法通过对本体中概念的包含关系的推理将Web 服务匹配分为4 个不同的等级。在OWL-S 中，服务的功能用服务的输入、输出、前提和结果表示，服务的功能匹配表现为服务需求方和服务发布方的输入、输出、前提和结果的匹配。在语义Web 服务中，服务需求和发布双方一般采用共同的领域本体来准确表示服务的输入、输出、前提和结果中的信息。然而，对于服务运维者而言，如何有效实现服务的调用，降低服务器负载对于降低运营成本非常重要。

相关术语解释如下：

Universal Description Discovery and Integration即统一描述、发现和集成协议。UDDI是一种规范，它主要提供基于Web服务的注册和发现机制，为Web服务提供三个重要的技术支持：①标准、透明、专门描述Web服务的机制；②调用Web服务的机制；③可以访问的Web服务注册中心。

OWL-S Ontology Web Language for Services网络服务的本体语言，意思是万维网本体语言，是描述互联网上信息内容及其相互关系的一种人工语言。

REST指的是一组架构约束条件和原则。满足这些约束条件和原则的应用程序或设计就是 RESTful。

【发明内容】

本发明所要解决的技术问题是，在服务使用者与服务提供者之间提供中间调度支持，在海量并发服务请求环境中，以基于业务群组的方式来处理高并发的Web服务请求，降低服务平均响应时间，提高服务效率。

为了解决上述问题，本发明提供了一种基于本体概念相似度的语义匹配方法，本方法基于需求群组计算出语义相似度作为服务群组中信息服务加入或者去除的基础，其语义相似度为信息服务与需求群组的输入语义相似度与输出语义相似度的数学加权平均值，即所述的信息服务与需求群组的语义匹配度Sim_matching(SS,QS)的计算公式为：Sim_matching(SS,QS) = w_rg*Sim_ipput(SS,QS) + w_ws*Sim_out(SS,QS) ；

其中QS为需求群组集合，SS为信息服务集合，w_rg为需求群组所占权重，w_ws为信息服务所占权重，权重w_rg和w_ws 必须满足：w_rg+ w_ws =1， 0< w_rg<1， 0< w_ws <1；

输入语义相似度Sim_input(SS,QS)由下公式计算：，其中为信息服务的输入属性集合，为需求群组的输入属性集合；

输出语义相似度Sim_output(SS,QS)由下公式计算：，其中为信息服务的输出属性集合，为需求群组的输出属性集合；

，两个本体集合概念相似度，即CSC(Set1,Set2)为两个本体集合Set1，Set2概念相似度，Set1, Set2不全为空集，其计算公式为：。

本发明的有益效果是：本发明方法使得服务请求在语义层面上聚集，然后再进行服务匹配；在基于统一的语义数据库作为公共实体参考情形下，通过需求与服务两组对象的综合匹配，可实现高并发服务请求环境下基于需求群组的调度支持，从执行上提高了服务运行的效率和可替换性，提高服务性能。

【附图说明】

附图1是一种基于本体集合语义匹配的信息服务调度系统的结构示意图；

附图2是一种基于本体集合语义匹配的信息服务调度系统的实施结构图。

【具体实施方式】

下面结合附图对本发明一种基于本体集合概念相似度的语义匹配方法的具体实施方式做详细说明。

实施例1

首先给出一种基于本体集合概念相似度的语义匹配算法的具体实施方式。

语义Web匹配基于网络服务的本体语言OWL-S，服务的功能用服务的输入、输出、前提和结果表示，服务的功能匹配表现为服务需求方和服务发布方的输入、输出、前提和结果的匹配。在语义Web 服务中，服务需求和发布双方一般采用共同的领域本体来准确表示服务的输入、输出、前提和结果中的信息。

本算法基于需求群组计算出语义相似度作为服务群组中信息服务加入或者去除的基础，其语义相似度为需求群组与信息服务的输入语义相似度与输出语义相似度的数学加权平均值，即所述的需求群组与信息服务的语义匹配度Sim_matching(SS,QS)的计算公式为：Sim_matching(SS,QS) = w_rg*Sim_ipput(SS,QS) + w_ws*Sim_out(SS,QS) 。

其中QS为需求群组集合，SS为信息服务集合，w_rg为需求群组所占权重，w_ws为信息服务所占权重，权重w_rg和w_ws 必须满足：w_rg+ w_ws =1， 0< w_rg<1， 0< w_ws <1；权重w_rg和w_ws默认值都是0.5，当系统中强调满足需求优先时，系数w_rg会相应增加，同时w_ws会相应减小，当系统中强调现有服务重用优先时，则权重值设置相反。

输入语义相似度Sim_input(SS,QS)由下公式计算：，其中为信息服务的输入属性集合，为需求群组的输入属性集合。

输出语义相似度Sim_output(SS,QS)由下公式计算：，其中为信息服务的输出属性集合，为需求群组的输出属性集合。

输入语义计算公式中，输出语义计算公式中涵义为计算两个本体集合概念相似度；即设CSC(Set1,Set2)为两个本体集合Set1，Set2概念相似度，其中Set1, Set2不全为空集，其计算公式为：；公式的意义是，集合Set1，Set2为包含公共本体上的概念个数，该公式计算出两个集合概念的交集的概念个数，并除以单个集合Set1，以及Set2包含公共本体上的概念个数，作为两个集合Set1,Set2的相似程度。

本算法的一个具体例子，比如现有需求有业务需求1（订单实体1，（产品1，用户1），（产品1数量，交货时间1，...）），业务需求2（订单实体2，（产品1，用户2），（产品1数量，交货时间2）），业务需求3（订单实体3，（产品2，用户1），（产品2数量，交货时间3））；在公共本体概念的基础上，对相对的概念，如产品1可构成，需求群组（产品1，（用户1，用户2），产品1数量）等；进而根据产品，生成RESTful，利用上述算法构造服务群组（产品实体集，用户集（用户1，用户2），产品数量，服务能力属性），提供不同用户类型的调用。

实施例2

本实施例结合附图给出一种基于本体集合语义匹配的信息服务调度系统的具体实施方式，其要调用实施例1一种基于本体集合概念相似度的语义匹配算法。

本实施例是通过以下技术方案实现的，参看图1一种基于本体集合语义匹配的信息服务调度系统的结构示意图，主要包括四个模块，分别为需求群组集，服务群组集，服务能力构造模块，语义标识数据库；需求群组集存储各用户需求的语义数值；服务群组集存储各服务的语义数值；语义标识数据库作为语义描述基础，分别与需求群组集，服务群组集相连接并传输关键字信息和查找信息，返回语义词汇的二维数值，并记录匹配结果；服务能力匹配模块与需求群组集，服务群组集，语义标识数据库相连接并传输实例信息和发布信息，并将实例信息中的需求和服务相关信息记录下来进行匹配。连线表示模块之间的交互联系，以下对涉及到的模块分别进行阐述如下：

需求群组集：一个需求群组是包含一系列需求及其相关信息的需求。根据以信息为核心的服务构造，每一个业务需求可表述为信息实体集、输入参数、输出参数等部分组成。包含的需求称为需求群组的成员需求，它们彼此之间具有相关或相似的联系。需求群组能够覆盖其所有成员需求的要求。

服务群组集：一个服务群组是包含一系列服务及其相关信息的服务。每一个服务可由信息实体集、输入参数、输出参数、服务能力属性等四部分组成。包含的服务称为服务群组的成员服务，成员服务通过被独立地调用或者协作来实现某个特定需求群组的需求。成员服务被独立调用的服务群组称为聚合服务群组，由多个功能等效的成员服务组成，任何一个成员服务都能完成需求群组的需求。

语义标识数据库：存储所有的信息实体表述，将本体用于描述信息服务间的关系，作为信息服务的语义表述基础，构成语义标识数据库，存储信息服务的语义表述内容以及相关信息实体与服务的关系描述，作为后续调度等处理的基础。

服务能力匹配模块：主要包括服务匹配引擎与服务群组构造器两个组件。主要负责需求群组与服务之间的动态匹配任务。并将满足需求的信息服务构建为服务群组，以提高信息服务的容错能力，为海量并发服务请求环境下的信息服务提供高度的可用性支持。

系统的运行过程主要是需求池中的需求经过需求群组模块进行处理后构成需求群组，需求群组与存储在语义标识数据库中的信息服务作为服务能力匹配模块的输入，借助语义服务Web匹配领域本体库中的领域本体概念，通过服务匹配引擎的基于语义的匹配计算，搜寻出适合为各个需求群组提供服务的一些信息服务，然后通过服务群组构造器将这些功能相对于需求群组来说等效的信息服务构建为服务群组。服务能力匹配模块为需求群组搜寻合适的信息服务，构建服务群组，该服务群组由基于需求群组的信息服务调度模型的后续组件——服务调用组件调用执行。

其中服务匹配引擎采用基于语义的匹配算法构造服务群组，具体算法参看实施例1。本算法基于需求群组计算出语义相似度作为服务群组中信息服务加入或者去除的基础，即当利用本算法算出的语义匹配度小于1（或者用户定义的值，比如0.9），此时可以向服务群组中加入适合为各个需求群组提供服务的一些信息服务，直到利用实施例1所述的算法得到的语义匹配度等于1（或者大于等于用户定义的值，比如0.9）为止。

本实施例基于计算机系统予以实现，参看图2一种基于本体集合语义匹配的信息服务调度系统的实施结构图，计算机系统包括：业务调用接口，模型控制层，语义标识数据库。

业务调用接口：位于调度系统的上层，它向模型控制层发送信息服务请求，并接收服务返回结果信息，是基于需求群组的信息服务调度模型的应用者。主要接受基于信息服务的应用系统的请求并返回结果,可接收通过浏览器或桌面程序发送来的信息服务请求。

语义标识数据库：是信息服务调度方法实施的基础，为模型控制层提供语义信息访问，包括语义支持的UDDI以及访问这些持久化信息的统一接口。

模型控制层：是整个系统架构的核心，包括四个模块，分别是需求群组模块，服务能力匹配模块，服务调用模块，结果路由模块：

（模块1）需求群组模块：该模块通过对进入需求池的大量并发性需求进行相关性分析，通过匹配引擎找出相似或相关需求，并利用需求群组构造器进行结构化整合，构建需求群组，以实现将多个需求整合为一个能满足其所有成员要求的需求群组。

（模块2）服务能力匹配模块：服务能力匹配模块基于本体搜寻能为需求群组提供服务能力的信息服务，当匹配到的信息服务能实现需求群组的需求时，将这些功能等效的服务通过服务群组构造器构建成服务群组，为需求群组提供统一服务。

（模块3）服务调用模块：服务调用模块通过对服务群组的调用产生多个服务结果，将这些服务结果进行结构化整合，生成满足需求群组整体要求的服务结果。

（模块4）结果路由模块：结果路由模块根据需求群组中各个成员需求来解析服务结果集，根据各个成员需求的具体要求来将相应的结果子集分发给各个需求方。

系统各模块的调用过程如下：需求群组组件对来自业务应用层的并发服务请求通过需求匹配引擎进行相似性分析，并将相似需求通过需求群组构造器构建为结构化的需求群组。服务能力匹配组件则通过服务匹配引擎搜寻出能为需求群组提供服务能力的信息服务，并将这些信息服务通过服务群组构造器构建为结构化的服务群组，以实现对需求的透明化处理。服务结果路由组件通过结果解析器对服务群组的调用结果进行解析，针对需求群组中各个成员需求的不同要求，产生符合其要求的服务结果，然后通过结果路由分发器一次将相应的结果分发给各个需求方。模型控制层在业务应用层与信息持久层之间提供中间件的支持，实现业务应用层与信息持久层之间的透明化交互。

本实施例所述的概念模型有两种组织形式，一种形式是在同一应用领域中涉及到的业务概念的集合，称为业务需求模板。另一种形式对应于上面一定应用领域中的概念所涉及到的所有服务，称为服务模版；所述的语义标识数据库包括了领域本体中的功能概念类，连接了需求本体和服务本体，它的实例是RESTful服务及SOAP服务。本实施例的语义化模块将没有语义的WSDL和WADL文档添加语义，转化成统一的OWL-S有语义信息的文档来描述服务，作为内部处理基础。

表1 本实施例与国内外同类产品的技术特性对比

使用了本实施例中的这个模块后，使得整个调度系统能够融合服务请求,并进而应用到服务资源动态聚集中，提高信息服务调度的综合效率，这是本实施例的最大特色。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于本体集合概念相似度的语义匹配方法，其特征在于，基于需求群组计算出语义相似度作为服务群组中信息服务加入或者去除的基础，其语义相似度为信息服务与需求群组的输入语义相似度与输出语义相似度的数学加权平均值，即所述的信息服务与需求群组的语义匹配度Sim_matching(SS,QS)的计算公式为：Sim_matching(SS,QS) = w_rg*Sim_ipput(SS,QS) + w_ws*Sim_out(SS,QS) ；

2.根据权利要求1所述的基于本体集合概念相似度的语义匹配方法，其特征在于w_rg= w_ws =0.5。