CN101853314A - 语义Web服务的自动生成系统 - Google Patents
语义Web服务的自动生成系统 Download PDFInfo
- Publication number
- CN101853314A CN101853314A CN 201010216339 CN201010216339A CN101853314A CN 101853314 A CN101853314 A CN 101853314A CN 201010216339 CN201010216339 CN 201010216339 CN 201010216339 A CN201010216339 A CN 201010216339A CN 101853314 A CN101853314 A CN 101853314A
- Authority
- CN
- China
- Prior art keywords
- module
- submodule
- semantic
- information
- links
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
一种信息处理技术领域的语义Web服务的自动生成系统,包括:语料库解析模块、原始信息预处理模块、自然语言处理模块、本体匹配模块,语义模板实例化模块和SAWSDL生成模块,其中:语料库解析模块与原始信息预处理模块相连,原始信息预处理模块与自然语言处理模块相连,自然语言处理模块与本体匹配模块相连,本体匹配模块与语义模板实例化模块相连,SAWSDL生成模块与语义模板实例化模块相连。本发明可以无缝的进行SAWSDL建模,大大降低从大量Web服务生成语义模板实例的工作量,且查全率平均可以达到65%以上,查准率平均可以达到75%以上。
Description
技术领域
本发明涉及的是一种网络信息处理技术领域的系统,具体是一种语义Web服务的自动生成系统。
背景技术
如今面对互联网中巨量的信息资源,其中要解决的一个关键问题是如何从漫无边际的信息、资源的空间中,能够迅速精确地发现可以能够使用的信息资源。然而当前的Web更多的提供的是面向用户的信息的展示,但它却不包含任何机器可理解的语义信息,因此限制了计算机在信息检索过程中进行智能分析以及处理的能力。2000年12月Tim Berners-Lee在XML2000会议上正式提出了语义Web的概念。在语义Web中信息具有定义良好的语义,目标就是为了提供一种机器可以自动认知、管理、操作的手段。
Web服务是近些年内兴起的另一种基于互联网的技术,并随着互联网的发展而出现并不断发展、成熟的,在许多领域中都受到了极大的关注。Web服务作为一种新兴的Web应用模式,基于它是松散耦合的、可复用的特性,它可以为在互联网上不同操作系统、硬件平台和编程语言之间方便地进行集成提供良好的支持,所以不同应用的实现和发布Web服务,是Web上数据和信息集成的有效机制。随着各个领域中的Web服务数量的飞速增长,依靠人工去组织,分类,管理显然已经不切实际。对于如此大量的Web服务,如何使机器可以自动认知、管理、使用Web服务,成了众多国家和组织解决的热点。为了解决此类问题,融合了语义Web技术的语义Web服务开始发展起来。这种办法就是将Web服务的功能或者行为等方面使用语义信息进行描述,使其对计算机在语义上是可理解的,使机器自动能够识别web服务包含的功能性属性。语义Web服务是Web服务和语义Web技术的结合,它把语义Web技术引入Web服务中,以此来解决自动化的服务发现、调用、组合、监视和恢复等问题,提高Web服务的质量。
经对现有文献检索发现,针对Web服务的语义描述,以欧洲部分团体为主开发了语义Web服务技术构架WSMO(Web服务建模本体,http://www.wsmo.org/),该模型包括Ontologies(本体),Goals(目标),Web Services(Web服务)和Mediators(中介)四大元素,它使用一阶逻辑描述服务以及用户需求。WSMO Studio(http://www.wsmostudio.org/)是针对该模型的一个集成建模环境,但是该工具对Web服务语义信息的标注主要是通过人来手工完成的,当面对海量的Web服务的时候,完全依靠手工方式已经变得越来越不可行。
经对现有文献检索还发现,近年来随着SAWSDL成为W3C的一个推荐标准,许多语义Web服务模型开始涉及SAWSDL(Semantic Annotations for WSDL,基于语义标注的Web服务描述语言),因为SAWSDL本身并没有为语义Web服务提供一个具体的模型,它假设其他任何具体的模型可以通过语义标注的形式在WSDL(Web Services Description Language,Web服务描述语言)中进行表示,它使WSDL和具体的本体模型间保持一种松散的关系。在此之前比较流行的OWL-S(Web服务本体语言,http://www.w3.org/Submission/OWL-S/),是用OWL(WebOntology Language,Web本体语言)来描述的Web服务的标记语言,但是由于OWL-S出现较早与SAWSDL之间存在很多无法整合的地方,这也限制了它进一步的发展。
发明内容
本发明的目的在于克服现有技术中存在的不足,提供一种语义Web服务的自动生成系统。本系统提供了一个通用的语义模板实例自动生成框架,实现了机器自动生成各种类型的语义模板实例,对Web服务进行自动语义标注,具有减少工作量以及不需要涉及过多领域知识的优点,可以通过定制各种不同类型的语义模板对Web服务的每一方面进行语义建模,并避免了大量语义信息的冗余和不一致性,且本系统所生成的本体模型可以被SAWSDL所使用。
本发明是通过以下技术方案实现的:
本发明包括:语料库解析模块、原始信息预处理模块、自然语言处理模块、本体匹配模块,语义模板实例化模块和SAWSDL生成模块,其中:语料库解析模块与原始信息预处理模块相连传输从WSDL文档提取出的元信息,原始信息预处理模块与自然语言处理模块相连传输经过预处理后的元信息,自然语言处理模块与本体匹配模块相连传输经过自然语言处理后的信息,本体匹配模块与语义模板实例化模块相连传输匹配到的本体信息,SAWSDL生成模块与语义模板实例化模块相连输出SAWSDL文档。
所述的语料库解析模块包括:操作解析子模块和数据类型解析子模块,其中:操作解析子模块和数据类型解析子模块分别与原始信息预处理模块相连传输从WSDL文档中提取出来的操作信息和数据类型信息。
所述原始信息预处理模块用于把输入的文本转换成符合自然语言特征的输出,包括:单词分割子模块、噪声去除子模块和缩略词展开子模块,其中:单词分割子模块与语料库解析模块相连传输从WSDL文档提取出的元信息,单词分割子模块与噪声去除子模块子模块相连传输分割完成的单词,噪声去除子模块与缩略词展开子模块相连接传输去除了噪声的单词,缩略词展开子模块与自然语言处理模块相连传输经过预处理后的元信息。
所述自然语言处理模块用于对输入进行自然语言分析,提取其中的成分,包括:句法分析子模块和模式匹配子模块,其中:原始信息预处理模块与句法分析子模块相连传输经过预处理的元信息,句法分析子模块与模式匹配子模块相连接传输经过句法结构解析和词性标注的WSDL中操作和数据类型的信息,模式匹配子模块与本体匹配模块相连传输自然语言处理后的信息。
所述的本体匹配模块是基于SPARQL实现的,包括:相似度提取子模块、相似度评估子模块和相似度匹配子模块,其中:相似度提取子模块与自然语言处理模块相连传输自然语言处理后的信息,相似度提取子模块与相似度评估子模块相连传输相似度值信息,相似度评估子模块与相似度匹配子模块相连传输相似度的评估结果信息,相似度匹配子模块与语义模板实例化模块相连传输匹配到的本体信息。
所述的语义模板实例化模块把本体匹配模块中匹配成功后的本体,根据语义模板的定义来生成实例,并对其进行持久化,保存成文件或是存储到数据库中。
所述的SAWSDL生成模块引用语义模板实例化模块所生成的语义模板实例对象作为SAWSDL中所引用的语义模型,从而生成SAWSDL文档。
本发明的工作过程:针对一个WSDL文档,首先经过语料库解析模块的解析,从中提取操作名称,数据类型等元信息,再经过原始信息预处理去除一些无用的信息,得到规范化的输出,再通过自然语言处理模块抽取语义信息,经过本体匹配模块,寻找本体化的表示,并以此生成语义模板的实例,这些语义模板实例可用于SAWSDL的生成。
与现有技术相比,本发明的有益效果是:建立一个通用的,灵活的,可扩展性强的框架,该框架使用机器通过各种与Web服务相关的语料库能够尽量自动化地生成对应的语义模板实例,解决了对于大量已经存在和正在产生的Web服务完全采取人工方式手动建立各种语义模板实例工作量大,专业领域知识要求高的问题,并且所生成的语义模板实例可以作为SAWSDL所引用的本体模型,且查全率平均可以达到65%以上,查准率平均可以达到75%以上。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
本实施例包括:语料库解析模块、原始信息预处理模块、自然语言处理模块、本体匹配模块,语义模板实例化模块和SAWSDL生成模块,其中:语料库解析模块与原始信息预处理模块相连传输从WSDL文档提取出的元信息,原始信息预处理模块与自然语言处理模块相连传输经过预处理后的元信息,自然语言处理模块与本体匹配模块相连传输经过自然语言处理后的信息,本体匹配模块与语义模板实例化模块相连传输匹配到的本体信息,SAWSDL生成模块与语义模板实例化模块相连输出SAWSDL文档。
所述的语料库解析模块包括:操作解析子模块和数据类型解析子模块,其中:操作解析子模块和数据类型解析子模块分别与原始信息预处理模块相连传输从WSDL文档中提取出来的操作信息和数据类型信息。
所述的操作解析子模块提取WSDL中所有Operation的名称字符串信息。
所述的数据类型解析子模块提取WSDL中Schema的内容和名称字符串信息。
本实施例中语料库解析子模块采用WSDL4J作为解析的工具包,其解析的原则是:提取现实世界的实际的意义,而不提取软件世界的产物。如:对WSDL文档进行输入输出的数据项的提取,对于一个参数来说从软件意义上来说是表示一个ArrayOfAirport,其中强调了这个参数时数组类型的,而从实际意义上来说更关心的是这个参数是表述的Airport,所以从本质上来说,就需要提取Airport的信息,其中包含了各种基本属性。这样更能够让机器在发现和组合服务时,理解参数真正代表的意义。
所述原始信息预处理模块用于把输入的文本转换成符合自然语言特征的输出,包括:单词分割子模块、噪声去除子模块和缩略词展开子模块,其中:单词分割子模块分别与操作解析子模块和数据类型解析子模块相连传输从WSDL文档提取出的操作信息和数据类型信息,单词分割子模块与噪声去除子模块子模块相连传输分割完成的单词,噪声去除子模块与缩略词展开子模块相连接传输去除了噪声的单词,缩略词展开子模块与自然语言处理模块相连传输经过预处理后的元信息。
所述的单词分割子模块把原本揉合在一起的字符串进行分割,提取出独立的一个个单词。
所述的噪声去除子模块去除没有实际意义的元素,为后续模块提供更好质量的输入。
所述的缩略词展开子模块把非完整的单词进行还原,以试图能够还原出一个有意义的存在的单词。
所述的自然语言处理模块用于对输入进行自然语言分析,提取其中的成分,包括:句法分析子模块和模式匹配子模块,其中:缩略词展开子模块与句法分析子模块相连传输经过预处理的元信息,句法分析子模块与模式匹配子模块相连接传输经过句法结构解析和词性标注的WSDL中操作和数据类型的信息,模式匹配子模块与本体匹配模块相连传输自然语言处理后的信息。
所述的句法分析子模块用于分析句法结构和进行词性标注。
所述的模式匹配子模块用于识别输入的WSDL中元信息的命名规则,并提取其中的单词或者短语,从语义模板实例中的语义属性对应句法树中恰当的短语,本实施采用是一种具有其独立语法匹配模式的表达式Tregex,它是对Tgrep2的一个实现和扩展的,能够通过给出的节点与节点之间关系作为模式从句法树中进行匹配。当使用Tregex为“Verb+Noun”型模式定义的一条检查规则为{“/^VB/>>,(_!>_)$,,NP”},意为动词开头并且具有名词短语兄弟节点的模式,以此来检查输入的输入是否符合这样的命名模式。“Update Ticket Order ByOrder Number”就能够匹配这个模式,而“Student Id To Student Name”就不会匹配。一旦识别出了输入的模式,那么也就确定了输入的句法结构和确定了短语之间的关系,那么就可以通过定制的Tregex表达式来从句法树中去匹配的符合模式的子树,该子树的叶结点即为所需要提取的短语。
本实施例中采用Penn Treebank II Tags对自然语言数据进行标注,以此来进行句法分析。当WSDL中提取出的一个Operation名称为ResvHotelSoap,经过单词分割子模块处理后成为三个词:{Resv,Hotel,Soap},经过噪声去除子模块过滤掉无意义的词Soap,剩下{Resv,Hotel},,经过缩略词展开子模块认出Resv为一个缩略词,进行展开为Reserve,最后得到的输出为{Reserve,Hotel}。
所述的本体匹配模块用于处理不同类型的数据源,解决文本、结构化或者半结构化的数据的匹配问题,本实施例是基于扩展SPARQL实现的,包括:相似度提取子模块、相似度评估子模块和相似度匹配子模块,其中:相似度提取子模块与模式匹配子模块相连传输自然语言处理后的信息,相似度提取子模块与相似度评估子模块相连传输相似度值信息,相似度评估子模块与相似度匹配子模块相连传输相似度的评估结果信息,相似度匹配子模块与语义模板实例化模块相连传输匹配到的本体信息。
所述语义模板实例化模块把本体匹配模块中匹配成功后的本体,根据语义模板的定义来生成实例,并对其进行持久化,保存成文件或是存储到数据库中。本实施中采用OWL作为构建语义模板的语言,对于语义模板实例的创建和持久化,采用了Protégé-OWLAPI来存取OWL。首先使用Protégé-OWL API读入语义模板结构定义,再使用匹配到的本体对语义模板实例中各个语义属性进行填充,最后使用API生成OWL文件或者持久化到OWL Database中。
所述SAWSDL生成模块引用语义模板实例化模块所生成的语义模板实例对象作为SAWSDL中所引用的语义模型,从而生成SAWSDL文档。
本实施例能够自动对大批量的WSDL文档通过语料库解析模块进行解析,从中提取操作名称,数据类型等元信息,再经过原始信息预处理去除一些无用的信息,得到规范化的输出,进一步通过自然语言处理模块抽取语义信息,并使用本体匹配模块来寻找本体化的表示,并以此生成语义模板的实例,这些语义模板实例作为本体语义模型可以进一步生成SAWSDL文档。
本实施例通过语义模板来语义Web服务提供,并通过的语义模板实例自动生成系统,自动为WSDL文档产生语义标注,生成的语义模板实例可以无缝的进行SAWSDL建模。大大降低从大量Web服务生成语义模板实例的工作量,且查全率平均可以达到65%以上,查准率平均可以达到75%以上。
Claims (7)
1.一种语义Web服务的自动生成系统,其特征在于,包括:语料库解析模块、原始信息预处理模块、自然语言处理模块、本体匹配模块,语义模板实例化模块和SAWSDL生成模块,其中:语料库解析模块与原始信息预处理模块相连传输从WSDL文档提取出的元信息,原始信息预处理模块与自然语言处理模块相连传输经过预处理后的元信息,自然语言处理模块与本体匹配模块相连传输经过自然语言处理后的信息,本体匹配模块与语义模板实例化模块相连传输匹配到的本体信息,SAWSDL生成模块与语义模板实例化模块相连输出SAWSDL文档。
2.根据权利要求1所述的语义Web服务的自动生成系统,其特征是,所述的语料库解析模块包括:操作解析子模块和数据类型解析子模块,其中:操作解析子模块和数据类型解析子模块分别与原始信息预处理模块相连传输从WSDL文档中提取出来的操作信息和数据类型信息。
3.根据权利要求1所述的语义Web服务的自动生成系统,其特征是,所述原始信息预处理模块包括:单词分割子模块、噪声去除子模块和缩略词展开子模块,其中:单词分割子模块与语料库解析模块相连传输从WSDL文档提取出的元信息,单词分割子模块与噪声去除子模块子模块相连传输分割完成的单词,噪声去除子模块与缩略词展开子模块相连接传输去除了噪声的单词,缩略词展开子模块与自然语言处理模块相连传输经过预处理后的元信息。
4.根据权利要求1所述的语义Web服务的自动生成系统,其特征是,所述自然语言处理模块包括:句法分析子模块和模式匹配子模块,其中:原始信息预处理模块与句法分析子模块相连传输经过预处理的元信息,句法分析子模块与模式匹配子模块相连接传输经过句法结构解析和词性标注的WSDL中操作和数据类型的信息,模式匹配子模块与本体匹配模块相连传输自然语言处理后的信息。
5.根据权利要求1所述的语义Web服务的自动生成系统,其特征是,所述的本体匹配模块是基于SPARQL实现的,包括:相似度提取子模块、相似度评估子模块和相似度匹配子模块,其中:相似度提取子模块与自然语言处理模块相连传输自然语言处理后的信息,相似度提取子模块与相似度评估子模块相连传输相似度值信息,相似度评估子模块与相似度匹配子模块相连传输相似度的评估结果信息,相似度匹配子模块与语义模板实例化模块相连传输匹配到的本体信息。
6.根据权利要求1所述的语义Web服务的自动生成系统,其特征是,所述的语义模板实例化模块把本体匹配模块中匹配成功后的本体,根据语义模板的定义来生成实例,并对其进行持久化,保存成文件或是存储到数据库中。
7.根据权利要求1所述的语义Web服务的自动生成系统,其特征是,所述的SAWSDL生成模块引用语义模板实例化模块所生成的语义模板实例对象作为SAWSDL中所引用的语义模型,从而生成SAWSDL文档。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010216339 CN101853314A (zh) | 2010-07-02 | 2010-07-02 | 语义Web服务的自动生成系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010216339 CN101853314A (zh) | 2010-07-02 | 2010-07-02 | 语义Web服务的自动生成系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101853314A true CN101853314A (zh) | 2010-10-06 |
Family
ID=42804805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010216339 Pending CN101853314A (zh) | 2010-07-02 | 2010-07-02 | 语义Web服务的自动生成系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101853314A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509351A (zh) * | 2011-10-08 | 2012-06-20 | 电子科技大学 | 设计意图驱动的自然语言几何建模方法 |
CN103530363A (zh) * | 2013-10-12 | 2014-01-22 | 广西师范学院 | pay-as-you-go模式的语义web服务发现方法 |
CN105760462A (zh) * | 2016-02-05 | 2016-07-13 | 首都师范大学 | 基于关联数据查询的人机交互方法及装置 |
CN108733359A (zh) * | 2018-06-14 | 2018-11-02 | 北京航空航天大学 | 一种软件程序的自动生成方法 |
CN108829666A (zh) * | 2018-05-24 | 2018-11-16 | 中山大学 | 一种基于语义解析和smt求解的阅读理解题求解方法 |
CN111090753A (zh) * | 2018-10-24 | 2020-05-01 | 马上消费金融股份有限公司 | 分类模型的训练方法、分类方法、装置、计算机存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030217044A1 (en) * | 2002-05-15 | 2003-11-20 | International Business Machines Corporation | Method and apparatus of automatic method signature adaptation for dynamic web service invocation |
-
2010
- 2010-07-02 CN CN 201010216339 patent/CN101853314A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030217044A1 (en) * | 2002-05-15 | 2003-11-20 | International Business Machines Corporation | Method and apparatus of automatic method signature adaptation for dynamic web service invocation |
Non-Patent Citations (1)
Title |
---|
《上海交通大学工程硕士专业学位论文》 20080930 胡亮 基于语义模板的语义Web服务建模研究 上海交通大学 第17页第1.4节,第47页倒数第3段,第49页第4.4.1-4.4.3节,第51页第4.5.1-4.5.3节,第56页第4.6.1-4.6.5节,第60页第4.7节,第65页第5.1.5节,附图4-1 1-7 , 2 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509351A (zh) * | 2011-10-08 | 2012-06-20 | 电子科技大学 | 设计意图驱动的自然语言几何建模方法 |
CN103530363A (zh) * | 2013-10-12 | 2014-01-22 | 广西师范学院 | pay-as-you-go模式的语义web服务发现方法 |
CN103530363B (zh) * | 2013-10-12 | 2016-09-28 | 广西师范学院 | pay-as-you-go模式的语义web服务发现方法 |
CN105760462A (zh) * | 2016-02-05 | 2016-07-13 | 首都师范大学 | 基于关联数据查询的人机交互方法及装置 |
CN108829666A (zh) * | 2018-05-24 | 2018-11-16 | 中山大学 | 一种基于语义解析和smt求解的阅读理解题求解方法 |
CN108733359A (zh) * | 2018-06-14 | 2018-11-02 | 北京航空航天大学 | 一种软件程序的自动生成方法 |
CN111090753A (zh) * | 2018-10-24 | 2020-05-01 | 马上消费金融股份有限公司 | 分类模型的训练方法、分类方法、装置、计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ferrández et al. | The QALL-ME Framework: A specifiable-domain multilingual Question Answering architecture | |
US9965726B1 (en) | Adding to a knowledge base using an ontological analysis of unstructured text | |
US7987416B2 (en) | Systems and methods for modular information extraction | |
Gacitua et al. | A flexible framework to experiment with ontology learning techniques | |
CN101853314A (zh) | 语义Web服务的自动生成系统 | |
CN108763195A (zh) | 一种基于依存句法和模式规则的非限定型关系挖掘方法 | |
CN114218472A (zh) | 基于知识图谱的智能搜索系统 | |
CN111553138B (zh) | 用于规范内容结构文档的辅助写作方法及装置 | |
Ogrodniczuk et al. | ParlaMint II: The show must go on | |
El-ghobashy et al. | A proposed framework for Arabic semantic annotation tool | |
KR20100003087A (ko) | 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출시스템 및 그 방법 | |
Yao et al. | An automatic semantic extraction method for web data interchange | |
Castellano et al. | A web text mining flexible architecture | |
Kachroudi et al. | Bridging the multilingualism gap in ontology alignment | |
Damljanovic et al. | Enhanced semantic access to software artefacts | |
Agnoloni et al. | Semantic web standards and ontologies for legislative drafting support | |
Varma | Building large scale ontology networks | |
Carvalho et al. | Augmenting linguistic semi-structured data for machine learning: A Case study using FrameNet | |
Seco et al. | Using CBR for semantic analysis of software specifications | |
Calzolari et al. | Harmonised large-scale syntactic/semantic lexicons: a European multilingual infrastructure | |
Shen et al. | Research and Application of Web Information Retrieval Based on Ontology | |
Chianese et al. | Using ontologies to achieve semantic interoperability in the web: An approach based on the semantic triangle model | |
Sánchez-Rada et al. | SLIWC, Morality, NarrOnt and Senpy Annotations: four vocabularies to fight radicalization | |
Stellato | A language-aware web will give us a bigger and better semantic web | |
Arize et al. | ThesIS: A semantic interoperability service for a middleware service oriented architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20101006 |