CN103440343B - 一种面向领域服务目标的知识库构建方法 - Google Patents

一种面向领域服务目标的知识库构建方法 Download PDF

Info

Publication number
CN103440343B
CN103440343B CN201310412162.1A CN201310412162A CN103440343B CN 103440343 B CN103440343 B CN 103440343B CN 201310412162 A CN201310412162 A CN 201310412162A CN 103440343 B CN103440343 B CN 103440343B
Authority
CN
China
Prior art keywords
service
field
goal
candidate
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310412162.1A
Other languages
English (en)
Other versions
CN103440343A (zh
Inventor
何克清
张能
王健
李征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201310412162.1A priority Critical patent/CN103440343B/zh
Publication of CN103440343A publication Critical patent/CN103440343A/zh
Application granted granted Critical
Publication of CN103440343B publication Critical patent/CN103440343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向领域服务目标的知识库构建方法,包括以下步骤:1)对从服务注册库中获取的Web服务描述信息进行预处理并构建领域关键词排序表;2)利用领域关键词排序表,从Web服务的多种描述信息中进行服务目标抽取,得到Web服务的服务目标集;3)对一个领域内所有Web服务重复执行步骤2,在此基础上进行领域服务目标抽取,并由领域专家进行领域服务目标知识库的构建或完善。本发明的有益效果是:1)获取的服务目标可以为基于目标的服务发现提供支持,有助于提高服务发现和推荐的质量;2)领域服务目标知识库作为一种领域资产,在用户服务需求的获取与分析中,能够提升用户需求的丰富和完善度。

Description

一种面向领域服务目标的知识库构建方法
技术领域
本发明属于服务计算技术领域,特别涉及一种面向领域服务目标的知识库构建方法。
背景技术
随着面向服务的架构(Service-Oriented Architecture,SOA)和软件即服务(Software asa Service,SaaS)技术的发展,互联网上已经发布了大量的Web服务,且增长趋势十分明显。例如,截止到2013年8月25日,Web服务搜索引擎Seekda统计的Web服务已超过28000个,Web服务编程网站ProgrammableWeb上发布的Web服务也已超过9800个。这些公开发布的Web服务作为一种共享资源,能够极大地提高软件开发的效率,并可降低软件开发的成本。但是,如何有效地从大规模的Web服务注册库中获取用户所需要的Web服务仍然是一个挑战性问题。
服务发现(Service Discovery)是一个根据服务请求者的需求查找合适服务的过程,是实现服务共享和复用的前提。目前,大多数主流的服务注册站点(如Seekda和ProgrammableWeb)都为用户提供了相应的服务搜索机制,但这些服务搜索机制主要是基于简单的关键字匹配,没有考虑服务的功能语义信息,导致查全率和查准率不高,影响Web服务发现的质量。为了解决基于关键字搜索的局限性,众多研究者提出了基于语义的Web服务发现方法,但这些方法在很大程度上取决于是否有可用的、良构的领域本体(DomainOntology),而构造这种体现领域知识的本体往往非常困难。因此,如何准确地进行Web服务发现,仍然是一个亟待解决的问题。
用户进行Web服务发现时,通常会使用能够准确表达其需求的高层次目标,如“规划行程(plan a trip)”、“预订旅馆(book a hotel)”等。与基于关键字匹配的查询相比,这种目标驱动的、能体现用户意图的查询方式可以为用户返回更准确的结果。近年来,越来越多的研究工作将目标用于Web服务的发现和建模中。但是,还没有相关工作来研究如何从服务的描述信息中进行领域相关的服务目标知识的挖掘。因此,有必要研究如何从服务描述中进行服务目标(体现服务核心功能的特征词或短语)抽取,并需要进一步研究领域服务目标知识库的构造以便进行服务目标的重用,从而为服务发现提供支持。
发明内容
针对该问题,本发明的目的是提出一种服务目标的抽取方法,并进一步构建领域服务目标知识库,从而为服务发现提供支持。
为实现本发明所述目的,本发明采用如下技术方案:一种面向领域服务目标的知识库构建方法,其特征在于,包括以下步骤:
步骤1:收集Web服务的描述信息,将文本描述以文档的形式存储,然后对收集的描述文档进行预处理,得到用户所需要的Web服务描述文档中的关键词,并对每个关键词在该文档中的出现次数进行统计,再利用统计后的Web服务描述文档集构建领域关键词排序表;
步骤2:利用所述的领域关键词排序表,从Web服务的多种描述信息中进行服务目标抽取,得到Web服务的候选服务目标集,然后对Web服务的候选服务目标集依次进行原型化、服务目标替换和停用词过滤处理,得到Web服务的服务目标集;
步骤3:重复执行所述的步骤2,获得一个领域内所有Web服务的服务目标集,进行领域服务目标抽取,得到领域的候选领域服务目标集,然后领域专家可以利用候选领域服务目标集进行领域服务目标知识库的构建或完善。
作为优选,步骤1中所述的Web服务的描述信息包括文本描述信息和WSDL文档信息。
作为优选,所述的步骤1的具体实现包括以下子步骤:
步骤1.1:对Web服务描述文档进行解析,抽取该文档中包含的所有单词;
步骤1.2:针对步骤1.1的结果,根据所述的单词的词性,将不属于动词和名词的单词过滤掉,同时去掉对领域表征能力不强的动词和名词,得到可以体现每个Web服务核心功能的关键词集合;
步骤1.3:对步骤1.2的结果进行关键词的原型化处理;
步骤1.4:在步骤1.3的基础上,统计Web服务描述文档中每个关键词的出现次数;
步骤1.5:在步骤1.4的基础上,通过计算领域Web服务描述文档中每个关键词对该领域的表征度构建领域关键词排序表。
作为优选,以文本描述和WSDL文档描述的Web服务而言,所述的步骤2的具体实现包括以下子步骤:
步骤2.1:从Web服务的文本描述中进行服务目标抽取;
步骤2.2:从Web服务的WSDL文档中进行服务目标抽取;
步骤2.3:在步骤2.1和步骤2.2的基础上,对文本描述的候选服务目标集与WSDL文档的候选服务目标集取并集,得到Web服务的候选服务目标集;
步骤2.4:针对步骤2.3的结果,通过依次进行原型化、服务目标替换和停用词过滤处理得到Web服务的服务目标集;
步骤2.5:对步骤2.4的结果中存在包含关系的多个服务目标,仅保留语义信息最丰富的服务目标。
作为优选,步骤2.4中所述的服务目标替换包括抽象名词替换和等价动词替换。
作为优选,步骤2.1所述的从Web服务的文本描述中进行服务目标抽取,其具体实现包括以下子步骤:
步骤2.1.1:对初始获取的Web服务描述文档中的每条语句进行解析,得到各语句中词汇间的语法依赖关系;
步骤2.1.2:在步骤2.1.1的基础上,抽取各语句中的初始目标集合;
步骤2.1.3:在步骤2.1.2的基础上,获取文本描述中包含的候选服务目标集。
作为优选,步骤2.2所述的从Web服务的WSDL文档中进行服务目标抽取,其具体实现包括以下子步骤:
步骤2.2.1:对WSDL文档进行解析,得到能够代表Web服务功能的所有操作名的集合;
步骤2.2.2:在步骤2.2.1的基础上,对操作名进行分解,得到WSDL文档中包含的候选服务目标集。
作为优选,所述的步骤3的具体实现包括以下子步骤:
步骤3.1:在步骤2的基础上,统计领域中每个服务目标的出现次数;
步骤3.2:在步骤3.1的基础上,进行领域服务目标抽取,得到候选领域服务目标集;
步骤3.3:对步骤3.2的基础上,对候选领域服务目标按照出现次数进行降序排列,得到候选领域服务目标排序列表;
步骤3.4:针对步骤3.3的结果,领域专家可以选择性地对重要的候选领域服务目标通过简单的手工处理实现领域服务目标知识库的构建或完善。
作为优选,步骤3.4中所述的重要的候选领域服务目标,其判断标准是:候选领域服务目标出现次数大于10或者候选领域服务目标排序列表中的前20个。
作为优选,步骤3.4中所述的领域专家可以选择性地对重要的候选领域服务目标通过简单的手工处理,其处理方法为:对不合适的服务目标进行滤除或改进。
本发明所述的Web服务来源于可访问的Web服务注册中心或Web服务门户网站。
本发明的有益效果如下:
(1)可以对通过文本描述和WSDL文档描述的Web服务进行服务目标抽取,并且该方法具有良好的可扩展性,能够容易地适用于其他Web服务描述方式的处理,从而为基于目标的Web服务发现提供广泛的支持;
(2)通过服务目标替换处理,不仅可以精简领域服务目标集的规模,而且还可以消除不同服务目标间的语义异构问题,有助于提高Web服务发现的质量;
(3)构建的领域服务目标知识库作为一种领域资产,在面向领域知识的需求工程及其用户服务需求的获取与分析中,能够提升用户需求的丰富和完善度;
(4)利用服务目标可以提高服务标注的准确度,进而有助于提高基于标注信息的Web服务发现和服务推荐的质量。
附图说明
图1:是本发明的方法流程示意图。
图2:是本发明的服务目标抽取的流程示意图。
具体实施方式
以下将结合附图和具体实施例对本发明做进一步的阐述。
请见图1、图2,本发明所采用的技术方案是:一种面向领域服务目标的知识库构建方法,包括以下步骤:
步骤1:收集包括文本描述信息和WSDL文档信息的Web服务的描述信息,将文本描述以文档的形式存储,然后对收集的描述文档进行预处理,得到用户所需要的Web服务描述文档中的关键词,并对每个关键词在该文档中的出现次数进行统计,再利用统计后的Web服务描述文档集构建领域关键词排序表;其具体实现包括以下子步骤:
步骤1.1:对Web服务描述文档进行解析,抽取该文档中包含的所有单词;
步骤1.2:针对步骤1.1的结果,根据所述的单词的词性,将不属于动词和名词的单词过滤掉,同时去掉对领域表征能力不强的动词和名词,,如英文的“are”、“let”、“have”、“service”等,得到可以体现每个Web服务核心功能的关键词集合;
步骤1.3:对步骤1.2的结果进行关键词的原型化处理,即将关键词的多种词型变换成基本原型,如英文的“retrieves”、“retrieved”、“retrieving”经过处理后都变为“retrieve”;
步骤1.4:在步骤1.3的基础上,统计Web服务描述文档中每个关键词的出现次数;
步骤1.5:在步骤1.4的基础上,通过计算领域Web服务描述文档中每个关键词对该领域的表征度(Degree of Representation,简称DR)构建领域关键词排序表。
领域关键词排序表的构建可以有多种方式,其基本思路是如果一个关键词在指定领域中出现的次数很多,且在其它领域中很少出现,则该关键词对指定领域的表征度就很高,其在该领域的关键词排序表中排序则靠前,反之则靠后。在具体实施中,可以采用如下方式进行构建。
首先,计算领域中的每个关键词对该领域的DR,然后按DR进行降序排列得到领域关键词排序表。关于DR的计算方式如下:
DR k , d = num ( k , d ) MAX ( num ( k i , d ) ) * ( α * ( 1 - | { d j : k ∈ d j } | | D | ) + ( 1 - α ) * num ( k , d ) Σ d s ∈ D num ( k , d s ) )
其中,DRK,d代表关键词k对领域d的表征度,num(k,d)表示关键词k在领域d中的出现次数,MAX(num(ki,d))代表领域d中所有关键词的出现次数中的最大值,|{dj:k∈dj}|表示包含关键词k的领域数,是关键字k在所有领域中出现的总次数,α为0到1之间的小数,默认取0.6,可由用户调整。
步骤2:利用所述的领域关键词排序表,从Web服务的多种描述信息中进行服务目标抽取,得到Web服务的候选服务目标集,然后对Web服务的候选服务目标集依次进行原型化、服务目标替换和停用词过滤处理,得到Web服务的服务目标集;其具体实现包括以下子步骤:
步骤2.1:从Web服务的文本描述中进行服务目标抽取;服务目标(Service Goal,简称SG)使用下述定义进行描述:
服务目标SG中的任一具体服务目标sg可用如下三元组表示:<sgv,sgn,sgp>,其中,sgv是动词或动词短语,表示sg要执行的动作;sgn为名词或名词短语(包括复合名词短语以及形容词修饰的名词短语),代表sg的操作对象;sgv和sgn是sg的必选组成部分;sgp是可选部分,用于对sg进行补充说明,比如sg的操作方式和约束等;
其具体实现包括以下子步骤:
步骤2.1.1,通常,一个Web服务的文本描述中会包含多条语句。对初始获取的Web服务描述文档中的每条语句,利用自然语言解析工具如Stanford Parser(http://nlp.stanford.edu:8080/parser/)进行解析,得到各语句中能够反映词汇间语法依赖关系的Stanford Dependency(简称SD)集合;
一条SD关系可以表示为:relName(w1,w2),表示词w1与词w2间具有relName关系,例如,“The API can let users create a social travel graph.”利用Stanford Parser解析可以得到SD关系dobj(create-6,graph-10),表示例句中的create的直接宾语是graph,其中,“create-6”中的“6”为create在例句中的位置;
步骤2.1.2:在步骤2.1.1的基础上,抽取各语句中的初始目标(Initial Goal,简称IG)集合,通常,一条语句可能会包含多个服务目标,但总存在一个或几个初始目标,只有基于初始目标才能得到更具体的服务目标并发现其它的服务目标;
关于初始目标的识别,对使用Stanford Parser得到的SD关系来说,主要存在以下三种情形:
1)情形1:nsubjpass(w1,w2),出现于被动语态的句子中,表示名词w2是该句子的主语,且与该句子的主要动词w1间具有nsubjpass关系,例如,“The available hotel informationcan be retrieved and updated by using this API”利用Stanford Parser解析可以得到SD关系nsubjpass(retrieved-7,information-4),从中可以识别出初始目标:retrieved information;
2)情形2:dobj(w1,w2),出现于主动语态的句子中,表示名词w2是动词w1的直接宾语,例如,“The API also lets users create a social travel graph by relating objects to each other”利用Stanford Parser解析可以得到SD关系dobj(create-6,graph-10),从中可以识别出初始目标:create graph;
3)情形3:prep(w1,w2)和nsubj(w1,w3),情形2无法直接处理诸如“search for”和“deal with”之类的动词短语,这种类型的初始目标包含在介词关系prep(w1,w2)中,可以从中识别出初始目标的动词w1和名词w2,但并非所有介词关系都可以识别出初始目标所需的动词和名词,因此还需要通过nsubj(w1,w3)来确定w1是句子中的主要动词,如果w1出现在这个关系中,则可以确定w1是初始目标所需的动词。例如,“This API can search forthe newest travel information.”利用Stanford Parser解析可以得到SD关系prep_for(search-4,information-9)和nsubj(search-4,API-2),从中可以识别出初始目标:search information。注意,prep往往具有多种不同的表现形式,这是根据其包含的介词部分不同而导致的,如prep_for和prep_with等。
步骤2.1.3:在步骤2.1.2的基础上,获取文本描述中包含的候选服务目标集;
具体来说,就是通过考虑更多的语法依赖关系,对各语句的初始目标集合进行扩展,从而实现对初始目标的语义丰富,同时发现潜在的服务目标。然后将Web服务文本描述的所有语句的扩展结果取并集,得到该服务的文本描述中包含的候选服务目标集。表1以StanfordParser为例,列举了初始目标扩展需要处理的SD关系;其中,IG代表句子示例中包含的初始目标集合,IG’代表利用相应的SD关系对IG进行扩展后的结果。
表1支持初始目标扩展的SD关系
步骤2.2:从Web服务的WSDL文档中进行服务目标抽取;其具体实现包括以下子步骤:
步骤2.2.1:对WSDL文档进行解析,得到能够代表Web服务功能的所有操作名的集合;
步骤2.2.2:在步骤2.2.1的基础上,对操作名进行分解,得到WSDL文档中包含的候选服务目标集;此过程充分利用了大多数WSDL文档中操作名命名方式的如下特点:
(1)命名符合Pascal标记法,即各单词的首字母大写,这样在对操作名进行分词时可以充分利用这个特点。但也有一些特殊情况需要进行处理,如“GetWeatherByWMOID”中的“WMOID”;
(2)在操作名中,服务目标各组成部分的位置是相对固定的,通常是以sgv-sgn-sgp的形式出现,如Get[sgv]Weather[sgn]ByCityState[sgp],其中,“[]”内的标记指示了它前面的词汇或短语在服务目标中的成分。
步骤2.3:在步骤2.1和步骤2.2的基础上,对文本描述的候选服务目标集与WSDL文档的候选服务目标集取并集,得到Web服务的候选服务目标集;
步骤2.4:针对步骤2.3的结果,通过依次进行原型化、服务目标替换(包括抽象名词替换和等价动词替换)和停用词过滤处理得到Web服务的服务目标集;下面是上述3种处理的具体方式:
(1)原型化:采用与步骤1.3中相同的处理方式,对候选服务目标中的动词和名词进行还原处理,将它们的多种词型变换成基本原型;
(2)服务目标替换:此过程包括抽象名词替换和等价动词替换两个部分。
A.抽象名词替换:对sgn的名词中仅包含information、functionality等抽象词的候选服务目标,利用sgp中紧邻的介词结构中的名词对抽象词进行替换,然后将使用到的介词结构从sgp中去除,例如,“get information of hotel”可以替换成“get hotel”;
B.等价动词替换:首先统计领域内所有Web服务的候选服务目标中出现的动词,得到一个按词频降序排列的动词列表,然后利用WordNet(http://wordnet.princeton.edu)的同义词集依次对动词列表中的每个动词构建其(核心动词)等价动词列表(Equal Verb List,简称EVL),如动词“get”的EVL={“retrieve”、“find”、“obtain”、“fetch”、…}。最后,将领域内所有Web服务的候选服务目标中的动词替换成所属EVL的核心动词。注意:在构建EVL的过程中,同一动词不重复出现,即一个动词或者是核心动词,或者位于某一核心动词的EVL中;
(3)停用词过滤:去除候选服务目标中无意义的动词和名词。对动词而言,可通过自定义动词的停用词表进行过滤,将sgv属于该停用词表的候选服务目标去除;对名词而言,利用领域关键词排序表进行过滤,如只保留sgn中位于领域关键词排序表前100的名词。
步骤2.5:对步骤2.4的结果中存在包含关系的多个服务目标,仅保留语义信息最丰富的服务目标。
步骤3:重复执行所述的步骤2,获得一个领域内所有Web服务的服务目标集,进行领域服务目标抽取,得到领域的候选领域服务目标集,然后领域专家可以利用候选领域服务目标集进行领域服务目标知识库的构建或完善,其具体实现包括以下子步骤:
步骤3.1:在步骤2的基础上,统计领域中每个服务目标的出现次数;
步骤3.2:在步骤3.1的基础上,进行领域服务目标(Domain Service Goal,简称DSG)抽取,得到候选领域服务目标集;领域服务目标使用下述定义进行描述:
领域服务目标DSG中的任一具体领域服务目标dsg可用如下五元组表示:<sgv,sgn,NL,NR,SGP>,其中,sgv代表其动词部分,sgn代表其名词部分;NL是位于sgn左侧的可选属性集合;NR是位于sgn右侧的可选属性集合;SGP是dsg的补充说明集合;
在步骤3.1的基础上,进行领域服务目标抽取的具体方式为,依次对领域中的每个服务目标sg进行如下处理:
首先,确定领域服务目标集中与sg相关的子集:
DSGsg={dsg|dsg∈DSG∧dsg.sgv=sg.sgv},即定位到所有与sg中动词部分相同的领域服务目标;
然后,按照如下情形处理:
(1)若DSGsg中存在非空子集:
S1={dsg|dsg∈DSGsg∧sg.sgn=lsg-dsgοdsg.sgnοrsg-dsg},则对
dsg.NL=dsg.NL∪{lsg-dsg}
dsg.NR=dsg.NR∪{rsg-dsg}
dsg.SGP=dsg.SGP∪sg.sgp
N(dsg)=N(dsg)+N(sg)
其中,lsg-dsg、rsg-dsg分别为sg.sgn相对于dsg.sgn的左侧部分和右侧部分,ο为字符串连接操作,N(x)代表x在领域中出现的次数,即在领域的多少个服务中出现;
(2)若DSGsg中存在非空子集:
S2={dsg|dsg∈DSGsg∧dsg.sgn=ldsg-sgοsg.sgnοrdsg-sg},则对DSGsg作如下处理:添加newdsg,删去S2,newdsg为:
newdsg.sgv=sg.sgv
newdsg.sgn=sg.sgn
newdsg . NL = &cup; dsg &Element; S 2 ( dsg . NL &cup; { l dsg - sg } )
newdsg . NR = &cup; dsg &Element; S 2 ( dsg . NR &cup; { r dsg - sg } )
newdsg . SGP = &cup; dsg &Element; S 2 dsg . SGP &cup; sg . sgp
N ( newdsg ) = &Sigma; dsg &Element; S 2 N ( dsg ) + N ( sg )
其中,ldsg-sg、rdsg-sg分别为dsg.sgn相对于sg.sgn的左侧部分和右侧部分;
(3)若DSGsg不存在S1、S2,则直接将sg添加到DSGsg中。
步骤3.3:对步骤3.2的基础上,对候选领域服务目标按照出现次数进行降序排列,得到候选领域服务目标排序列表;
步骤3.4:通常,一个领域服务目标在领域中的出现次数越多,其越能代表领域的重要功能。针对步骤3.3的结果,领域专家可以选择性地对重要的候选领域服务目标(例如:出现次数大于10或者候选领域服务目标排序列表中的前20个)通过简单的手工处理(例如:对不合适的服务目标进行滤除或改进)实现领域服务目标知识库的构建或完善。
以下通过具体实施例对发明做进一步的阐述。
下面以ProgrammableWeb(PWeb)网站上的Web服务作为数据集,进行服务目标抽取和领域服务目标知识库的构建,以详细描述本发明的实施过程。
ProgrammableWeb(http://www.programmableweb.com/)网站是目前互联网上可以公开访问的著名mashup和Web服务注册中心。截至2013年8月25日,PWeb上注册的Web服务已超过9800个,包括遵循SOAP、REST、XML-RPC的各类Web API,并且提供了API服务的一些注册信息,比如API名称、描述、标签等。对于采用SOAP协议的API服务,通常还提供了描述该Web服务的WSDL文档。
首先,执行步骤1,使用爬虫并结合PWeb网站提供的开放API从该网站收集Web服务的描述信息(包括API名称、描述、标签等),存储在文本文档中。对存在WSDL描述的Web服务,还收集了相应的WSDL文档;
然后,对收集的Web服务描述文档进行预处理,具体包括:对收集的每个Web服务描述文档进行分词并利用WordNet将不属于动词和名词的单词过滤掉;对于得到的动词和名词,根据自定义的停词表进一步去除对领域表征能力不强的单词,得到每个Web服务描述文档的关键词集合;使用JWI(http://projects.csail.mit.edu/jwi/)提供的Stemming功能对关键词进行原型化处理;最后,统计Web服务描述文档中每个关键词的出现次数。
接着,根据预处理后的Web服务描述文档集,按照步骤1.5构建领域关键词排序表。表2所示为Financial、Travel、Music3个领域的领域关键词排序表的前10个。
表2 3个领域的领域关键词排序表的TOP10结果
然后,执行步骤2,以Travel领域为例,对该领域中的每个Web服务进行服务目标抽取,具体包括:利用Stanford Parser对初始获取的Web服务描述文档中的描述语句进行解析,得到描述语句的SD集合;然后,利用SD集合进行初始目标的抽取和扩展,得到文本描述的候选服务目标集;接着,从Web服务的WSDL文档中进行操作名的提取和分解,得到WSDL文档的候选服务目标集;最后,将文本描述的候选服务目标集和WSDL文档的候选服务目标集进行合并,并对合并的结果依次进行原型化、服务目标替换和停用词过滤等处理,得到Web服务的服务目标集;
最后,执行步骤3,基于Travel领域内所有Web服务的服务目标集,进行领域服务目标抽取,得到候选领域服务目标集。表3所示为Travel领域的候选领域服务目标的前10个。
表3Travel领域的领域目标抽取结果(TOP10)
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (4)

1.一种面向领域服务目标的知识库构建方法,其特征在于,包括以下步骤:
步骤1:收集Web服务的描述信息,所述的Web服务的描述信息包括文本描述信息和WSDL文档信息;将文本描述以文档的形式存储,然后对收集的描述文档进行预处理,得到用户所需要的Web服务描述文档中的关键词,并对每个关键词在该文档中的出现次数进行统计,再利用统计后的Web服务描述文档集构建领域关键词排序表;其具体实现包括以下子步骤:
步骤1.1:对Web服务描述文档进行解析,抽取该文档中包含的所有单词;
步骤1.2:针对步骤1.1的结果,根据所述的单词的词性,将不属于动词和名词的单词过滤掉,同时去掉对领域表征能力不强的动词和名词,得到可以体现每个Web服务核心功能的关键词集合;
步骤1.3:对步骤1.2的结果进行关键词的原型化处理;
步骤1.4:在步骤1.3的基础上,统计Web服务描述文档中每个关键词的出现次数;
步骤1.5:在步骤1.4的基础上,通过计算领域Web服务描述文档中每个关键词对该领域的表征度构建领域关键词排序表;
步骤2:利用所述的领域关键词排序表,从Web服务的多种描述信息中进行服务目标抽取,得到Web服务的候选服务目标集,然后对Web服务的候选服务目标集依次进行原型化、服务目标替换和停用词过滤处理,得到Web服务的服务目标集;以文本描述和WSDL文档描述的Web服务而言,所述的步骤2的具体实现包括以下子步骤:
步骤2.1:从Web服务的文本描述中进行服务目标抽取;其具体实现包括以下子步骤:
步骤2.1.1:对初始获取的Web服务描述文档中的每条语句进行解析,得到各语句中词汇间的语法依赖关系;
步骤2.1.2:在步骤2.1.1的基础上,抽取各语句中的初始目标集合;
步骤2.1.3:在步骤2.1.2的基础上,获取文本描述中包含的候选服务目标集;
步骤2.2:从Web服务的WSDL文档中进行服务目标抽取;其具体实现包括以下子步骤:
步骤2.2.1:对WSDL文档进行解析,得到能够代表Web服务功能的所有操作名的集合;
步骤2.2.2:在步骤2.2.1的基础上,对操作名进行分解,得到WSDL文档中包含的候选服务目标集;
步骤2.3:在步骤2.1和步骤2.2的基础上,对文本描述的候选服务目标集与WSDL文档的候选服务目标集取并集,得到Web服务的候选服务目标集;
步骤2.4:针对步骤2.3的结果,通过依次进行原型化、服务目标替换和停用词过滤处理得到Web服务的服务目标集;所述的服务目标替换包括抽象名词替换和等价动词替换;
步骤2.5:对步骤2.4的结果中存在包含关系的多个服务目标,仅保留语义信息最丰富的服务目标;
步骤3:重复执行所述的步骤2,获得一个领域内所有Web服务的服务目标集,进行领域服务目标抽取,得到领域的候选领域服务目标集,然后领域专家可以利用候选领域服务目标集进行领域服务目标知识库的构建或完善。
2.根据权利要求1所述的面向领域服务目标的知识库构建方法,其特征在于:所述的步骤3的具体实现包括以下子步骤:
步骤3.1:在步骤2的基础上,统计领域中每个服务目标的出现次数;
步骤3.2:在步骤3.1的基础上,进行领域服务目标抽取,得到候选领域服务目标集;
步骤3.3:对步骤3.2的基础上,对候选领域服务目标按照出现次数进行降序排列,得到候选领域服务目标排序列表;
步骤3.4:针对步骤3.3的结果,领域专家可以选择性地对重要的候选领域服务目标通过简单的手工处理实现领域服务目标知识库的构建或完善。
3.根据权利要求2所述的面向领域服务目标的知识库构建方法,其特征在于:步骤3.4中所述的重要的候选领域服务目标,其判断标准是:候选领域服务目标出现次数大于10或者候选领域服务目标排序列表中的前20个。
4.根据权利要求2所述的面向领域服务目标的知识库构建方法,其特征在于:步骤3.4中所述的领域专家可以选择性地对重要的候选领域服务目标通过简单的手工处理,其处理方法为:对不合适的服务目标进行滤除或改进。
CN201310412162.1A 2013-09-11 2013-09-11 一种面向领域服务目标的知识库构建方法 Active CN103440343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310412162.1A CN103440343B (zh) 2013-09-11 2013-09-11 一种面向领域服务目标的知识库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310412162.1A CN103440343B (zh) 2013-09-11 2013-09-11 一种面向领域服务目标的知识库构建方法

Publications (2)

Publication Number Publication Date
CN103440343A CN103440343A (zh) 2013-12-11
CN103440343B true CN103440343B (zh) 2014-11-05

Family

ID=49694036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310412162.1A Active CN103440343B (zh) 2013-09-11 2013-09-11 一种面向领域服务目标的知识库构建方法

Country Status (1)

Country Link
CN (1) CN103440343B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404693B (zh) * 2015-12-18 2018-12-25 浙江工商大学 一种基于需求语义的服务聚类方法
CN105608218B (zh) * 2015-12-31 2018-11-27 上海智臻智能网络科技股份有限公司 智能问答知识库的建立方法、建立装置及建立系统
CN105678324B (zh) * 2015-12-31 2019-03-26 上海智臻智能网络科技股份有限公司 基于相似度计算的问答知识库的建立方法、装置及系统
CN105930443B (zh) * 2016-04-20 2017-06-27 武汉大学 一种面向目标的RESTful Web服务发现方法
CN106326401A (zh) * 2016-08-22 2017-01-11 联想(北京)有限公司 行业主题词的获取方法、构建无主题词库的方法及装置
CN111400458A (zh) * 2018-12-27 2020-07-10 上海智臻智能网络科技股份有限公司 一种自动泛化方法及其装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876981A (zh) * 2009-04-29 2010-11-03 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
CN101556606B (zh) * 2009-05-20 2010-12-01 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法
CN102831175A (zh) * 2012-07-30 2012-12-19 河海大学 一种基于云平台的水利业务Web服务库的构建方法
CN102855312B (zh) * 2012-08-24 2013-08-14 武汉大学 一种面向领域主题的Web服务聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876981A (zh) * 2009-04-29 2010-11-03 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
CN101556606B (zh) * 2009-05-20 2010-12-01 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法
CN102831175A (zh) * 2012-07-30 2012-12-19 河海大学 一种基于云平台的水利业务Web服务库的构建方法
CN102855312B (zh) * 2012-08-24 2013-08-14 武汉大学 一种面向领域主题的Web服务聚类方法

Also Published As

Publication number Publication date
CN103440343A (zh) 2013-12-11

Similar Documents

Publication Publication Date Title
CN109492077B (zh) 基于知识图谱的石化领域问答方法及系统
Rebele et al. YAGO: A multilingual knowledge base from wikipedia, wordnet, and geonames
CN103440343B (zh) 一种面向领域服务目标的知识库构建方法
Abouenour et al. On the evaluation and improvement of Arabic WordNet coverage and usability
Gacitua et al. A flexible framework to experiment with ontology learning techniques
CN106095762A (zh) 一种基于本体模型库的新闻推荐方法及装置
Arendarenko et al. Ontology-based information and event extraction for business intelligence
CN102622453A (zh) 基于本体的食品安全事件语义检索系统
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN103678412A (zh) 一种文档检索的方法及装置
Arias et al. A framework for managing requirements of software product lines
CN103885933A (zh) 用于评价文本的情感度的方法和设备
CN112231494A (zh) 信息抽取方法、装置、电子设备及存储介质
Ahmad et al. A survey of searching and information extraction on a classical text using ontology-based semantics modeling: A case of Quran
Gherasim et al. Methods and tools for automatic construction of ontologies from textual resources: A framework for comparison and its application
Freitas et al. An ontology-based architecture for cooperative information agents
Tiddi et al. Ontology learning from open linked data and web snippets
JP5688754B2 (ja) 情報検索装置及びコンピュータプログラム
Nordhoff et al. Glottolog/Langdoc: Increasing the visibility of grey literature for low-density languages
Drymonas et al. Opinion mapping travelblogs
Khalil et al. Challenges in information retrieval from unstructured arabic data
Nevzorova et al. The Semantic Context Models of Mathematical Formulas in Scientific Papers.
Lacasta et al. Generating an urban domain ontology through the merging of cross-domain lexical ontologies
Labský et al. The ex project: Web information extraction using extraction ontologies
Piotrowski et al. Harvesting indices to grow a controlled vocabulary: towards improved access to historical legal texts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant