CN101833561A

CN101833561A - 面向自然语言处理的语义Web服务智能代理

Info

Publication number: CN101833561A
Application number: CN 201010109653
Authority: CN
Inventors: 刘志境; 朱旭东; 姚勇; 王静; 杨伟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2010-02-12
Filing date: 2010-02-12
Publication date: 2010-09-15
Anticipated expiration: 2030-02-12
Also published as: CN101833561B

Abstract

本发明是一种面向自然语言处理的语义Web服务智能代理，包括面向自然语言处理的语义Web服务搜索方法和服务智能代理系统，Web服务采集子系统与Web服务搜索引擎通过共享服务仓库实现数据链接；自然语言用户接口与Web服务搜索引擎、自然语言用户接口与服务执行引擎通过TCP网络连接实现数据交换。采用信息抽取法获取描述服务的关键词集，以概率隐含语义索引方法构建服务语义索引，基于WSDL的语义Web服务搜索方法，利用词汇相似度，基于签名文本匹配。提高搜索的精确度并简化算法优化设计，提高了查准率和查全率，具有兼容性，易于推广应用。为面向自然语言处理的智能代理的实际应用解决路径的技术问题，具有突破性的意义。

Description

面向自然语言处理的语义Web服务智能代理

技术领域

本发明属于网络通信技术领域，主要涉及语义Web服务(Semantic Web Service，SWS)领域，尤其涉及一种面向自然语言处理的Web服务代理方法和系统，具体是一种面向自然语言处理的语义Web服务智能代理。

背景技术

语义Web服务是互联网技术的新领域，又是语义Web和Web服务两个重要分支相互结合的产物。语义Web服务的主要研究内容是使用更加丰富的、分布式的语义描述元素进行动态分布式计算。通过使用相关语义描述信息，能够得到更加灵活的自动化服务提供和使用方式，开发出更加强大的软件开发工具，构建语义服务，并创建基于服务的软件解决方案的方法。整个语义Web服务的生命周期包括语义Web服务的标注、发布、发现、数据调制、组合、配置、编排和执行等步骤。Web服务代理是实现语义Web服务的重要基础构件，其主要作用是提高语义Web服务易用性和简化服务部署过程。

Web服务代理是Web服务请求者与Web服务之间的中间件，遵循代理协议，实现服务请求解析、服务发现、服务数据调制和服务执行等功能。如“A Broker forOWL-S Web services，”Technical Report，Stanford University Palo Alto，CA，2004.M.Paolucci，J.Soudry，N.Srinivasan and K.Sycara.所述，代理协议涉及3个参与者：请求者、提供者和代理。请求者通过发送请求到代理启动协议；提供者是服务库中最适合解决请求问题的提供者。代理协议分为两个部分：广告协议和调停协议。广告协议：代理采集服务提供者发布的服务广告(例如：服务wsdl文件)，这些服务广告将用于选择满足服务请求的最佳服务提供者。调停协议：服务请求者向代理发送询问请求；代理使用其服务发现机制定位能回答询问的服务提供者；代理依据服务提供者要求格式化服务请求并调用服务；服务提供者计算服务请求并将计算结果返回代理；代理将服务计算结果按服务请求者要求格式化并返回请求者。Web服务代理的核心问题是基于服务广告的服务选择(搜索)问题。

现有的Web服务搜索方法分为两类：基于WSDL的方法和基于领域本体的方法。基于领域本体的方法又细分为：基于OWL_S、基于WSDL_S和WSMO等方法，其中基于WSDL_S的方法是通过领域本体标注标准WSDL实现。基于领域本体方法的基本思路是构建语义丰富的WSDL文件。文献“Semantic Web Service，Processes and Applications，”in Semantic Web and Beyond：Computing for HumanExperience，R.Jain and A.Sheth，(Eds.)：Springer，2006.深入总结了基于领域本体的Web服务检索方法。由于领域本体的缺乏和服务代理的通用性，所以基于领域本体的方法很难应用于服务代理。

基于WSDL的方法又细分为：基于文本和基于语义等方法。基于文本的Web服务发现方法是最直接的方法，而其最常用方法是UDDI内嵌的关键词匹配方法。UDDIAPI允许其用户指定感兴趣关键词集，然后其返回服务描述包含指定关键词集的服务列表。文献H.H.Do and E.Rahm，“COMA-A system for flexible combination ofschema matching approaches，”in 28th VLDB Conference，Hong Kong，China，2002应用各种字符串比较算法(例如：前缀、后缀、编辑距离)匹配存在少许拼写错误的可交换关键词集。

基于语义的服务搜索方法：C.Platzer and S.Dustdar，“A vector space searchengine for Web Services，”in Third IEEE European Conference on Web Services，Sweden，2005采用向量空间模型(Vector Space Model，VSM)构建Web服务搜索引擎。而A.Sajjanhar，J.Hou，and Y.Zhang，“Algorithm for Web Services Matching，”at APWeb，2004则采用改进的VSM模型(LSA)发现Web服务。上述方法存在下列问题：1、上述方法都需要依赖现存的UDDI注册中心。而由于公共UDDI的永久关闭和服务自然语言描述的缺乏和无效，因此这些方法都不能满足Web服务代理的需要；2、上述方法基于服务的自然语言描述工作，由于自然语言词汇的同义和多义现象，查准率(recall)低；3、上述方法构建的Web服务索引无法解释，从而用户难以理解和使用；4、现有的方法都仅关注了Web服务搜索与文本搜索的共性问题，很少基于Web服务代理优化Web服务搜索，提高服务查询的查准率和查全率。

本发明项目组对国内外专利文献和公开发表的期刊论文检索，再尚未发现与本发明密切相关和一样的报道或文献。

发明内容

本发明的目的是克服上述方法、技术或系统存在的缺点，提供一种接收自然语言描述的服务请求、搜索相关服务、执行服务和返回自然语言描述的服务结果。基于WSDL的语义方法，优化Web服务搜索，服务查询查准率和查全率高，遵循Web服务代理协议的一种面向自然语言处理的语义Web服务智能代理。

下面对本发明进行详细说明

本发明要解决的主要问题是提高现有服务查询的查准率和查全率不高的技术问题；并提供一种查准率和查全率不高的面向自然语言处理的语义Web的服务智能代理。

本发明的内容包括面向自然语言处理的语义Web服务搜索方法和面向自然语言处理的语义Web服务智能代理系统，后者更侧重于结构与设备，前者是一种语义Web服务搜索方法。作为一种面向自然语言处理的语义Web服务搜索方法，其特征在于，包括如下步骤：

A、将Web服务采集子系统采集的所有服务描述文件(WSDL)汇集为服务描述文集C；

B、采用信息抽取(Information Extraction，IE)算法，处理服务描述文集C，获取描述服务语义的关键词；

C、从服务描述文集C抽取的所有关键词汇集为服务原始词汇集T；

D、采用词聚类算法，处理服务原始词汇集T，构造服务词汇表D；

E、基于服务词汇表D，采用概率隐含语义索引(pLSI)算法，处理服务描述文集C，自动构建服务描述文集C的语义索引；

F、基于服务描述文集C的语义索引，采用服务搜索算法，处理用户服务请求，从而实现服务搜索。

本发明首先采用信息抽取方法获取描述服务的关键词集；然后，采用概率隐含语义索引(pLSI)方法构建服务语义索引；最后，基于服务描述文件(WSDL)与服务请求的语义相似度搜索与服务请求相关服务。与基于领域本体的方法不同，本发明不依赖于本体方法而是采用实证方法，从而解决了领域本体的缺乏和通用性问题。与基于语义的服务搜索方法不同，本发明不基于Web服务的自然语言描述工作，而是直接基于WSDL文档工作，通过WSDL元素抽取、分析和扩展获取。与自然语言不同，WSDL用词更加准确、精炼和专业，因此直接基于WSDL元素工作可有效避免自然语言的同义和多义现象带来的问题，提高搜索的精确度并简化算法设计。

本发明的实现还在于：在步骤B中所述信息抽取算法包括如下步骤：

B1、基于WSDL文件的DOM(Document Object Model，文档对象模型)，抽取下列标签的name属性：definitions、message、part、portType、operation、input、output、service、port；抽取targetNamespace标签的uri属性捕捉服务提供者信息；抽取part标签的element属性值捕捉服务发送和接收的数据结构；

B2、依据WSDL文件，采用复写、排序和添加三个操作以保存抽取属性在文件中的结构信息；

B3、由于抽取属性是一种无分隔符的字符串(例如：downloadMP3Music)，采用基于最大匹配算法(MMA)分割抽取，抽取属性为词组。

本发明的实现还在于：在步骤D中所述基于词汇相似度的词聚类算法包括如下步骤：

D1、使用Word-Net语义知识词典定义词汇相似度

Sim (t_{1}, t_{2}) = \frac{α \times (l_{1} + l_{2})}{(Dis (t_{1}, t_{2}) + α) \times \max (| l_{1} - l_{2} |, 1)},

其中l₁，l₂是t₁，t₂分别所处的层次，

α＞0是可调参数；

D2、初始化聚类集合为空；

D3、从服务原始词汇集T中读入一个新词；

D4、以这个词构造一个新的类；

D5、利用D1步骤中定义的词汇相似度，计算所读入新词与每个已有类间的距离，并选择最小的距离；

D6、若最小距离超过给定的阈值，则转步骤D3；

即在D3-D6步中，若已到服务原始词汇集T末尾，则结束，否则读入新词，

D7、否则将该词并入具有最小距离的类中并更新该类的各分类属性值的统计频度及数值属性的质心，转步骤D3；

D8、以所获得类的中心词为词汇，汇集构造服务词汇表D。

本发明首先基于Word-Net定义了一种新的词汇相似度，将主观性相当强的概念词汇语义相似度转换为词语间距离的度量。该相似度与其他定义不同点在于其不但考虑了词语所处的节点深度而且考虑了该深度上节点的密度对词汇语义相似度的影响。然后，本发明基于词汇相似度通过最近邻聚类(NN)算法构造Web服务词汇表。该算法主要优点是计算复杂度低和无需事先指定词汇表规模。

本发明的实现还在于：在步骤E中所述概率隐含语义索引(pLSI)算法包括如下步骤：

E1、基于服务词汇表D，将服务描述文集C中所有文档的每一个关键词替换为D中相应服务词汇；

E2、设服务描述文集C包含N个文件，服务词汇表D包含M个词汇，构造一个M×N矩阵

其中n(w_i，d_j)表示在文件d_j中词w_i出现次数；

E3、针对矩阵

采用EM(Expectation-Maximization，期望最大化)算法，估计参数p(d)，p(d|z)和p(w|z)，其中：z是隐含语义变量

1)目标函数为

L = \underset{d &Element; D}{Σ} \underset{w &Element; W}{Σ} p {(d, w)}^{n (d, w)}

2)E步计算：

p (z | d, w) = \frac{p (z) p (d | z) p (w | z)}{\underset{z^{'}}{Σ} p (z^{'}) p (d | z^{'}) p (w | z^{'})}

3)M步计算：

p (w | z) = \frac{\underset{d}{Σ} n (d, w) p (z | d, w)}{\underset{d, w^{'}}{Σ} n (d, w^{'}) p (z | d, w^{'})}

p (d | z) = \frac{\underset{w}{Σ} n (d, w) p (z | d, w)}{\underset{d, w^{'}}{Σ} n (d, w^{'}) p (z | d, w^{'})}

p (z) = \frac{1}{R} \underset{d, w}{Σ} n (d, w) p (z | d, w), R &equiv; \underset{d, w}{Σ} n (d, w)

E4、针对服务描述文集C中，依据下式计算每一个文档d的索引(Index)：

Index＝argmax_kp(z_k|d)。

与基于语义的服务搜索方法不同，本发明采用概率隐含语义索引(pLSI)算法构建服务索引，生成可解释的语义索引，解决了基于笛卡尔空间聚类(如：SVM、LSA)方法构建的Web服务索引无法解释和用户难以理解使用的问题。

本发明的实现还在于：在步骤F中所述服务搜索算法包括如下步骤：

F1、基于服务词汇表D，将服务查询q中每一个关键词替换为D中相应服务词汇；

F2、采用EM算法，估计参数p(z|q)，其中：z是隐含语义变量、目标函数改为

L = n (q) [\underset{w &Element; W}{Σ} \frac{n (q, w)}{n (q)} \log p (w | q) + \log p (q)];

F3、依据下式计算服务查询q的索引(Index)：Index＝argmax_kp(z_k|q)，在服务描

述文集C与服务查询q具有相同索引的服务就是用户请求的服务。

本发明采用概率隐含语义索引(pLSI)算法自动构建服务索引，生成可解释的语义索引，使得服务查询得以准确和快速，解决了Web服务索引无法解释和用户难以理解使用的问题，提高了语义Web服务的效率。

本发明还是一种面向自然语言处理的语义Web服务智能代理系统，或者说是一种面向自然语言处理的语义Web服务智能代理装置，包括：

Web服务采集子系统：用于采集互联网或内联网上发布的Web服务描述文件(WSDL)；并将处理后的数据传送到服务仓库；Web服务搜索引擎会从中搜取所需的数据。

Web服务搜索引擎：接受自然语言用户接口传送的Web服务语义关键词，并搜索存放WSDL文件的服务仓库，检索最大化满足客户需求的Web服务描述文件(WSDL)，将结果传递到Web服务执行引擎；

自然语言用户接口：接收用户自然语言输入，解析并生成精确、标准和简洁的服务请求；向Web服务搜索引擎传递用户自然语言输入的Web服务语义关键词，同时接受来自Web服务执行引擎的信息，分析服务输出，并结合自然语言输出模板生成自然语言输出；

Web服务执行引擎：将搜索到的Web服务的定义、数据准备、服务调用和服务结果综合处理，将处理结果传输到自然语言用户接口

Web服务采集子系统与Web服务搜索引擎通过共享服务仓库实现数据链接；自然语言用户接口与Web服务搜索引擎、自然语言用户接口与服务执行引擎通过TCP网络连接实现数据交换。

与其他Web服务搜索方法不同，本发明通过Web服务采集子系统中的网络爬虫定时采集互联网或内联网上发布的Web服务描述文件(WSDL)构建WSDL文集，从而解决了由于公共UDDI的永久关闭和服务自然语言描述的缺乏和无效，带来的对UDDI注册中心的依赖问题。同时，基于自然语言分析技术解析用户输入，通过生成精确、标准和简洁的服务请求优化Web服务搜索查准率；并且，将自然语言分析与输出模板相结合，过滤Web服务搜索结果生成自然语言输出，进一步了提高查准率。经Web服务执行引擎搜索到的Web服务的定义、数据准备、调用和结果返回到自然语言用户，与面向自然语言处理的语义Web服务搜索方法联合应用，实现了具有实际意义的面向自然语言处理的语义Web服务智能代理。

本发明的实现还在于：所述Web服务采集子系统包括如下模块：

URL管理模块：基于商业搜索引擎和公开UDDI搜索WSDL文件，构造初始URL列表；并将获取的URL列表作为任务分配到每个爬虫；

服务爬虫模块：每个爬虫实现为一个自治工作线程，从URL管理模块获取给定URL的WSDL文件并存储到链接分析模块所指定位置；

链接分析模块：将不合法的WSDL分类；基于不同类型的特性执行分析，当遇到非法WSDL文件，检查是否是HTML文件，如果是，则调用其HTML解析器尝试发现真正WSDL文件的链接，将潜在的WSDL链接传送到URL管理模块，等待下一轮抓取。

本发明的实现还在于：所述自然语言用户接口包括如下模块：

用户自然语言询问分析器：包括自然语言预处理、应答分类和关键词集抽取三个模块，通过自然语言预处理、应答分类和关键词集抽取三个步骤实现基于用户自然语言询问的应答类型确定和标识关键词集的任务；

结果产生器即结果过滤器：依据应答类型选择应答模板，抽取服务结果填充应答模板构造应答，将来自服务执行器即Web服务执行引擎及关键词集抽取的信息服务结果逻辑综合后通过自然语言模板输出。

本发明的实现还在于：所述Web服务执行引擎包括如下模块：

数据准备模块：根据用户输入构造服务请求文件，并与用户交互获取缺失信息；最后将服务请求发送到服务定位模块；

服务定位模块：依据服务请求，选择服务绑定对应的WSDL文件，实现服务的定位；最后将绑定的WSDL文件发送到服务调用模块；

服务调用模块：已经绑定的WSDL文件，装载服务请求数据，调用该Web服务；等待服务调用结果返回并将服务调用的结果发送到结果返回模块；

结果返回模块：将服务调用的结果返回给用户。

服务定位模块和数据准备模块、数据准备模块和服务调用模块通过文件系统共享文件实现数据交换；服务调用模块和结果返回模块通过程序调用实现数据交换。

本发明的代理系统接收自然语言描述的服务请求、搜索相关服务、执行服务和返回自然语言描述的服务结果，系统包括：服务采集子系统、自然语言用户接口、服务搜索引擎和服务执行器。搜索引擎的服务搜索方法：首先，采用信息抽取方法获取描述服务的关键词集；然后，采用概率隐含语义索引(pLSI)方法构建服务语义索引；最后，基于服务描述(WSDL)与服务请求的语义相似度搜索与服务请求相关服务。提高了语义Web服务的易用性，也简化服务部署过程。

本发明解决现有服务查询针对自然语言词汇的同义和多义现象而查准率(recall)低的查准率和查全率不高的技术问题；同时本发明遵循Web服务代理协议，实现了一种面向自然语言处理的智能代理系统。面向自然语言处理的智能代理是网络领域的研究前沿，本发明采用基于文本的方法，利用词汇相似度，尤其基于签名文本匹配的方法。实现了提高服务查询的查准率，提高搜索的精确度并简化算法设计，为面向自然语言处理的智能代理的实际应用解决路径的问题，对于面向自然语言处理的实际应用是具有突破性的意义，采用基于WSDL的语义Web服务搜索方法具有兼容性，易于推广应用，同时也提高了查全率。

附图说明：

图1面向自然语言处理的语义web服务智能代理部署示意图；

图2面向自然语言处理的语义web服务智能代理系统结构示意图；

图3面向自然语言处理的语义Web服务搜索方法的流程图；

图4Web服务搜索方法查准率(recall)性能比较曲线图。

具体实施方式：

下面结合附图对本发明进行详细说明：

实施例1：

本发明是面向自然语言处理的智能代理，是实现语义Web服务的重要基础构件，可广泛应用于电子商务、电子政务和数字企业等领域，特别适合基于手机和PDA等手持设备的信息系统使用。面向自然语言处理的智能代理具体包含两大部分内容，即面向自然语言处理的语义Web服务搜索方法和面向自然语言处理的语义Web服务智能代理系统。

参见图1，请求者通过智能终端发送自然语言请求到面向自然语言处理的智能代理，其中面向自然语言处理的语义Web服务搜索开始进行服务搜索，作为一种语义Web服务搜索方法，见图3，包括如下步骤：

B、采用信息抽取(Information Extraction，IE)算法，处理服务描述文集C，从而获取描述服务语义的关键词；

D、采用基于词汇相似度的词聚类算法，处理服务原始词汇集T，从而构造服务词汇表D；

E、基于服务词汇表D，采用概率隐含语义索引(pLSI)算法，处理服务描述文集C，从而自动构建服务描述文集C的语义索引；

Web服务是一种新的基于XML和HTTP的服务，所提供的服务是规范的，所接收的请求也是规范的，而当面向自然语言的请求，信息的是难以规范的，有时甚至是含糊不清的，即使是一种意思或定义，可能存在有很多的表述。针对自然语言的凌乱信息，本发明对其进行语言汇集、整理、进行规范化定义，比如针对一个意思或定义，获取描述服务语义的关键词集合，自动构建服务描述文集C的语义索引，实现服务搜索。

本发明首先获取描述服务的关键词集，进而构建服务描述文集C的语义索引，基于服务描述(WSDL)与服务请求的语义相似度搜索与服务请求相关服务。解决了领域本体的缺乏和通用性问题。有效避免自然语言的同义和多义现象带来的技术问题，提高搜索的精确度并简化算法设计。为面向自然语言处理的智能代理的实际应用开辟了路径。

实施例2：

面向自然语言处理的语义Web服务搜索方法同实施例1，基于上述技术方案，更进一步地，步骤B中所述信息抽取算法包括如下步骤：

B2、依据WSDL文件，采用复写、排序和添加三个操作以保存抽取属性在文件中的结构信息；以上三个操作根据具体情况，有时可能三个操作均需做，有时可能只进行一个操作或两个操作。保存抽取属性在文件中的结构信息是加强该词的重要性。

B3、由于抽取属性是一种无分隔符的字符串，例如：downloadMP3Music，采用基于MMA(Maximum Matching Algorithm)最大匹配算法，分割抽取，抽取属性为词组。

实施例3：

面向自然语言处理的语义Web服务搜索方法同实施例1-2，基于上述技术方案，更进一步地，步骤D所述基于词汇相似度的词聚类算法包括如下步骤：

D1、使用Word-Net语义知识词典定义词汇相似度

Sim (t_{1}, t_{2}) = \frac{α \times (l_{1} + l_{2})}{(Dis (t_{1}, t_{2}) + α) \times \max (| l_{1} - l_{2} |, 1)},

其中l₁，l₂是t₁，t₂分别所处的层次，

α＞0是可调参数；

D2、初始化聚类集合为空，

D3、从服务原始词汇集

中读入一个新词；

D4、以这个词构造一个新的类；

D5、若已到服务原始词汇集

末尾，则结束，否则读入新词，利用定义的词汇相似度，计算其与每个已有类间的距离，并选择最小的距离；

D6、若最小距离超过给定的阈值，则转步骤D3；

D8、以所获得类的中心词为词汇，汇集构造服务词汇表T。

在现有技术中，还是事先人为对文档、对搜索元手工标注，本发明对所服务的原始词汇集形成文集，由计算机无监督地对文集归类、标注、自动生成索引，减小了人工工作量，提高了工作效率，更重要的是提高了搜索的准确度。

实施例4：

面向自然语言处理的语义Web服务搜索方法同实施例1-3，基于上述技术方案，更进一步地，步骤E中所述概率隐含语义索引(pLSI)算法包括如下步骤：

E1、基于服务词汇表T，将服务描述文集C中所有文档的每一个关键词替换为T中相应服务词汇；

E2、设服务描述文集C包含N个文件，服务词汇表T包含M个词汇，构造一个M×N矩阵

其中n(w_i，d_j)表示在文件d_j中词w_i出现次数；

E3、针对矩阵采用EM(Expectation-Maximization，期望最大化)算法，估计参数p(d)，p(d|z)和p(w|z)，其中：z是隐含语义变量

1)目标函数为

L = \underset{d &Element; D}{Σ} \underset{w &Element; W}{Σ} p {(d, w)}^{n (d, w)}

2)E步计算：

p (z | d, w) = \frac{p (z) p (d | z) p (w | z)}{\underset{z^{'}}{Σ} p (z^{'}) p (d | z^{'}) p (w | z^{'})}

3)M步计算：

p (w | z) = \frac{\underset{d}{Σ} n (d, w) p (z | d, w)}{\underset{d, w^{'}}{Σ} n (d, w^{'}) p (z | d, w^{'})}

p (d | z) = \frac{\underset{w}{Σ} n (d, w) p (z | d, w)}{\underset{d, w^{'}}{Σ} n (d, w^{'}) p (z | d, w^{'})}

p (z) = \frac{1}{R} \underset{d, w}{Σ} n (d, w) p (z | d, w), R &equiv; \underset{d, w}{Σ} n (d, w)

E4、针对服务描述文集C中，依据下式计算每一个文档d的索引(Index)：Index＝argmax_kp(z_k|d)。在参数给定后，自动计算生成文档的索引，并存储结果。

实施例5：

面向自然语言处理的语义Web服务搜索方法同实施例1-4，基于上述技术方案，更进一步地，步骤F中所述服务搜索算法包括如下步骤：

F1、基于服务词汇表T，将服务查询q中每一个关键词替换为T中相应服务词汇；

F2、采用EM(Expectation-Maximization，期望最大化)算法，估计参数p(z|q)，其中：z是隐含语义变量、目标函数改为

L = n (q) [\underset{w &Element; W}{Σ} \frac{n (q, w)}{n (q)} \log p (w | q) + \log p (q)];

F3、依据下式计算服务查询q的索引(Index)：Index＝argmax_kp(z_k|q)，在服务描述文集C与服务查询q具有相同索引的服务就是用户请求的服务。

在实施例1-5中可见本发明采用概率隐含语义索引(pLSI)算法构建服务索引，生成可解释的语义索引解决了基于笛卡尔空间聚类(如：SVM、LSA)方法构建的Web服务索引无法解释和用户难以理解使用的技术难题。

本发明还基于Word-Net定义了一种新的词汇相似度，将主观性相当强的概念词汇语义相似度转换为词语间距离的度量。该相似度与其他定义不同点在于其不但考虑了词语所处的节点深度而且考虑了该深度上节点的密度对词汇语义相似度的影响。然后，本发明基于词汇相似度通过最近邻聚类(NN)算法构造Web服务词汇表。该算法主要优点是计算复杂度低和无需事先指定词汇表规模。

基于Web服务采集子系统构建的服务仓库，通过实验，实验数据绘制的曲线见图4，证明本发明采用的概率隐含语义索引(pLSI)算法的查全率(Recall)和查准率(Precision)的综合性能优于SVM和LSI。图4中虚线表示SVM方法的查全率(Recall)-查准率(Precision)曲线；点划线表示LSI方法的查全率(Recall)-查准率(Precision)曲线；实线表示LSI方法的查全率(Recall)-查准率(Precision)曲线，也即本发明的曲线。本发明的平均查准率为82.1％高于LSI方法的74.6％及SVM的59％

实施例6：

面向自然语言处理的语义Web服务搜索方法同实施例1-5，本发明还是面向自然语言处理的语义Web服务智能代理系统，参见图2，作为面向自然语言处理的语义Web服务智能代理系统，包括如下子模块：

Web服务采集子系统：用于采集互联网或内联网上发布的Web服务描述文件(WSDL)，并将处理后的数据传送到服务仓库；

Web服务搜索引擎：用于搜索最大化满足客户需求的Web服务描述文件(WSDL)，接受自然语言用户接口传送的Web服务语义关键词，并搜索存放WSDL文件的服务仓库，检索最大化满足客户需求的Web服务描述文件，将结果传递到Web服务执行引擎；

自然语言用户接口：接收用户自然语言输入，解析并生成精确、标准和简洁的服务请求；向Web服务搜索引擎传递用户自然语言输入的Web服务语义关键词，同时接受来自Web服务执行引擎的信息，分析服务输出，并结合自然语言输出模板，生成自然语言输出；

Web服务执行引擎：用于搜索到的Web服务的定义、数据准备、调用和结果返回；参见图2，Web服务执行引擎也就是图2所示的服务执行器，将搜索到的Web服务的定义、数据准备、服务调用和服务结果综合处理，将处理结果传输到自然语言用户接口。

参见图2，WSDL_S信号直接送Web服务采集子系统，通过爬虫、链接分析、URL管理循环处理后通过链接分析模块传送信息通过服务仓库到搜索引擎，此时引入来自面向自然语言处理的语义Web服务搜索方法中的关键词集抽取，综合后结果发送到服务执行器，服务执行器融合服务结果后将信息传送到结果过滤器，在此又一次将关键词集抽取信息进行过滤，将过滤后的结果经自然语言模板输出给请求者。

实施例7：

面向自然语言处理的语义Web服务搜索方法同实施例1-5，面向自然语言处理的语义Web服务智能代理系统同实施例6，更进一步地，所述Web服务采集子系统包括如下模块：

链接分析模块：将不合法的WSDL分类；基于不同类型的特性执行分析，当遇到非法WSDL文件，检查是否是HTML文件，如果是，则调用其HTML解析器尝试发现真正WSDL文件的链接，将潜在的WSDL链接传送到URL管理模块，等待下一轮抓取。或者说通过不同类型的特性执行分析，当遇到不合法WSDL文件，抓取来自服务爬虫模块的信息，检查是否是HTML文件。

实施例8：

面向自然语言处理的语义Web服务搜索方法同实施例1-5，面向自然语言处理的语义Web服务智能代理系统同实施例6-7，更进一步地，所述自然语言用户接口包括如下模块：

用户自然语言询问分析器：包括自然语言预处理、应答分类和关键词集抽取三个模块，见图2，通过自然语言预处理、应答分类和关键词集抽取三个步骤实现基于用户自然语言询问的应答类型确定和标识关键词集的任务；

实施例9：

面向自然语言处理的语义Web服务搜索方法同实施例1-5，面向自然语言处理的语义Web服务智能代理系统同实施例6-8，基于上述技术方案，更进一步地，所述Web服务执行引擎包括如下模块：

服务定位模块：根据选择服务绑定到对应的WSDL文件，实现服务的定位；

数据准备模块：根据绑定的WSDL文件和用户输入构造服务请求文件，并与用户交互获取缺失信息；

服务调用模块：装载服务请求文件，调用该Web服务；

结果返回模块：将服务调用的结果返回给用户。

本发明将相应的模块有机组合，在运行流程和步骤中精简与优选，采用适当的算法，提供了一种可以实际应用的面向自然语言处理的语义Web服务智能代理。

Claims

1.一种面向自然语言处理的语义Web服务搜索方法，其特征在于，包括如下步骤：

A、将Web服务采集子系统采集的所有服务描述文件汇集为服务描述文集C；

B、采用信息抽取算法，处理服务描述文集C，获取描述服务语义的关键词；

E、基于服务词汇表D，采用概率隐含语义索引算法，处理服务描述文集C，自动构建服务描述文集C的语义索引；

2.根据权利要求1所述的面向自然语言处理的语义Web服务搜索方法，其特征在于，所述信息抽取算法包括如下步骤：

B1、基于WSDL文件的文档对象模型，抽取下列标签的name属性：definitions、message、part、portType、operation、input、output、service、port；抽取targetNamespace标签的uri属性捕捉服务提供者信息；抽取part标签的element属性值捕捉服务发送和接收的数据结构；

B3、采用基于最大匹配算法分割抽取，抽取属性为词组。

3.根据权利要求1所述面向自然语言处理的语义Web服务搜索方法，其特征在于，所述基于词汇相似度的词聚类算法包括如下步骤：

D1、定义词汇相似度

Sim (t_{1}, t_{2}) = \frac{α \times (l_{1} + l_{2})}{(Dis (t_{1}, t_{2}) + α) \times \max (| l_{1} - l_{2} |, 1)},

其中l₁，l₂是t₁，

t₂分别所处的层次，α＞0是可调参数；

D2、初始化聚类集合为空；

D3、从服务原始词汇集T中读入一个新词；

D4、以这个词构造一个新的类；

D5、若已到服务原始词汇集T末尾，则结束，否则利用D1步骤中定义的词汇相似度，计算所读入新词与每个已有类间的距离，并选择最小的距离；

D6、若最小距离超过给定的阈值，则转步骤D3；

D8、以所获得类的中心词为词汇，汇集构造服务词汇表D。

4.根据权利要求1所述面向自然语言处理的语义Web服务搜索方法，其特征在于，所述概率隐含语义索引算法包括如下步骤：

E3、针对矩阵

采用期望最大化算法，估计参数p(d)，p(d|z)和p(w|z)；

E4、在服务描述文集C中，依据下式计算每一个文档d的索引：

Index＝argmax_kp(z_k|d)。

5.根据权利要求1所述面向自然语言处理的语义Web服务搜索方法，其特征在于，所述服务搜索算法包括如下步骤：

F2、采用期望最大化算法，估计参数p(z|q)，其中：z是隐含语义变量、目标函数改为

L = n (q) [\underset{w &Element; W}{Σ} \frac{n (q, w)}{n (q)} \log p (w | q) + \log p (q)];

F3、依据下式计算服务查询q的索引：Index＝argmax_kp(z_k|q)，在服务描述文集C与服务查询q具有相同索引的服务就是用户请求的服务。

6.一种面向自然语言处理的语义Web服务智能代理系统，其特征在于，包括：

Web服务采集子系统：用于采集互联网或内联网上发布的Web服务描述文件，并将处理后的数据传送到服务仓库；

Web服务搜索引擎：接受自然语言用户接口传送的Web服务语义关键词，并搜索存放WSDL文件的服务仓库，检索最大化满足客户需求的Web服务描述文件，将结果传递到Web服务执行引擎；

Web服务执行引擎：将搜索到的Web服务的定义、数据准备、服务调用和服务结果综合处理，将处理结果传输到自然语言用户接口。

7.根据权利要求6所述面向自然语言处理的语义Web服务智能代理系统，其特征在于，所述Web服务采集子系统包括如下模块：

8.根据权利要求6所述面向自然语言处理的语义Web服务智能代理系统，其特征在于，所述自然语言用户接口包括如下模块：

结果过滤器：依据应答类型选择应答模板，抽取服务结果填充应答模板构造应答，将来自Web服务执行引擎及关键词集抽取的信息服务结果逻辑综合后通过自然语言模板输出。

9.根据权利要求6所述面向自然语言处理的语义Web服务智能代理系统，其特征在于，所述Web服务执行引擎包括如下模块：

数据准备模块：根据用户输入构造服务请求文件，并与用户交互获取缺失信息；

服务调用模块：装载服务请求数据，调用该Web服务；

结果返回模块：将服务调用的结果返回给用户；