CN103559225B - Web服务资源库数据的清洗方法和服务器 - Google Patents

Web服务资源库数据的清洗方法和服务器 Download PDF

Info

Publication number
CN103559225B
CN103559225B CN201310495796.8A CN201310495796A CN103559225B CN 103559225 B CN103559225 B CN 103559225B CN 201310495796 A CN201310495796 A CN 201310495796A CN 103559225 B CN103559225 B CN 103559225B
Authority
CN
China
Prior art keywords
web service
server
node
web
wsdl document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310495796.8A
Other languages
English (en)
Other versions
CN103559225A (zh
Inventor
孙海龙
刘旭东
郭莉莎
李春娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianhang Changying (Jiangsu) Technology Co.,Ltd.
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201310495796.8A priority Critical patent/CN103559225B/zh
Publication of CN103559225A publication Critical patent/CN103559225A/zh
Application granted granted Critical
Publication of CN103559225B publication Critical patent/CN103559225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种Web服务资源库数据的清洗方法和服务器,方法包括:服务器获取Web服务资源库中多个Web服务的描述语言WSDL文件并对其进行分类,以得到多个Web服务集合;针对每个Web服务集合中的Web服务,计算每两个Web服务对应的WSDL文件间的编辑距离,并在编辑距离小于预设阈值的WSDL文件对应的Web服务间确定连通关系;根据每个Web服务集合中各Web服务之间的连通关系构建各Web服务集合对应的连通组图;将连通组图中包含的每个连通子图中度最大的Web服务作为第一Web服务,并删除该连通子图中其他Web服务。本发明实施例解决了现有技术中,没有针对Web服务资源库数据的清洗方案的技术空缺。

Description

Web服务资源库数据的清洗方法和服务器
技术领域
本发明涉及信息技术领域,尤其涉及一种Web服务资源库数据的清洗方法和服务器。
背景技术
随着服务计算和网络化软件技术的发展,通过组合多个简单服务来满足复杂应用需求已成为网络化软件开发的重要方法。Web服务资源库即可实现在Web网络中主动发现可重用的服务,分析不同Web服务的功能并对可重用服务资源进行收集、描述、组织和管理,Web服务资源库是辅助服务发现和使用的关键途径。
Web服务资源库一方面允许用户注册服务资源,一方面从网络爬取公开的服务。随着资源库中Web服务数量的增多,服务资源的质量问题也随之凸显。资源的大量完全重复、功能描述信息不完整、暂时不可用资源过多等,均对Web网的整体服务造成影响。
目前,针对数据仓库中的数据的管理常采用一种数据清洗技术。在数据库中通常存在许多错误数据、相互之间有冲突的数据,这些错误的或有冲突的数据被称为“脏数据”,按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。虽然现有技术中,存在很多数据清洗算法以及清洗工具,但这些算法以及工具都是和特定领域相关的,领域知识在数据清洗过程中是必不可少的一部分。很多情况下,只有结合特定应用领域的知识才可以更高效地完成相应的数据清洗。但就目前的市场上,还没有针对Web服务资源库数据的清洗方案。
发明内容
本发明提供一种Web服务资源库数据的清洗方法和服务器,用以提供一套针对Web服务资源库数据的清洗方案。
一方面,本发明实施例提供一种Web服务资源库数据的清洗方法,包括:
服务器获取Web服务资源库中多个Web服务的描述语言WSDL文件;
所述服务器对所述多个Web服务的WSDL文件进行分类,以得到多个不同类别的Web服务集合;
针对于每个所述Web服务集合中的各Web服务,所述服务器计算每两个所述Web服务对应的WSDL文件间的编辑距离,并在所述编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系;
所述服务器根据每个所述Web服务集合中各Web服务之间的所述连通关系构建各所述Web服务集合对应的连通组图,所述连通组图包括至少一个连通子图;
所述服务器将每个所述连通子图中度最大的一个Web服务作为第一Web服务,并删除所述连通子图中除所述第一Web服务外的其他Web服务。
另一方面,本发明实施例提供一种服务器,包括:获取模块、分类模块、计算模块、建立模块和处理模块;
所述获取模块,用于获取Web服务资源库中多个Web服务的描述语言WSDL文件;
所述分类模块,用于对所述多个Web服务的WSDL文件进行分类,以得到多个不同类别的Web服务集合;
所述计算模块,用于针对于每个所述Web服务集合中的各Web服务,计算每两个所述Web服务对应的WSDL文件间的编辑距离,并在所述编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系;
所述建立模块,用于根据每个所述Web服务集合中各Web服务之间的所述连通关系构建各所述Web服务集合对应的连通组图,所述连通组图包括至少一个连通子图;
所述处理模块,用于将每个所述连通子图中度最大的一个Web服务作为第一Web服务,并删除所述连通子图中除所述第一Web服务外的其他Web服务。
本发明提供的Web服务资源库数据的清洗系统方法和服务器,通过对获取的Web服务资源库中多个的Web服务的描述语言WSDL文件进行分类,得到多个不同类别的Web服务集合;针对于每个Web服务集合中的各Web服务,计算每两个Web服务对应的WSDL文件间的编辑距离,并在编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系;根据每个Web服务集合中各Web服务之间的连通关系构建各Web服务集合对应的连通组图,该连通组图包括至少一个连通子图;将每个连通子图中度最大的一个Web服务作为第一Web服务,并删除该连通子图中其他Web服务,进而提供一种针对Web服务资源库数据的清洗方案。
附图说明
图1为本发明提供的Web服务资源库数据的清洗方法一个实施例的流程图;
图2(图2a,图2b)为本发明提供的Web服务资源库数据的清洗方法另一个实施例的流程图;
图3为本发明提供的元素标签树的结构示意图;
图4为本发明提供的服务器一个实施例的结构示意图。
具体实施方式
图1为本发明提供的Web服务资源库数据的清洗方法一个实施例的流程图。如图1所示,以下步骤的执行主体可以为网络中的网络设备、服务器,或是集成在该网络设备或服务器上的模块、芯片等。如图1所示,该Web服务资源库数据的清洗方法具体包括:
S101,服务器获取Web服务资源库中多个Web服务的描述语言WSDL文件;
其中,该Web服务资源库为Web网络中用于对Web服务进行存储和管理的综合平台,该Web服务资源库中存储有大量的Web服务的描述语言(Web Services DescriptionLanguage,WSDL)文件。通过调用WSDL4J程序可以在该Web服务资源库中访问这些WSDL文件,从而获得想要的各Web服务对应的WSDL文件。
S102,服务器对多个Web服务的WSDL文件进行分类,以得到多个不同类别的Web服务集合;
服务器从Web服务资源库中获取到固定数目的Web服务的WSDL文件后,可将各Web服务对应的WSDL文件根据其对应Web服务的功能,应用领域以及该WSDL文件的端口信息等特征信息的特点进行类别划分,使具有相同或相近特征的上述Web服务组成一个具有某种类别特点的Web服务集合,进而将上述固定数目的Web服务的WSDL文件在类别上进行划分,得到了多个不同类别的Web服务集合。
S103,针对于每个Web服务集合中的各Web服务,服务器计算每两个所述Web服务对应的WSDL文件间的编辑距离,并在编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系;
其中,该编辑距离可以描述为一个实词集合转变成另外一个实词集合所经历的如插入、替换、删除操作的最小的操作成本。编辑距离越小则表明两个实词集合越相似。所谓相似,是指两个文本信息或实词集合间的相似程度,如两个文本信息在主题内容,所述领域,甚至是所包含的所有实词上的相似程度。本方案中通过计算两个Web服务对应的WSDL文件的编辑距离同样可以获知该两个WSDL文件的相似程度。其中,所述预设阈值为度量两个Web服务的WSDL文件相似的编辑距离门限值,该预设阈值可以为经过大量的训练学习产生的知识,小于该门限值则证明两个Web服务的WSDL文件相似。
S104,服务器根据每个Web服务集合中各Web服务之间的连通关系构建各Web服务集合对应的连通组图,该连通组图包括至少一个连通子图;
针对步骤103确定的每两个Web服务之间的连通关系,可以获得各Web服务集合中,由包含的所有Web服务以及每两个Web服务对应的连通关系构建的连通组图,该连通组图可以由至少一个连通子图构成。当只存在一个连通子图时,代表构成该连通组图的所有Web服务间的连通关系是可以通过至少一个Web服务进行传递的,即在整体上反映该Web服务集合中的各Web服务是可以过度相似;当存在多于一个连通子图时,代表构成该连通组图的部分Web服务间不存在直接的连通关系,也不能通过至少一个Web服务进行连通关系的传递,即在整体上反映该Web服务集合中的部分Web服务间是不相似的,两个连通子图中包含的Web服务之间区别较大。
S105,服务器将每个连通子图中度最大的一个Web服务作为第一Web服务,并删除该连通子图中除第一Web服务外的其他Web服务;
其中,连通子图中“度”的概念同一般图论中“度”的概念是相通的,本步骤中用于衡量某个Web服务与其他多少个Web服务具有连通关系,这个“度”越大,表明与该Web服务具有连通关系的Web服务的个数越多。当然,在同一连通子图中也可出现多个Web服务的度相同的情形。在该情况下,本方案采取随机方式确定其中一个为第一Web服务,并将该连通子图中其它Web服务删除,已达到清洗数据的目的。
本发明提供的Web服务资源库数据的清洗系统方法,通过对获取的Web服务资源库中多个的Web服务的描述语言WSDL文件进行分类,得到多个不同类别的Web服务集合;针对于每个Web服务集合中的各Web服务,计算每两个Web服务对应的WSDL文件间的编辑距离,并在编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系;根据每个Web服务集合中各Web服务之间的连通关系构建各Web服务集合对应的连通组图,该连通组图包括至少一个连通子图;将每个连通子图中度最大的一个Web服务作为第一Web服务,并删除该连通子图中其他Web服务,进而提供一种针对Web服务资源库中服务数据的清洗方案。
图2(图2a,图2b)为本发明提供的Web服务资源库数据的清洗方法另一个实施例的流程图,是如图1所示实施例的一种具体的实现方式。如图2所示,所述方法具体包括:
S201,服务器对Web服务资源库中的Web服务进行链接检测,以判断Web服务是否可用,并获取可用的多个Web服务的WSDL文件;
通过步骤101,即服务器获取Web服务资源库中多个Web服务的描述语言WSDL文件,可根据该WSDL文件的内容可以获取到相应的Web服务的相关信息。但在实际数据清洗过程中首先要滤除不可用的Web服务。在服务器从上述Web服务资源库中获取的Web服务的WSDL文件中,通常会存在其对应的Web服务不可用的情况,即用户无法对这些Web服务进行正常访问。
因此,本步骤给出了步骤101的一种具体实现方式:通过使用Apache的HttpClient包,向这些Web服务页面发送get请求,如果页面访问不成功,即该服务可能过期或者暂不可用。将这些不可用的Web服务从获取的Web服务标记后剔除,保留可用的Web服务及其对应的WSDL文件。将保留的可用的Web服务的WSDL文件确定为步骤101中的多个Web服务的WSDL文件,并继续执行后续操作。
服务器确定了可用的多个Web服务后,对该多个Web服务的WSDL文件进行分类,以得到多个不同类别的Web服务集合(如步骤102),以下步骤(步骤202~204)给出对该多个Web服务的WSDL文件进行分类的一种具体实现方式。
S202,服务器提取上述多个Web服务的WSDL文件中的关键信息,该关键信息包括该Web服务的名称信息、操作信息和消息信息;
服务器提取上述多个Web服务的WSDL文件中的关键信息,这些关键信息可以为描述该Web服务功能等信息,如Web服务的名称信息、操作信息和消息信息。
S203,服务器对WSDL文件中的关键信息进行分词处理,并生成每个WSDL文件对应的特征向量,该特征向量中的特征项对应于分词处理后生成的每个关键词在所属的关键信息中出现的次数;
服务器对从各WSDL文件中提取的上述关键信息进行分词处理,以生成每个WSDL文件对应的一组实词组合,以这些实词作为特征项构建每个WSDL文件对应的特征向量。其中,每个特征项的具体数值即为对应的实词在所属的关键信息中出现的次数。
S204,服务器将多个Web服务的对应WSDL文件对应的特征向量进行聚类运算,以得到多个不同类别的Web服务集合;
服务器将得到的多个Web服务的对应WSDL文件对应的特征向量采用现有技术中的聚类算法,如K-均值(k-means)算法、Clara算法等进行聚类运算,已得到多个不同类别的Web服务集合。在具体对各特征向量进行聚类时,可根据需要适应性对特征向量的特征项进行位置调整,或是增加项数,增加项对应的具体数据可以为0。本步骤在采用上述聚类算法进行Web服务分类是,还可根据每两个Web服务的WSDL文件对应的特征向量的余弦值来判断这两个Web服务之间相似程度,余弦值越大,对应的两个Web服务之间相似程度越高,分在同一Web服务集合中的可能性越大。
服务器对上述多个Web服务进行分类,获得多个Web服务集合后,针对于每个Web服务集合中的各Web服务,计算每两个Web服务对应的WSDL文件间的编辑距离(如步骤103),其中,计算每两个Web服务对应的WSDL文件间的编辑距离,本实施例给出了一种具体实现方式,包括(但不限于)以下步骤(步骤205~210)。
S205,服务器根据每个Web服务的WSDL文件中包含的元素,以及元素之间的关系,构建WSDL文件对应的元素标签树,该元素标签树的每个节点包括对应的元素的文本描述信息;
每个Web服务的WSDL文件的结构中均包含7个元素:消息类型Type、消息Message、操作Operation、端口类型Port Type、端口协议Binding、单个服务访问点Port、以及服务访问点的集合Service。上述7个元素的功能定义可参见现有技术中相关描述,在此不作赘述。这7个元素之间存在一定的联系关系,本方案则通过这种联系关系,针对每一个Web服务的WSDL文件构建了以文件中各元素为节点的,如图3所示元素标签树,且每一个Web服务的WSDL文件对应构建的元素标签树的节点层数相同。其中,该元素标签树中的每个节点具体包括对应的所述元素的文本描述信息。
S206,服务器将每个元素的文本描述信息进行分词处理,生成每个节点对应的实词集合;
服务器构建完成每个WSDL文件对应的元素标签树后,针对该元素标签树中各节点包括的元素的文本描述信息通过分词工具进行分词处理,以生成每个节点对应的实词集合。在具体处理过程中还可以采取去除停用词和取词干等处理过程得到两个实词集合。
S207,针对于每个Web服务集合中的每两个Web服务的WSDL文件,服务器将其对应的两个元素标签树中各相同层的节点进行比较,若存在相同层的节点数目不同,则在节点个数较少的元素标签树的相应层的位置上添加空节点,以使两个元素标签树中各相同层的节点的数目相同;
针对于每个Web服务集合中的Web服务的WSDL文件,服务器将其中每两个Web服务相对应的两个元素标签树中各相同层的节点进行比较,若存在某个相同层数的节点数目不同,那么就在该层对应的位置上包含节点个数较少的元素标签树上补充适量个数的空间点,该空节点本身不包括任何实词或是描述信息,也不与任何其他节点有任何关联关系,它的作用只是占据一个节点位置,以使所述两个元素标签树中在该相同层的节点的数目相同。
S208,针对于每个Web服务集合中的每两个Web服务的WSDL文件,服务器计算每两个Web服务添加空节点后对应的两个元素标签树中各相同层的节点中每两个节点对应的实词集合间的语义距离;
服务器计算两个节点对应的实词集合的语义距离,该语义距离可以描述为一个实词集合转变成另外一个实词集合所经历的如插入、替换、删除操作的最小的操作成本。语义距离越小则表明两个实词集合越相似。
本步骤中提及的两个元素标签树中各相同层的节点中每两个节点对应的实词集合可以理解为:例如,有两个元素标签树T1和T2,它们在某一相同位置层数上的节点数目都是3(其中可包含空节点);其中,T1在该层的节点为i1、i2、i3,T2在该层的节点为j1、j2、j3;所谓的每两个节点对应的实词集合是指T1中的每一个节点与T2中每一个节点的所有组合情况下两个节点的实词集合,如i1j1、i1j2、i1j3即为i1与T2中每一个节点的所有组合情况,依次类推,即可得到每两个节点对应的实词集合的对应情况。
本实施例给出了计算添加空节点后对应的两个元素标签树中各相同层的节点中每两个节点对应的实词集合的编辑距离的一种具体方式,包括如下步骤:
1.针对于两个元素标签树中各相同层的节点中每两个节点对应的实词集合中包含的实词,服务器对其进行比较,若存在两个实词集合中包含的实词数目不同,则在实词数目较少的实词集合中添加空实词;其中,该空实词本身不是任何实词或是描述信息,也不与任何其他实词有任何关联关系,它的作用只是占据一个实词位置,以使被比较的两个实词集合中的实词数目相同。
2.针对于两个元素标签树中各相同层的节点中每两个对应的添加空实词后的实词集合中包含的实词,服务器采用WordNet算法,计算每两个对应的实词间的语义距离;
WordNet算法是计算两个实词间语义距离的一种现有方法,在此不作赘述。通过WordNet算法可以计算得出如上述节点组合i1j1对应的实词集合中每两个实词间的语义距离。这里说明:若比较的两个对应的实词中,一个实词为上述空实词,则服务器默认为将这两个对应的实词间语义距离确定为1。
3.根据每两个对应的实词间的语义距离,服务器采用二分图最佳权匹配KM算法,计算两个元素标签树中各相同层的节点中每两个对应的添加空实词后的实词集合中所有映射关系下的实词间的语义距离和值的最小值,并将该最小值除以该实词集合中所包含的实词的个数得到的商确定为所述两个元素标签树中对应的相同层的节点中每两个节点对应的所述实词集合间的语义距离;
二分图最佳权匹配KM算法是计算两个事物或参数集合间的最佳映射关系时,常用的一种算法,其原理为现有技术在此不作赘述。本步骤中,服务器采用二分图最佳权匹配KM算法,计算两个元素标签树中相同层节点中每两个对应的节点其对应的两个实词集合中所有实词间的每种映射关系下的所有实词组合间的语义距离和值,并将该和值中的最小和值确定为这两个节点对应的实词集合间的语义距离。例如,上述节点组合i1j1中,假设i1中的实词为2个:a1、a2,j1中的实词为2个:b1、b2,则节点组合i1j1中存在的映射关系为两种:a1b1+a2b2,a1b2+a2b1;通过WordNet算法已确定实词组合a1b1、a2b2、a1b2、a2b1间的语义距离分别为c1、c2、c3、c4;将和值c1+c2确定为映射关系a1b1+a2b2下对应的实词组合间的语义距离和值,将和值c3+c4确定为映射关系a1b2+a2b1下对应的实词组合间的语义距离和值;将c1+c2和c3+c4中的最小值除以该实词集合中所包含的实词的个数2得到的商确定为节点组合i1j1对应的实词集合间的语义距离。
S209,针对于每个Web服务集合中的Web服务的WSDL文件,服务器采用二分图最佳权匹配KM算法,计算每两个Web服务添加空节点后对应的两个元素标签树中各相同层的节点的所有映射关系下的实词集合间的语义距离和值中的最小值,并将该最小值除以该相同层的节点个数得到的商确定为这两个Web服务对应的两个元素标签树中对应的相同层节点间的第一编辑距离;
例如,通过步骤208中描述的方法可以再分别计算出元素标签树T1和T2在某一相同位置层数上的节点的除节点组合i1j1外的其他节点组合对应的实词集合间的编辑距离;针对这些节点组合,该层位置对应的两个元素标签树T1和T2的所有节点又存在多种映射关系,例如i1j1+i2j2+i3j3就是其中的一种映射关系;假设节点组合i1j1、i2j2、i3j3对应的实词集合间的语义距离分别为d1、d2、d3,则将d1+d2+d3的和值确定为映射关系i1j1+i2j2+i3j3下对应的T1和T2在该层节点中实词集合间的语义距离和值,依此类推,可得到T1和T2在该层节点下所有节点的映射关系下对应的实词集合间的语义距离和值;将该层节点下所有节点的映射关系对应的实词集合间的语义距离和值中的最小值除以该层的节点个数3得到的商确定为T1和T2在该层节点下两个元素标签树层节点间的第一编辑距离;这里说明,若对应的两个节点组合中,一个节点为上述空节点,则服务器默认将这两个节点对应的实词集合间的语义距离确定为1。
S210,根据L=∑i=1,...,nSix(1-x)(n-i) (1)
确定每两个Web服务的WSDL文件的编辑距离L;其中,n为被比较的两个Web服务对应的两个元素标签树中节点的总层数,Si为服务器根据这两个Web服务对应的两个元素标签树中对应的第i层节点间的第一编辑距离,x为Si对应的权重因子,其值为小于1的正数;
例如,当确定了两个元素标签树T1和T2的所有对应的相同层间的上述第一编辑距离后,为每一层对应的第一编辑距离Si设置一个权重因子如0.5。根据(1)式计算两个Web服务的WSDL文件的编辑距离,这里说明,层序数i的排序为将两个元素标签树T1和T2的最底层(该最底层以下再无子节点)设定为第1层,依次向上,层序数逐渐加1,层序数对应的最大值即为最顶层(该最顶层以上再无父节点)对应的层序数。
S211,服务器在上述编辑距离小于预设阈值的两个WSDL文件对应的两个Web服务之间确定连通关系;该步骤具体执行过程可参见步骤103的相应内容。
S212,服务器根据每个Web服务集合中各Web服务之间的连通关系构建各Web服务集合对应的连通组图,该连通组图包括至少一个连通子图;该步骤具体执行过程可参见步骤104的相应内容。
S213,服务器将每个连通子图中度最大的一个Web服务作为第一Web服务,并删除连通子图中除该第一Web服务外的其他Web服务;该步骤具体执行过程可参见步骤105的相应内容。
进一步的,在步骤213之后还可以包括如下步骤操作(步骤214~217),以对Web服务资源库进行维护和管理。
S214,针对于每个Web服务集合中包括的每个第一Web服务的WSDL文件,服务器提取其中不包括描述字段信息的第一Web服务作为第二Web服务,并将每个第二Web服务分别与包括所述描述字段信息的第一Web服务进行相似度比较;
其中,该描述字段信息为商家在发布新的Web服务时,对该Web服务在功能,领域等方面的信息描述字段,并在发布Web服务时携带在Web页面上。而相似度比较过程可先参照前述实施例中通过Wordnet和二分图最佳权匹配KM算法计算两个Web服务的WSDL文件的编辑距离,该编辑距离小于1,具体原理不在赘述,然后用1减去该编辑距离,即可得到本步骤中每个第二Web服务与包括描述字段信息的第一Web服务间的相似度。
S215,服务器提取与第二Web服务之间相似度大于相似度阈值的第一Web服务的所述描述字段信息;其中,该相似度阈值为衡量两个Web服务相似程度的数值,可为小于1的正数。
S216,服务器对与第二Web服务之间相似度大于相似度阈值的第一Web服务的描述字段信息进行分词处理,并通过单文本词频-逆文档频率TF-IDF算法计算分词处理后得到的每个实词的TF-IDF值;其中,分词处理过程可参见前述实施例的相关描述,TF-IDF算法为现有技术,在此不作赘述。
S217,服务器根据分词处理后得到的每个实词的TF-IDF值,将实词作为标签添加给对应的第二Web服务;具体的可以将TF-IDF值进行从大到小排序,将前N个TF-IDF值对应的实词以标签的形式添加到第一Web服务中,以对第一Web服务进行完善补充。其中,所述N≤关键词数目。
本发明提供的Web服务资源库数据的清洗系统方法,通过对获取的Web服务资源库中多个的Web服务的描述语言WSDL文件进行分类,得到多个不同类别的Web服务集合;针对于每个Web服务集合中的各Web服务,计算每两个Web服务对应的WSDL文件间的编辑距离,并在编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系;根据每个Web服务集合中各Web服务之间的连通关系构建各Web服务集合对应的连通组图,该连通组图包括至少一个连通子图;将每个连通子图中度最大的一个Web服务作为第一Web服务,并删除该连通子图中其他Web服务,进而提供一种针对Web服务资源库数据的清洗方案。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图4为本发明提供的服务器一个实施例的结构示意图,该结构示意图可以执行如图1所示的方法步骤,如图4所示,该服务器具体包括:获取模块41、分类模块42、计算模块43、建立模块44和处理模块45,其中:
获取模块41,用于获取Web服务资源库中多个Web服务的描述语言WSDL文件;
分类模块42,用于对多个Web服务的WSDL文件进行分类,以得到多个不同类别的Web服务集合;
计算模块43,用于针对于每个Web服务集合中的各Web服务,计算每两个Web服务对应的WSDL文件间的编辑距离,并在编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系;
建立模块44,用于根据每个Web服务集合中各Web服务之间的连通关系构建各Web服务集合对应的连通组图,所述连通组图包括至少一个连通子图;
处理模块45,用于将每个连通子图中度最大的一个Web服务作为第一Web服务,并删除连通子图中除第一Web服务外的其他Web服务。
具体地,本实施例所示服务器执行对Web服务资源库中服务数据的清洗的过程如下。
获取模块41获取Web服务资源库中多个Web服务的描述语言WSDL文件,该过程具体可参见步骤101的相应内容;分类模块42对获取模块41获取的多个Web服务的WSDL文件进行分类,以得到多个不同类别的Web服务集合,该过程具体可参见步骤102的相应内容;计算模块43针对于每个Web服务集合中的各Web服务,计算每两个Web服务对应的WSDL文件间的编辑距离,并在编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系,该过程具体可参见步骤103的相应内容;建立模块44根据每个Web服务集合中各Web服务之间的连通关系构建各Web服务集合对应的连通组图,该连通组图包括至少一个连通子图,该过程具体可参见步骤104的相应内容;处理模块45将每个连通子图中度最大的一个Web服务作为第一Web服务,并删除连通子图中除第一Web服务外的其他Web服务,该过程具体可参见步骤105的相应内容。
可选地,本实施例提供的服务器还可用于执行上述所有方法实施例中所示的Web服务资源库数据的清洗方法的流程,其具体工作原理不再赘述,详见方法实施例的描述。
本发明提供的服务器,通过对获取的Web服务资源库中多个的Web服务的描述语言WSDL文件进行分类,得到多个不同类别的Web服务集合;针对于每个Web服务集合中的各Web服务,计算每两个Web服务对应的WSDL文件间的编辑距离,并在编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系;根据每个Web服务集合中各Web服务之间的连通关系构建各Web服务集合对应的连通组图,该连通组图包括至少一个连通子图;将每个连通子图中度最大的一个Web服务作为第一Web服务,并删除该连通子图中其他Web服务,进而提供一种针对Web服务资源库中服务数据的清洗方案。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种Web服务资源库数据的清洗方法,其特征在于,包括:
服务器获取Web服务资源库中多个Web服务的描述语言WSDL文件;
所述服务器对所述多个Web服务的WSDL文件进行分类,以得到多个不同类别的Web服务集合;
针对于每个所述Web服务集合中的各Web服务,所述服务器计算每两个所述Web服务对应的WSDL文件间的编辑距离,并在所述编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系;
所述服务器根据每个所述Web服务集合中各Web服务之间的所述连通关系构建各所述Web服务集合对应的连通组图,所述连通组图包括至少一个连通子图;
所述服务器将每个所述连通子图中度最大的一个Web服务作为第一Web服务,并删除所述连通子图中除所述第一Web服务外的其他Web服务。
2.根据权利要求1所述的方法,其特征在于,所述服务器对所述多个Web服务的WSDL文件进行分类,以得到多个不同类别的Web服务集合,包括:
所述服务器提取所述多个Web服务的WSDL文件中的关键信息,所述关键信息包括该Web服务的名称信息、操作信息和消息信息;
所述服务器对所述WSDL文件中的关键信息进行分词处理,并生成每个所述WSDL文件对应的特征向量,所述特征向量中的特征项对应于所述分词处理后生成的每个关键词在所属的所述关键信息中出现的次数;
所述服务器将所述多个Web服务的对应WSDL文件对应的所述特征向量进行聚类运算,以得到多个不同类别的Web服务集合。
3.根据权利要求1或2所述的方法,其特征在于,所述针对于每个所述Web服务集合中的各Web服务,所述服务器计算每两个所述Web服务对应的WSDL文件间的编辑距离,包括:
所述服务器根据每个Web服务的所述WSDL文件中包含的元素,以及所述元素之间的关系,构建所述WSDL文件对应的元素标签树,所述元素标签树的每个节点包括对应的所述元素的文本描述信息;
所述服务器将每个所述元素的文本描述信息进行分词处理,生成每个节点对应的实词集合;
针对于每个所述Web服务集合中的每两个所述Web服务的WSDL文件,所述服务器将其对应的两个元素标签树中各相同层的节点进行比较,若存在相同层的节点数目不同,则在节点个数较少的元素标签树的相应层的位置上添加空节点,以使所述两个元素标签树中各相同层的节点的数目相同;
针对于每个所述Web服务集合中的每两个所述Web服务的WSDL文件,所述服务器计算每两个所述Web服务添加空节点后对应的两个元素标签树中各相同层的节点中每两个节点对应的所述实词集合间的语义距离;
针对于每个所述Web服务集合中的Web服务的WSDL文件,所述服务器采用二分图最佳权匹配KM算法,计算每两个所述Web服务添加空节点后对应的两个元素标签树中各相同层的节点的所有映射关系下的实词集合间的语义距离和值中的最小值,并将该最小值除以该相同层的节点个数得到的商确定为两个所述Web服务对应的两个元素标签树中对应的相同层节点间的第一编辑距离;
根据L=∑i=1,...,nSix(1-x)(n-i)
确定每两个所述Web服务的WSDL文件的编辑距离L;其中,所述n为每两个所述Web服务对应的两个元素标签树中节点的层数,所述Si为所述服务器根据每两个所述Web服务对应的两个元素标签树中对应的第i层节点间的所述第一编辑距离,所述x为所述Si对应的权重因子,其为小于1的正数。
4.根据权利要求3所述的方法,其特征在于,所述针对于每个所述Web服务集合中的每两个所述Web服务的WSDL文件,所述服务器计算每两个所述Web服务添加空节点后对应的两个元素标签树中各相同层的节点中每两个节点对应的所述实词集合间的语义距离,包括:
针对于所述两个元素标签树中各相同层的节点中每两个节点对应的所述实词集合中包含的实词,所述服务器对其进行比较,若存在两个所述实词集合中包含的实词数目不同,则在实词数目较少的所述实词集合中添加空实词,以使被比较的两个实词集合中的实词数目相同;
针对于所述两个元素标签树中各相同层的节点中每两个对应的添加空实词后的所述实词集合中包含的实词,所述服务器采用WordNet算法,计算每两个对应的实词间的语义距离;
根据所述每两个对应的实词间的语义距离,所述服务器采用所述二分图最佳权匹配KM算法,计算所述两个元素标签树中各相同层的节点中每两个对应的添加空实词后的所述实词集合中所有映射关系下的所述实词间的语义距离和值的最小值,并将该最小值除以该实词集合中所包含的实词的个数得到的商确定为所述两个元素标签树中对应的相同层的节点中每两个节点对应的所述实词集合间的语义距离。
5.根据权利要求4所述的方法,其特征在于,所述针对于每个所述Web服务集合中的每两个所述Web服务的WSDL文件,所述服务器计算每两个所述Web服务添加空节点后对应的两个元素标签树中各相同层的节点中每两个节点对应的所述实词集合间的语义距离,包括:
若对应的两个节点中,一个节点为所述空节点,则所述服务器将所述两个节点对应的所述实词集合的语义距离确定为1。
6.根据权利要求4所述的方法,其特征在于,所述针对于所述两个元素标签树中各相同层的节点中每两个对应的添加空实词后的所述实词集合中包含的实词,所述服务器采用WordNet算法,计算每两个对应的实词间的语义距离,包括:
若两个对应的实词中,一个实词为所述空实词,则所述服务器将所述两个对应的实词间编辑距离确定为1。
7.根据权利要求5或6所述的方法,其特征在于,所述服务器将每个所述连通子图中度最大的一个Web服务作为第一Web服务,并删除所述连通子图中除所述第一Web服务外的其他Web服务之后,包括:
针对于每个所述Web服务集合中包括的每个所述第一Web服务的WSDL文件,所述服务器提取其中不包括描述字段信息的所述第一Web服务作为第二Web服务,并将每个所述第二Web服务分别与包括所述描述字段信息的所述第一Web服务进行相似度比较;
所述服务器提取与所述第二Web服务之间相似度大于相似度阈值的所述第一Web服务的所述描述字段信息;
所述服务器对与所述第二Web服务之间相似度大于所述相似度阈值的所述第一Web服务的所述描述字段信息进行分词处理,并通过单文本词频-逆文档频率TF-IDF算法计算所述分词处理后得到的每个实词的TF-IDF值;
所述服务器根据所述分词处理后得到的每个实词的TF-IDF值,将所述实词作为标签添加给对应的所述第二Web服务。
8.根据权利要求7所述的方法,其特征在于,所述服务器获取Web服务资源库中多个Web服务的描述语言WSDL文件,包括:
所述服务器对所述Web服务资源库中的Web服务进行链接检测,以判断所述Web服务是否可用,并获取可用的所述多个Web服务的WSDL文件。
9.一种服务器,包括:获取模块、分类模块、计算模块、建立模块和处理模块;
所述获取模块,用于获取Web服务资源库中多个Web服务的描述语言WSDL文件;
所述分类模块,用于对所述多个Web服务的WSDL文件进行分类,以得到多个不同类别的Web服务集合;
所述计算模块,用于针对于每个所述Web服务集合中的各Web服务,计算每两个所述Web服务对应的WSDL文件间的编辑距离,并在所述编辑距离小于预设阈值的WSDL文件对应的两个Web服务之间确定连通关系;
所述建立模块,用于根据每个所述Web服务集合中各Web服务之间的所述连通关系构建各所述Web服务集合对应的连通组图,所述连通组图包括至少一个连通子图;
所述处理模块,用于将每个所述连通子图中度最大的一个Web服务作为第一Web服务,并删除所述连通子图中除所述第一Web服务外的其他Web服务。
CN201310495796.8A 2013-10-21 2013-10-21 Web服务资源库数据的清洗方法和服务器 Active CN103559225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310495796.8A CN103559225B (zh) 2013-10-21 2013-10-21 Web服务资源库数据的清洗方法和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310495796.8A CN103559225B (zh) 2013-10-21 2013-10-21 Web服务资源库数据的清洗方法和服务器

Publications (2)

Publication Number Publication Date
CN103559225A CN103559225A (zh) 2014-02-05
CN103559225B true CN103559225B (zh) 2017-04-05

Family

ID=50013472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310495796.8A Active CN103559225B (zh) 2013-10-21 2013-10-21 Web服务资源库数据的清洗方法和服务器

Country Status (1)

Country Link
CN (1) CN103559225B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317801B (zh) * 2014-09-19 2017-07-18 东北大学 一种面向大数据的数据清洗系统及方法
CN110019978A (zh) * 2017-11-17 2019-07-16 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN112463782B (zh) * 2020-12-03 2022-03-18 北京三维天地科技股份有限公司 一种基于优化的编辑距离的数据清洗方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101695082A (zh) * 2009-09-30 2010-04-14 北京航空航天大学 基于关系挖掘的服务组织方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140582B2 (en) * 2008-10-07 2012-03-20 International Business Machines Corporation Service oriented architecture aggregation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101695082A (zh) * 2009-09-30 2010-04-14 北京航空航天大学 基于关系挖掘的服务组织方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Graph based E-Government web service composition;Hajar Elmaghraoui 等;《International Journal of Computer Science Issues》;20110930;第8卷(第5期);第103-110页 *
一种自适应的网格计算资源组织与发现机制;孙海龙 等;《Journal of Software》;20090131;第20卷(第1期);第152页-163页 *

Also Published As

Publication number Publication date
CN103559225A (zh) 2014-02-05

Similar Documents

Publication Publication Date Title
Tabassum et al. Social network analysis: An overview
Berahmand et al. A modified DeepWalk method for link prediction in attributed social network
Bedi et al. Community detection in social networks
Abdelhamid et al. Associative classification approaches: review and comparison
Tartir et al. Ontological evaluation and validation
Fernández-García et al. A recommender system for component-based applications using machine learning techniques
Vanetti et al. Content-based filtering in on-line social networks
Ienco et al. Parameter-less co-clustering for star-structured heterogeneous data
KR101999152B1 (ko) 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
Selvalakshmi et al. Intelligent ontology based semantic information retrieval using feature selection and classification
Wu et al. Ontology-based subgraph querying
Dutta et al. Attribute selection for improving spam classification in online social networks: a rough set theory-based approach
CN107480134A (zh) 一种数据处理方法和系统
Dong et al. A context‐aware semantic similarity model for ontology environments
Zhang et al. Spatiotemporal activity modeling under data scarcity: A graph-regularized cross-modal embedding approach
Mohammed et al. Feature reduction based on hybrid efficient weighted gene genetic algorithms with artificial neural network for machine learning problems in the big data
Huang et al. Technology–function matrix based network analysis of cloud computing
US11625555B1 (en) Artificial intelligence system with unsupervised model training for entity-pair relationship analysis
CN103559225B (zh) Web服务资源库数据的清洗方法和服务器
Fani et al. Temporally like-minded user community identification through neural embeddings
Djenouri et al. An ontology matching approach for semantic modeling: A case study in smart cities
Benavent et al. FCA-based knowledge representation and local generalized linear models to address relevance and diversity in diverse social images
Krokos et al. A look into twitter hashtag discovery and generation
Olech et al. Hierarchical gaussian mixture model with objects attached to terminal and non-terminal dendrogram nodes
Raad et al. Constructing and cleaning identity graphs in the LOD cloud

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220124

Address after: 215488 No. 301, building 11, phase II, Taicang University Science Park, No. 27, Zigang Road, science and education new town, Taicang City, Suzhou City, Jiangsu Province

Patentee after: Tianhang Changying (Jiangsu) Technology Co.,Ltd.

Address before: 100191 No. 37, Haidian District, Beijing, Xueyuan Road

Patentee before: BEIHANG University