CN103377186B - 基于命名实体识别的Web服务整合装置、方法以及设备 - Google Patents

基于命名实体识别的Web服务整合装置、方法以及设备 Download PDF

Info

Publication number
CN103377186B
CN103377186B CN201210127438.7A CN201210127438A CN103377186B CN 103377186 B CN103377186 B CN 103377186B CN 201210127438 A CN201210127438 A CN 201210127438A CN 103377186 B CN103377186 B CN 103377186B
Authority
CN
China
Prior art keywords
web
web service
named entity
entity recognition
predetermined content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210127438.7A
Other languages
English (en)
Other versions
CN103377186A (zh
Inventor
钟朝亮
张军
邹纲
皮冰锋
于浩
松尾昭彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201210127438.7A priority Critical patent/CN103377186B/zh
Publication of CN103377186A publication Critical patent/CN103377186A/zh
Application granted granted Critical
Publication of CN103377186B publication Critical patent/CN103377186B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了基于命名实体识别的Web服务整合装置、方法以及设备,以至少克服现有的Web服务整合技术存在的开发效率低和/或不能适用于不同Web应用和服务的问题。Web服务整合装置包括:提取Web应用中包括的文本信息的提取单元;对文本信息进行命名实体识别的命名实体识别单元;确定Web应用的内容类别的确定单元;选择与Web应用相关的Web服务的选择单元;以及将选择的Web服务整合到Web应用中的整合单元。Web服务整合方法用于执行能够实现上述Web服务整合装置的功能的处理。上述设备包括上述Web服务整合装置。应用本发明的上述技术能够适用于不同Web应用和服务,节省时间和人力,可应用于Web服务整合领域。

Description

基于命名实体识别的Web服务整合装置、方法以及设备
技术领域
本发明涉及信息处理领域,尤其涉及一种基于命名实体识别的Web服务整合装置、方法以及设备。
背景技术
在Web2.0时代,整合(Mashup)是一种通过对不同的服务和应用进行组合来创建新的应用的技术。传统的整合方法,不论是基于中继服务器(relayserver)还是基于客户端插件,都要求开发人员人工地选择合适的Web应用和Web服务,并编写代码对它们进行整合,需要耗费较多人力和时间,开发效率较低。而且,这样开发出来的整合应用很难被重复使用,因为它们不能根据Web应用和Web服务的改变而自动灵活地进行调整。因此,开发人员需要花费大量的人力和时间为各种各样不断变化着的Web应用和Web服务不停地开发整合应用。
一些改进的整合方法利用中继服务器和页面改写机制来解决这个问题。它们可以通过不修改既有Web应用的源代码来对Web应用和服务进行整合,并且在一定程度上实现了整合应用在不同Web应用上的重复使用。然而,一旦有新的Web服务被添加到服务库中,开发人员仍然需要在中继服务器上编写代码以便对它们进行整合。而且,这些方法并不能根据不同的Web应用自动匹配并推荐最合适的Web服务。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本发明的目的之一是提供一种基于命名实体识别的Web服务整合装置、方法以及设备,以至少克服现有的Web服务整合技术由于需要通过人工编写代码来进行整合而导致其开发效率低以及/或不能适用于不同Web应用和不同Web服务的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种基于命名实体识别的Web服务整合装置,包括:提取单元,其被配置用于利用用户当前执行的Web应用,提取上述Web应用中包括的文本信息;命名实体识别单元,其被配置用于对上述Web应用中包括的文本信息进行命名实体识别;确定单元,其被配置用于将多个预定内容类别中的、与命名实体识别的结果相匹配的预定内容类别确定为上述Web应用的内容类别;选择单元,其被配置用于基于命名实体识别的结果以及上述Web应用的内容类别,在预定Web服务库中选择与上述Web应用相关的Web服务;以及整合单元,其被配置用于将所选择的与上述Web应用相关的Web服务整合到上述Web应用中。
根据本发明的另一个方面,还提供了一种基于命名实体识别的Web服务整合方法,该Web服务整合方法包括:利用用户当前执行的Web应用,提取上述Web应用中包括的文本信息;对上述Web应用中包括的文本信息进行命名实体识别;将多个预定内容类别中的、与命名实体识别的结果相匹配的预定内容类别确定为上述Web应用的内容类别;基于命名实体识别的结果以及上述Web应用的内容类别,在预定Web服务库中选择与上述Web应用相关的Web服务;以及将所选择的与上述Web应用相关的Web服务整合到上述Web应用中。
根据本发明的另一个方面,还提供了一种设备,该设备包括如上所述的基于命名实体识别的Web服务整合装置。
依据本发明的其它方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,所述程序在执行时能够使所述计算设备执行上述基于命名实体识别的Web服务整合方法。
上述根据本发明实施例的基于命名实体识别的Web服务整合装置和基于命名实体识别的Web服务整合方法以及包括该Web服务整合装置的设备,至少能够获得以下益处之一:由于不需要开发人员人工地选择合适的Web应用和Web服务,以及在Web应用或Web服务发生变化时不需要开发人员重新编写代码来整合,能够节省大量时间和人力;提高开发效率;具有较好的重复使用性;能够根据不同的Web应用自动匹配并推荐最合适的Web服务,以及能够更加符合用户的环境和需求。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是示意性地示出根据本发明的实施例的基于命名实体识别的Web服务整合装置的一种示例结构的框图。
图2是示意性地示出如图1所示的确定单元的一种可能的示例结构的框图。
图3是示意性地示出如图2所示的第一计算子单元的一种可能的示例结构的框图。
图4是示意性地示出如图1所示的确定单元的另一种可能的示例结构的框图。
图5是示意性地示出根据本发明的实施例的基于命名实体识别的Web服务整合装置的另一种示例结构的框图。
图6A是示出根据本发明的实施例的基于命名实体识别的Web服务整合装置的一个应用示例的系统配置示意图。
图6B是示出根据本发明的实施例的基于命名实体识别的Web服务整合装置的另一个应用示例的系统配置示意图。
图7是示出根据本发明的实施例的基于命名实体识别的Web服务整合方法的一种示例性处理的流程图。
图8示出了可用来实现根据本发明实施例的基于命名实体识别的Web服务整合装置和方法的一种可能的信息处理设备的硬件配置的结构简图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
如上所述,现有的Web服务整合技术通常需要通过人工编写代码来进行整合,由此导致其需要耗费大量人力和时间,使得开发效率较低,而且不能适用于不同的Web应用和不同的Web服务,重复使用性差。
为了解决以上等问题中的至少一个问题,本发明提出了一种基于命名实体识别的Web服务整合装置,其能够通过识别Web应用(例如网页)中包含的命名实体和主题来进行自动整合。该Web服务整合装置通过对例如网页的Web应用进行命名实体识别,并根据上述命名实体识别的结果进一步识别上述例如网页的Web应用的主题(也即,下文中所述的“内容类别”),以在已有的Web服务中选出与该主题相匹配的Web服务来与上述例如网页的Web应用相整合。
该Web服务整合装置包括:提取单元,其被配置用于利用用户当前执行的Web应用,提取上述Web应用中包括的文本信息;命名实体识别单元,其被配置用于对上述Web应用中包括的文本信息进行命名实体识别;确定单元,其被配置用于将多个预定内容类别中的、与命名实体识别的结果相匹配的预定内容类别确定为上述Web应用的内容类别;选择单元,其被配置用于基于命名实体识别的结果以及上述Web应用的内容类别,在预定Web服务库中选择与上述Web应用相关的Web服务;以及整合单元,其被配置用于将所选择的与上述Web应用相关的Web服务整合到上述Web应用中。
图1是示意性地示出根据本发明的实施例的基于命名实体识别的Web服务整合装置的一种示例结构的框图。
如图1所示,根据本发明的实施例的基于命名实体识别的Web服务整合装置100包括提取单元110、命名实体识别单元120、确定单元130、选择单元140和整合单元150。
如图1所示,在Web服务整合装置100中,提取单元110用于利用用户当前执行的Web应用,提取上述Web应用中包括的文本信息。
其中,用户当前执行的Web应用例如可以是用户当前正在浏览的网页,或者也可以是其中包含文本信息的其他类型的Web应用(例如基于Html5标准的Web应用等)。需要说明的是,对于本领域的技术人员来说,从例如网页的Web应用中提取文本信息的技术是现有公知的,这里不再详述。
此外,如图1所示,命名实体识别单元120用于对提取单元110所提取的Web应用中包括的文本信息进行命名实体识别,以使得确定单元130能够根据命名实体识别的结果来确定上述Web应用的内容类别(也即,Web应用的主题)。
其中,命名实体识别是指对诸如名称(例如人名、机构名、地名和产品名等)以及数字表达式(例如时间、日期、金额和百分比等信息)等所进行的识别。这些命名实体包含着一些语义信息,因此有助于实现自动的整合。通过命名实体识别技术,不仅能够识别诸如名称以及数字表达式等的命名实体,还能够识别这些命名实体的实体类型以及命名实体之间的实体关系。由此,利用命名实体识别单元120可以识别出Web应用中包括的文本信息中所包含的命名实体、实体类型以及实体关系。
表一给出了下文中将出现的各符号的含义。
表一:
符号 含义
d 预定文本信息
t 内容类别
er 实体关系
et 实体类型
r 关系词
T(d) 预定文本信息d的内容类别
T(e) 实体关系er的内容类别
P(a) 事件a发生的概率
D 预定文本信息d的集合
|D| D中包含预定文本信息的个数
|d| d中包含的实体关系的个数
例如,实体关系er可以表示为:
er=(et1,r,et2),
其中,et1表示第一个命名实体的实体类型,et2表示第二个命名实体的实体类型,r表示第一个命名实体和第二个命名实体之间的关系词。其中,r可以预存在关系词典中,而关系词典是一个包含所有关系词的词典,它可以利用既有的词典进行构造,可以是单语言也可以是多语言的。关系词典中的词可以用于确定出现在同一个句子中的两个命名实体之间的关系。表二给出了一个关系词典的例子:
表二:
关系序号 关系(词)
1 abandon
2 abuse
... ...
n buy
... ...
例如,在句子“Johnboughtalaptopcomputeryesterday”中,动词“buy”是关系词,(Personname,buy,Productname)是一个实体关系。
如图1所示,确定单元130可以将多个预定内容类别中的、与命名实体识别的结果相匹配的预定内容类别确定为上述Web应用的内容类别。下面结合图2来描述如何利用确定单元130来确定Web应用的内容类别的一个示例。
图2是示意性地示出如图1所示的确定单元130的一种可能的示例结构的框图。如图2所示,在根据本发明的实施例的Web服务整合装置的一个示例中,确定单元130可以包括识别子单元210、第一计算子单元220以及第一确定子单元230。
为了确定Web应用的内容类别,可以首先利用识别子单元210来对预定文本信息集中的预定文本信息进行命名实体识别,以识别上述预定文本信息中的实体关系。
其中,上述预定文本信息集例如可以从Web服务整合装置100的外部接收(例如从网络上获取),或者也可以存储在Web服务整合装置100内部。
此外,上述预定文本信息集中可以包括多个预定文本信息,上述多个预定文本信息是经过标注的。也即,每个预定文本信息上标注有上述多个预定内容类别中的其中一个,来作为该预定文本信息的内容类别。
如图2所示,根据预定文本信息的内容类别以及识别子单元210所识别的实体关系,另外根据命名实体识别单元120所识别的Web应用中包括的文本信息中的实体关系,第一计算子单元220可以计算得到上述Web应用属于上述多个预定内容类别中的每一个预定内容类别的分值(也即,属于上述预定文本信息集中所涉及的各内容类别的可能性)。于是,通过第一确定子单元230可以将第一计算子单元220计算得到的最大分值所对应的内容类别最终确定为上述Web应用的内容类别。由此,利用识别子单元210、第一计算子单元220以及第一确定子单元230即可实现对上述Web应用的内容类别的识别。
其中,为了实现第一计算子单元220的功能和操作,可以按照如下所述的方式来对第一计算子单元220进行配置。
例如,在根据本发明的实施例的Web服务整合装置的一个示例中,可以将第一计算子单元220配置成具有如图3所示的结构。图3是示意性地示出如图2所示的第一计算子单元220的一种可能的示例结构的框图。如图3所示,第一计算子单元220可以包括第一计算模块310和第二计算模块320。
其中,第一计算模块310例如可以被配置成分别计算上述Web应用包括的文本信息中包含的每个实体关系属于上述多个预定内容类别中的每一个预定内容类别的概率。
在根据本发明的实施例的Web服务整合装置的一种具体实现方式中,为了计算上述Web应用包括的文本信息中包含的任一个实体关系属于上述多个预定内容类别中的任一个预定内容类别的概率,可以利用上述预定文本信息集中所包括的标注的多个预定文本信息来实现上述计算。
例如,对于上述Web应用包括的文本信息中包含的任一实体关系er=(et1,r,et2),其属于上述多个预定内容类别中的任一预定内容类别t的概率ter(t,er)可以表示为:
ter(t,er)=(t,(et1,r,et2))。
根据预定文本信息的内容类别以及预定文本信息中所包含的实体关系之间的对应性,如果一个实体关系er出现在预定文本信息d中,则预定文本信息d的内容类别T(d)是t的概率为:P(T(d)=t|er∈d)。
可以用P(T(d)=t|er∈d)来计算ter(t,er),也即有:
ter(t,er)=P(T(d)=t|er∈d)。
应用条件概率公式,可以得到:
ter ( t , er ) = P ( er ∈ d ∩ T ( d ) = t ) P ( er ∈ d )
用D1={d|er∈d∩T(d)=t}表示上述预定文本信息集中包含实体关系er且内容类别为t的预定文本信息的集合,D2={d|er∈d}表示上述预定文本信息集中包含实体关系er的预定文本信息的集合,则有:
ter ( t , er ) = | D 1 | | D 2 | , if | D 2 | ≠ 0 0 , else
综上可知,在一种具体实现方式中,可以利用第一计算模块310来针对上述多个预定内容类别中的每一个、以及针对上述Web应用包括的文本信息中包含的每一个实体关系执行如下处理,以实现上文所述的第一计算模块310的功能:获得上述预定文本信息集中包含该实体关系的预定文本信息的第一数量值;获得上述预定文本信息集中既包含该实体关系、且内容类别为该预定内容类别的预定文本信息的第二数量值;以及在上述第一数量值为0的情况下将该实体关系属于该预定内容类别的概率确定为0,在上述第一数量值不为0的情况下将第二数量值与第一数量值的比值确定为该实体关系属于该预定内容类别的概率。
下面以上述Web应用包括的文本信息中包含的任意一个实体关系A和上述多个预定内容类别中的任意一个预定内容类别B为例,来说明如何利用第一计算模块310来计算实体关系A属于预定内容类别B的概率。
在该例子中,可以通过第一计算模块310获得预定文本信息集中的包含实体关系A的预定文本信息的数量X1,以及获得预定文本信息集中的既包含实体关系A、且内容类别是预定内容类别B的预定文本信息的数量X2。然后,在X1为0的情况下,令实体关系A属于内容类别B的概率为0;在X1不为0的情况下,利用X2与X1的比值X2/X1来作为实体关系A属于预定内容类别B的概率。例如,若预定文本信息集中包含实体关系A的预定文本信息的第一数量值为10个,而既包含实体关系A、且内容类别是预定内容类别B的预定文本信息的第二数量值为8个,则实体关系A属于预定内容类别B的概率为8/10,也即80%。
类似地,可以计算上述Web应用包括的文本信息中包含的任一实体关系属于上述预定文本信息集中所涉及的每个内容类别的概率。
然后,可以通过第二计算模块320来根据第一计算模块310的计算结果来获得上述Web应用属于上述多个预定内容类别中的每一个的分值。
Web应用既可以包含结构化文本信息ds,也可以包含非结构化文本信息du。其中,用户当前执行的Web应用例如可以是用户当前浏览的网页。
其中,针对本发明所处理的Web应用中包括的文本信息可以至少包括非结构化文本信息。例如,给定一个网页w,其内容类别T(w)可以通过如下方式识别:
T ( w ) = arg max t { λ · P ( T ( d s ) = t ) + ( 1 - λ ) P ( T ( d u ) = t ) } , 0≤λ≤1
其中,对于本领域的技术人员来说,利用结构化文本来确定网页主题的方法是公知的,可以通过现有公开的文献和/或教材获知,在此省略其相关描述。
在仅考虑非结构化文本的情况下,也即,λ为0的情况下,可以按如下方式得到网页的内容类别:
T ( w ) = arg max { λ · t P ( T ( d s ) = t ) + ( 1 - λ ) P ( T ( d u ) = t ) } , 0≤λ≤1
根据命名实体识别单元120所识别的Web应用中包括的文本信息中的实体关系,可以得到:
T ( w ) = T ( d u ) = arg max t { Σ i ter ( t , er i ) · n i }
其中,eri表示上述Web应用中包括的文本信息中的所有实体关系中的第i个,ni是eri在du中出现的次数。
综上可知,在一种具体实现方式中,可以利用第二计算模块320来针对上述多个预定内容类别中的每一个执行如下处理,以实现上文所述的第二计算模块320的功能:将上述Web应用包括的文本信息中包含的各个实体关系属于该预定内容类别的各个概率进行加权求和,并将所得的和的值确定为上述Web应用属于该预定内容类别的分值。
下面以上述多个预定内容类别中的任意一个预定内容类别B为例,来说明如何利用第二计算模块320来计算上述Web应用属于预定内容类别B的分值。
在该例子中,利用第二计算模块320将上述Web应用包括的文本信息中所包含的各个实体关系分别属于预定内容类别B的各个概率进行加权求和,所得的和既可作为上述Web应用属于预定内容类别B的分值。假如上述Web应用包括的文本信息中包含A1、A2、A3、A4和A5共5个实体关系,则通过第一计算模块310的计算已经获得实体关系A1、A2、A3、A4和A5分别属于预定内容类别B的概率P1、P2、P3、P4和P5,则将P1、P2、P3、P4和P5进行加权求和,即可得上述Web应用属于预定内容类别B的分值。
其中,在进行加权求和过程中,上述Web应用包括的文本信息中所包含的每个实体关系属于预定内容类别B的概率的权重可以是该实体关系在上述Web应用包括的文本信息中出现的次数。例如,实体关系A1、A2、A3、A4和A5在上述Web应用包括的文本信息中所出现的次数分别为1、1、2、1和3,则概率P1、P2、P3、P4和P5各自对应的权重可以分别是1、1、2、1和3,则所得到的和P为:
P=1*P1+1*P2+2*P3+1*P4+3*P5。
此外,上述各个概率各自对应的权值可以根据经验值来设定;或者,上述各个概率各自对应的权值也可以全部设为1,此时相当于直接对上述各个概率求和,并将和作为最后所得的分值。
需要说明的是,图2所示结构旨在给出一种能够实现确定单元130的功能和操作的可能结构,但并不限制确定单元130的其他可能结构和配置。
例如,在其他示例中,也可以按照如下方式来配置确定单元130,来实现对Web应用的内容类别(也即主题)的识别,下面结合图4来描述该示例。
图4是示意性地示出如图1所示的确定单元的另一种可能的示例结构的框图。如图4所示,在根据本发明的实施例的Web服务整合装置的另一种实现方式中,确定单元130可以包括查表子单元410、第二计算子单元420和第二确定子单元430。
其中,在如图4所示的示例中,查表子单元410可以被配置成通过查询预定关系概率列表,来获得每个实体关系属于每个预定内容类别的概率。其中,上述预定关系概率列表中可以包括多个预定内容类别和多个实体关系,还可以包括其中每个实体关系分别属于多个预定内容类别中的每一个的概率。由此,针对上述Web应用包括的文本信息中包含的每一个实体关系,均可以通过查表子单元410按照上述查表的方式来得到该实体关系属于上述多个预定内容类别中的任一个的概率。其中,上述预定关系概率列表可以事先获得而存储在查表子单元410中,或者也可以存储在其他存储单元中。
上述预定关系概率列表例如可以利用包括多个预定文本信息的预定文本信息集按照如下方式来获得。其中,每个预定文本信息被标注有上述多个预定内容类别中的其中一个,以作为该预定文本信息的内容类别。
以上述多个预定内容类别中的某个预定内容类别A’、以及上述多个实体关系中的某个实体关系B’为例,在包括多个预定文本信息的预定文本信息集中,获得上述预定文本信息集中包含实体关系B’的预定文本信息的数量(以下简称第三数量值),以及获得上述预定文本信息集中既包含实体关系B’、且内容类别为预定内容类别A’的预定文本信息的数量(以下简称第四数量值)。
其中,在第三数量值为0的情况下,令实体关系B’属于预定内容类别A’的概率为0。
在第三数量值不为0的情况下,将第四数量值与第三数量值的比值确定为实体关系B’属于预定内容类别A’的概率。
由此,可以获得实体关系B’属于预定内容类别A’的概率。类似地,可以获得上述多个实体关系中的各个实体关系属于上述多个预定内容类别中的每个预定内容类别的概率,根据以上多个预定内容类别、多个实体关系、以及上述多个实体关系中的各个实体关系属于上述多个预定内容类别中的每个预定内容类别的概率,即可构建上述预定关系概率列表。
如图4所示,第二计算子单元420可以针对上述多个预定内容类别中的每一个,将上述Web应用包括的文本信息中包含的各个实体关系属于该预定内容类别的各个概率进行加权求和,并将所得的和的值确定为上述Web应用属于该预定内容类别的分值。其中,这里所说的第二计算子单元420的处理过程与上文所描述的第二计算模块320计算Web应用属于某一个预定内容类别的分值的过程相类似,在此省略其具体描述。
然后,第二确定子单元430可以将第二计算子单元420所计算的分值最大的预定内容类别确定为上述Web应用的内容类别,其计算过程与上文所描述的第一确定子单元230的处理过程相类似,在此不再赘述。
转至图1,选择单元140可以根据命名实体识别单元120的识别结果、以及确定单元130所确定的上述Web应用的内容类别,在预定Web服务库中选择与该Web应用相关的Web服务,并通过整合单元150来将所选择的这些与该Web应用相关的Web服务整合到上述Web应用中。其中,命名实体识别单元120的识别结果例如可以通过确定单元130传送至选择单元140,或者也可以由命名实体识别单元120直接发送给选择单元140。此外,预定Web服务库可以存储在Web服务整合装置100中,或者也可以通过获取网络上的Web服务来作为预定Web服务库中的Web服务。
其中,在一个例子中,选择单元140所选择的“与该Web应用相关的Web服务”可以是这样的Web服务(以下简称为满足第一预定条件的Web服务):其内容类别与上述Web应用的内容类别之间的相似程度高于第一预定阈值。其中,两个内容类别之间的相似程度例如可以设置成与二者之间的距离成反比,例如,设置成两个内容类别之间的距离的倒数;需要说明的是,在这种情况下,当两个内容类别之间的距离为0时,则可将二者之间的相似程度设为例如无穷大。此外,上述第一预定阈值可以根据经验值来设定,或者也可以通过试验的方式来确定。其中,对于本领域的技术人员来说,可以参考现有的公开文献和出版物获知如何计算两个内容类别之间的距离。例如,若内容类别t1是内容类别t2的子类,则内容类别t1和t2之间的距离可以是1,此时二者之间的相似程度可以设为1;若内容类别t1是内容类别t2的子类的子类,则内容类别t1和t2之间的距离可以是2,此时二者之间的相似程度可以设为0.5;若内容类别t1和t2完全相同,则t1和t2之间的距离为0,此时二者之间的相似程度可以设为+∞。
此外,在另一个例子中,选择单元140所选择的“与该Web应用相关的Web服务”也可以是这样的Web服务(以下简称为满足第二预定条件的Web服务):其内容类别与上述Web应用的内容类别之间的相似程度高于第二预定阈值、且其输入数据类型与上述Web应用中包括的文本信息所包含的实体类型之间的相似程度高于第三预定阈值。其中,输入数据类型与实体类型之间的相似程度例如可以设置成与二者之间的距离成反比,例如,设置成输入数据类型与实体类型之间的距离的倒数。这里,输入数据类型与实体类型之间的相似程度的计算过程与两个内容类别之间的相似程度的计算过程相似,此处不再赘述。此外,上述第二预定阈值和第三预定阈值可以根据经验来设定,也可以通过试验的方法来设定,并且,第二预定阈值可以与第一预定阈值相同,也可以与其不同(例如优选地,第二预定阈值可以小于第一预定阈值),在此不再赘述。
需要说明的是,在实际应用中,在一些例子中,选择单元140所选择的Web服务例如可以仅包括如上所述的“满足第一预定条件的Web服务”;在另一些例子中,选择单元140所选择的Web服务例如也可以仅包括如上所述的“满足第二预定条件的Web服务”,此外,在其他例子中,选择单元140所选择的Web服务可以既包括上述“满足第一预定条件的Web服务”,又包括上述“满足第二预定条件的Web服务”。
图5是示意性地示出根据本发明的实施例的基于命名实体识别的Web服务整合装置的另一种示例结构的框图。如图5所示的Web服务整合装置500除了包括如图1所示的提取单元110、命名实体识别单元120、确定单元130、选择单元140和整合单元150之外,还包括执行单元160。其中,Web服务整合装置500中的提取单元110、命名实体识别单元120、确定单元130、选择单元140和整合单元150可以具有与图1中对应单元相同的结构和功能,并能够达到相类似的技术效果,在此省略其描述。
如图5所示,执行单元160可以在已整合到上述Web应用中的Web服务被执行时,将上述Web应用中包括的文本信息中所包含的、满足如下条件的命名实体的值作为被执行的Web服务的输入数据:其实体类型与所执行的Web服务的输入数据类型之间的相似程度高于第四预定阈值。其中,第四预定阈值也可以根据经验或通过试验方式来确定,这里不再赘述。
图6A是示出根据本发明的实施例的基于命名实体识别的Web服务整合装置的一个应用示例的系统配置示意图。
如图6A所示,在该应用示例中,中继模块610从浏览器接收用户的请求,然后转发给Web应用服务器,当接收到Web应用服务器返回的响应时,中继模块610在将响应返回浏览器之前,可以通过调用系统中的其他单元或模块来得到与用户浏览的网页相匹配的Web服务,作为推荐的Web服务,然后再由中继模块610将这些推荐的Web服务与用户浏览的网页进行整合,最后将整合有上述推荐的Web服务的网页返回给浏览器。
其中,下面将结合图6A来描述如何获得与用户浏览的网页相匹配的Web服务来作为推荐的Web服务。
如图6A所示,中继模块610可以将来自Web应用服务器的网页(也即,用户当前所浏览的网页)转发给提取单元620(相当于图1和图5中所示的提取单元110)。
然后,提取单元620可以从该网页中提取文本信息,并将所提取的文本信息发送给命名实体识别单元630(相当于图1和图5中所示的命名实体识别单元120)。
然后,命名实体识别单元630可以通过对接收到的文本信息进行命名实体识别,来将识别出的命名实体、实体类型以及实体关系发送给确定单元640(相当于图1和图5中所示的确定单元130)。
于是,确定单元640可以通过利用预定文本信息集以及命名实体识别单元630所识别的结果来确定网页的内容类别,其中,预定文本信息集中的每个预定文本信息标注有多个预定内容类别中的其中一个。确定单元640还可以将确定的网页的内容类别、以及命名实体识别单元630发送来的命名实体和实体关系发送给选择单元670(相当于图1和图5中所示的选择单元140)。
选择单元670可以根据接收到的上述数据(网页的内容类别、命名实体识别单元630所识别的命名实体和实体关系),在预定Web服务库中选择一个或多个与上述数据相匹配的Web服务作为推荐。
这里,预定Web服务库可以从Web服务服务器获得。其中,从Web服务服务器获得的Web服务可以是经过标注(标注有内容类别)的Web服务,也可以是未经标注的Web服务。通常,Web服务的服务描述中描述了该Web服务的输入/输出数据类型。
例如,在从Web服务服务器获得的Web服务是未经标注的Web服务的情况下,如图6A所示,可以利用标注模块660对从Web服务服务器中获得的Web服务进行标注,得到标注后的Web服务,然后利用这些标注后的Web服务即可构建预定Web服务库。例如,在一种实现方式中,可以通过标注模块660利用预定文本信息集来确定Web服务的内容类别,该过程与确定单元640识别网页的内容类别的过程相类似,这里不再详述。
此外,在其他实现方式中,也可以半自动地对Web服务进行标注,也即,由Web服务的上传者在上传Web服务时,在多个预定内容类别中选择一个或多个来标注其上传的Web服务。类似地,若Web服务的服务描述中未包括该Web服务的输入/输出数据类型,也可以通过这种半自动的方式来标注。
由此,通过上述各单元620-670即可获得与用户浏览的网页相匹配的Web服务,并将之作为推荐的Web服务。
然后,如图6A所示,可以再通过中继模块610将上述推荐的Web服务整合至上述网页中,由此完成整合。其中,该应用示例中的中继模块610所执行的部分处理、也即将推荐的Web服务与用户浏览的网页进行整合的处理,相当于上文所述的整合单元150所执行的处理。此外,图6A中的650例如可以是存储单元,存储单元650可以用于存储预定Web服务库和预定文本信息集。
图6B是示出根据本发明的实施例的基于命名实体识别的Web服务整合装置的另一个应用示例的系统配置示意图。在该应用示例中,与图6A所示应用示例不同的是,确定单元640利用如上文所述的预定关系概率列表来通过查表的方式确定网页的内容类别,而非利用预定文本信息集;此外,图6B中的652例如可以是存储单元,存储单元652可以用于存储预定Web服务库和预定关系概率列表。其中,与上文结合图4所作出的描述相类似地,这里的预定关系概率列表可以包括多个预定内容类别、多个实体关系以及上述多个实体关系中的每一个属于上述多个预定内容类别中的每一个的概率。此外,这里的预定关系概率列表也可以通过上文所述的获得预定关系概率列表的方式来获得,此处省略其详细描述。该应用示例的具体工作过程可参考上文结合图6A所描述的过程,在此省略其详细描述。
与现有的Web服务整合技术相比,通过应用根据本发明的实施例的基于命名实体识别的Web服务整合装置来对Web应用和Web服务进行整合,不需要开发人员人工地选择合适的Web应用和Web服务,且当Web应用或Web服务发生变化时,不需要开发人员重新编写代码来整合,因此节省了大量的时间和人力,从而可以提高开发效率。此外,上述基于命名实体识别的Web服务整合装置可以根据Web应用和Web服务的改变而自动灵活地进行调整,具有较好的重复使用性。另外,在一些示例中,上述基于命名实体识别的Web服务整合装置还可以根据不同的Web应用自动匹配并推荐最合适的Web服务,能够更加符合用户的环境和需求。
此外,本发明的实施例还提供了一种基于命名实体识别的Web服务整合方法,下面结合图7来描述该Web服务整合方法的一种示例性处理。
图7是示意性地示出根据本发明的实施例的基于命名实体识别的Web服务整合方法的一种示例性处理的流程图。
如图7所示,根据本发明的实施例的Web服务整合方法的处理流程700开始于步骤S710,然后执行步骤S720。
在步骤S720中,利用用户当前执行的Web应用,提取上述Web应用中包括的文本信息。然后执行步骤S730。
其中,用户当前执行的Web应用例如可以是用户当前浏览的网页。
此外,上述Web应用中包括的文本信息可以至少包括非结构化文本信息。
在步骤S730中,对上述Web应用中包括的文本信息进行命名实体识别。其中,命名实体识别的结果例如可以包括:上述Web应用中包括的文本信息中所包含的命名实体、实体类型以及实体关系。然后执行步骤S740。
在步骤S740中,将多个预定内容类别中的、与上述命名实体识别的结果相匹配的预定内容类别确定为上述Web应用的内容类别。然后执行步骤S750。其中,在一个例子中,步骤S740的处理过程可以与上文结合图2和图3所述的确定单元130的具体处理过程(也即,识别子单元210、第一计算子单元220、第一确定子单元230、第一计算模块310以及第二计算模块320的处理)相同,并能够达到相类似的技术效果,在此不再赘述。此外,在另一个例子中,步骤S740的处理过程也可以与上文结合图4所述的确定单元130的具体处理过程(也即,查表子单元410、第二计算子单元420以及第二确定子单元230的处理)相同,并能够达到相类似的技术效果,在此不再赘述。
在步骤S750中,基于命名实体识别的结果以及上述Web应用的内容类别,在预定Web服务库中选择与上述Web应用相关的Web服务。然后执行步骤S760。
其中,所选择的“与上述Web应用相关的Web服务”例如可以是满足如下条件的Web服务:
其内容类别与上述Web应用的内容类别之间的相似程度高于第一预定阈值的Web服务;和/或
其内容类别与上述Web应用的内容类别之间的相似程度高于第二预定阈值、且其输入数据类型与上述Web应用中包括的文本信息所包含的实体类型之间的相似程度高于第三预定阈值的Web服务。
其中,上述第一、第二和第三预定阈值可以按照与上文所述方式相同的方式获得,也可以具有与上文所描述含义相同的含义;此外,两个内容类别之间的相似程度、以及输入数据类型与实体类型之间的相似程度的计算方式也可以与上文所述方式相同。在此省略以上描述。
在步骤S760中,将所选择的与上述Web应用相关的Web服务整合到上述Web应用中。然后执行步骤S770。
处理流程700结束于步骤S770。
其中,在已整合到上述Web应用中的Web服务被执行时,可以将这样的命名实体的值作为被执行的Web服务的输入数据:其实体类型与所执行的Web服务的输入数据类型之间的相似程度高于第四预定阈值的命名实体。
与现有的Web服务整合技术相比,通过应用根据本发明的实施例的基于命名实体识别的Web服务整合方法来对Web应用和Web服务进行整合,不需要开发人员人工地选择合适的Web应用和Web服务,且当Web应用或Web服务发生变化时,不需要开发人员重新编写代码来整合,因此节省了大量时间和人力,从而可以提高开发效率。此外,上述基于命名实体识别的Web服务整合方法可以根据Web应用和Web服务的改变而自动灵活地进行调整,具有较好的重复使用性。另外,在一些示例中,上述基于命名实体识别的Web服务整合方法还可以根据不同的Web应用自动匹配并推荐最合适的Web服务,能够更加符合用户的环境和需求。
此外,本发明的实施例还提供了一种设备,该设备被配置包括如上所述的基于命名实体识别的Web服务整合装置。该设备例如可以是以下设备中的任意一种:手机;计算机;平板电脑;以及个人数字助理等。
根据本发明的实施例的上述设备,其通过其中包括的Web服务整合装置,能够实现对Web应用和Web服务的整合,具有上述Web服务整合装置的各种有益效果,改善了设备的处理性能。
上述根据本发明的实施例的基于命名实体识别的Web服务整合装置中的各个组成单元、子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器(例如图8所示的通用机器800)安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。
图8是示出了可用来实现根据本发明的实施例的基于命名实体识别的Web服务整合装置和方法的一种可能的信息处理设备的硬件配置的结构简图。
在图8中,中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM803中,还根据需要存储当CPU801执行各种处理等等时所需的数据。CPU801、ROM802和RAM803经由总线804彼此连接。输入/输出接口805也连接到总线804。
下述部件也连接到输入/输出接口805:输入部分806(包括键盘、鼠标等等)、输出部分807(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络接口卡例如LAN卡、调制解调器等)。通信部分809经由网络例如因特网执行通信处理。根据需要,驱动器810也可连接到输入/输出接口805。可拆卸介质811例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器810上,使得从中读出的计算机程序可根据需要被安装到存储部分808中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质811安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM802、存储部分808中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本发明还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本发明的实施例的基于命名实体识别的Web服务整合方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本发明的公开中。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清楚起见而被配置用于在这些特征、要素、步骤或组件之间进行标识。
此外,本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。
最后,还需要说明的是,在本文中,诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
综上,在根据本发明的实施例中,本发明提供了如下方案:
附记1.一种基于命名实体识别的Web服务整合装置,包括:
提取单元,其被配置用于利用用户当前执行的Web应用,提取所述Web应用中包括的文本信息;
命名实体识别单元,其被配置用于对所述Web应用中包括的文本信息进行命名实体识别;
确定单元,其被配置用于将多个预定内容类别中的、与所述命名实体识别的结果相匹配的预定内容类别确定为所述Web应用的内容类别;
选择单元,其被配置用于基于所述命名实体识别的结果以及所述Web应用的内容类别,在预定Web服务库中选择与所述Web应用相关的Web服务;以及
整合单元,其被配置用于将所选择的与所述Web应用相关的Web服务整合到所述Web应用中。
附记2.根据附记1所述的基于命名实体识别的Web服务整合装置,其中,所述命名实体识别的结果包括:所述Web应用中包括的文本信息中所包含的命名实体、实体类型以及实体关系。
附记3.根据附记2所述的基于命名实体识别的Web服务整合装置,其中,所述确定单元包括:
识别子单元,其被配置用于对预定文本信息集中的预定文本信息进行命名实体识别,以识别所述预定文本信息中的实体关系,其中,每个所述预定文本信息被标注有所述多个预定内容类别中的其中一个,以作为该预定文本信息的内容类别;
第一计算子单元,其被配置用于根据预定文本信息集中的预定文本信息的内容类别、所述预定文本信息集中的预定文本信息中的实体关系,以及根据所述Web应用包括的文本信息中包含的实体关系,分别计算所述Web应用属于每个所述预定内容类别的分值;和
第一确定子单元,其被配置用于将所述第一计算子单元所计算的分值最大的预定内容类别确定为所述Web应用的内容类别。
附记4.根据附记3所述的基于命名实体识别的Web服务整合装置,其中,所述第一计算子单元包括:
第一计算模块,其被配置用于针对所述多个预定内容类别中的每一个,分别计算所述Web应用包括的文本信息中包含的各个实体关系属于该预定内容类别的概率,以及
第二计算模块,其被配置用于针对所述多个预定内容类别中的每一个,将所述Web应用包括的文本信息中包含的各个实体关系属于该预定内容类别的各个概率进行加权求和,并将所得的和的值确定为所述Web应用属于该预定内容类别的分值。
附记5.根据附记4所述的基于命名实体识别的Web服务整合装置,其中,所述Web应用包括的文本信息中包含的每个实体关系所对应的概率的权重为该实体关系在所述Web应用包括的文本信息中出现的次数。
附记6.根据附记4或5所述的基于命名实体识别的Web服务整合装置,其中,所述第一计算模块被配置用于:
针对所述多个预定内容类别中的每一个、以及所述Web应用包括的文本信息中包含的每一个实体关系,
获得所述预定文本信息集中包含该实体关系的预定文本信息的第一数量值,
获得所述预定文本信息集中既包含该实体关系、且内容类别为该预定内容类别的预定文本信息的第二数量值,以及
在所述第一数量值为0的情况下,将该实体关系属于该预定内容类别的概率确定为0,
在所述第一数量值不为0的情况下,将所述第二数量值与第一数量值的比值确定为该实体关系属于该预定内容类别的概率。
附记7.根据附记2所述的基于命名实体识别的Web服务整合装置,其中,所述确定单元包括:
查表子单元,其被配置用于针对所述Web应用包括的文本信息中包含的每一个实体关系,通过在预定关系概率列表中进行查表,获得该实体关系属于多个预定内容类别中的每一个的概率,其中,所述预定关系概率列表包括所述多个预定内容类别、多个实体关系以及所述多个实体关系中的每一个属于所述多个预定内容类别中的每一个的概率;
第二计算子单元,其被配置用于针对所述多个预定内容类别中的每一个,将所述Web应用包括的文本信息中包含的各个实体关系属于该预定内容类别的各个概率进行加权求和,并将所得的和的值确定为所述Web应用属于该预定内容类别的分值;以及
第二确定子单元,其被配置用于将所述第二计算子单元所计算的分值最大的预定内容类别确定为所述Web应用的内容类别。
附记8.根据附记2-7中任一所述的基于命名实体识别的Web服务整合装置,其中,所述与所述Web应用相关的Web服务包括满足如下条件的Web服务:
其内容类别与所述Web应用的内容类别之间的相似程度高于第一预定阈值;和/或
其内容类别与所述Web应用的内容类别之间的相似程度高于第二预定阈值、且其输入数据类型与所述Web应用中包括的文本信息所包含的实体类型之间的相似程度高于第三预定阈值。
附记9.根据附记2-8中所述的基于命名实体识别的Web服务整合装置,还包括:
执行单元,其被配置用于在已整合到所述Web应用中的Web服务被执行时,将所述Web应用中包括的文本信息中所包含的、满足如下条件的命名实体的值作为被执行的Web服务的输入数据:
其实体类型与所执行的Web服务的输入数据类型之间的相似程度高于第四预定阈值。
附记10.根据附记1-9中任一所述的基于命名实体识别的Web服务整合装置,其中,所述Web应用中包括的文本信息至少包括非结构化文本信息。
附记11.根据附记1-10中任一所述的基于命名实体识别的Web服务整合装置,其中,所述用户当前执行的Web应用是所述用户当前浏览的网页。
附记12.一种基于命名实体识别的Web服务整合方法,包括:
利用用户当前执行的Web应用,提取所述Web应用中包括的文本信息;
对所述Web应用中包括的文本信息进行命名实体识别;
将多个预定内容类别中的、与所述命名实体识别的结果相匹配的预定内容类别确定为所述Web应用的内容类别;
基于所述命名实体识别的结果以及所述Web应用的内容类别,在预定Web服务库中选择与所述Web应用相关的Web服务;以及
将所选择的与所述Web应用相关的Web服务整合到所述Web应用中。
附记13.根据附记12所述的基于命名实体识别的Web服务整合方法,其中,所述命名实体识别的结果包括:所述Web应用中包括的文本信息中所包含的命名实体、实体类型以及实体关系。
附记14.根据附记13所述的基于命名实体识别的Web服务整合方法,其中,所述的将多个预定内容类别中的、与所述命名实体识别的结果相匹配的预定内容类别确定为所述Web应用的内容类别包括:
对预定文本信息集中的预定文本信息进行命名实体识别,以识别所述预定文本信息中的实体关系,其中,每个所述预定文本信息被标注有所述多个预定内容类别中的其中一个,以作为该预定文本信息的内容类别;
根据预定文本信息集中的预定文本信息的内容类别、所述预定文本信息集中的预定文本信息中的实体关系,以及根据所述Web应用包括的文本信息中包含的实体关系,分别计算所述Web应用属于每个所述预定内容类别的分值;以及
将分值最大的预定内容类别确定为所述Web应用的内容类别。
附记15.根据附记14所述的基于命名实体识别的Web服务整合方法,其中,所述的分别计算所述Web应用属于每个所述预定内容类别的分值包括:
针对所述多个预定内容类别中的每一个,
分别计算所述Web应用包括的文本信息中包含的各个实体关系属于该预定内容类别的概率,以及
将所述Web应用包括的文本信息中包含的各个实体关系属于该预定内容类别的各个概率进行加权求和,并将所得的和的值作为所述Web应用属于该预定内容类别的分值。
附记16.根据附记15所述的基于命名实体识别的Web服务整合方法,其中,所述Web应用包括的文本信息中包含的每个实体关系所对应的概率的权重为该实体关系在所述Web应用包括的文本信息中出现的次数。
附记17.根据附记15或16所述的基于命名实体识别的Web服务整合方法,其中,所述的分别计算所述Web应用包括的文本信息中包含的各个实体关系属于该预定内容类别的概率包括:
针对所述多个预定内容类别中的每一个、以及所述Web应用包括的文本信息中包含的每一个实体关系,
获得所述预定文本信息集中包含该实体关系的预定文本信息的第一数量值,
获得所述预定文本信息集中既包含该实体关系、且内容类别为该预定内容类别的预定文本信息的第二数量值,以及
在所述第一数量值为0的情况下,将该实体关系属于该预定内容类别的概率确定为0,
在所述第一数量值不为0的情况下,将所述第二数量值与第一数量值的比值确定为该实体关系属于该预定内容类别的概率。
附记18.根据13所述的基于命名实体识别的Web服务整合方法,其中,所述的将多个预定内容类别中的、与所述命名实体识别的结果相匹配的预定内容类别确定为所述Web应用的内容类别包括:
针对所述Web应用包括的文本信息中包含的每一个实体关系,通过在预定关系概率列表中进行查表,获得该实体关系属于多个预定内容类别中的每一个的概率,其中,所述预定关系概率列表包括所述多个预定内容类别、多个实体关系以及所述多个实体关系中的每一个属于所述多个预定内容类别中的每一个的概率;
针对所述多个预定内容类别中的每一个,将所述Web应用包括的文本信息中包含的各个实体关系属于该预定内容类别的各个概率进行加权求和,并将所得的和的值确定为所述Web应用属于该预定内容类别的分值;以及
将所述第二计算子单元所计算的分值最大的预定内容类别确定为所述Web应用的内容类别。
附记19.根据附记18所述的基于命名实体识别的Web服务整合方法,其中,所述预定关系概率列表通过以下方式获得:
针对所述多个预定内容类别中的每一个、以及所述多个实体关系中的每一个,
在包括多个预定文本信息的预定文本信息集中,获得所述预定文本信息集中包含该实体关系的预定文本信息的第三数量值,以及获得所述预定文本信息集中既包含该实体关系、且内容类别为该预定内容类别的预定文本信息的第四数量值,其中,每个所述预定文本信息被标注有所述多个预定内容类别中的其中一个,以作为该预定文本信息的内容类别,以及
在所述第三数量值为0的情况下将该实体关系属于该预定内容类别的概率确定为0,在所述第三数量值不为0的情况下将所述第四数量值与第三数量值的比值确定为该实体关系属于该预定内容类别的概率;以及
根据所述多个预定内容类别、所述多个实体关系以及所述多个实体关系中的每一个属于所述多个预定内容类别中的每一个的概率来构建所述预定关系概率列表。
附记20.根据附记13-19中任一所述的基于命名实体识别的Web服务整合方法,其中,所述与所述Web应用相关的Web服务包括满足如下条件的Web服务:
其内容类别与所述Web应用的内容类别之间的相似程度高于第一预定阈值;和/或
其内容类别与所述Web应用的内容类别之间的相似程度高于第二预定阈值、且其输入数据类型与所述Web应用中包括的文本信息所包含的实体类型之间的相似程度高于第三预定阈值。
附记21.根据附记13-20中任一所述的基于命名实体识别的Web服务整合方法,还包括:
在已整合到所述Web应用中的Web服务被执行时,将所述Web应用中包括的文本信息中所包含的、满足如下条件的命名实体的值作为被执行的Web服务的输入数据:
其实体类型与所执行的Web服务的输入数据类型之间的相似程度高于第四预定阈值。
附记22.根据附记12-21中任一所述的基于命名实体识别的Web服务整合装置,其中:
所述Web应用中包括的文本信息至少包括非结构化文本信息;和/或
所述用户当前执行的Web应用是所述用户当前浏览的网页。
附记23.一种设备,包括如附记1-11中任一项所述的基于命名实体识别的Web服务整合装置。
附记24.根据附记23所述的设备,其中,所述设备是以下设备中的任意一种:手机;计算机;平板电脑;以及个人数字助理。
附记25.一种计算机可读存储介质,其上存储有能够由计算设备执行的计算机程序,所述程序在执行时能够使所述计算设备执行根据附记12-22中任意一项所述的基于命名实体识别的Web服务整合方法。

Claims (11)

1.一种基于命名实体识别的Web服务整合装置,包括:
提取单元,其被配置用于利用用户当前执行的Web应用,提取所述Web应用中包括的文本信息;
命名实体识别单元,其被配置用于对所述Web应用中包括的文本信息进行命名实体识别;
确定单元,其被配置用于将多个预定内容类别中的、与所述命名实体识别的结果相匹配的预定内容类别确定为所述Web应用的内容类别;
选择单元,其被配置用于基于所述命名实体识别的结果以及所述Web应用的内容类别,在预定Web服务库中选择与所述Web应用相关的Web服务;以及
整合单元,其被配置用于将所选择的与所述Web应用相关的Web服务整合到所述Web应用中。
2.根据权利要求1所述的基于命名实体识别的Web服务整合装置,其中,所述命名实体识别的结果包括:
所述Web应用中包括的文本信息中所包含的命名实体、实体类型以及实体关系。
3.根据权利要求2所述的基于命名实体识别的Web服务整合装置,其中,所述确定单元包括:
识别子单元,其被配置用于对预定文本信息集中的预定文本信息进行命名实体识别,以识别所述预定文本信息中的实体关系,其中,每个所述预定文本信息被标注有所述多个预定内容类别中的其中一个,以作为该预定文本信息的内容类别;
第一计算子单元,其被配置用于根据所述预定文本信息集中的预定文本信息的内容类别、所述预定文本信息集中的预定文本信息中的实体关系,以及根据所述Web应用包括的文本信息中包含的实体关系,分别计算所述Web应用属于每个所述预定内容类别的分值;和
第一确定子单元,其被配置用于将所述第一计算子单元所计算的分值最大的预定内容类别确定为所述Web应用的内容类别。
4.根据权利要求3所述的基于命名实体识别的Web服务整合装置,其中,所述第一计算子单元包括:
第一计算模块,其被配置用于针对所述多个预定内容类别中的每一个,分别计算所述Web应用包括的文本信息中包含的各个实体关系属于该预定内容类别的概率,以及
第二计算模块,其被配置用于针对所述多个预定内容类别中的每一个,将所述Web应用包括的文本信息中包含的各个实体关系属于该预定内容类别的各个概率进行加权求和,并将所得的和的值确定为所述Web应用属于该预定内容类别的分值。
5.根据权利要求4所述的基于命名实体识别的Web服务整合装置,其中,所述Web应用包括的文本信息中包含的每个实体关系所对应的概率的权重为该实体关系在所述Web应用包括的文本信息中出现的次数。
6.根据权利要求4或5所述的基于命名实体识别的Web服务整合装置,其中,所述第一计算模块被配置用于:
针对所述多个预定内容类别中的每一个、以及所述Web应用包括的文本信息中包含的每一个实体关系,
获得所述预定文本信息集中包含该实体关系的预定文本信息的第一数量值,
获得所述预定文本信息集中既包含该实体关系、且内容类别为该预定内容类别的预定文本信息的第二数量值,以及
在所述第一数量值为0的情况下,将该实体关系属于该预定内容类别的概率确定为0,
在所述第一数量值不为0的情况下,将所述第二数量值与第一数量值的比值确定为该实体关系属于该预定内容类别的概率。
7.根据权利要求2所述的基于命名实体识别的Web服务整合装置,其中,所述确定单元包括:
查表子单元,其被配置用于针对所述Web应用包括的文本信息中包含的每一个实体关系,通过在预定关系概率列表中进行查表,获得该实体关系属于多个预定内容类别中的每一个的概率,其中,所述预定关系概率列表包括所述多个预定内容类别、多个实体关系以及所述多个实体关系中的每一个属于所述多个预定内容类别中的每一个的概率;
第二计算子单元,其被配置用于针对所述多个预定内容类别中的每一个,将所述Web应用包括的文本信息中包含的各个实体关系属于该预定内容类别的各个概率进行加权求和,并将所得的和的值确定为所述Web应用属于该预定内容类别的分值;以及
第二确定子单元,其被配置用于将所述第二计算子单元所计算的分值最大的预定内容类别确定为所述Web应用的内容类别。
8.根据权利要求2-5和7中任一所述的基于命名实体识别的Web服务整合装置,其中,所述与所述Web应用相关的Web服务包括满足如下条件的Web服务:
其内容类别与所述Web应用的内容类别之间的相似程度高于第一预定阈值;和/或
其内容类别与所述Web应用的内容类别之间的相似程度高于第二预定阈值、且其输入数据类型与所述Web应用中包括的文本信息所包含的实体类型之间的相似程度高于第三预定阈值。
9.根据权利要求6所述的基于命名实体识别的Web服务整合装置,其中,所述与所述Web应用相关的Web服务包括满足如下条件的Web服务:
其内容类别与所述Web应用的内容类别之间的相似程度高于第一预定阈值;和/或
其内容类别与所述Web应用的内容类别之间的相似程度高于第二预定阈值、且其输入数据类型与所述Web应用中包括的文本信息所包含的实体类型之间的相似程度高于第三预定阈值。
10.一种基于命名实体识别的Web服务整合方法,包括:
利用用户当前执行的Web应用,提取所述Web应用中包括的文本信息;
对所述Web应用中包括的文本信息进行命名实体识别;
将多个预定内容类别中的、与所述命名实体识别的结果相匹配的预定内容类别确定为所述Web应用的内容类别;
基于所述命名实体识别的结果以及所述Web应用的内容类别,在预定Web服务库中选择与所述Web应用相关的Web服务;以及
将所选择的与所述Web应用相关的Web服务整合到所述Web应用中。
11.一种Web服务整合设备,包括如权利要求1-9中任一项所述的基于命名实体识别的Web服务整合装置。
CN201210127438.7A 2012-04-26 2012-04-26 基于命名实体识别的Web服务整合装置、方法以及设备 Expired - Fee Related CN103377186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210127438.7A CN103377186B (zh) 2012-04-26 2012-04-26 基于命名实体识别的Web服务整合装置、方法以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210127438.7A CN103377186B (zh) 2012-04-26 2012-04-26 基于命名实体识别的Web服务整合装置、方法以及设备

Publications (2)

Publication Number Publication Date
CN103377186A CN103377186A (zh) 2013-10-30
CN103377186B true CN103377186B (zh) 2016-03-16

Family

ID=49462319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210127438.7A Expired - Fee Related CN103377186B (zh) 2012-04-26 2012-04-26 基于命名实体识别的Web服务整合装置、方法以及设备

Country Status (1)

Country Link
CN (1) CN103377186B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104253877A (zh) * 2014-05-21 2014-12-31 四川长虹电器股份有限公司 基于设备类型和ip地址的综合命名方法及系统
CN104462347B (zh) * 2014-12-04 2018-05-18 北京国双科技有限公司 关键词的分类方法及装置
CN106407377B (zh) * 2016-09-12 2020-03-03 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN107368470A (zh) * 2017-06-27 2017-11-21 北京神州泰岳软件股份有限公司 一种提取企业内部组织架构信息的方法和装置
CN111177358B (zh) * 2019-12-31 2023-05-12 华为技术有限公司 意图识别方法、服务器及存储介质
CN114780528A (zh) * 2022-04-22 2022-07-22 深圳计算科学研究院 一种数据实体识别方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1489044A (zh) * 2003-08-21 2004-04-14 上海交通大学 基于多代理的交互式Web服务调度方法
CN101295292A (zh) * 2007-04-23 2008-10-29 北大方正集团有限公司 一种基于最大熵模型建模和命名实体识别的方法及装置
CN101488151A (zh) * 2009-01-20 2009-07-22 中国科学院计算技术研究所 一种聚合Web站点内容的系统和方法
CN101576910A (zh) * 2009-05-31 2009-11-11 北京学之途网络科技有限公司 一种自动识别产品命名实体的方法及装置
CN102314417A (zh) * 2011-09-22 2012-01-11 西安电子科技大学 基于统计模型的Web命名实体识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101302563B1 (ko) * 2009-12-15 2013-09-02 한국전자통신연구원 개체명 사전 구축 시스템 및 구축 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1489044A (zh) * 2003-08-21 2004-04-14 上海交通大学 基于多代理的交互式Web服务调度方法
CN101295292A (zh) * 2007-04-23 2008-10-29 北大方正集团有限公司 一种基于最大熵模型建模和命名实体识别的方法及装置
CN101488151A (zh) * 2009-01-20 2009-07-22 中国科学院计算技术研究所 一种聚合Web站点内容的系统和方法
CN101576910A (zh) * 2009-05-31 2009-11-11 北京学之途网络科技有限公司 一种自动识别产品命名实体的方法及装置
CN102314417A (zh) * 2011-09-22 2012-01-11 西安电子科技大学 基于统计模型的Web命名实体识别方法

Also Published As

Publication number Publication date
CN103377186A (zh) 2013-10-30

Similar Documents

Publication Publication Date Title
US11151177B2 (en) Search method and apparatus based on artificial intelligence
CN103377186B (zh) 基于命名实体识别的Web服务整合装置、方法以及设备
US20190005029A1 (en) Systems and methods for natural language processing of structured documents
US20110258054A1 (en) Automatic Generation of Bid Phrases for Online Advertising
CN105389307A (zh) 语句意图类别识别方法及装置
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN103559313B (zh) 搜索方法及装置
US20190080352A1 (en) Segment Extension Based on Lookalike Selection
CN111309910A (zh) 文本信息挖掘方法及装置
CN110674620A (zh) 目标文案生成方法、装置、介质及电子设备
CN111414757A (zh) 一种文本识别方法及装置
CN103365876B (zh) 基于关系图谱生成网络操作辅助信息的方法与设备
CN111062803A (zh) 一种金融业务查询查复方法及系统
CN111782793A (zh) 智能客服处理方法和系统及设备
CN112667802A (zh) 业务信息录入方法、装置、服务器和存储介质
US20220391598A1 (en) Text checking method based on knowledge graph, electronic device, and medium
CN106934006B (zh) 基于多叉树模型的页面推荐方法及装置
CN103678371B (zh) 词库更新装置、数据整合装置和方法以及电子设备
CN109766552B (zh) 一种基于公告信息的指代消解方法及装置
CN110069769A (zh) 应用标签生成方法、装置及存储设备
CN111143534A (zh) 基于人工智能的品牌名的提取方法、装置及存储介质
CN110516162A (zh) 一种信息推荐方法、装置、设备及存储介质
CN101339555A (zh) 一种信息搜索和显示方法及系统
CN111126073B (zh) 语义检索方法和装置
CN111199421A (zh) 一种基于社交关系的用户推荐方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160316

Termination date: 20180426

CF01 Termination of patent right due to non-payment of annual fee