CN102576364A - 来自一组搜索引擎的搜索结果的聚合 - Google Patents

来自一组搜索引擎的搜索结果的聚合 Download PDF

Info

Publication number
CN102576364A
CN102576364A CN2010800437687A CN201080043768A CN102576364A CN 102576364 A CN102576364 A CN 102576364A CN 2010800437687 A CN2010800437687 A CN 2010800437687A CN 201080043768 A CN201080043768 A CN 201080043768A CN 102576364 A CN102576364 A CN 102576364A
Authority
CN
China
Prior art keywords
attribute
inquiry
weight
search
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800437687A
Other languages
English (en)
Other versions
CN102576364B (zh
Inventor
R·舍提
K·沙斯特里
A·拉马克里施南
H·L·纳拉亚南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN102576364A publication Critical patent/CN102576364A/zh
Application granted granted Critical
Publication of CN102576364B publication Critical patent/CN102576364B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种用于智能数据挖掘的方法、系统和计算机程序产品。该方法包括从应用接收事件、将属性权重分配给事件的属性、以及基于属性权重从这些属性建立查询。该方法还包括将搜索引擎权重分配给一组搜索引擎,基于搜索引擎权重来选择至少一些搜索引擎,以及将建立的查询发送到选中的搜索引擎。来自被选中的搜索引擎的结果被存储在知识库中,并被用来调整属性权重和搜索引擎权重。本发明可以被用来提供关于问题的信息的分析,并用来管理可以用于问题确定的解决方案数据库。本发明提供了用于从线上源收集相关信息的低成本的解决方案。

Description

来自一组搜索引擎的搜索结果的聚合
技术领域
本发明涉及智能的基于事件的数据挖掘,更具体地,涉及从非结构化源收集信息以创建并维持知识库,该知识库可帮助用户快速确定并解决问题。
背景技术
问题确定涉及利用对发生在环境中的事件的分析来诊断问题并向用户提供合适的解决方案或提供自动解决方案。对这些任务中的任一个来说(即,提供解决方案或自动恢复),很好地了解系统及其运作是必需的前提。这通常通过使用用于问题原因及其解决方案的症状数据库或其他存储源来完成,且每当问题发生时,针对该源执行分析以确定解决方案。
但是,考虑到实际场景,实时环境将包括一起工作的、来自很多不同厂商的很多不同运用程序。例如,顾客可能有部署在IBM的Websphere应用服务器上的商业合作伙伴的web应用,而使用Oracle作为数据库(IBM和Websphere是国际商业机器公司的注册商标)。这种场景具有来个三个不同厂商的三个不同的组件(应用):Websphere应用服务器(IBM)、web应用(IBM的商业合作伙伴)和数据库(Oracle)。
考虑到这种场景,将理解,对于这样的系统的完美的问题确定分析来说,需要对所有三个组件有深入了解。实际上,对于任何一个厂商来说,不可能提供并维持关于一些其他厂商(例如Oracle)的应用的解决方案和智能(intelligence),尽管这些应用会与其产品一起使用。这导致了信息“黑盒”,其中技术支持工程师没有在环境中运行的一些应用的足够信息和知识。
从以上例子,如果IBM想要提供Oracle数据库具有的问题的解决方案,考虑到商业伙伴将提供用于其应用的信息和症状/解决方案的细节,很容易想象这所需的努力。这将涉及让一组专家创建并维护用于Oracle的解决方案数据库。如果不这么做,在对该环境执行问题确定分析时将导致黑盒,即,在系统中发生的任何问题,当且仅当它和数据库无关时,才能被诊断,并且任何与数据库相关的问题将不得不在SME/专门管理员的帮助下解决。
发明内容
在一个实施例中,本公开提供了一种用于智能的基于事件的数据挖掘的方法、系统和计算机程序产品。该方法包括从应用接收事件,所述事件具有一组属性,为所述属性中的每个分配各自的属性权重,基于属性权重从所述属性建立查询,并且为一组搜索引擎中的每个分配各自的搜索引擎权重。该方法还包括基于搜索引擎权重来选择至少一些搜索引擎,将查询发送到选中的搜索引擎,从选中的搜索引擎接收查询结果,在知识库中存储查询结果,并基于查询结果来调整属性权重和搜索引擎权重。
本发明的实施例可以被用来消除问题确定分析时的上述黑盒,并为分析提供关于问题的信息,并管理解决方案信息数据库,该解决方案信息数据库可被用于问题确定。这是低成本的解决方案,其在运行时地从线上(online)源收集相关信息,该相关信息是在任意时间点的最为当前和有效的信息。
互联网是最大和最全面的信息源之一。本发明利用互联网上可用的信息来向用户提供问题确定解决方案。通过从非结构化源例如博客、论坛等收集信息,本发明可以创建并维护帮助用户快速确定和解决问题的知识库。
在理想的问题确定/解决场景下,每个技术支持工程师根据经验知道如何解决各种应用中的问题。但是,很多时候解决方案不是马上可获得的;它可能涉及咨询专家或向上反映(escalate)问题或甚至在已知位置例如问题跟踪网站或论坛上进行手动搜索。
本发明中使用的策略是在非结构化信息上执行分析以找到解决方案,而用户很少或不用干涉。当事件形式的问题产生时,使用该事件的各个域(消息id、消息文本、组件名称等)来执行搜索。该搜索可以在任何信息源例如通用互联网搜索、博客、维基百科页面或论坛上进行。搜索结果被处理以确定相关性、被格式化并被展示给用户。使用相关性值和被使用的查询,系统可以知道哪些查询以及哪些搜索源返回最好和最相关的信息源。在后续运行中,系统知道哪些属性和搜索源提供不同产品的最佳信息。
解决上述问题的另一种方法是雇佣主题专家或专门的管理员来处理厂商应用。该方法的一个问题是雇佣专家所涉及的成本。作为一个专家,他/她自然将能够提供对环境中的特定组件的支持,(在该例子中是Oracle数据库)。然后专家将会空闲,直到相关的问题出现,即,只有他/她专门处理的问题出现。该情形的关键问题是当专家离开组织时,知识也丢失了。专家根据经验具有并使用的所有解决方案和知识都丢失了。相反,使用本发明的自动解决方案,每当一个新的问题解决方案被找到时,该解决方案被存储在知识库中。这意味着知识被保留在组织内,允许新的技术支持工程师能够提供解决方案并可能消除对雇佣专家的需求。技术支持工程师现在能够处理更广范围内的问题。
附图说明
本发明的更多益处和优势将考虑参考附图的下列详细说明而变得更明显,所述附图指定并示出了本发明的优选实施例。
图1示出了根据本发明的用于智能的基于事件的数据挖掘系统的示例架构。
图2示出了图1中的系统的总体操作。
图3示出了用于对图1中的系统所获得的搜索结果进行分级的示例过程。
图4示出了用于更新数据挖掘系统的知识库的示例过程。
图5示出了用于更新图1的系统中使用的属性和搜索引擎权重的示例过程。
图6示出了可以被用来实现本发明的示例性计算系统。
具体实施方式
本领域的技术人员将理解,本发明的方面可以实现为系统、方法或计算机程序产品。因此,本发明的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合了软件和硬件方面的实施例的形式,所有这些软件和硬件方面在此通常被称为“电路”、“模块”或“系统”。此外,本发明可采取体现在任意有形表现介质中实现的计算机程序产品,在该介质中实现了计算机可用的程序代码。
可以使用一个或多个计算机可读介质的任意组合。所述计算机可用或计算机可读介质可以是,例如,包括但不限于,电、磁、光、电磁、红外线或半导体系统、装置、设备或传播媒介。计算机可读介质的更具体的示例(非穷举列表)将包括下列:具有一条或多条线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、传输媒介例如支持互联网或内部网的传输媒介、或磁存储设备。在本文档的上下文中,计算机可读存储介质可以是任何能够包含或存储由指令执行系统、装置或设备使用或与所述指令执行系统、装置或设备结合的程序的有形介质。注意,计算机可用或计算机可读介质甚至可以是纸张或另一合适的、其上打印有程序的介质,因为程序可被电子地捕获,例如通过对纸张或其它介质进行光扫描,然后在必要时被编译、解释、或者以其它合适的方式被处理,然后被存储在计算机存储器中。在本文档的上下文中,计算机可用或可读存储介质可以是任何能够包含、存储、通信、传播或发送程序的介质,该程序被指令执行系统、装置或设备使用或与之结合使用。计算机可用介质可以包括其中包含计算机可读程序代码(例如,在基带中或作为载波的一部分)的传播数据信号。可以使用任何适当的介质,包括但不限于无线、线缆、光缆、RF等,来传输计算机可用程序代码。
用于执行本发明的方面的操作的计算机程序代码可以使用一种或多种编程语言的任意组合来编写,所述编程语言包括诸如Java、Smalltalk、C++或类似语言之类的面向对象的编程语言或者诸如“C”编程语言或类似的编程语言之类的常规过程编程语言。所述程序代码可以完全地在用户计算机上执行,部分地在用户计算机上执行,作为独立的软件包执行,部分地在用户计算机上并部分地在远程计算机上执行,或者完全地在远程计算机或服务器上执行。在后者的情况中,所述远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任何类型网络与用户的计算机相连,也可以与外部计算机进行连接(例如,使用因特网服务提供商通过因特网连接)。
下面参考根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或方块图对本发明的方面进行描述。将理解,所述流程图和/或方块图的每个方块以及所述流程图和/或方块图中的方块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,以便通过所述计算机或其他可编程数据处理装置的处理器执行的所述指令产生用于实现在一个或多个流程图和/或方块图方块中指定的功能/操作的装置。这些计算机程序指令也可以被存储在引导计算机、其他可编程数据处理装置或其他设备以特定方式执行功能的计算机可读介质中,以便存储在所述计算机可读介质中的所述指令产生一件包括实现在所述一个或多个流程图和/或方块图方块中指定的功能/操作的指令的制品。
所述计算机程序指令还可被加载到计算机或其他可编程数据处理装置,以导致在所述计算机或其他可编程装置上执行一系列操作步骤以产生计算机实现的过程,从而在所述计算机或其他可编程装置上执行的指令提供用于实现在流程图和/或方块图方块中指定的功能/操作的过程。
参考图1和图2,在步骤202中,搜索管理器102从应用接收CBE事件并开始对其进行处理。使用CBE的不同属性,创建用于搜索的查询。这些查询是根据被分配给特定产品的属性的重要性或权重来创建的。例如,用于DB2问题以消息id来搜索将比用消息内容来搜索产生更好的结果,而对于Oracle来说可能是相反的。为适应该情况,属性权重需要按每个产品来存储。初始地,在第一次运行前,默认的权重被分配给属性。对问题确定具有一些经验的用户或技术支持工程师分配这些权重。即,足够的经验来将高权重分配给有价值的属性(例如消息id)并将低或零权重分配给不重要的属性(例如创建时间)。
示例产品属性权重:
DB2_messageId=90
DB2_messageText=50
DB2_severity=10
DB2_creationTime=0
这些权重提供了对重要性的分级,意味着用具有较高值的属性来搜索返回更好的结果。在该例子中,在搜索该问题的解决方案时,用消息Id来搜索时给出最佳结果,而(CBE事件的)创建时间永远不应该被使用。
首先,创建集合P来表示要被用来为搜索引擎建立查询的属性。选择在为搜索创建查询时考虑哪些属性,是通过根据权重分级并计算属性的百分比来实现的。在步骤202中,给定百分比(例如百分之50)或以上的属性被用于查询。在上述DB2的例子中,使用百分之50将给出“消息Id”和“消息文本”属性。以这样的方式选择最相关的属性,并创建查询。每个查询包含属性值和组件的名称(例如,用于DB2通用数据库的“DB2UDB”)。在步骤206中,搜索查询被发送到以类似方式选择的搜索引擎104。
可用的搜索引擎104按每个产品给出分级,这事实上是说在搜索关于特定产品的信息时,哪些搜索引擎(按顺序)返回最佳结果。初始地,所有搜索引擎被分配100的“产品到搜索引擎”的权重,因此,所有搜索引擎将被用来执行搜索。在后续运行中,该值将被更新,来反应搜索引擎对于返回特定产品的相关结果的可能性。类似于产品属性权重,在步骤204,通过采用那些给定百分比或以上的搜索引擎,选择要使用的搜索引擎的集合S。
示例产品-搜索引擎权重:
DB2_ibmDB2InformationCenter=90
DB2_google=50
DB2_yahoo=10
DB2_ask.com=0
使用搜索引擎权重的上述例子,如果百分比截止点(cutoff)是5,则查询将被发送到前三个搜索引擎(IBM DB2信息中心、谷歌和雅虎)。一旦查询被准备好,它们可以以产品-搜索引擎权重降序的顺序被发送到搜索引擎。该搜索可以在106中示出的任意信息源上进行,所述信息源例如,通用互联网搜索、博客、维基百科页面或论坛。搜索结果被相关性引擎112来处理以确定相关性、被格式化并被显示给用户,如114所示。此外,在步骤210中,从每个搜索引擎接收到的结果根据与P中的事件属性的相关性被分级,并被分配一个评分。
计算搜索结果与查询的相关性
图3示出了对搜索结果分级的过程。为了计算搜索结果与被用来产生该结果的查询的相关性,在步骤310中,获取搜索结果的文本内容,并且找到它和查询文本之间最长共同子字符串。该过程被重复运行,从查询中移除已匹配的子字符串,直到不能找到更多的匹配。
例如,如果搜索结果的文本内容为:
Exception occurred while the JNDI NamingManager was processing ajavax.naming.Reference object
Root exception is java.lang.reflect.Invocation TargetException
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java-:85)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorlm-pl.java:58)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorI-mpl.java(Compiled Code))
at java.lang.reflect.Method.invoke(Method.java(Compiled Code))且(从消息文本属性创建的)查询如下:
Exception occurred in the JNDI NamingManager while processing ajavax.naming.Reference object
则重复运行最长公共子字符串会给出:
processing a javax.naming.Reference object
the JNDI NamingManager
Exception occurred
while
使用这些子字符串,在步骤320中,可以计算结果与属性的相关性。首先,从匹配的字符串和查询中去除与产品或问题无关的普通英文单词。在上述例子中,最后一个匹配(while)与当前上下文完全无关,因此应当被移除。从所有匹配的字符串和查询中移除这些单词(例如the、at、in、is、for)。
例如,如果我们从查询和匹配的字符串中移除单词{“in”,“the”,“while”,“a”},这留下:
查询:
Exception occurred JNDI NamingManager processingjavax.naming.Reference object
匹配的字符串:
processing javax.naming.Reference object
JNDI NamingManager
Exception occurred
现在,使用裁剪过的查询和匹配字符串,计算相关性。取M={“processing javax.naming.Reference object”,“Exception occurred”,“JNDI NamingManager”}作为匹配子字符串的集合,使用下列公式,计算结果相关性。
Figure BDA0000148683710000091
其中:
mn是第n个匹配中的词的数量
N是查询中的词的数量
n是匹配的子序列的数量
从上面的例子,结果相关性为57.14%。
类似地,如步骤324和328所示,对于每个结果,针对P中的所有属性来计算相关性,以获得搜索结果与接收到的CBE事件的整体相关性。
在步骤330中,这些相关性值被乘以相应属性的权重,得出0和10000之间的值,并且被累加以得出搜索结果的总体得分S。(根据上面使用具有50权重的消息文本的查询例子,消息文本属性对S贡献了2857.14[57.14*50])。
在步骤332中,通过相同的方法,除了假设每个属性的100%相关性,计算最大得分Sm。(在该相同的例子中,消息文本属性对Sm贡献了5000[100*50])。
在步骤334中,计算总体结果相关性,其被用来对结果分级,作为S占Sm的比例。
Figure BDA0000148683710000092
在图2的步骤212中,搜索结果然后被格式化并和总体结果相关性值一起被呈现给用户。
使用收集的信息和相关性值,在步骤214和216中,更新知识库110和权重,以反映从循环的搜索部分学到的知识。结果信息被发送到知识库以在本地存储,从而在未来运行时,可以找到结果而不用外部搜索。知识库需要能够建立规则来匹配未来的事件并提供具有相关性值的结果。
图4中示出了用于更新知识库的过程。如步骤402、404、406、410、412和414所示,对于每个搜索结果,结果URL、结果的相关性以及贡献属性的列表被发送给知识库,该贡献属性列表具有用于每个属性的匹配子字符串的(外观上)有序的列表。在所述例子中,消息文本属性和下列子字符串列表:{“Exception occurred”,“while”,“processing ajavax.naming.Reference Object”,“the JNDI NamingManager”}一起被发送。这些子字符串和在查询中找到的一样完整,而不是移除不相干单词之后的。如果被移除了,知识库将不能建立规则来将未来的事件与属性的类似值进行匹配。
知识库然后可以在使用提供的属性和值来建立匹配事件的规则之后存储结果URL和相关性。例如,取决于知识库如何存储该信息,这可以通过使用例如正则表达式或Xpath的规则句法来实现。
在图2的步骤216中,属性和搜索引擎权重被更新。图5示出了该更新的过程。
在图502、504、510、512、514、516和518中,调整产品属性权重,以表示对每个产品哪些属性给出最佳结果。为了调整权重,首先在步骤510中,计算属性对结果相关性的贡献:
R p × W p S × 100
其中:
Rp是结果与属性的相关性
Wp是属性的当前权重
S是搜索结果的总体得分
在步骤512中,上述公式被用来计算属性的权重修改量(modifier)。
下面使用平均公式来计算新的权重。在步骤514中采用“最后N个平均”,而不是维护执行的循环次数来计算平均值。
N是决定新权重将在现有的相关性上所产生的影响的自然数,且其范围可以从1到任何数。这确保了权重对应使用的最近的信息源和最相关的查询敏感并反映它们。例如,如果在查询特定产品时,特定的属性不再有用,权重应能够快速适应该改变。标准平均方法将使权重随时间对改变越来越不敏感。
W ′ p = ( W p × ( N - 1 ) + W m ) N
其中:
W’p是属性的新权重
Wp是属性的当前权重
Wm是属性的修改量
N是权重影响因子
在步骤522、524和526中,使用搜索引擎的最相关的结果的权重,更新产品-搜索引擎权重,该权重包括0,如果从特定的引擎没有返回结果的话。对当前权重的更新是使用相同的“最后N个平均”来实现的。
W ′ s = ( W s × ( N - 1 ) + W m ) N
其中:
W’s是搜索引擎的新权重
Ws是搜索引擎的当前权重
Wm是最相关结果的相关性
N是权重影响因子
通过该带权重搜索的过程,系统能够随时间推移在后续循环中学习。通过自更新权重,系统学习哪些属性/搜索引擎需要被忽略,并增加持续地给出全面的相关结果的属性/搜索引擎的重要性。随着事件推移,搜索变得越来越聚焦和准确。系统将能够独立并自动地将用户指向有效的问题解决方案,由此大幅度地减少或最小化手动过程。
系统可以被插入到具有例如来自IBM的Websphere应用服务器、来自IBM商业合作伙伴的Web应用和来自Oracle(第三方厂商)的Oracle数据库的软件架构的场景中。
初始地,Oracle数据库造成“黑盒”问题,其中技术支持工程师没有处理类似Oracle的第三方产品的经验。当第三方产品被带入环境中时,本发明的系统需要被配置为处理该新产品。产品-属性/搜索引擎权重需要被设置为初始的估计值。系统将开始为接收到的事件搜索解决方案,并在随后的循环中将达到成熟状态。在该成熟状态,系统知道哪些属性和哪些搜索引擎提供Oracle数据库的最佳搜索结果。
通过在知识库中维护从非结构化数据中挖掘到的信息,系统使其自身能独立于用户的经验。这确保了该知识被维持在机构内,且问题被有效地解决并节省成本。
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这方面,流程图或框图中的每个框可以表示模块、片段和代码的部分,其包括用于执行制定逻辑功能的一条或更多条可执行指令。需要注意的是,在可替换的实施例中,在框中给出的功能可以与图中给出的不一样的顺序来执行。例如,连续示出的两个框可以以相反的顺序执行,取决于涉及的功能。还需要注意,框图和/或流程图示例中的框的组合可以通过执行特定功能或动作的特定目的的基于硬件的系统,或特定目的硬件和计算机指令的组合来实现。
图6示出了基于计算机的系统600,本发明的方法实施例可以在其中实现。基于计算机的系统600包括实现通用处理系统的处理单元610,其包含处理器、存储器和其它系统组件(在图中未显式示出),或者可以执行计算机程序产品的计算机。计算机程序产品可以包括介质,例如诸如光盘的高密度存储介质,其可以被处理单元610通过盘驱动620或通过本领域技术人员所知的任何方式来读取,用于向通用处理系统提供计算机程序产品由其来执行。
计算机程序产品可以包括能使这里描述的发明性方法实现的所有各个特征,并且其在载入到计算机系统时能够实现该方法。本上下文中的计算机程序、软件程序、程序或软件指一组指令以任意语言、代码或符号的任意表达,所述指令旨在使具有信息处理能力的系统直接或在下列操作中任一个或两者之后执行特定的功能:(a)转换为另一语言、代码或符号;以及/或(b)以另一不同的材料形式再现。
计算机程序产品可以被存储在所提到的处理单元610内的硬盘驱动器内,或可以位于通过网络接口例如以太网接口630耦合到处理器60的远程计算机例如服务器30上。监视器640、鼠标650和键盘660耦合到处理单元610以提供用户交互。扫描仪680和打印机670被提供用于文档输入和输出。打印机被示出为通过网络连接耦合到处理单元610,但可以直接耦合到处理单元。扫描仪680被示出为直接连接到处理单元610,但可以理解外围设备可以网络耦合,或直接耦合而不影响处理单元执行本发明的方法的能力。
尽管这里描述的本发明很明显被很好地设计为完成上述目标,可以理解本领域技术人员可以想到多种修改和实施例,并且所附权利要求书旨在覆盖本发明的范围内的所有这样的修改和实施例。

Claims (21)

1.一种用于智能的基于事件的数据挖掘的方法,包括
从应用接收事件,所述事件具有一组属性;
为所述属性中的每个分配各自的属性权重;
基于属性权重从所述属性建立查询;
为一组搜索引擎中的每个分配各自的搜索引擎权重;
基于搜索引擎权重来选择至少一些搜索引擎;
将查询发送到选中的搜索引擎;
从选中的搜索引擎接收查询结果;
在知识库中存储查询结果;以及
基于查询结果来调整属性权重和搜索引擎权重。
2.如权利要求1所述的方法,其中,基于属性权重从所述属性建立查询包括:
选择具有高于规定值的属性权重的每个属性;以及
从选中的属性建立查询。
3.如权利要求1或权利要求2所述的方法,其中,基于搜索引擎权重来选择至少一些搜索引擎包括选择具有高于规定值的搜索引擎权重的每个搜索引擎的步骤。
4.如前面任意权利要求所述的方法,其中,调整属性权重和搜索引擎权重包括:
为每个查询结果计算搜索结果相关性;以及
使用所述搜索结果相关性来调整属性权重和搜索引擎权重。
5.如权利要求4所述的方法,其中为每个查询结果计算搜索结果相关性包括,对每个查询结果:
识别在查询和所述每个查询结果中都存在的公共文本子字符串的数量;
使用所述公共文本子字符串的数量来为每个查询结果计算搜索结果相关性。
6.如权利要求5所述的方法,其中,识别在查询和所述每个查询结果中都存在的公共文本子字符串的数量包括:
识别在查询和所述每个查询结果中都有的最长公共子字符串;
从查询中移除所述最长公共子字符串来得到修改的查询;以及
识别在被修改的查询和所述查询结果中都有的最长公共子字符串。
7.如权利要求6所述的方法,其中,识别在查询和所述每个查询结果中都出现的公共文本子字符串的数量包括:
形成所述公共文本子字符串的集合;以及
从所述集合中移除给定文本子字符串集合中的任一文本子字符串的每次出现,以形成公共子字符串的被裁剪的集合。
8.如权利要求7所述的方法,其中使用所述公共文本子字符串的数量为所述每个查询结果计算搜索结果相关性包括使用下列等式来计算结果相关性:
Figure FDA0000148683700000021
其中:
mn是第n个匹配中的单词的数量
N是查询中的单词的数量
n是匹配的子序列的数量。
9.如权利要求5所述的方法,其中,调整属性权重和搜索引擎权重包括累加每个查询的搜索结果相关性来获得总体相关性得分。
10.如权利要求5所述的方法,其中,调整属性权重和搜索引擎权重包括计算每个被选中的属性对每个查询结果的贡献。
11.一种智能的基于事件的数据挖掘的装置,包括:
用于从应用接收事件的装置,所述事件具有一组属性;
用于为所述属性中的每个分配各自的属性权重的装置;
用于基于属性权重从所述属性建立查询的装置;
用于为一组搜索引擎中的每个分配各自的搜索引擎权重的装置;
用于基于搜索引擎权重来选择至少一些搜索引擎的装置;
用于将查询发送到选中的搜索引擎的装置;
用于从选中的搜索引擎接收查询结果的装置;
用于在知识库中存储查询结果的装置;以及
用于基于查询结果来调整属性权重和搜索引擎权重的装置。
12.如权利要求11所述的设备,其中,用于建立查询的装置包括:
用于选择具有高于规定值的属性权重的每个属性的装置;以及
用于从选中的属性建立查询的装置。
13.如权利要求11或权利要求12所述的设备,其中,用于选择至少一些搜索引擎的装置包括:
用于选择具有高于规定值的搜索引擎权重的每个搜索引擎的装置。
14.如权利要求11到13中任一个所述的设备,其中,用于调整属性权重和搜索引擎权重的装置包括:
用于为每个查询结果计算搜索结果相关性的装置;以及
用于使用所述搜索结果相关性来调整属性权重和搜索引擎权重的装置。
15.如权利要求14所述的设备,其中用于为每个查询结果计算搜索结果相关性的装置包括,对每个查询结果:
用于识别在查询和所述每个查询结果中都存在的公共文本子字符串的数量的装置;
用于使用所述公共文本子字符串的数量来为所述每个查询结果计算搜索结果相关性的装置。
16.如权利要求15所述的设备,其中,用于识别在查询和所述每个查询结果中都存在的公共文本子字符串的数量的装置包括:
用于识别在查询和所述每个查询结果中都有的最长公共子字符串的装置;
用于从查询中移除所述最长公共子字符串来得到修改的查询的装置;以及
用于识别在被修改的查询和所述查询结果中都有的最长公共子字符串的装置。
17.如权利要求16所述的设备,其中,用于识别在查询和所述每个查询结果中都出现的公共文本子字符串的数量的装置包括:
用于形成所述公共文本子字符串的集合的装置;以及
用于从所述集合中移除给定文本子字符串集合中的任一文本子字符串的每次出现、以形成公共子字符串的被裁剪的集合的装置。
18.如权利要求17所述的设备,其中用于使用所述公共文本子字符串的数量来为所述每个查询结果计算搜索结果相关性的装置包括用于使用下列等式来计算结果相关性的装置:
Figure FDA0000148683700000041
其中:
mn是第n个匹配中的单词的数量
N是查询中的单词的数量
n是匹配的子序列的数量。
19.如权利要求15所述的设备,其中,用于调整属性权重和搜索引擎权重的装置包括:
用于累加每个查询的搜索结果相关性来获得总体相关性得分的装置。
20.如权利要求15所述的设备,其中,用于调整属性权重和搜索引擎权重的装置包括:
用于计算每个被选中的属性对每个查询结果的贡献的装置。
21.一种计算机程序,包括在计算机可读介质上存储的计算机程序代码,所述计算机程序代码在被载入到计算机系统并在其上执行时,使得所述计算机系统执行根据权利要求1到10中的任一个的方法中的所有步骤。
CN201080043768.7A 2009-10-01 2010-08-31 用于智能的基于事件的数据挖掘的方法和装置 Expired - Fee Related CN102576364B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/571,782 US8356047B2 (en) 2009-10-01 2009-10-01 Intelligent event-based data mining of unstructured information
US12/571,782 2009-10-01
PCT/EP2010/062694 WO2011039021A1 (en) 2009-10-01 2010-08-31 Aggregation of search results from a set of search engines

Publications (2)

Publication Number Publication Date
CN102576364A true CN102576364A (zh) 2012-07-11
CN102576364B CN102576364B (zh) 2014-08-13

Family

ID=42797607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080043768.7A Expired - Fee Related CN102576364B (zh) 2009-10-01 2010-08-31 用于智能的基于事件的数据挖掘的方法和装置

Country Status (4)

Country Link
US (1) US8356047B2 (zh)
JP (1) JP5497185B2 (zh)
CN (1) CN102576364B (zh)
WO (1) WO2011039021A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824971A (zh) * 2016-04-14 2016-08-03 四川神琥科技有限公司 一种社工信息综合搜索方法
CN110413763A (zh) * 2018-04-30 2019-11-05 国际商业机器公司 搜索排序器的自动选择

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706854B2 (en) * 2010-06-30 2014-04-22 Raytheon Company System and method for organizing, managing and running enterprise-wide scans
US9298826B2 (en) 2012-01-05 2016-03-29 International Business Machines Corporation Goal-oriented user matching among social networking environments
US20140258043A1 (en) * 2013-03-11 2014-09-11 Bby Solutions, Inc. Comparable product matching: system and method
US9189539B2 (en) 2013-03-15 2015-11-17 International Business Machines Corporation Electronic content curating mechanisms
CN104978359B (zh) * 2014-04-11 2018-07-17 Tcl集团股份有限公司 一种信息聚合方法及系统
US10193775B2 (en) * 2014-10-09 2019-01-29 Splunk Inc. Automatic event group action interface
US9760240B2 (en) 2014-10-09 2017-09-12 Splunk Inc. Graphical user interface for static and adaptive thresholds
US9210056B1 (en) 2014-10-09 2015-12-08 Splunk Inc. Service monitoring interface
US10235638B2 (en) 2014-10-09 2019-03-19 Splunk Inc. Adaptive key performance indicator thresholds
US10505825B1 (en) * 2014-10-09 2019-12-10 Splunk Inc. Automatic creation of related event groups for IT service monitoring
US11671312B2 (en) 2014-10-09 2023-06-06 Splunk Inc. Service detail monitoring console
US10417225B2 (en) 2015-09-18 2019-09-17 Splunk Inc. Entity detail monitoring console
US10474680B2 (en) 2014-10-09 2019-11-12 Splunk Inc. Automatic entity definitions
US11755559B1 (en) 2014-10-09 2023-09-12 Splunk Inc. Automatic entity control in a machine data driven service monitoring system
US9491059B2 (en) 2014-10-09 2016-11-08 Splunk Inc. Topology navigator for IT services
US11200130B2 (en) 2015-09-18 2021-12-14 Splunk Inc. Automatic entity control in a machine data driven service monitoring system
US11455590B2 (en) 2014-10-09 2022-09-27 Splunk Inc. Service monitoring adaptation for maintenance downtime
US9130832B1 (en) 2014-10-09 2015-09-08 Splunk, Inc. Creating entity definition from a file
US11087263B2 (en) 2014-10-09 2021-08-10 Splunk Inc. System monitoring with key performance indicators from shared base search of machine data
US10417108B2 (en) 2015-09-18 2019-09-17 Splunk Inc. Portable control modules in a machine data driven service monitoring system
US9146954B1 (en) 2014-10-09 2015-09-29 Splunk, Inc. Creating entity definition from a search result set
US10536353B2 (en) 2014-10-09 2020-01-14 Splunk Inc. Control interface for dynamic substitution of service monitoring dashboard source data
US11501238B2 (en) 2014-10-09 2022-11-15 Splunk Inc. Per-entity breakdown of key performance indicators
US9146962B1 (en) 2014-10-09 2015-09-29 Splunk, Inc. Identifying events using informational fields
US10305758B1 (en) 2014-10-09 2019-05-28 Splunk Inc. Service monitoring interface reflecting by-service mode
US9245057B1 (en) 2014-10-09 2016-01-26 Splunk Inc. Presenting a graphical visualization along a time-based graph lane using key performance indicators derived from machine data
US9158811B1 (en) 2014-10-09 2015-10-13 Splunk, Inc. Incident review interface
US10209956B2 (en) * 2014-10-09 2019-02-19 Splunk Inc. Automatic event group actions
US9967351B2 (en) 2015-01-31 2018-05-08 Splunk Inc. Automated service discovery in I.T. environments
US10198155B2 (en) * 2015-01-31 2019-02-05 Splunk Inc. Interface for automated service discovery in I.T. environments
US10942960B2 (en) 2016-09-26 2021-03-09 Splunk Inc. Automatic triage model execution in machine data driven monitoring automation apparatus with visualization
US10942946B2 (en) 2016-09-26 2021-03-09 Splunk, Inc. Automatic triage model execution in machine data driven monitoring automation apparatus
US11106442B1 (en) 2017-09-23 2021-08-31 Splunk Inc. Information technology networked entity monitoring with metric selection prior to deployment
US11093518B1 (en) 2017-09-23 2021-08-17 Splunk Inc. Information technology networked entity monitoring with dynamic metric and threshold selection
US11159397B2 (en) 2017-09-25 2021-10-26 Splunk Inc. Lower-tier application deployment for higher-tier system data monitoring
WO2021155205A1 (en) * 2020-01-30 2021-08-05 Wentong Li Method and apparatus of automatic business intelligent marketing contents/creatives curation
US11676072B1 (en) 2021-01-29 2023-06-13 Splunk Inc. Interface for incorporating user feedback into training of clustering model

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224406A1 (en) * 2005-03-30 2006-10-05 Jean-Michel Leon Methods and systems to browse data items
US20080027979A1 (en) * 2006-07-31 2008-01-31 Microsoft Corporation Presenting information related to topics extracted from event classes
US7424488B2 (en) * 2006-06-27 2008-09-09 International Business Machines Corporation Context-aware, adaptive approach to information selection for interactive information analysis
WO2008124531A1 (en) * 2007-04-03 2008-10-16 Google Inc. Identifying inadequate search content
US20090157652A1 (en) * 2007-12-18 2009-06-18 Luciano Barbosa Method and system for quantifying the quality of search results based on cohesion

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3780556B2 (ja) * 1996-03-05 2006-05-31 三菱電機株式会社 自然言語事例検索装置及び自然言語事例検索方法
JPH11184943A (ja) * 1997-12-19 1999-07-09 Fujitsu Ltd 電子取引システム及び方法並びに電子取引でフォーマット変換を実行する制御プログラムを格納した記憶媒体
JP3225912B2 (ja) * 1998-01-08 2001-11-05 日本電気株式会社 情報検索装置、方法及び記録媒体
JP2000222418A (ja) * 1999-01-29 2000-08-11 Hitachi Ltd データベース検索方法および装置
US20050120009A1 (en) * 2003-11-21 2005-06-02 Aker J. B. System, method and computer program application for transforming unstructured text
JP4391439B2 (ja) * 2005-04-04 2009-12-24 Sky株式会社 サポートデータ表示システム
US20070088827A1 (en) * 2005-10-14 2007-04-19 Microsoft Corporation Messages with forum assistance
US7657585B2 (en) * 2005-10-25 2010-02-02 Innternational Business Machines Corporation Automated process for identifying and delivering domain specific unstructured content for advanced business analysis
US7805455B2 (en) * 2005-11-14 2010-09-28 Invention Machine Corporation System and method for problem analysis
KR100837749B1 (ko) * 2006-04-18 2008-06-13 엔에이치엔(주) 온라인 상에서 제공되는 뉴스 기사에 가중치를 부여하는방법 및 상기 방법을 수행하는 시스템
US7840522B2 (en) * 2007-03-07 2010-11-23 Microsoft Corporation Supervised rank aggregation based on rankings

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224406A1 (en) * 2005-03-30 2006-10-05 Jean-Michel Leon Methods and systems to browse data items
CN101194257A (zh) * 2005-03-30 2008-06-04 电子湾有限公司 处理搜索信息的方法和系统
US7424488B2 (en) * 2006-06-27 2008-09-09 International Business Machines Corporation Context-aware, adaptive approach to information selection for interactive information analysis
US20080027979A1 (en) * 2006-07-31 2008-01-31 Microsoft Corporation Presenting information related to topics extracted from event classes
WO2008124531A1 (en) * 2007-04-03 2008-10-16 Google Inc. Identifying inadequate search content
US20090157652A1 (en) * 2007-12-18 2009-06-18 Luciano Barbosa Method and system for quantifying the quality of search results based on cohesion

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824971A (zh) * 2016-04-14 2016-08-03 四川神琥科技有限公司 一种社工信息综合搜索方法
CN110413763A (zh) * 2018-04-30 2019-11-05 国际商业机器公司 搜索排序器的自动选择

Also Published As

Publication number Publication date
JP2013506894A (ja) 2013-02-28
JP5497185B2 (ja) 2014-05-21
US20110082883A1 (en) 2011-04-07
CN102576364B (zh) 2014-08-13
WO2011039021A1 (en) 2011-04-07
US8356047B2 (en) 2013-01-15

Similar Documents

Publication Publication Date Title
CN102576364B (zh) 用于智能的基于事件的数据挖掘的方法和装置
JP5065584B2 (ja) テキストマイニングおよび検索のためのアプリケーションプログラミングインターフェース
US8131684B2 (en) Adaptive archive data management
JP4750456B2 (ja) エンハンストドキュメント取り出しのためのコンテンツ伝播
Segev et al. Context-based matching and ranking of web services for composition
Dong et al. Focused crawling for automatic service discovery, annotation, and classification in industrial digital ecosystems
Hatzi et al. The PORSCE II framework: Using AI planning for automated semantic web service composition
US8645288B2 (en) Page selection for indexing
US8954360B2 (en) Semantic request normalizer
US20080243812A1 (en) Ranking method using hyperlinks in blogs
CN104915413A (zh) 一种健康检测方法及系统
CN105550206B (zh) 结构化查询语句的版本控制方法及装置
CN105354344A (zh) 搜索引擎优化系统及方法
US20150294019A1 (en) Web browsing activity flow
Mangaravite et al. Improving the efficiency of a genre-aware approach to focused crawling based on link context
US10872122B2 (en) Knowledge management system and process for managing knowledge
Moumtzidou et al. Discovery of environmental nodes in the web
Fan et al. Semantic client‐side approach for web personalization of SaaS‐based cloud services
Lotfi et al. Exploring the Aggregated and Granular Impact of Big Data Analytics on a Firm’s Performance through Web Scraping-Based Methodology
Wang et al. Bayesian network based business information retrieval model
Engler et al. Web mining for innovation
Wang et al. Creating and managing ontology data on the web: a semantic wiki approach
Tsai et al. Information services for novelty mining
Medina et al. Document retrieval from multiple collections by using lightweight ontologies
KR20150025532A (ko) 키워드 기반 데이터 추천 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140813

Termination date: 20200831

CF01 Termination of patent right due to non-payment of annual fee