CN101310274B

CN101310274B - 知识相关性搜索引擎

Info

Publication number: CN101310274B
Application number: CN200680042357XA
Authority: CN
Inventors: M·博比克; C·温默
Original assignee: MARK SENSE Inc
Current assignee: MARK SENSE Inc; Make Sense Inc
Priority date: 2005-11-14
Filing date: 2006-06-28
Publication date: 2013-04-17
Anticipated expiration: 2026-06-28
Also published as: CN101310274A; JP2009528581A; JP4864095B2; EP1974292A1; WO2007061451A1; EP1974292A4

Abstract

子句对于诸如预测文本到语音合成的语法分析中的措辞以及推断用于机器翻译的文本对齐(Ejerhed 1988，Leffa 1998，Papageorgiou1997)的各种各样的NLP任务是重要的。计算的自然语言学习2001共享任务(Sang & Déjean 2001)利用机器学习方法设置识别文本中的子句边界的目的。为任务创建的系统为每个单词预测一个标记，以指定在该句子中在该位置开始和结束的子句的数量，而不用区别子句类型。这种工作通过多种方式扩展了共享任务的这些内容：(1)研究性能边界，(2)进行区别“主要”和“次要”子句的尝试，以及(3)筛选和最大熵，对问题应用被证明在之前尚未针对该任务使用的相似域内有效的模型类别。

Description

知识相关性搜索引擎

相关申请的交叉引用

本申请是下述每一项专利申请的部分继续申请并要求它们的优先权：(1)2005年11月14由发明人Mark Bobick和Carl Wimmer(代理人卷号no.83071)提交的美国专利申请序列号No.11/273,568，发明名称为“Techniques For Knowledge Discovery By ConstructingKnowledge Correlations Using Concepts or Terms”，以及(2)2005年12月21日由发明人Mark Bobick和Carl Wimmer(代理人卷号no.83071 CIP)提交的美国专利申请序列号No.11/314,835，发明名称为“Techniques For Knowledge Discovery By ConstructingKnowledge Correlations Using Concepts or Terms”，它们每一个的内容整体上作为参考包含在本申请中。

技术领域

本发明涉及信息技术，尤其是涉及利用知识相关性的结果以识别对任何给定的用户问题、主题、或者数字信息对象的话题有意义的网络和/和因特网资源的搜索引擎。

背景技术

搜索引擎被广泛公认为知识的信息检索(IR)领域的一部分。IR方法致力于定位与称为查询的问题有关的资源(典型地为文档)。查询可以是从单个搜索术语到由诸如英语的自然语言组成的复杂句子的范围。被搜索的潜在的资源的集合被称为语料库(主体)，而且已经开发了不同的技术以便搜索每一种类型的语料库。例如，用于搜索包含在数字化百科全书中的文章集合的技术不同于web搜索引擎所使用的技术。不管所用的技术如何，IR中的核心要点是关联性-即，被检索的文档与原始查询的关联性。形式度量被应用于比较各种IR方法的效率。公共IR效率度量包括精确度，其是检索的关联文档与所有关联文档之比；检索率，其是检索的关联文档与语料库中的所有关联文档之比；以及错检率，其是检索的不相关的文档与语料库中的所有不相关的文档之比。被认为是关联的后检索、文档(在大多数IR系统中)被再次利用各种技术来指定一个关联性等级，并返回结果。尽管大多数情况下查询通常是由称为用户的人提交的-并返回结果给该用户，但是用户可以是其它的软件过程。

文本检索是一种类型的IR，其典型地涉及定位由文本组成的关联文档，而且文档检索涉及定位文本文档的特定片段，尤其是那些由非结构化(或“自由”)文本构成的那些文档。

数据检索的相关知识领域与IR的区别在于，数据检索涉及特定数据项，例如来自SQL数据库的记录的快速而精确的检索。

信息提取(IE)是另一种类型的IR，其目的在于将来自非结构化(通常为文本)文档的信息自动提取到诸如名称/值对的模板的数据结构中。根据这些模板可以对信息进行后续正确的更新或者将该信息插入到关系数据库中。

已经在文献中描述或披露作为软件产品的搜索引擎使用多种形式的输入，其范围从各种关键字到短语、句子、段落、概念、以及数据对象。虽然关键字、句子以及段落的含义与这些术语通常的理解一致，但短语、概念和数据对象的含义因具体实现而异。有时候，短语在语法上被定义为使用其传统意义。在这种用法中，短语的类型包括介词短语(PP)、名词短语(NP)、动词短语(VP)、形容词短语和副词短语。对于其它实现而言，短语可以定义为各种固有名称(例如，纽约)。大部分的定义都要求一个短语包含多个单词，虽然至少有一个定义允许甚至是将单个单词视为短语。有一些搜索引擎的实现使用一个短语词典(预固定的列表)。WordNet Lexical数据库是一个公共短语源。

在与搜索引擎结合使用时，概念通常是指两种构造的其中之一。第一种构造是作为有关单词的聚集的概念，类似于类属词典，与关键词相关。在多种实现中，这种聚集被使得对用户可用-通过图形用户界面(GUI)用于修正和定制。用户可以剪裁单词的聚集直到结果产生的概念最能够代表用户的理解和意图。第二种构造是作为围绕关键词的有关单词的局部语义网的概念。在此，考虑本地或者公共本体和分类来创建围绕关键词的语义网。概念的一些实现包括图像以及其它非文本元素。

在实践中，话题需要通过对文本主体施加特定的操作集合来识别或“检测”。文献中已经描述了用于识别和/或检测话题的不同方法。使用话题作为对搜索引擎的输入因此通常意味着输入了一个文本主体，而且所需的话题识别或话题检测功能被调用。根据结果产生的话题的格式和长度然后可以通过搜索引擎来调用适当的关联性功能。

数据对象作为对搜索引擎的输入可以采取各种形式，包括自由格式的句子的不同长度集合、全长度文本文档、以及诸如XML文档的元数据文档。面向对象(OO)范例指出OO系统接受对象作为输入。某些软件功能几乎总是需要处理输入对象使得能够继续进行搜索引擎的后续关联性功能。

分级的结果集已经是搜索引擎的市场成功的关键。Google搜索引擎(Google公司的产品)的当前优势更多地归因于Google中所使用的PageRank(页面分级)系统，其使(基本上)给定文档的流行度来指示结果等级。Google实例中的流行度应用到链接的数量以及输入任何给定搜索术语或短语的Google用户的偏爱。这些分级允许Google通过仅返回那些具有高于某一阈值(称为k)的等级的文档来优化搜索。Web搜索引擎使用的其它分级结果的方法包括“Hubs&Authorities”，其对链接入/出给定web页面或文档的链接，马尔可夫(Markov)链，以及随机游动。

发明内容

本发明公开了一种新的和新颖的搜索引擎形式，其利用一种计算机实现的方法以识别至少一个资源，该资源通过其的唯一URI(统一资源标识符)引用或者通过该资源的URL(统一资源定位符)来引用，这种资源对于任何给定用户问题、主题、或数字信息对象的题目有重要意义。对于本发明，用户问题或主题或题目均作为输入。该输入被一个软件功能使用，该软件功能尝试在数据对象的集合的范围内构造或发现逻辑结构，每个数据对象与提供该数据对象的资源相关联，而且所构造或发现的逻辑结构与该输入强相关。对于一个优选实施例，该软件功能是如在所述序列号No.11/273,568中描述的知识相关功能，而该逻辑结构是称为路径颤动(quiver)的有向非循环图形式。如果这种与输入强相关的逻辑结构被事实上构造或发现，则这种逻辑结构的数据对象成为一个答案空间(answer space)。利用该答案空间，另一个软件功能于是能够以高置信度来确定对该答案空间起作用的哪一个资源是对该答案空间最为重要的，并由此识别出对该输入问题、主题或题目最为重要的URL和URI。最后，一个软件功能被用于以对输入的重要性来分级每一个对该答案空间提供数据对象的URL和URI引用的资源。

本发明不同于现有的搜索引擎，因为本发明中所使用的如在所述序列号No.11/273,568中描述的知识相关过程试图构造路径的穷举集合，以描述所有称作X(或“起源”)的一个术语、短语、或概念与称作Y(或“目标”)的第二术语、短语或概念的最小值之间的连接-称为相关。如果事实上能够构造一个或多个这样的相关，则本发明识别所有对构造该相关起作用的所有资源是关联的。与现有的搜索引擎不同，本发明中的关联性不是孤立地应用到单个术语、短语或概念，而是应用到包括不仅X和Y而且在构造该相关中遇到的所有术语、短语和概念的相关性答案空间。由于这些新颖的特征，本发明唯一地能够满足利用单个web页面或文档无法回答的用户查询。

本发明的输入不同于当前所使用的，因为本发明的所有输入方式必须给出两个(2)不相同的术语、短语、或概念的最小值。“不相同的”在本应用中意指要求词汇或语义的重叠或者分离。如在所述序列号No.11/273,568中所描述的，最小的两个术语、短语或概念被称为X和Y(或“起源”和“目标”)。没有输入过程能够产生同义、一致、或幂等的X和Y术语、短语或概念。如现有技术那样，可以接受文本对象和数据对象(在本发明中，如X或Y)，而且题目和/或概念可以在提交给知识相关过程之前被提取。然而，与大多数(如果不是全部的话)现有搜索引擎不同的是，在本发明中并不限制输入的形式(术语、短语、概念或对象)。这是可能的，因为关联功能(知识相关)并不利用相似性度量以建立关联。这个特征将允许本发明与许多现有IR应用无缝地集成。

不考虑输入的形式或方法，本发明中的知识相关的目的是建立文档关联。目前，利用三种常规方法在IR中建立关联性：通过集合表示文档的集合理论模型；将文档表示为向量或矩阵的代数模型；以及使用概率论以便学习文档属性(如题目)的概率模型。每一种模型都提供一种确定一个或多个文档是否相似以及由此是否与给定的输入关联的手段。例如，最基本的集合理论模型使用标准Boolean方法确定关联性-输入单词是否出现在文档中？如果是，则文档相关。如果不是，则文档不相关。代数模型利用诸如向量空间模型的技术，在此被表示为术语向量的文档与被表示为术语向量的输入查询相比较。向量的相似性隐含了文档的关联性。对于概率模型，关联性是通过比较输入和文档的概率来确定的。

如上所述，本发明通过一种完全不同的过程，利用一种完全不同于任何现有搜索引擎的准则建立关联。然而，本发明依赖于语料库内“关联”源的发现和采集(特别是如果该语料库是WWW)。为此，如在所述序列号No.11/273,568中描述的，在发现阶段可以不受限制地利用现有技术的任何形式，以便帮助识别候选资源用于输入到知识相关过程。

对于所有的搜索引擎，简单地确定给定文档对给定输入的关联性是必要的但不是足够的。毕竟-以使用标准Boolean方法确定关联性为例-对于针对WWW的包含单词“计算机”的任何查询，可能有几千万的文档都被认为是关联的。如果用户实际上仅对描述“计算机”的特定应用的文档感兴趣，如此大的结果集将证明是不可用的。作为一个实际问题，用户需要搜索引擎从最为相关到最不相关将他们的结果分等级。典型地，用户更愿意使关联的文档以关联性降低的顺序给出-首先是最为相关的结果。由于大多数关联性功能产生真实的数值，一种分级任何搜索引擎结果集的自然的方式是根据它们各自的关联性分数来将结果集的成员分等级。

本发明利用一种新颖的分级方法，因为其是给定文档或资源对相关“答案空间”所作的贡献程度的函数。如在所述序列号No.11/273,568中所描述的，该答案空间根据称为节点的数据结构构成，节点又通过关联资源的分解来创建。即使是本发明最为自然的分级功能-该功能计数节点在答案空间内出现的频率-可以识别与原始用户查询唯一或强烈关联的文档。下文中更为详细地描述的本发明更为复杂的分级机制改进了该结果。

附图说明

图1是示意根据本发明一个方面的搜索引擎的功能部件的框图；

图2是图1的预搜索模块的矢量圆图；

图2A是用于根据本发明一方面的关键字、短语、句子和概念的示例性主题评估功能的一部分的框图；

图2B是用于根据本发明一方面的复合、复杂或正交主题以及用于单个简单web查询的示例性主题评估功能的剩余部分的框图；

图2C是根据本发明一方面的示例性题目检测模块和有关的适配器的框图；

图2D是根据本发明一方面的问题生成功能的框图；

图3是序列号No.11/273,568的图1A的拷贝；

图4是序列号No.11/273,568的图1B的拷贝；

图5是序列号No.11/273,568的图1C的拷贝；

图6是序列号No.11/273,568的图2A的拷贝；

图7是序列号No.11/273,568的图2E的拷贝；

图8是图1的后搜索模块120的框图。

具体实施方式

图1是被相关功能所接受的三个输入实例的框图。主题200通过主题评估功能220来评估。数字信息对象230通过题目检测模块240的适配器235针对某个题目执行检查。规范式问题生成功能250生成问题260作为输入。

在一个优选实施例中，如在下文中进一步描述的任何形式的且来自任何源的两个输入的最小值必须被提交给相关功能110。在那里有一个称为X或“起源”输入的第一个这种输入，而且在那里有一个称为Y或“目标”输入的第二个这种输入。因此，可接受的输入必须包含两个主题200、数字信息对象230、或问题260的任意组合。

在如下文进一步描述的另一个实施例中，作为主题200、数字信息对象230或问题260的一个X输入的最小值被提交给相关功能110。一个称为终止相关条件的第二输入被传递给相关功能110。作为相关目标的所需的Y的实际值直到相关功能满足终止相关功能为止保持未知。没有实际的Y输入需要被作为输入处理，但是需要满足对相关目标的要求。

图1中举例说明的第一个实例在图1A中更加详细地进行了说明。在一个实施例中，主题200可能是一个单独的关键字、短语、句子、或概念。当主题200是一个单独的关键字时，主题200不作进一步的处理地被主题评估功能220直接传递给相关功能110。同样，当主题200是一个短语时，主题200不作进一步地处理地被主题评估功能220直接传递给相关功能110。当主题200为一个句子时，一个自然语言分析器(NLP)133将被调用以便执行该句子的语法分析，以便以单词和/或短语的形式提取该句子的实际的主题200。这样的单词或短语接着将被传递给相关功能110。可能从句子中提取附加的单词或短语并且提交给相关功能110作为上下文。如在所述序列号No.11/23,568中所描述的，可以将除X或Y单词或短语之外的任何数量的上下文单词或短语提交给相关功能110以便改进所述功能。选择将从句子提取什么单词或短语(如果有的话)是基于NLP 133的任何词典中的单词或短语的成员资格的，而且缺少来自非用词的公共列表的单词。非用词在IR中是众所周知的。这种单词不能被用于建立IR的集合理论模型中的关联性，因此永远不会被添加到为这种模型建立的索引中。

在句子是匹配一个规范式的问题250的情况下，主题评估功能220将从该句子提取X和Y单词和短语，并将它们提交给相关功能110。当主题200是一个概念时，该概念单词和短语将或者作为X或者作为Y被提交给相关功能110，而且概念群集或映射中余下的术语将被提交给相关功能110作为上下文单词或短语。

在一个优选实施例中，主题将由用户借助于如序列号No.11/273,568的图2A的图形用户接口提供。在其它的实施例中，可以使用任何众所周知的输入接口(例如，文本输入域，口头输入等等)。

在一个实施例中，参考图1A，主题200将采取复杂主题的形式，即由一个独立的子句、以及一个或多个独立的子句构成的主题。例如，“regulation of pollution，given the effect of automobile pollution”。在其它的实施例中，主题200将采取复合主题的形式，即由利用诸如“and”、“or”、“not”的逻辑运算符连接的两个或多个独立的子句构成的主题。例如，“the Trilateral Commission and international NGOs notWorld Bank”。作为选择，主题200将采取由多部分的正交主题的形式，即由两个或多个未连接的而且可能是相对于彼此正交的独立的子句构成的主题。例如，“poaching，endangered species，men’s health，government intervention”。作为选择，主题200将采取由多部分的正交主题的形式，即由两个或多个未连接的而且可能是相对于彼此正交的独立的子句构成的主题。例如，“poaching，endangered species，men’s health，government intervention”。在这些实施例中，将对主题200应用用于子句识别的高级NLP方法(参见Hachey，B.C.2002.Thesis：Recongnising Clauses Using Symbolic and Machine LearningApproaches.Univercity of Edinburgh)，以首先将主题200分解为子句并从那里借助于语法分析分解为关键字和短语。子句识别技术将被用于在输入到相关功能110的X、Y、以及上下文之间进行判别。

在一个实施例中，主题评估功能220将确定用户提供的主题200是否将如大多数适当的响应那样产生一个列表作为来自本发明的响应。例如，参考图1B，如果用户提供的主题是“Italian restaurantsDover DE”，主题评估功能220将识别出Dover的意大利餐厅的列表，Delaware被查找到。在此情况下，主题评估功能220将或者引导用户使用诸如Google(Google公司的产品)或Yahoo(Yahoo公司的产品)的众所周知的简单web搜索引擎的其中之一，或者将直接调用那些简单搜索引擎的其中一个。作为选择，主题评估功能220将确定用户提供的主题是否将如大多数适当的响应那样产生单个web页面作为响应。例如，如果用户提供的主题是“show times rialto theatre”，主题评估功能220将识别出查找Rialto Theatre的网站。在此情况下，主题评估功能220将或者引导用户使用诸如Google或Yahoo的众所周知的简单web搜索引擎的其中一个，或者将直接调用Rialto Theatre的网站，或者将直接调用上述指定的简单搜索引擎的其中之一。这是通过自动短语识别技术实现的(参见Kelledy，F.，Smeaton，A.F.1997Automatic Phrase Recognition and Extraction from Text.Proceedingsof the 19^th Annual BCS-IRSC Colloquium on IR Research)，该技术利用了这样的规则，即当两个理想的短语正好包括主题220而且其中一个短语是适当的地理名称(例如，“New York City”)或适当的名称(“Rialto Theatre”)，而且其中一个短语为形容词+名称短语(“showtime”或“Italian restaurants”)时，则将调用简单web搜索引擎。可以容易地定义更为复杂的规则以便覆盖大多数情况。

在专利申请序列号No.11/273,568的图2A中全面地说明了图1中所示意的第三个模式，其中对相关功能110的输入是一个用户问题，而该用户问题将由不完全的规范式问题以及除此之外的一个或多个关键字组成，其中该关键字完成该问题[与众所周知的“填空”范例可相比]。作为选择，该不完全的问题将通过用户显式地选择。在一个实施例中，不完全的问题将通过用户从所支持的规范式问题的列表或菜单中选择。另外，不完全支持的规范式问题的列表或菜单将是“静态的”-即，在每次调用时该列表将不变化。作为选择，不完全支持的规范式问题的列表或菜单将是“动态的”-即，该列表在每次调用时变化。参考图1，不完全支持的规范式问题的动态列表或菜单将在每次调用时借助于软件功能生成，该软件功能，规范式问题生成功能250，是以计算机编程语言(例如，Java，Sun微系统公司的产品)编写的软件程序组件。作为选择，不完全的问题将是隐含的、通过软件程序组件，规范式问题生成功能250选择的问题。或者，将通过规范式问题生成功能250选择的不完全隐含的问题将是“静态的”-即，在每次调用时其将不变化。

在当前优选的实施例中，静态隐含选择的问题是“What are theconnections between[keyword1]and[keyword2]？”，作为选择，该静态隐含选择的问题是“What are the connections between[keyword1]and[keyword2]in the context of[keyword3]and/or[keyword4]and/or[keyword5]？”，或者，将通过规范式问题生成功能250选择的不完全隐含的问题将是“动态的”-即，在每次调用时其将变化。

在一个实施例中，用户将提供数字信息对象230。数字信息对象230将包括但不限于以下形式：

(i)文本(纯文本)文件。

(ii)普通文本格式(RTF)(由Microsoft公式开发的标准)。一种可选的方法是首先通过中间使用RTF-文本转换工具(例如，RTF-Parser-1.09，Pete Sergeant的产品)从RTF获得干净的文本。

(iii)扩展标记语言(XML)(WWW联盟的项目)文件。

(iv)任何形式的标记语言文件，包括但不限于：超文本标记语言(HTML)和可扩展超文本标记语言(XHTML^TM)(WWW联盟的项目)，RuleML(RuleML发起的项目)，标准通用标记语言(SGML)(一种国际标准)，以及可扩展样式表语言(XSL)(WWW联盟的项目)。

(v)可移植文档格式(PDF)(Adobe公司的专有格式)文件(借助于PDF-文本转换工具的中间使用)。

(vi)MS WORD文件，例如用于由MS WORD(Microsoft公司的字处理软件产品)存储文档的.DOC文件。本实施例有计划地利用一个MS Word-文本语法分析器(例如，Apache POI项目，Apache组织的产品)。POI项目API还允许有计划地调用来自Microsoft Excel电子表格文件(XLS)的文本析取。虽然XLS文件不能做到，MS Word文件也可以由NLP处理作为包含特殊字符的纯文本文件。

(vii)事件-信息捕获日志文件，包括但不限于：事务日志、电话呼叫记录、雇员工作时间记录单、以及计算机系统事件日志。

(viii)web页面。

(ix)blog页面。

(x)关系数据库行。

(xi)关系数据库视图。

(xii)关系数据库表。

(xiii)关系数据库答案集(即，由关系代数运算产生的行的集合)。

数字信息对象230的题目将通过一个软件程序组件，题目检测功能240的软件功能来确定。这种题目检测软件的实例已经在文献(参见Chen，K.1995.Topic Identification in Discourse.MorganKaufman)中较好地描述了。题目检测功能240将使用软件适配器235来实现，软件适配器235处理每种形式的数字信息对象230。这种软件适配器235是众所周知的(作为一个例子，参见http://www-306.ibm.com/software/integration/wbiadapters/framewor k)。题目检测功能的输出将是关键字和/或短语，该关键字和短语将接着被提交给相关功能110。

图8是根据本发明的一个方面由知识相关功能110基于如图1中描述的输入启动的搜索引擎过程的流程图，而且继续直到将结果呈现给用户。相关功能110将关联数据结构对象830、三元组835和有关对象837放入到答案空间885。对象在答案空间885中的重要性是通过重要性计算功能840确定的，重要性计算功能840为分级功能845建立数据以便根据重要性进行分级。输出接着被显示给用户。在相关功能创建任何类型的定向非循环图时，该图可以在由分层布局功能850针对布局进行组织之后被显示给用户。

本发明依赖于相关功能110的成功。下面来自专利申请序列号No.11/273,568的原文概括了在本发明中所使用的相关功能110。注意，下面的引号中对图的所有引用仅应用于来自专利申请序列号No.11/273,568的图。

“在如图1A表示的本发明的一个示例性实施例中，用户通过使用GUI接口输入至少一个项。图2A是用于接受用户输入的GUI组件的屏幕捕获。该接口中重要的字段是“X项”、“Y项”和“切线(Tangents)”。如在下文中将更为详细描述的，一个和五个术语或短语之间的用户的入口对本发明的行为有显著的影响。在如图2A中所示的一个优选实施例中，用户被要求提供至少两个输入术语或短语。参考图1A，通过输入到图2A的“X项”数据入口字段，用户输入100，“GOLD”被捕获作为可搜索的术语或短语110。通过输入到图2A的“Y项”数据入口字段，用户输入100，“INFLATION”被捕获作为可搜索的术语或短语110。一旦被用户启动，搜索120就负责识别有关所关心的术语或短语的信息的真实和潜在的源。针对对该所关心的术语或短语的关联性125测试每个真实和潜在的源。在所搜索的源当中是计算机文件系统、因特网、关系数据库、电子邮件存储库、分类实例、以及本体实例。被发现关联的那些源被称为资源128。对关联资源128的搜索120被称为“发现(Discovery)”。来自每个资源128的信息被分解130为称为节点的数字信息对象138。参考图1C，节点180A和108B是包含任何传达意义的数据结构。每个节点都是自包含的。除传达意义之外不要求节点别的什么东西。再次参考图1A，来自被成功分解130的资源128的节点180A、180B被放入一个节点池140。节点池140是用于数据存取和检索的逻辑结构。资源128的捕获以及分解为节点180A、180B被称为“采集”。然后利用节点池140中的称为成员节点的节点180A、180B构成一个相关155。参考图1B，相关是从节点池中明显包含所关心的术语或短语的节点的其中之一开始的。这样的一个节点称之为术语节点。当被用作相关中的第一个节点时，术语节点被称为原始节点152(源)。相关是以节点链(路径)的形式构成的。该路径在原始节点152(同义地参考作为路径根)处开始。该路径通过在节点池140的节点成员151之中搜索可以与原始节点152有关的成员节点151而被扩展。如果找到了这样的一个节点(合格成员151H)，则该合格成员节点被链接到原始节点152，并且指定为路径的当前终点。该路径通过与节点池的合格成员节点迭代相关联以及通过节点池的合格成员节点的相继链接被进一步扩展到相继指定的路径的当前终点，直到认为与该路径的当前终点有关并添加的合格成员节点是最终的节点(目标节点159)，或者直到节点池中不再有合格的成员节点为止。作为路径的最终节点的目标节点159的关联和链接被称为一次成功结果(目标状态)，在此情况下该路径此后被称作为相关155，而且这种相关155被保存。节点池中不再有任何合格成员节点并因此没有可接受的目标节点的条件被认为是一次失败的结果(穷举)，该路径被丢弃，并且不被称作为一个相关。一个完整的相关155将原始节点152与该相关中的每一个其它的节点相关联，而且特别是与该相关中的目标节点159相关联。这个过程被称为“相关(Correlation)”。相关155因此形成了一个横跨来自搜索中识别的所有源的信息并将信息绑在一起的知识桥。该知识桥是所发现的知识。”

如上所述，由于本发明依赖于相关功能535的成功，因此对应用到潜在的源的关联性测试(序列号No.11/278,568图1A项125)感兴趣。相关功能110的发现阶段如上所述利用了关联性测试(序列号No.11/278,568图1A项125)以便为后续的采集识别资源(序列号No.11/278,568图1A项128)。这些关联性测试(序列号No.11/278,568图1A项125)类似于在有关技术中描述的关联性方法并与之交叉。注意这样一个事实，即资源(序列号No.11/278,568图1A项128)被相关功能110认为是与保证采集足够的关联，并且不隐含或保证将发现该资源(序列号No.11/278,568图1A项128)以有意义的方式对答案空间800有所贡献。下面列表了序列号No.11/278,568中列举的关联性测试(序列号No.11/278,568图1A项125)。在本发明的一个实施例中，在序列号No.11/278,568中列举的所有的关联性测试(序列号No.11/278,568图1A项125)以及有关技术领域中描述的所有关联性方法将被相关功能110使用，以选择资源(序列号No.11/278,568图1A项128)用以采集。

根据序列号No.11/278,568的关联性测试包括但不限于：

(i)潜在的源包含对所关心的术语或短语的单一或多种形式的匹配。

(ii)潜在的源包含对所关心的术语或短语的同义词的匹配。

(iii)潜在的源包含对所关心的术语或短语有关的单词的匹配(如可能通过一个类属词典提供的那样相关)。

(iv)潜在的源包含对所关心的术语或短语有关的单词的匹配，在此潜在的源的内容和所关心的术语或短语之间的关系是通过一个权威的参考源建立的。

(v)使用诸如Merriam-Webster’s类属词典(Merriam-Webster公司的产品)的类属词典，确定是否有任何在搜索期间定位的潜在的源的内容是所关心的术语或短语的一个同义词或与之有关。

(vi)潜在的源包含对所关心的术语和/或短语的其中一个的权威参考中的定义中出现的单词的匹配。

(vii)使用诸如Merriam-Webster’s字典(Merriam-Webster公司的产品)的字典，确定是否有任何在搜索期间定位的潜在的源的内容出现在所关心的术语或短语的字典定义中，并因此与所关心的术语或短语有关。

(viii)潜在的源包含对出现在有关权威参考中所关心的术语或短语的讨论中的单词的匹配。

(ix)使用诸如Encyclopedia Britannica(EncyclopediaBritannica公司的产品)的百科全书来确定是否有任何在搜索期间定位的潜在的源的内容出现在所关心的术语或短语的百科全书讨论之中，并因此与所关心的术语或短语有关。

(x)潜在的源中包含的术语有一个与所关心的术语或短语有关的父节点、子节点或同胞节点。

(xi)使用分类确定潜在的源中包含的术语有一个与所关心的术语或短语有关的父节点、子节点或同胞节点。在这个实施例中，包含所关心的术语或短语的顶点在分类中被定位。这就是所关心的顶点。对于在潜在的源的内容中定位的每个单词，通过追踪从所关心的顶点到所关心的顶点的父、同胞和子顶点的关系(链接)，搜索分类的父、同胞和子顶点。如果任何的父、同胞或子顶点包含来自该潜在的源的内容的单词，则断言一个匹配，而且该源被认为是有关所关心的术语或短语的信息的实际的源。在这个实施例中，一个称为图形遍历功能的软件功能被用于定位和检查所关心的术语或短语的父、同胞和子顶点。

(xii)所关心的术语或短语与该潜在的源中包含的术语距离一个语义学距离的程度(长度)。

(xiii)所关心的术语或短语与该潜在的源中包含的术语距离两个语义学距离的程度(长度)。

(xiv)使用本体来确定一个语义学距离的程度(长度)，将源和所关心的术语或短语分隔开。在这个实施例中，包含所关心的术语或短语的顶点在本体中被定位。这就是所关心的顶点。对于位于潜在的源的内容中的每个单词，通过追踪从所关心的该顶点到所有相邻顶点的关系(链接)搜索本体。如果有任何的相邻顶点包含来自该潜在的源的内容的单词，则断言一个匹配，而且该源被认为是有关所关心的术语或短语的信息的实际的源。

(xv)使用本体确定两个语义学距离的程度(长度)，将源和所关心的术语或短语分隔开。在这个实施例中，包含所关心的术语或短语的顶点在本体中被定位。这就是所关心的顶点。对于位于潜在的源的内容中的每个单词，执行针对一个语义学程度的关联性测试。如果这个测试失败，则通过追踪从与所关心的该顶点相邻的顶点到所有相应的相邻顶点的关系(链接)搜索本体。这种顶点与所关心的顶点相距两个语义学程度。如果有任何的两个语义学程度的顶点包含来自该潜在的源的内容的单词，则断言一个匹配，而且该源被认为是有关所关心的术语或短语的信息的实际的源。

(xvi)使用诸如CYC Ontology(Cycory公司的产品)的通用本体，确定从所关心的术语和/或短语的其中一个到在搜索期间定位的潜在的源的任何内容的语义学距离的程度(长度)。

(xvii)使用诸如Gene Ontology(Gene本体联盟的项目)的专用本体，确定从所关心的术语和/或短语的其中一个到在搜索期间定位的潜在的源的任何内容的语义学距离的程度(长度)。

使用本体而且针对测试，利用本体语言(例如，Web OntologyLanguage)(OWL)(WWW联盟的项目)访问和导航该本体。

可能以这种方式被搜索的计算机包括：个人计算机、网络上的单个计算机、网络服务器计算机、网络本体服务器计算机、网络分类服务器计算机、网络数据库服务器计算机、网络电子邮件服务器计算机、网络文件服务器计算机。网络本体服务器是致力于支持针对大的用户组的语义搜索功能的任务的专用类型的高性能计算机。网络分类服务器是致力于支持针对大的用户组的分类搜索功能的任务的专用类型的高性能计算机。网络数据库服务器是致力于支持针对大的用户组的数据库功能的任务的专用类型的高性能计算机。网络电子邮件服务器是致力于支持针对大的用户组的电子邮件功能的任务的专用类型的高性能计算机。网络文件服务器是致力于支持针对大的用户组的文件持久性和检索功能的任务的专用类型的高性能计算机。计算机网络最少有两个网络节点而且网络节点的最大数量是无限的。计算机文件系统有最少两个文件而且最大文件数量是无限的。

在成功完成相关功能110之后将存在一个答案空间800。如在所述序列号No.11/273,568中描述以及图8中示意的本申请，答案空间800由各相关组成(序列号No.11/278,568图1B项155)。图5的各相关(序列号No.11/278,568图1B项155)又由节点组成(序列号No.11/278,568图1C项180A和180B)。图4的由相关功能110产生的成功的相关(序列号No.11/278,568图1B项155)一起构成模型作为一个优选实施例中的各相关的定向图(也称为有向图)。作为选择，图4的由相关功能110产生的成功的相关(序列号No.11/278,568图1B项155)一起构成模型作为成功相关的路径颤动。图4的由相关功能110产生的成功的相关(序列号No.11/278,568图1B项155)，相对于各相关，一起称为答案空间800。在此相关功能110构成路径颤动，其中路径颤动中的每条路径是一个成功的相关，所有成功的相关共享作为起始点的原始节点(序列号No.11/278,568图1B项152)，而且来自原始节点(序列号No.11/278,568图1B项152)的所有可能的相关(序列号No.11/278,568图1B项155)被构造。从同一个原始术语节点(序列号No.11/278,568图1B项152)开始并且以同一目标术语节点(序列号No.11/278,568图1B项159)或有关的目标术语节点(序列号No.11/278,568图1B项159)的相同集合结束的所有的相关(序列号No.11/278,568图1B项155)(路径)组成一个相关集合。

在当前优选的实施例中，答案空间800被存储在计算机数字存储器中，或者存储在计算机数字存储介质(例如硬盘)之上。这种数字存储器和数字存储装置是众所周知的。答案空间800短暂性或者持久驻留在计算装置、计算机联网的装置、或者个人计算装置之上。众所周知的计算装置包括但不限于：超级计算机，大型计算机，企业级计算机，服务器，文件服务器，刀片式服务器，web服务器，部门服务器，以及数据库服务器。众所周知的计算机联网装置包括但不限于：网关装置，数据存储装置，家庭因特网设备，机顶盒，以及车载计算平台。众所周知的个人计算装置包括但不限于：桌面个人计算机，膝上型个人计算机，个人数字助理(PDA)，高级显示蜂窝电话，高级显示寻呼机，以及高级显示文本消息收发装置。答案空间800包含两个节点(序列号No.11/278,568图1C项180A和180B)的最小值或与之关联，而且节点(序列号No.11/278,568图1C项180A和180B)的最大数量是无限的。

由于节点(序列号No.11/278,568图1C项180A和180B)是对通过相关功能110的发现阶段所识别的资源(序列号No.11/278,568图1A项128)应用分解功能(序列号No.11/278,568图1B项130)的产品，所以节点(序列号No.11/278,568图1C项180A和180B)与节点(序列号No.11/278,568图1C项180A和180B)从其导出的资源(序列号No.11/278,568图1A项128)强相关。这种资源(序列号No.11/278,568图1A项128)在此被称为起作用的(contributing)资源。此外，答案空间800与用户查询(表示为输入主题200、数字信息对象230、或问题250)强相关，因为成功的相关(序列号No.11/278,568图1B项155)是一个存在的证明(存在的量化)，即根据语料库的内容可以满足用户查询。本发明基于这样的一种事实，即用户查询与答案空间800的强烈关联对资源(序列号No.11/278,568图1A项128)是传递的，该资源提供节点(序列号No.11/278,568图1C项180A和180B)给答案空间，因此使得本发明的知识相关搜索引擎能够交付与用户查询关联的资源(序列号No.11/278,568图1A项128)的高度准确的链接。

本发明的一个要求是提供节点(序列号No.11/278,568图1C项180A和180B)给答案空间185的资源(序列号No.11/278,568图1A项128)必须被识别(即，哪些是起作用的资源000？)。如可以在序列号No.11/278,568的图1C中看出的，项180B，节点(序列号No.11/278,568图1C项180B)的一个成员是该序列(源)(序列号No.11/278,568图1C项188)。该序列(序列号No.11/278,568图1C项188)包含节点(序列号No.11/278,568图1C项180B)从其导出的资源(序列号No.11/278,568图1A项128)的URI(针对该节点(序列号No.11/278,568图1C项188)起作用的资源128)。因此，本发明可通过简单地枚举在答案空间185内的所有节点(序列号No.11/278,568图1C项188)内找到的所有资源(序列号No.11/278,568图1A项128)的URI，识别与用户查询相关联的起作用的资源128。

在一种改进的但仍然是基本的实施例中，可以检查每一个相关(序列号No.11/278,568图1B项155)，而且可以以一个直方图捕获该相关(序列号No.11/278,568图1B项155)中起作用的资源128的出现频率。所有起作用的资源128的出现的累积计数然后可以被存储。用于所有起作用的资源000的URI于是可以以出现频率的降序顺序被呈现给用户。对于这个实施例并且参考图2，各相关(序列号No.11/278,568图1B项155)的检查，起作用的资源128的出现频率的捕获，以及将所捕获的起作用的资源128的出现频率放置到直方图中是由重要性计算功能540执行的。针对所有起作用的资源128的出现的累积计数的排序是由分级功能545执行的，而将排序的结果呈现给用户是由分层布局功能550执行的。

在另一个基本的实例中，重要性计算功能842是一个基于通过每个起作用的资源128对答案空间885作出贡献的唯一节点(序列号No.11/278,568图1C项180B)的数量的统计功能。在这个实施例中，不考虑答案空间885内的任何相关(序列号No.11/278,568图1B项155)。重要性计算功能842首先列表答案空间885内的唯一节点(序列号No.11/278,568图1C项180B)，在该列表中对每一个节点(序列号No.11/278,568图1C项180B)有一个入口。然后，计数对每个起作用的资源128的参考的频率。利用标准的和众所周知的统计准则和方法可以度量统计的重要性，分级功能845所使用的k阈值被建立，而且最为重要的起作用的资源128可以被识别并呈现给用户。

对于另一个实例，重要性计算功能842使简单的出现频率与简单的贡献频率值相关，结果导致基本的重要性分数。如果使用分散绘图显示这个数据，则具有最高出现频率和最高贡献频率的重要资源1 28将被放置离右边最远处而且最靠近顶部。此外，至于下文中将进一步进行描述的重要性计算功能842的所有变化的实施例，可以利用标准的和众所周知的统计重要性度量来为分级功能845提供适当的k阈值信息。如果需要的话，重要性计算功能842可以使用另外的统计技术，包括但不限于：出现频率和简单的贡献之间的线性(众所周知的Pearson r)相关；绘图数据的非线性相关；诸如Kendall一致性系数的非参数统计方法，计算相互间具有对数关系的数据的几何平均，以及其它众所周知的技术来测量变量之间的关系。

在一个实施例中，可以通过利用诸如由该特定节点(序列号No.11/278,568图1C项180B)的起作用的资源128提供的节点(序列号No.11/278,568图1C项180B)的数量之上的出现比例、频率，或者由所有起作用的资源128提供的节点(序列号No.11/278,568图1C项180B)的平均数量之上的出现比例、频率的测量来计算节点重要性分数。为了改进重要性计算功能842的速度，节点重要性分数可以归一化为(0，1)或(-1，1)，利用该可能性，因此可快速确定给定的起作用的资源128对于答案空间是否重要或者不重要。

在另一个实施例中，重要性计算功能842是一个链接分析功能，该链接分析功能842将相关(序列号No.11/278,568图1B项155)作为输入。相比web图表，这利用了由相关功能110创建的相关(序列号No.11/278,568图1B项155)之间的差异。重要性计算功能842作为链接分析功能在答案空间128内的每个节点(序列号No.11/278,568图1C项180B)之上建立链接普及分数。该链接普及分数是通过对答案空间885内的每个节点(序列号No.11/278,568图1C项180B)的入度链接的数量来确定的。然后将由起作用的资源128提供的所有节点(序列号No.11/278,568图1C项180B)的普及分数值相加。在这个实施例中，由起作用的资源128所贡献的所有节点(序列号No.11/278,568图1C项180B)的合计的普及分数对该起作用的资源128自身是过渡(transit)的。

在一个实施例中，重要性计算功能842作为链接分析功能在每个节点(序列号No.11/278,568图1C项180B)之上建立重要性分数。该重要性分数是通过众所周知的Kleinberg Hubs和权限(Authorities)算法确定的。由起作用的资源128贡献的所有节点(序列号No.11/278,568图1C项180B)的Hub或权限分数接着被相加。在这个实施例中，由起作用的资源128贡献的所有节点(序列号No.11/278,568图1C项180B)的合计的Hub或权限分数对起作用的资源128是过渡的。在一个实施例中，重要性分数是通过众所周知的第2版的PageRank算法确定的。由起作用的资源128提供的所有节点(序列号No.11/278,568图1C项180B)的PageRank分数接着被相加。在这个实施例中，由起作用的资源128贡献的所有节点(序列号No.11/278,568图1C项180B)的合计的PageRank分数对起作用的资源128是过渡的。

资源重要性计算功能842的结果将通过一个软件功能，即分级功能845而被分级，该软件功能是一个软件程序组件。在一个实施例中，分级功能845实现了一个简单的降序排序，由重要性计算功能842给出最高值的起作用的资源128被分级功能845给予第一级，而其它起作用的资源128的依次的等级根据它们在重要性值的排序列表中的相对位置来指定。当重要性计算功能842是一个基于由每个起作用的资源128贡献给答案空间885的离散节点(序列号No.11/278,568图1C项180B)的数量的统计功能时，以及当分级功能845实现了一个简单的降序排序时，分级功能被称为按贡献分级。当重要性计算功能842是一个将计算由每个起作用的资源1 28提供给答案空间885的所有节点(序列号No.11/278,568图1C项180B)的关联性分数的和的统计功能时，以及当分级功能845实现了一个简单的降序排序时，分级功能被称为按关联性分级。当重要性计算功能842是一个将计算由每个起作用的资源128提供给答案空间885的所有节点(序列号No.11/278,568图1C项180B)的普及分数、Hub和权限分数、或PageRank分数的和的统计功能时，以及当分级功能845实现了一个简单的降序排序时，分级功能被称为按重要性分级。

在当前优选的实施例中，至少有两个类别的起作用的资源128贡献了节点(序列号No.11/278,568图1C项180B)给答案空间885。该两个类别的起作用的资源在此被指定为主题资源和参考资源。主题资源提供带有对题目的显式参考的节点(序列号No.11/278,568图1C项180B)，例如三元组GLOBAL WARMING-AFFECTS-GLACIERS。参考资源提供锚固(anchor)支持主题资源节点(序列号No.11/278,568图1C项180B)的知识中的基础的节点(序列号No.11/278,568图1C项180B)，例如三元组GLOBAL WARMING-IS-CLIMATECHANGE，或GLOBAL WARMING-FROM-EMISSIONS。

在一个实施例中，创建一个支持向量机(SVM)以便分类和分级起作用的资源。依赖于起作用的资源125分类的特性和数量，利用了SVM的变化，包括SVM-RFE(SVM-递归特征消除)，以及R-SVM(减少的SVM)。在一个当前优选的实施例中，需要将起作用的资源128分类为主题资源和参考资源，分类和分级起作用的资源128的SVM过程的应用基本上是一致的，SVM过程用作一个诊断分类器以便从癌组织样本中识别出健康的组织样本。

在一个当前优选的实施例中，由相关功能110构造或发现的相关(序列号No.11/278,568图1B项155)可以被显示给用户。这种显示被称为表示。在一个当前优选的实施例中，将利用分层布局890实现答案空间128的表示。在一个当前优选的实施例中，将利用一个软件功能，即分层布局功能850来创建分层布局890，分层布局功能850是一个软件程序组件。分层布局功能850以这样的一种方式在不同的层上指定图形节点：即，图中大多数的边沿同一个方向流动而且最小化相交的边的数量。在一个当前优选的实施例中，分层布局功能850使用Sugiyama-布局算法。

尽管在此已经详细举例说明了本发明的各种各样的实施例，明显的是对于本领域的技术人员来说，可以对这些实施例进行修改和变型，而不偏离下述权利要求书中阐明的本发明的范围。

Claims

1.一种用于基于至少一个用户提供的输入显示分级的多个资源的方法，所述方法包括：

执行至少一个输入评估功能，用于从所述至少一个用户提供的输入产生多个提取的输入；

通过使用自然语言语法分析将多个资源分解成多个节点，以基于语音的部分执行单词分类；

基于所述多个提取的输入通过在节点池上执行至少一个知识相关性功能来产生答案空间，所述节点池的每一个节点包括足以独立地传达意义的数据结构并且包含主题、属性以及其间的结合，所述知识相关性功能包含通过在所述节点池搜索链接的节点的属性和所述节点池中另一未链接的节点的主题之间的匹配而将来自所述节点池的节点迭代地添加到节点链的末尾上；

基于所述答案空间确定多个最重要的资源；

按重要性将所述多个最重要的资源分级，以由此产生分级的多个资源；以及

显示所述分级的多个资源。

2.根据权利要求1所述的方法，其中执行至少一个输入评估功能的步骤包括执行主题评估功能以从关键字，短语，句子，概念，复合、复杂或正交输入，以及简单web查询中的至少一个提取主题信息。

3.根据权利要求2所述的方法，其中对关键字和短语中的至少一个执行主题评估功能的步骤包括执行通过功能。

4.根据权利要求2所述的方法，其中对句子执行主题评估功能的步骤包括执行自然语言语法分析器功能。

5.根据权利要求2所述的方法，其中对概念执行主题评估功能的步骤包括对主题、对象以及上下文信息中的至少一个执行评估。

6.根据权利要求2所述的方法，其中对复合、复杂和正交输入中的至少一个执行主题评估功能的步骤包括执行子句识别功能和自然语言语法分析器功能。

7.根据权利要求2所述的方法，其中对简单web查询执行主题评估功能的步骤包括执行短语识别功能。

8.根据权利要求1所述的方法，其中所述用户提供的输入包括数字信息对象，并且执行至少一个用户输入评估的步骤包括使用题目检测模块适配器和其下游的题目检测模块。

9.根据权利要求8所述的方法，其中执行至少一个用户输入评估的步骤还包括使用所述题目检测模块下游的自然语言语法分析器。

10.根据权利要求1所述的方法，还包括执行问题生成功能以获得用于定义查询的至少一个用户提供的输入。

11.根据权利要求10所述的方法，其中执行所述问题生成功能包括生成问题的静态菜单。

12.根据权利要求10所述的方法，其中执行所述问题生成功能包括生成问题的动态菜单。

13.根据权利要求10所述的方法，其中所述查询具有规范的形式。

14.根据权利要求1所述的方法，其中所述最重要的资源与从所述答案空间识别的资源强相关。

15.根据权利要求1所述的方法，其中所述最重要的资源与用于创建所述答案空间的资源强相关。

16.根据权利要求1所述的方法，其中所述最重要的资源经过用于创建所述答案空间的资源与所述至少一个用户提供的输入传递地相关。

17.根据权利要求1所述的方法，其中所述分级的多个资源的关联性由答案空间的存在来保证。

18.根据权利要求1所述的方法，其中确定多个最重要的资源的步骤不使用相似性测量。

19.一种用于基于至少一个用户提供的输入显示分级的多个资源的方法，所述方法包括：

将多个资源分解成多个节点；

基于所述答案空间确定多个最重要的资源；

按重要性将所述多个最重要的资源分级，以由此产生分级的多个资源；

显示所述分级的多个资源。

20.根据权利要求19所述的方法，其中执行至少一个输入评估功能的步骤包括执行主题评估功能以从关键字，短语，句子，概念，复合、复杂或正交输入，以及简单web查询中的至少一个提取主题信息。

21.根据权利要求20所述的方法，其中对关键字和短语中的至少一个执行主题评估功能的步骤包括执行通过功能。