CN101128818A - 向信息源路由查询以及对查询结果进行分类和筛选 - Google Patents

向信息源路由查询以及对查询结果进行分类和筛选 Download PDF

Info

Publication number
CN101128818A
CN101128818A CNA200580047571XA CN200580047571A CN101128818A CN 101128818 A CN101128818 A CN 101128818A CN A200580047571X A CNA200580047571X A CN A200580047571XA CN 200580047571 A CN200580047571 A CN 200580047571A CN 101128818 A CN101128818 A CN 101128818A
Authority
CN
China
Prior art keywords
search results
inquiry
classification
score
ontologies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200580047571XA
Other languages
English (en)
Inventor
阿布杜尔·R.·乔杜瑞
格雷戈里·S.·帕斯
杰拉尔德·F.·坎贝尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Historic AOL LLC
Original Assignee
America Online Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by America Online Inc filed Critical America Online Inc
Publication of CN101128818A publication Critical patent/CN101128818A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Abstract

向与搜索查询类别相关联的信息源提交该搜索查询。该查询类别由将查询与类别相关联的查询知识本体来指示。代表从中检索出高百分比的该查询类别的查询的搜索结果的域的查询类别的专家域可以利用基础统计模型来建立。为搜索结果指定得分,并可以根据所指定的得分对其进行分类或筛选。所指定的得分基于该查询在搜索结果的替代表示内的存在、位置和形式。在筛选的例子中,可以对各对搜索结果进行检查,以便识别出搜索结果之间的显著质量落差(例如完全不同的指定得分)。可以删去得分低于这对搜索结果中较低等级的搜索结果的搜索结果。

Description

向信息源路由查询以及对查询结果进行分类和筛选
技术领域
本文献涉及检索以及呈现搜索查询的搜索结果。
背景技术
常规搜索引擎检索与搜索查询相对应的一组搜索结果。某些搜索结果可能将用户指向用户并不感兴趣的因特网资源,尽管这些搜索结果与搜索查询相匹配。例如,当一个查询涉及多个不同主题,而这些主题中的一个或多个对于查询提交者而言不太感兴趣或完全不感兴趣时,可能就会出现这个问题,在这种情况下产生了代表各个不同主题的搜索结果。
发明内容
在第一个一般方面,路由查询包括保持查询知识本体,该查询知识本体包含一个或多个查询类别,以及与该一个或多个类别中的每一个相关联的一个或多个查询。该查询知识本体中包含的与特定类别相关联的一个或多个查询代表与该特定类别相关联的查询。从用户接收查询。将所接收的查询与查询知识本体内包含的一个或多个查询进行比较。形成所接收查询的变形(variation)。每个变形均表示所接收查询中包含的一个或多个项的组合。在查询知识本体内识别与所接收查询的一个或多个形成的变形相对应的一个或多个类别。识别出对应于所识别类别之一的信息源,并将所接收查询路由给所识别的信息源。
至少关于第一个一般方面,实现方式可以包含一个或多个以下特征。例如,可以识别对应于一个或多个所识别类别的多个信息源,并可以将所接收查询路由给所识别的这些信息源。
路由所接收查询给所识别信息源可以包括向所识别信息源提交所接收查询,并从所识别信息源接收所接收查询的搜索结果。
路由所接收查询给所识别信息源可以包括向搜索引擎提交所接收查询,所接收查询带有仅从所识别信息源返回搜索结果的指令。可以从该搜索引擎接收所接收查询的,仅来自所识别信息源的搜索结果。
可以使用户能够感知到所接收查询的、来自所识别信息源的搜索结果。
在查询知识本体中对应于所识别类别的所识别信息源可以与所识别类别相关联。识别对应于所识别类别的信息源可以包括从查询知识本体中识别与所识别类别相关联的信息源。
保持查询知识本体可以包括将查询知识本体内的一个或多个类别排列为有向非循环图的节点。识别与所接收查询的变形相对应的、查询知识本体中包含的一个或多个类别可以包括识别该查询作为与所接收查询的变形相关联的在查询知识本体中所包含的类别的祖先类别或孩子类别在知识本体中包含的一个或多个类别。
识别与所接收查询的变形相对应的在查询知识本体中包含的一个或多个类别可以包括识别与所接收查询的变形相对应的在知识本体中包含的多个类别。可以将该多个类别的子集识别为与所接收查询的变形相对应的类别。识别该多个类别的子集可以包括根据所述类别的子集是否对应于单个查询的判断来识别所述该多个类别的子集。根据所述类别的子集是否对应于单个查询的判断来识别所述多个类别的子集可以包括根据所述类别的子集中所包含的类别对应于单个查询的概率来识别所述类别的子集。根据所述类别的子集中所包含类别先前是否对应于一个查询的判断来识别所述类别的子集。
所接收查询可以用与所接收查询相对应的在查询知识本体中所包含的类别相关联的信息来补充。
该信息源可以表示这样的信息源,能够从中识别与所识别类别相关联的查询的大百分比搜索结果。所接收查询的每一个变形均可以表示该查询内接连项的子集。在变形中按照该查询中包含接连项的次序包含这些接连项。
在第二个一般方面,识别查询的专家域包括保持查询知识本体,它包含一个或多个查询类别、以及与该一个或多个类别中的每一个相关联的一个或多个查询。该查询知识本体中所包含的与特定类别相关联的该一个或多个查询代表与该特定类别相关联的查询。检索该查询知识本体中所包含查询的搜索结果。确定从中识别该查询知识本体中总体上包含的查询的搜索结果之一的各个域在所检索搜索结果中的出现频率。检索与查询知识本体中所包含类别相关联的查询的搜索结果,并确定从中识别与该类别相关联的查询的搜索结果之一的各个域在所检索搜索结果中的出现频率。对于从其中识别与该类别相关联的查询的搜索结果之一的各个域,将它在与该类别相关联的查询的搜索结果中的出现频率与它在知识本体中总体上包含的查询的搜索结果中的出现频率进行比较。将在与该类别相关联的查询的搜索结果中比在查询知识本体中总体上包含的查询的搜索结果中更常识别出搜索结果的一个或多个域,识别为该类别的专家域。
至少对于第二个一般方面,实现方式可以包含一个或多个以下特征。例如,在查询知识本体中所识别的专家域可以与类别相关联。可以从用户接收查询。所接收查询的变形可以与该类别相关联,并且可以向用户呈现与该类别相关联的一个或多个专家域。一旦用户选择了这些专家域中的一个,就可以从所选的专家域检索所接收查询的专家搜索结果。
确定从中识别该查询知识本体中所包含查询的搜索结果之一的各个域在所检索搜索结果中的出现频率,可以包括确定从该域中识别的所检索搜索结果的数目。确定从中识别该类别中所包含查询的搜索结果之一的各个域在所检索搜索结果中的出现频率,可以包括确定从该域中识别的所检索搜索结果的数目。
确定从中识别该查询知识本体中所包含查询的搜索结果之一的各个域在所检索搜索结果中的出现频率,可以包括确定从该域中识别所检索搜索结果之一的概率。确定从中识别该类别中所包含查询的搜索结果之一的各个域在所检索搜索结果中的出现频率,可以包括确定从该域中识别的所检索搜索结果之一的概率。
一个域在查询知识本体中所包含查询的搜索结果中的出现频率可以与这个域在该类别中所包含查询的搜索结果中的出现频率进行比较。可以根据频率的比较结果来识别这个域的加权因子。可以将加权因子超出阈值加权因子的一个或多个域识别为专家域。可以将具有最高加权因子的特定数目的域识别为专家域。
检索查询知识本体中所包含查询的搜索结果可以包括,向搜索引擎提交该查询知识本体中所包含的每个查询,并从该搜索引擎接收每一个所提交查询的搜索结果。检索与查询知识本体中所包含类别相关联的查询的搜索结果可以包括,向搜索引擎提交与该类别相关联的每个查询,并从该搜索引擎接收每一个所提交查询的搜索结果。
检索查询知识本体中所包含查询的搜索结果可以包括检索搜索结果的子集。检索与查询知识本体中所包含类别相关联的查询的搜索结果可以包括检索搜索结果的子集。
可以使用户能够删除一个或多个所识别的专家域,并向所识别的专家域添加一个或多个额外的专家域。
在第三个一般方面,对搜索结果进行分类包括向多个搜索引擎提交从用户接收的查询。从该多个搜索引擎的每一个接收该查询的一组搜索结果。访问若干搜索结果中每一个的替代表示。根据与这些搜索结果中的每一个相对应的替代表示的视觉特性,为其指定得分。根据为搜索结果指定的得分来合并搜索结果的集合。
至少对于第三个一般方面,实现方式可以包含一个或多个以下特征。例如,合并搜索结果的集合可以包括创建搜索结果的一个单个列表,该列表包含按照递减得分排序的搜索结果。
根据与这些搜索结果中的每一个相对应的替代表示的视觉特性为其指定得分可以包括:根据相应替代表示内的查询项的存在,相应替代表示内查询项之间的距离,相应替代表示内查询项的次序,或者其组合来给搜索结果指定得分。
根据与这些搜索结果中的每一个相对应的替代表示的视觉特性为其指定得分可以包括:根据相应替代表示内存在的查询数量来给搜索结果指定得分。根据相应替代表示内存在的查询数量来给搜索结果指定得分可以包括:根据相应替代表示内存在的查询项的数目,根据相应替代表示内存在的查询项数目与该查询内查询项数目的比率,来给搜索结果指定得分。
根据与这些搜索结果中的每一个相对应的替代表示的视觉特性为其指定得分可以包括:根据反映查询项的相应替代表示的数量来给搜索结果指定得分。根据反映查询项的相应替代表示的数量来给搜索结果指定得分可以包括:根据相应替代表示内存在的查询项数目与相应替代表示中项数目的比率,来给搜索结果指定得分。
根据与这些搜索结果中的每一个相对应的替代表示的视觉特性为其指定得分可以包括:根据查询项在相应替代表示中的位置来给搜索结果指定得分。
搜索结果的替代表示可以包括由搜索结果的标题、超链接、日期、描述、关键字,和元数据构成的组中的至少一个。
搜索结果可以根据为搜索结果指定的得分来进行筛选。
在第四个一般方面,筛选一组搜索结果包括检索从用户接收的查询的搜索结果。对所检索的每个搜索结果识别一个得分。根据指定给它们的得分对该搜索结果中的两个进行选择。对这两个搜索结果进行选择,使得没有其他搜索结果指定了介于为这两个搜索结果指定的得分之间的得分。确定为这两个搜索结果指定的得分之间的差值。当为这两个搜索结果指定的得分之间的差值超出最大允许差值时,删去指定得分指示出低于这两个搜索结果中较低等级搜索结果的等级的搜索结果。
至少对于第四个一般方面,实现方式可以包含一个或多个以下特征。例如,可以删去指定得分小于或等于最小允许得分的搜索结果。
为所检索搜索结果中的每一个指定得分可以包括:为该检索结果指定由从其中检索搜索结果的源计算的得分。
检索搜索结果可以包括检索搜索结果的替代表示。为所检索搜索结果中的每一个指定得分可以包括:根据与所检索搜索结果中的每一个相对应的替代表示的视觉特性为其指定得分。根据与该搜索结果中的每一个相对应的替代表示的视觉特性为其指定得分可以包括:根据相应替代表示内的查询项的存在,相应替代表示内查询项的位置,相应替代表示内查询项之间的距离,相应替代表示内查询项的次序,相应替代表示内存在的查询项的数量,或者该查询占据的相应替代表示的数量,来给搜索结果指定得分。搜索结果的替代表示可以包括由搜索结果的标题、超链接、日期、描述、关键字,和元数据构成的组中的至少一个。
搜索结果可以根据所识别的得分来进行分类。
检索从用户接收的查询的搜索结果可以包括:向搜索引擎提交所接收的查询,并从该搜索引擎接收所接收查询的搜索结果。检索从用户接收的查询的搜索结果可以包括:向多个搜索引擎提交所接收的查询,并从该多个搜索引擎的每一个接收所接收查询的搜索结果。
可以使用户能够感知到没有删去的搜索结果。
确定为所述两个搜索结果指定的得分之间的差值可以包括:确定为这两个搜索结果指定的得分之间的绝对差值,或者确定与所述搜索结果之一的至少一个得分有关的为这两个搜索结果指定的得分之间的差值。
最大允许差值可以是由最大识别得分的百分比、最小识别得分的百分比、平均识别得分的百分比、最大识别得分和最小识别得分之间差值的百分比、为这两个搜索结果识别的得分之间差值的百分比、以及所识别得分的标准偏差的百分比构成的组中的至少一个。
这些一般和特定方面可以利用系统、方法或计算机程序,或系统、方法和计算机程序的任意组合来实现。
通过说明书和附图,并且通过权利要求,其他特征将会显而易见。
附图说明
图1是图示示例性联网计算环境的方框图。
图2A和2B是图示将查询关联于查询类别的示例性知识本体的方框图。
图3A和3B是图示图2A和2B的知识本体中所包含示例性类别的方框图。
图4是图示用于检索查询的搜索结果的示例性过程的流程图。
图5是图示用于解析含糊地对应于多个查询类别的查询的示例性过程的流程图。
图6图示了用于检索查询的搜索结果的示例性界面。
图7图示了与图6的界面相联系的,但在检索完特定查询的搜索结果之后可感知的另一个示例性界面。
图8图示了与图6和7的界面相联系的,但在解析特定查询以对应单个查询类别之后可感知的另一个示例性界面。
图9是图示用与该查询相对应的查询类别相关联的关键字来补充查询的示例性过程的流程图。
图10图示了与图6的界面相联系的,但在检索完用关键字补充的查询的搜索结果之后可感知的另一示例性界面。
图11是图示用于识别图2A和2B的知识本体中所包含查询类别的关键字的示例性过程的流程图。
图12是图示用于向与该查询相关联的查询类别相对应的信息源提交查询的示例性过程的流程图。
图13A图示了用于检索查询的搜索结果的另一示例性界面。
图13B图示了与图13A的界面相联系的,但在向与该查询类别相对应的一个或多个专家域提交查询之后可感知的另一示例性界面。
图14是图示用于识别图2A和2B的知识本体中所包含查询类别的专家域的示例性过程的流程图。
图15是图示根据搜索结果的替代表示的视觉特性,指定搜索结果的得分的示例性过程的流程图。
图16图示了搜索结果的示例性替代表示。
图17是图示根据为搜索结果指定的得分来筛选搜索结果的示例性过程的流程图。
在各图中相同的参考标记表示相同的元素。
具体实施方式
向与查询类别相关联的一个或多个信息源提交搜索查询。该查询类别用将查询关联于类别的查询知识本体来指示。该信息源代表从中检索出与该类别相关联的查询的高百分比搜索结果的域的信息源。例如,通过识别对应于该查询变形的类别来识别查询的类别,其中每个变形均代表该查询内的项组合,并且其中假定变形的类别是查询的类别。识别与查询类别相关联的信息源,并且向所识别信息源提交查询。向所识别信息源提交查询可能会导致为该查询检索的搜索结果更接近地反映指定该查询的用户所想要的搜索结果。
查询类别的专家域代表能够从中检索出与该类别相关联的查询的高百分比搜索结果的域。通过建立基础统计模型来识别专家域,基础统计模型表示域在为与多个类别相对应的查询而检索的搜索结果中的出现频率。另外,对于与类别相关联的查询而检索的搜索结果,确定域的出现频率。将在对应于该类别的搜索结果中更常出现的域识别为该类别的专家域。可以允许用户通过添加或移除该类别的专家域,来定制与一个或多个类别相关的专家域。
根据搜索结果的替代表示的视觉特征为搜索结果指定得分,该替代表示可以在搜索结果摘要概览中显示给查询提交者。也就是说,替代表示是搜索结果的相对短的摘要或摘录,它可以代替搜索结果自身而呈现,由此使用户能够同时感知到各个搜索结果的概览。根据相应替代表示内某些或全部查询的存在、位置,以及形式,给搜索结果指定得分。根据替代表示的视觉特性给搜索结果指定得分,模拟了当查看搜索结果摘要页面时,用户如何可以评价搜索结果的关联性。
可以根据所指定的得分对搜索结果进行分类或筛选。在一个筛选的例子中,可以对每对搜索结果进行检查,以便识别出搜索结果之间的显著质量落差,它可以用搜索结果的得分的很大的相对或绝对差值来表示。当为这对搜索结果指定的得分之间的差值超出最大允许差值时,可以删去得分指示出低于这对搜索结果中较低等级搜索结果的等级的搜索结果。
参见图1,示例性联网计算环境100使用户能够对特定的因特网资源进行搜索。客户端系统105由用户进行操控,以便向搜索界面110提供查询,从而执行对特定因特网资源的搜索。搜索界面110向一个或多个搜索引擎115a-115n提交查询。知识本体125和知识本体引擎120用来在提交给搜索引擎115a-115n之前,根据查询的类别对该查询进行消歧(disambiguate)和改订(reformulate)。源选择模块130识别应当根据查询的类别向其提交查询的一个或多个搜索引擎115a-115n。网络135将客户端系统105,搜索界面110,搜索引擎115a-115n,知识本体125,知识本体引擎120,和源选择模块130互联到一起。
客户端系统105包括一个或多个通信程序,这些程序可以由用户用来向搜索界面110提交特定因特网资源的搜索查询。这些通信程序可以包括web浏览器,电子邮件程序,即时消息通讯程序,文件传输协议(FTP)程序,或其他通信程序。客户端系统105还可以包括一个或多个输入设备,例如键盘,鼠标,触控笔,照相机,或麦克风,利用这些设备用户可以指定搜索查询。客户端系统105还包括一个或多个输出设备,例如监视器,触摸屏,扬声器,或打印机,利用这些设备可以向用户呈现来自搜索界面110的搜索查询的搜索结果。搜索结果可以是与搜索查询匹配的因特网资源的指示,或者是匹配的因特网资源本身。客户端系统105还可以配置为与联网计算环境100的其他部件进行通信。
搜索界面110从客户端系统105接收用户指定的查询。搜索界面110可以修改查询,并且可以向搜索引擎115a-115n中的特定搜索引擎提交查询,以便检索代表用户想要的搜索结果的所接收查询的搜索结果。例如,搜索界面110可以在多个查询类别当中将对应于所接收查询的一个查询类别,识别为用户打算为所接收查询使用的查询类别。可以对该查询进行消歧,从而该查询仅对应于想要的类别。另外,可以用通常在想要类别的查询的搜索结果中找到的,一个或多个关键字来改订该查询。此外,搜索界面110可以仅向搜索引擎115a-115n中,通常返回想要类别的查询的搜索结果的特定搜索引擎提交所接收的查询。根据查询的想要类别,修改所接收查询并且仅向搜索引擎115a-115中的特定搜索引擎提交所接收查询,使得为所接收查询检索的搜索结果能代表想要的类别。
搜索界面110还可以为所接收查询检索的搜索结果指定得分,或者将得分关联到为所接收查询检索的搜索结果。所指定的得分可以基于从搜索引擎115a-115n接收的搜索结果的替代表示的视觉特性。搜索界面110还可以根据所指定的得分对搜索结果进行分类或筛选,从而使客户端系统105知道与所接收查询最相关或最不相关的搜索结果,和/或从而筛选出最相关的或滤掉最不相关的搜索结果以便呈现给用户。
搜索引擎115a-115n识别与已经从搜索界面110接收到的查询匹配的因特网资源。搜索引擎115a-115n可以使用包含因特网资源索引的一个或多个数据库来识别匹配的因特网资源。这些索引可以包括对所接收查询匹配的,因特网资源的关键字或描述。如果因特网资源的关键字或描述与搜索查询匹配,则将该因特网资源识别为所接收查询的搜索结果。搜索引擎115a-115n可以配置为将所接收查询对数据库中标引出的所有可能因特网资源匹配,或者对来自特定源的数据库中标引出的因特网资源匹配。此外,搜索引擎115a-115n可以专业化,从而搜索引擎115a-115n之一的数据库仅标引特定的因特网资源。例如,搜索引擎115a可以是专用于小汽车的搜索引擎,从而搜索引擎115a仅仅标引出与小汽车相关的因特网资源。
知识本体125,还可以称作查询知识本体,将搜索查询关联于搜索引擎的类别。知识本体125可以将非常大量的搜索查询归类为相对小数目的搜索查询类别。知识本体125还可以为搜索查询的每一个类别识别一个或多个关键字。一个类别的关键字可以代表对应于该类别的查询的绝大部分搜索结果中出现的单词或短语。在某些实现方式中,知识本体125可以为搜索查询的每一个类别识别一个或多个专家域,它们代表能够从中识别出对应于每个特定类别的查询的绝大部分搜索结果的域。以下将关于图2A,2B,3A和3B,更为详细地描述知识本体125的结构。
知识本体引擎120是到搜索界面110访问的知识本体125的接口。知识本体引擎120从搜索界面接收查询,并识别出与所接收查询相对应的、来自知识本体125的一个或多个类别。更具体而言,知识本体引擎120在知识本体125中对查询进行搜索,并从在其中找到该查询的知识本体125返回一个或多个类别。另外,如知识本体125所示,知识本体引擎120可以返回与该查询相对应的一个或多个类别相关联的关键字。
源选择模块130识别一个或多个专家域,这些专家域可以用来识别搜索查询的适当搜索结果。更具体而言,源选择模块130从搜索界面110接收查询,并识别一个或多个专家域,这些专家域可以用来识别所接收查询的适当搜索结果。可以进行这样一种识别,首先使用知识本体125和知识本体引擎120识别所接收查询的一个或多个类别,然后识别与所识别类别相对应的一个或多个专家域。结果,源选择模块130可以将查询类别关联于适合于这些查询类别的专家域。在知识本体125识别该知识本体125中所包含类别的专家域的实现方式中,源选择模块130可以包含在知识本体引擎120中。在这种实现方式下,源选择模块130可以根据知识本体125中所包含的信息来识别查询的专家域。
网络135可以是连接联网计算环境100的部件的网络,例如因特网,万维网(WWW),广域网(WAN),局域网(LAN),模拟或数字有线或无线电话网络(例如公用交换电话网(PSTN),综合业务数字网(ISDN),或数字用户线路(xDSL)),无线电,电视,电缆,卫星,和/或用于承载数据的任何其他传输机制。联网计算环境100的部件通过能够通过网络135进行通信的通信路径连接到网络135。每一条通信路径均可以包括,例如有线,无线,电缆或卫星通信路径,诸如连接到电话线的调制解调器或直接互联网络连接。联网计算系统100的部件可以使用串行线路网际协议(SLIP),点对点协议(PPP),或传输控制协议/网际协议(TCP/IP),以便通过所述通信路径在网络135上彼此进行通信。
联网计算环境100的每个部件均可以使用下述装置来实现,例如能够以规定方式响应和执行指令的通用计算机,能够响应和执行指令的个人计算机,专用计算机,工作站,服务器,设备,部件,或其他设备或其某些组合。这些部件可以从例如软件应用程序,程序,一段代码,设备,计算机,计算机系统,或其组合接收指令,如此处所描述的,它们独立地或共同地指示操作。这些指令可以永久地或临时地体现为任意类型的机器、部件、设备、存储媒体、或者能够传送给这些部件的传播信号。
此外,联网计算环境100的各个部件均包含用来通过网络110发送通讯信息的通信接口。所述通讯信息可以包含,例如电子邮件消息,即时消息,音频数据,视频数据,通用二进制数据,或(例如,用美国信息互换标准码(ASCII)格式来编码的)文本数据。
参见图2A和2B,图1的知识本体125的一种实现的一部分包括排列为有向非循环图的节点的类别205a-205z。类别205a-205z中的每一个均与一个或多个代表该类别的查询相关联。与类别205a-205z之一相关联的查询可以认为是包含于该类别之中。类别205a-205z中的每一个还可以与该类别的一个或多个关键字和一个或多个专家域相关联。如上所述,关键字代表与该类别相关联的查询的绝大部分搜索结果中出现的单词或短语,而专家域代表能够从中识别出对应于该类别的查询的绝大部分搜索结果的域。
当在知识本体125中第一类别出现在第二类别上方时,该第一类别可以称为第二类别的父母类别,而第二类别可以称为第一类别的孩子类别。例如,在相对意义下,科学类别205d是父母类别,而类别205g-205k是科学类别205d的孩子类别。通常,直接自第一类别至第二类别的箭头表示第一类别是第二类别的父母类别。更一般而言,穿过一个或多个中间类别自第一类别至第二类别的一个或多个箭头表示第一类别是第二类别的祖先类别,而第二类别是第一类别的孩子类别。
父母类别包括比该父母类别的孩子类别中所包含查询更上位的查询。例如,科学类别205d比孩子类别205g-205k更上位,这些孩子类别包括物理类别205g,化学类别205h,动物类别205i,天文类别205j,和生物类别205k。与特定类别相关联的查询可以认为对应于该特定类别,以及对应于作为该特定类别的祖先或孩子类别的知识本体125中所包含的其他类别。此外,作为包括特定查询的类别的祖先或孩子类别的类别可以认为对应于该特定查询。在图2A和2B所示知识本体125的实现方式中,类别205a-205z中的每一个都只有一个父母类别。然而,在知识本体125的其他实现方式中,类别205a-205z中的每一个可以具有任意数目的父母类别和任意数目的孩子类别。
在某些实现方式中,类别205a-205z中的一些不与关键字或专家域相关联。在这些实现方式中,这些类别的关键字或专家域可以是与这些类别的一个或多个祖先类别或孩子类别相关联的关键字和专家域。例如,如果没有关键字和专家域与爬行动物类别205q相关联的话,那么来自动物类别205i,科学类别205d,或根类别205a的关键字和专家域可以用于爬行动物类别205q。当关键字和专家域与祖先类别的孩子类别相关联时,来自祖先类别的关键字和专家域可以用来代替,或附加到孩子类别的关键字和专家域。
在知识本体125的其他实现方式中,类别205a-205z并不排列为有向非循环图的节点,从而在类别205a-205z之间并不存在联系。因此,只能通过某一查询所关联的类别,识别该查询的关键字和专家域。在这样一种实现方式中,关键字,专家域可以与所有类别205a-205z相关联。
图3A和3B图示了来自知识本体125的示例性类别205m和205y。鸟类类别205m是动物类别205i,科学类别205d,和根类别205a的孩子类别。橄榄球队类别205y是橄榄球类别205t,运动类别205e,和根类别205a的孩子类别。类别205m和205y分别包括名称305a和305b,以及相关的查询列表310a和310b。在该例中,类别205m命名为“鸟类”并且与包含“鹰”、“知更鸟”、“北美红雀”和“蓝松鸦”的查询相关联,而类别205y命名为“橄榄球队”并且与包含“华盛顿红皮人”、“巴尔的摩乌鸦”和“费城鹰”的查询相关联。查询列表310a和310b中列出的查询可以手动地与类别205m和205y相关联,或者通过为这些查询识别适当类别的自动过程与别205m和205y相关联。
类别205m和205y可以与关键字列表315a和315b相关联。关键字列表315a中所包含的关键字代表查询列表310a中所包含查询的绝大部分搜索结果中出现的单词或短语。同样,关键字列表315b中所包含的关键字代表查询列表310b中所包含查询的搜索结果中经常出现的单词。在该例中,关键字列表310a包括关键字“鸟类”,“巢”,“蛋”,“喙”和“爪”,而关键字列表310b包括关键字“橄榄球”,“比赛”,“主教练”,“四分卫”和“直接球接手”。关键字列表315a和315b中所包含的关键字可以通过以下关于图11所描述的过程的执行来识别。
类别205m和205y还可以与专家域列表320a和320b相关联。专家域列表320a中所包含的专家域代表能够从中为查询列表310a中所包含的查询检索到绝大部分搜索结果的域。同样,专家域列表320b中所包含的专家域代表能够从中为查询列表310b中所包含的查询检索到绝大部分搜索结果的域。在该例中,专家域列表320a包括域“www.hbw.com”,“birdingonthe.net”,“home.planet.nl”,“www.mangoverde.com”,“www.camacdonald.com”,“www.birdforum.net”,“www.bird-stamps.org”,“www.phthiraptera.org”,“www.scricciolo.com”和“www.birdlife.net”;而专家域列表320b包括域“www.nfl.com”和“www.football.com”。专家域列表320a和320b中所包含的专家域可以通过以下关于图14所描述的过程的执行来识别。
查询列表315a和315b都包含一个查询,该查询包括单词“鹰”。结果,当例如从图1的客户端系统105接收包含单词“鹰”的查询时,类别205m和类别205y都将会识别为对应于所接收的查询。可以进行这样的识别,因为“鹰”匹配来自查询列表310a的查询“鹰”,并且匹配来自查询列表310b的查询“费城鹰”。换句话说,该查询可以含糊地对应于这两个类别205m和205y,即使从他那里接收查询的用户对于该查询来说,可能只想要查询205m和205y中的一个。可以对查询进行消歧,以便向用户提供适合于用户为该查询打算的类别的搜索结果。
参见图4,过程400用来获取查询的搜索结果。根据查询的类别来处理该查询。向与该查询的类别相对应的搜索引擎提交处理过的查询。对从搜索引擎接收到的搜索结果进行评分,并根据所指定的得分进行筛选。该过程由搜索界面如图1的搜索界面110来执行。
当搜索界面从用户接收查询(405)时过程400开始。搜索界面由客户端系统如图1的客户端系统105的用户进行访问。该搜索界面向客户端系统提供一个用户可以用来指定查询的用户界面,而客户端系统使该用户界面对用户可感知,以便用户可以指定查询。一旦进行了指定,就从客户端系统向搜索引擎发送查询,而搜索界面接收该查询。
当所接收的查询含糊地对应于多个查询类别时,搜索界面解析所接收的查询(410)。所述查询类别用将查询关联于一个或多个类别的查询知识本体指示,例如图1,2A和2B的查询知识本体。通常,解析该查询以对应于多个查询类别的子集。例如,在典型实现方式中,解析该查询以便只对应于多个查询类别中的一个,它对应于用户为该查询打算的查询类别。以下将关于图5的示例性过程410对查询的解析进行更为详细的描述。
接下来,搜索界面用与所解析查询相对应的单个查询类别相关联的关键字来补充所解析的查询(415)。关键字可以与查询知识本体中的单个类别相关联。关键字代表能够在与查询知识本体中单个类别相关联的查询的绝大部分搜索结果中找到的单词或短语。识别这些关键字,并且将这些关键字与诸如以下关于图11所描述过程的单个类别相关联。将关键字添加到所解析的查询中,以便为该查询检索的搜索结果能代表该单个类别。以下关于图9的过程415,对用关键字来补充查询的一个例子进行更为详细的描述。
搜索界面将补充后的查询路由到与补充后查询相对应的一个或多个搜索引擎(420)。更具体地,向与补充后查询相对应的查询知识本体中的单个类别相对应的一个或多个搜索引擎提交所补充的查询。向它提交补充后查询的搜索引擎代表能够从中检索到与该单个类别相关联的查询的绝大部分搜索结果的搜索引擎。举例来说,使用关于图14所述的过程来识别搜索引擎,并将搜索引擎与单个类别相关联。向一个或多个搜索引擎提交所补充的查询,从而响应于该查询而检索的搜索结果代表该单个类别。以下关于图12的过程420,对向一个或多个搜索引擎提交补充后查询的例子进行了更为详细的描述。
从一个或多个搜索引擎中的每一个接收所接收查询的搜索结果,并且搜索界面为所接收到的搜索结果指定得分(425)。一个或多个搜索引擎中的每一个均向搜索界面提供搜索结果的替代表示。搜索结果的替代表示是搜索结果相对短的摘要或摘录,它可以代替搜索结果自身而呈现。接下来搜索界面根据搜索结果的替代表示的视觉特性,指定搜索结果的得分。以下将关于图15的过程425,对为所接收的搜索结果指定得分的例子进行更为详细的描述。
搜索界面根据所指定的得分来筛选搜索结果(430)。更具体地,为搜索结果指定的得分之间的差值用来识别应当筛选的搜索结果。通常,大的得分差值表示应当删去该搜索结果。未删去的搜索结果代表最初从用户接收的查询的高质量搜索结果,尽管它们自身可能已经根据得分进行了分类。以下将关于图17的示例性过程430,对根据所指定得分来筛选搜索结果进行更为详细的描述。
搜索界面使客户端系统的用户可以感知到筛选出的搜索结果(435)。更具体地,搜索界面向客户端系统发送未删去的搜索结果的替代表示,而客户端系统向用户呈现该替代表示。
过程400的具体实现可以包括操作410-430的子集。例如,在一种实现方式中,在呈现给用户之前搜索结果可以不进行筛选。在另一实现方式中,在提交给一个或多个搜索引擎之前,可以不用关键字来补充查询。在另一实现方式中,查询可以提交给所有可用的搜索引擎,而不是只提交给与该查询类别相关联的搜索引擎。在又一实现方式中,可以不解析查询,尤其是当该查询最初只对应于查询知识本体中的一个类别时。
参见图5,过程410代表图4的操作410的一种实现方式,其中对与多个查询类别相对应的查询进行解析以对应于单个类别。作为图4的过程400的一部分,过程410可以由搜索界面,如图1的搜索界面110来执行。
搜索界面在一个知识本体中识别与所接收查询相对应的一个或多个类别(505)。该知识本体可以是图1的知识本体120。搜索界面可以使用知识本体引擎,如图1的知识本体引擎125来识别一个或多个类别。更具体地,搜索界面向知识本体引擎提供所接收的查询,而知识本体引擎在知识本体中对所接收的查询进行搜索。知识本体引擎通过把所接收的查询与该知识本体中所包含类别相关联的查询进行匹配来完成该操作。如果特定类别对应于与所接收查询相匹配的查询,则该特定类别对应于所接收的查询。知识本体引擎可以识别对应于所接收查询的,知识本体中所包含的所有类别。
搜索界面确定所接收查询是否对应于多个类别(510)。换句话说,搜索引擎510确定是否从知识本体引擎接收到,对应于所接收查询的来自知识本体的多个类别的指示。
倘若如此,对所接收查询进行解析,以便所接收查询只对应于多个类别中的一个(515)。更具体地,搜索界面选择多个所识别类别之一(515)。在一种实现方式中,选择多个所识别类别包括使指定所接收查询的用户能够从多个类别中选择一个。例如,可以在用来指定查询的用户界面上,把多个类别的指示呈现给用户。用户可以选择这些指示中的一个,而搜索界面选择相应的类别作为应当将该查询解析为的类别。
在另一实现方式中,搜索界面可以使用所接收查询的特性来选择多个所识别类别之一。例如,搜索界面可以识别对应于所接收查询一部分的,来自知识本体的一个或多个类别。可以按照类似于如何识别对应于整个所接收查询的类别的方式,来识别对应于所接收查询这部分的类别。所接收查询的这部分可以对应于单个类别,该单个类别可以是多个类别中的一个。在这种情况下,选择该单个类别作为应当将所接收查询解析为的类别。例如,查询“eagles receiver(鹰队直接球接手)”可以对应于橄榄球类别和动物类别,而该查询的“receiver(直接球接手)”部分可以对应于橄榄球类别和电子类别。橄榄球类别可以选择作为应当将查询解析为的类别,因为整个查询和查询的一部分都对应于橄榄球类别。
在另一实现方式中,搜索界面可以使用多个所识别类别的特性来选择所识别类别之一。例如,可以保存多个所识别类别中每一个被选择次数的指示,并且可以选择多个类别中被选择次数最多的一个。多个所识别类别的流行程度或适合程度的其他指示可以用来为所接收的查询选择多个所识别类别中的一个。在某些实现方式中,使用户能够选择多个类别之一,识别与查询一部分相对应的类别,以及识别与所接收查询相对应的多个类别的特性的组合,可以用来选择所接收查询的类别。
搜索界面用与所选择类别相关联的信息,或识别所选择类别的信息来补充该查询(520)。用与所选择类别相关联的信息,或识别所选择类别的信息来补充该查询可以包括,将该查询编排为所接收查询对于所选择类别的规范格式。所输入查询对于所选择类别的规范格式是与所输入查询匹配的,与所选择类别相关联的查询。当该查询不是完全匹配与所选择类别相关联的查询时,该查询的规范格式与该查询不同。例如,查询“鹰”匹配与橄榄球类别相关联的查询“费城鹰”。从而,“费城鹰”可以是查询“鹰”对于橄榄球类别的规范形式。
替代地或另外地,可以用与所选择类别相关联的一个或多个关键字来补充该查询。关键字代表能够在与所选类别相关联的查询的绝大部分搜索结果中找到的单词或短语。关键字可以在知识本体中与所选择的类别相关联。可以用这些关键字来补充该查询,从而对补充后查询而检索的搜索结果中包含这些关键字中的至少一个。
补充所接收的查询可以包括改订(reformulating)所接收的查询以便附着一个语法,按照该语法可以将查询提交给最终要向其提交补充后查询的搜索引擎。要向其提交补充后查询的每个搜索引擎均接受特定格式的查询,可以对查询进行改订以便反映要向其提交补充后查询的搜索引擎的特定格式。可以对所接收的查询进行补充,从而用户不被批准用相关信息来补充该查询,或者从而用户不可以感知到所补充的查询。
用信息对查询进行补充使得查询只对应于所选择的类别。换句话说,对查询进行补充将该查询解析为所选择的类别。从而,搜索引擎返回解析过的查询(525)。可以对返回的查询进行进一步处理,或者可以将返回的查询提交给一个或多个搜索引擎,以检索所返回查询的搜索结果。如果所接收的查询并不对应于知识本体中的多个类别(510),那么所接收的查询默认对应于单个类别。结果,不需要对所接收的查询进行解析,而可以简单地返回(525)。
在某些实现方式中,如图2A和2B所示,知识本体中所包含的类别排列为有向非循环图的节点。在这种实现方式中,识别与所接收类别相对应的类别(505)可以包括识别与所接收查询相关联的、知识本体中所包含的类别的祖先类别或孩子类别。另外,选择所识别类别之一可以包括,选择所识别类别之一的祖先类别或孩子类别。因此,用与所选择类别相关联的信息来补充所接收的查询(520)可以包括,用与所选择祖先类别或孩子类别相关联的信息来补充所接收的查询。
参见图6,当访问时可以通过图1的搜索界面110向图1的客户端系统105的用户呈现搜索工具用户界面600。例如,搜索工具用户界面600可以是搜索界面110响应于来自客户端系统105的请求,发送给客户端系统105的web页面。客户端系统105可以用在客户端系统105上运行的web浏览器,向用户呈现搜索工具用户界面600。搜索工具用户界面包括文本字段605和按钮610。用户可以将搜索查询输入到搜索字段605中。如图所示,用户可以在文本字段605中输入“鹰”作为搜索查询。在将搜索查询输入到文本字段605中之后选择按钮610,把搜索查询提交给搜索界面110,从而可以识别出该搜索查询的搜索结果。
参见图7,在选择了提交按钮610之后,搜索工具界面600显示为在文本字段605中输入的搜索查询检索的搜索结果705a-705e。另外,类别标识符710a-710c识别了与该搜索查询相对应的、图1,2A和2B的知识本体125中的类别。
类别标识符710a-710c指示该搜索查询对应于知识本体125中的多个类别。例如,对应于知识本体125中的音乐家类别的查询之一匹配于该搜索查询,如类别标识符710a所指示的。此外,类别标识符710b指示对应于知识本体125中的橄榄球类别的查询匹配于该搜索查询,类别标识符710b指示对应于知识本体125中的鸟类别的查询匹配于该搜索查询。
类别标识符710a-710c还可以指示相应类别的在文本字段605中输入的查询的规范形式。特定类别的输入的查询的规范形式是匹配于该输入的查询的与该特定类别相关联的查询。例如,所输入的查询匹配于与音乐家类别相关联的查询“鹰”,因此“鹰”是音乐家类别的输入的查询的规范形式。同样“费城鹰”是橄榄球类别的输入的查询的规范形式,且“鹰”是鸟类别的输入的查询的规范形式。
搜索结果705a-705c表示在搜索查询被消岐前为该搜索查询检索出的搜索结果。换句话说,搜索结果705a-705e是在给搜索查询补充以与用户打算为该搜索查询使用的来自该知识本体125的类别相关联的信息之前为该搜索查询检索出的。结果,搜索结果705a-705e表示代表所述多个类别的搜索结果。例如,搜索结果705a和705c表示音乐家类别,搜索结果705b表示橄榄球类别,且搜索结果705d和705e表示鸟类别。
用户可以选择类别标识符710a-710c中的一个,以表示相应的类别打算为该搜索查询所用。例如,用户可以选择类别标识符710a,以检索只与匹配于该搜索查询的音乐家相关的搜索结果。用户可以选择类别标识符710b,以检索只与匹配于该搜索查询的橄榄球相关的搜索结果,用户可以选择类别标识符710c,以检索只与匹配于该搜索查询的鸟类相关的搜索结果。而且,响应于对应于每个所选类别的哪些结果可以得以无缝地解译,或者可以通过可视指示符或屏幕位置在视觉上加以辨别,用户界面能够实现多于一个类别的选择。
参见图8,在选择了图7的类别标识符710a之后,搜索工具用户界面600显示搜索结果805a-805e,原始查询指示符810,所选类别指示符815,可用类别指示符820。当选择类别标识符710a时,用与类别标识符710a相关联的类别的相关信息来补充输入到文本字段605中的查询。例如,可以将查询格式重新编排为用类别标识符710a所选类别的查询的规范格式。更具体地,用类别标识符710a选择音乐家类别,因此将查询格式重新编排为“The Eagles(鹰)”,这是音乐家类别的查询的规范格式。另外,可以用与知识本体125中音乐家类别相关联的一个或多个关键字来补充该查询。这样的重新编排格式和补充可以在文本字段605中得以指示。
由于通过用与音乐家类别相关联的信息来补充查询从而对该查询进行消歧,搜索结果805a-805e都代表音乐家类别。更具体地,搜索结果805a-805e代表匹配补充后查询的因特网资源,它们只代表查询知识本体125中的音乐家类别。因此,搜索结果805a-805e都与命名为“The Eagles(鹰)”的音乐家有关。
指示符810-820识别了检索搜索结果805a-805e所采取的步骤,它们只代表一个查询类别。更具体地,指示符8210-820识别了原始查询,原始查询所对应的类别,以及原始查询已经解析成的类别。指示符810-820还允许通过一些步骤进行导航,从而以不同的方式对原始查询进行消歧,或者不用先对原始查询进行消歧就可以对搜索结果进行检索。
原始查询指示符810识别了在对查询进行消歧之前最初提交的查询。例如,查询指示符810表示原始查询是“eagles(鹰)”,因为在图6的文本字段605中输入了该查询。在一种实现方式中,原始查询指示符810中列出的查询可以是一个链接,可以选择该链接来检索原始查询的搜索结果,而不用对原始查询进行消歧。例如,选择原始查询指示符中列出的查询,可以导致呈现或显示与图7的搜索结果705a-705e类似的搜索结果。
所选类别指示符815识别了该查询要解析成的类别。更具体地,所选类别标识符815识别了原始查询所对应的多个类别当中,其相应类别标识符被选中的一个类别。例如,所选类别指示符815表示由于图7的类别指示符710a被选中,因此将原始查询解析成音乐家类别。
可用类别指示符820识别了原始查询所对应的多个类别当中,其相应类别标识符没有被选中的其他类别。例如,可用类别指示符820表示由于图7中相应的类别指示符710b和710c没有被选中,因此不将原始查询解析成橄榄球类别或解析成鸟类类别。可用类别指示符820所识别的每个类别都可以是一个链接,可以选择该链接来检索与该特定类别相关的搜索结果。换句话说,可用类别指示符820中列出的每个类别都可能类似于图7的类别标识符710a-710c中的一个。
在图6-8的搜索工具用户界面600的其他实现方式中,在选择类别标识符710a-710c中的一个之前,可以呈现该查询的多组搜索结果。类别标识符710a-710c中的每一个都可以与搜索结果中的一组相关联。与某一类别标识符相关联的搜索结果代表一个或多个搜索结果,它代表与该类别标识符相对应的查询类别。搜索结果中的一组可以包括在对搜索查询进行消歧之前检索的搜索结果。多组搜索结果可以帮助用户识别为该查询打算的类别。如图8所示,选择与所想要类别相对应的类别标识符可以导致呈现代表所想要类别的额外搜索结果。
参见图9,过程415表示图4的操作415的一种实现方式,其中用与某一查询所对应类别相关联的关键字来补充该查询。作为图4的过程400的一部分,过程415可以由搜索界面,如图1的搜索界面110来执行。
搜索界面在知识本体中识别与所接收查询相对应的一个类别(905)。可以按照与图5的过程410类似的方式,识别所接收查询相对应的类别。例如,搜索界面可以使用与知识本体连接的知识本体引擎,如图1的知识本体引擎120来识别类别。如果所接收的查询对应于知识本体中的多个类别,可以为所接收的查询选择这些类别中的一个(用户手动地或无须用户控制自动地),特别是当在执行过程415之前没有用图5的过程410来解析所接收的查询时。在知识本体中所包含的类别排列为有向非循环图的节点的实现方式中,识别与所接收查询相对应的类别可以包括,识别与所接收查询相关联的,该知识本体中所包含类别的祖先类别或孩子类别。
搜索界面识别与所识别类别相关联的一个或多个关键字(910)。这些关键字代表能够在与所选类别相关联的查询的绝大部分搜索结果中找到的单词或短语。在一种实现方式中,如图3A和3B所示,关键字与知识本体中的所选类别相关联。在这种实现方式中,搜索界面使用知识本体引擎来访问来自知识本体的关键字。在另一实现方式中,关键字可以保存在将查询类别关联于关键字的外部映射中。这样一种映射可以由搜索界面或知识本体引擎来保存。在这种实现方式中,识别关键字可以包括识别来自外部映射的关键字。
搜索引擎用所识别的关键字来补充所接收的查询(915)。可以用这些关键字来补充该查询,从而对补充后查询而检索的搜索结果中包含这些关键字中的至少一个。用关键字来补充查询增大了对补充后查询而检索的搜索结果代表所识别类别的机率。所识别类别的查询的绝大部分搜索结果包括这些关键字,因此包含这些关键字中一个或多个的搜索结果很可能代表所识别的类别。在一种实现方式中,在用所识别的关键字来补充该查询之前,可以把所识别的关键字呈现给用户,从而用户可以选择所识别关键字中的哪些应当用来补充所接收的查询。可以对所补充的查询进行改订,以便附着一个语法,按照该语法可以将查询提交给要向其提交补充后查询的搜索引擎。可以对所接收的查询进行补充,从而用户不被批准用关键字来补充该查询,或者用户不可以感知到所补充的查询。
保存查询类别的关键字可能比保存各个查询的关键字更有利,尤其是当类别数目显著小于各个查询的数目时。保存查询类别的关键字而不是各个查询的关键字,降低了关键字所需的存储空间。
参见图10,在用与为查询所打算的类别相关联的一个或多个关键字补充该查询之后,搜索工具用户界面600显示为文本字段605中输入的查询而检索的搜索结果1005a-1005e。如果输入到图6的文本字段605中的搜索查询只对应于一个类别,那么在选择了图6所示搜索工具用户界面600的按钮610之后,可以呈现图10所示的搜索工具用户界面600。替代地,如果输入文本字段605中的搜索查询对应于多个类别,那么在选择了图7的一个或多个类别标识符710a-710c之后,可以呈现图10所示的搜索工具用户界面600。
搜索结果1005a-1005e代表知识本体125的鸟类类别,这是因为已经用与鸟类类别相关联的关键字补充了文本字段605中输入的查询。由于该查询只对应于鸟类类别,或者由于选择了图7中对应于鸟类类别的类别标识符710c,因此可以将这些关键字添加给该查询。除了包含原始查询“eagles(鹰)”以外,搜索结果1005a-1005e还可以包含用来补充原始查询的一个或多个关键字。
可以使从他那接收查询的用户能够感知到用来补充查询的关键字,也可以使该用户不能感知到用来补充查询的关键字。因此,通过在所示搜索工具用户界面600中的文本字段内对查询进行修改,在文本字段605内该查询可能被修改,也可能不被修改。
参见图11,过程1100用来将关键字与查询知识本体中所包含的查询类别相关联。过程1100识别来自查询知识本体中特定类别的查询的绝大部分搜索结果中出现的单词或短语,并将所识别的单词作为该特定类别的关键字与该特定类别相关联。这些关键字用来补充对应于特定类别的查询,从而为特定类别而检索的搜索结果能代表该特定类别。图1中的两者,由知识本体引擎120执行过程1100以准备知识本体125。
当保存和/或访问将查询关联于查询类别的知识本体时,过程1100开始(1105)。例如,保存与图1,2A和2B的知识本体125相类似的知识本体。
知识本体引擎向一个或多个搜索引擎提交与该知识本体中所包含类别相关联的查询(1110)。在一种实现方式中,把知识本体中所包含的所有查询都提交给一个或多个搜索引擎。在另一实现方式中,把来自知识本体中所包含各个类别的特定数目的查询提交给一个或多个搜索引擎。通常,可以提交知识本体中所包含的任意数目的查询,尤其是当所提交的查询均匀地代表知识本体中所包含的类别时。
此外,在某些实现方式中,可以将查询提交给所有可用的搜索引擎或者可用搜索引擎的子集。例如,可以将查询提交给可以从它那儿检索许多类型的搜索结果的通用搜索引擎。替代地,可以将查询提交给可以从它那儿检索专用类型的搜索结果的多个搜索引擎。作为另一个例子,可以将查询既提交给通用搜索引擎,又提交给专用搜索引擎。通常,可以将查询提交给任意一组搜索引擎,尤其是当可以从这些搜索引擎均匀地检索不同类型的搜索结果时。从向其提交查询的一个或多个搜索引擎接收所提交查询的搜索结果(1115)。
知识本体引擎确定所接收搜索结果中出现的每个单词在所接收搜索结果中的出现频率(1120)。知识本体引擎还可以确定在所接收搜索结果中出现的一个或多个短语在所接收搜索结果中的出现频率。确定单词或短语的出现频率包括确定该单词或短语在所接收结果之一中出现的概率。这种概率可以定义为包含该单词或短语的所接收搜索结果数目与所接收搜索结果数目的比率。替代地,确定单词或短语的出现频率可以包括确定包含该单词或短语的所接收搜索结果的数目。在一种实现方式中,可以只使用所检索搜索结果的子集,来确定该单词或短语出现在所接收搜索结果中的出现频率。例如,非常接近地匹配各个所提交查询的搜索结果的特定数目可以用来确定该频率。
所确定的出现频率代表单词或短语来自搜索结果的随机集合或常规集合的频率的基础统计模型。能够将所确定的频率与为来自查询知识本体中特定类别的查询的搜索结果所确定的频率比较。将来自特定类别的查询的搜索结果中频率较高的单词或短语识别为该特定类别的关键字。
接下来,知识本体引擎从知识本体中选择一个类别(1125)。知识本体引擎向一个或多个搜索引擎提交与所选类别相关联的查询(1130)。可以向一个或多个搜索引擎提交与所选类别相关联的某些或所有查询。这些查询可以提交给先前向其提交来自这些类别的查询的,同样的搜索引擎。从所述一个或多个搜索引擎接收出自所选类别的,所提交查询的搜索结果(1135)。
知识本体引擎确定所接收搜索结果中出现的每个单词在为出自所选类别的所提交查询接收的搜索结果中的出现频率(1140)。知识本体引擎还可以确定所接受搜索结果中出现的一个或多个短语在所接收搜索结果中的出现频率。可以按照类似于先前如何利用为知识本体中所包含查询而接收的搜索结果来确定频率的方式,来确定这些频率。
对于所接收搜索结果中出现的每个单词,知识本体引擎比较出自所选类别的查询的搜索结果中的出现频率与出自这些类别的查询的搜索结果中的出现频率(1145)。知识本体引擎还可以比较所接收搜索结果中出现的短语的出现频率。通常,比较特定单词或短语的这两个频率表示该特定单词或短语是否在出自所选类别的查询的搜索结果中更常出现。比较这两个频率还可以表示该特定单词或短语是否在出自所选类别的查询的搜索结果,和出自这些类别的查询的搜索结果这两者当中,以相对等同的频率出现。比较这两个频率可以包括识别该单词或短语的加权因子。该加权因子表示这两个频率之间的相对差别。在一种实现方式中,高加权因子可以表示该单词或短语在出自所选类别的查询的搜索结果中,比出自这些类别的查询的搜索结果中更常出现。另一方面,低加权因子可以表示该单词或短语在出自所选类别的查询的搜索结果中,不比出自这些类别的查询的搜索结果中更常出现。
把在出自查询知识本体中所选类别的查询的搜索结果中更常出现的单词识别为所选类别的关键字(1150)。另外,可以把在出自查询知识本体中所选类别的查询的搜索结果中更常出现的一个或多个短语识别为所选类别的关键字。关键字的识别可以基于在所接收搜索结果中出现的单词或短语的加权因子。在一种实现方式中,将具有最高加权因子的特定数目的单词或短语识别为关键字。在另一实现方式中,将加权因子超过阈值加权因子的单词或短语识别为关键字。
可以使用户能够添加或移除所选类别的关键字(1155)。例如,用户可以使用客户端系统,如图1的客户端系统105来访问知识本体引擎,以便添加或移除所选类别的关键字。替代地,用户可以访问知识本体引擎来直接指定关键字。添加或移除所选类别的关键字的用户可以是知识本体和知识本体引擎的编辑者或管理者。使用户能够复核自动识别的关键字能够使用户确定为所选类别识别的最佳关键字。用户可以移除不是所选类别最佳关键字的关键字。用户还可以添加没有自动识别为所选类别最佳关键字的关键字。在某些实现方式中,可以防止用户移除一个或多个关键字。例如,可以防止用户移除已经识别了最佳加权因子的关键字。因此,具有最佳加权因子的关键字总是可以与所选的类别相关联,并可以用于所选的类别。
知识本体引擎将一个或多个所识别的关键字与所选类别关联起来(1160)。在一种实现方式中,如图2A和2B所示,关键字与查询知识本体中的所选类别存储在一起。在另一实现方式中,通过这些类别相对于查询知识本体外部的类别的关键字的映射,将关键字与所选类别相关联。这种映射可以由知识本体引擎来保存。
知识本体引擎确定是否已经为查询知识本体中所包含的所有类别识别了关键字,或者是否需要为更多的类别识别关键字(1165)。倘若这样,那么知识本体引擎选择还没有为它识别关键字的类别之一(1125),向一个或多个搜索引擎提交与所选类别相关联的查询(1130),并接收所提交查询的搜索结果(1135)。确定单词或短语的出现频率(1140),并将该频率与先前确定的,出自这些类别的查询的搜索结果中出现的单词或短语的出现频率进行比较(1145)。根据该比较,识别所选类别的关键字(1150),由用户进行修改(1155),并将它与所选类别相关联(1160)。以这种方式,循序地为查询知识本体中所包含的每个类别识别关键字,直到为查询知识本体中所包含的所有类别都识别了关键字为止,此时过程1100完成(1170)。
参见图12,过程420表示图4的操作420的一种实现方式,其中把查询提交给与该查询所对应类别相关联的信息源。作为图4的过程400的一部分,过程420可以由搜索界面,如图1的搜索界面110来执行。
搜索界面识别所接收查询的可能项组合(1205)。例如,如果所接收的查询包括三个项,该可能组合可以包括第一项,第二项,第三项,第一和第二项,第二和第三项,以及第一,第二和第三项。在这个典型实现方式中,所接收查询的可能项组合表示所接受查询的连续项的子集,并且保持该连续项的次序。这种实现方式是有利的,因为查询中项的次序和位置通常会影响查询的主题,并由此影响该查询的类别。例如,对于查询“wooden Venetian blind”而言,组合“Venetianblinds”可能比组合“blind Venetian”或组合“wooden blind”与该查询的含义更相关。此外,限制查询项可允许组合的数目限制了可以与组合相对应的类别的数目,这可以限制向其提交搜索查询的信息源的数目。然而,在另一实现方式中,该可能组合还可以包括所接收查询的非连续项的子集(例如,在三个项的最初例子中,第一和第三项),并且可以改变每个可能组合中各项的序列,以识别额外的组合。识别所接收查询的项的可能组合可以称作所接收查询的n元字符排列(n-gramming)。
搜索界面在知识本体中识别与每个项可能组合相对应的一个或多个类别(1210)。可以按照类似于图5的过程410的方式,来识别与每个组合相对应的类别。例如,搜索界面可以使用与知识本体连接的知识本体引擎,如图1的知识本体引擎120来识别这些组合的一个或多个类别。在知识本体中所包含的类别排列为有向非循环图的节点的实现方式中,识别与这些组合相对应的一个或多个类别可以包括识别与这些组合相关联的,知识本体中所包含类别的祖先类别或孩子类别。与每一个可能组合相对应的类别代表整个查询的类别。
可以根据这些类别是否对应于单个查询的判断来筛选与该查询的项组合相对应的类别(1215)。例如,类别的某一子集是否对应于先前所接收查询的指示可以用来判断是否应当对这些类别进行筛选。替代地或另外地,类别的某一子集对应于单个查询的概率可以用来判断是否应当对这些类别进行筛选。该概率可以基于为先前所接收查询识别的类别。例如,出自该查询的项组合可以对应于三个类别。这三个类别一起可能并不对应于先前所接收的查询,但是这些类别中的两个非常可能都对应于单个查询。因此,可以将这两个类别识别为该查询的类别,而删去第三个类别。减少与查询相对应类别的数目可以减少向其提交类别的信息源的数目。
搜索界面识别与未删去的所识别类别相关联的一个或多个信息源(1220)。这些信息源代表能够从中识别与所识别类别相对应的查询的绝大部分搜索结果的域。这些信息源一般代表所识别类别上的专家和所有对应的查询和关键字,而不是与所识别类别相关联的任何特定查询上的专家(尽管特定专家可以提供双方的专家意见)。在一种实现方式中,如图3A和3B所示,信息源与知识本体中所识别的类别相关联。在这种实现方式中,搜索界面使用知识本体引擎来访问来自知识本体的信息源。在另一实现方式中,信息源可以保存在将查询类别关联于该查询的信息源的外部映射中。这种映射可以由源选择模块,如图1的源选择模块130来保存。在这样一种实现方式中,识别信息源可以包括识别来自外部映射的信息源。
搜索界面向所识别的信息源提交所接收的查询(1225)。向所识别的信息源提交查询可以包括向所识别的信息源提交查询,从而信息源可以识别来自这些信息源的查询的搜索结果。向所识别的信息源提交查询还可以包括,向一个或多个搜索引擎提交该查询和一个指令,该指令指示只返回来自所识别信息源的搜索结果。向所识别的信息源提交查询增大了对该查询而检索的搜索结果代表该查询类别的机率。从所识别的信息源中识别与该查询相对应的类别的查询的绝大部分搜索结果,因此来自所识别信息源的搜索结果很可能代表与该查询相对应的类别。
将与该查询的项组合之一相对应的信息源识别为适用于该查询,消除了将所有可能查询关联于查询类别的需求。可能查询的数目禁止对查询的每一个都识别类别。此外,这组可能的查询经常地发生变化。然而,可以用来构建查询的项的数目允许对这些项中的每一个识别一个或多个类别,并且这组查询项是相对固定的。假设某一查询的类别是该查询的项的类别,那么查询项的这种分类能够实现对另外所禁止大数目的查询进行分类。
向可用搜索引擎的子集,而不是向所有可用的搜索引擎提交查询可能是有利的,这是因为大多数可用搜索引擎可能并不为每个查询提交想要的搜索结果。此外,网络资源得以保藏,因为只在有限数目的系统之间发生通信。通常,向其提交查询的搜索引擎数目越小,对应于所保藏的网络资源越多,从而返回高质量搜索结果的搜索引擎的小子集可以用来保藏大量的网络资源。另外,识别查询类别的信息源可能比识别各个查询的信息源,或者识别各个查询项的信息源更好。尤其是当类别数目显著小于各个查询的数目时,这是特别正确的。保存查询类别的信息源的指示符,而不是保存各个查询或查询项的信息源的指示符,这降低了信息源的指示符所需的存储空间。
参见图13A,搜索工具用户界面1300类似于图6,7,8和10的搜索工具用户界面。搜索工具用户界面1300包括用户可以向其中输入搜索查询的文本字段1305,和可以选择用来检索所输入查询的搜索结果1315a-1315f的按钮1310。如图所示,用户可以在文本字段1305中输入“鹰”,并选择按钮1310来检索搜索结果1315a-1315f。搜索工具用户界面1300还包括类别标识符1320a-1320c,它们识别与所输入查询相关联的查询类别。
类别标识符1320a-1320c代表在文本字段1305中输入的查询与知识本体125中的多个类别相关联。更具体地,如类别标识符1320a所示,该查询与音乐家类别相关联,而如类别标识符1320b所示与鸟类类别相关联,而如类别标识符1320c所示与橄榄球类别相关联。例如关于图5的过程410,搜索结果1315a-1315f可以代表在对搜索查询进行消歧,以便只对应于多个类别中的一个之前对搜索查询进行检索的搜索结果。因此,可能不能从与多个类别中一个特定类别相对应的信息源,检索出所有的搜索结果1315a-1315f。相反,搜索结果705a-705e来自于与多个类别中多于一个类别相对应的信息源,或者来自于不对应于多个类别中任何一个的信息源。因此,搜索结果1315a-1315e可以代表多个类别。例如,搜索结果1315a和1315c代表橄榄球类别,搜索结果1315b和1315d代表音乐家类别,而搜索结果1315e代表鸟类类别。
用户可以选择类别标识符1320a-1320c中的一个,以指示为该搜索查询所打算的相应类别。例如,用户可以选择类别标识符1320a,1320b,或1320c,以便指示为该查询分别打算使用音乐家类别,鸟类类别或橄榄球类别。然后可以将该查询提交给与所打算类别相对应的一个或多个信息源,从而可以从这些信息源检索搜索结果1305a-1305f。
参见图13B,在选择了图13A的类别标识符1320b之后,搜索工具用户界面1300显示信息源指示符1325a-1325j和搜索结果1330a-1330f。信息源指示符1325a-1325j识别了与通过选择类别标识符1320b为查询选择的,鸟类类别相对应的信息源。例如,信息源指示符1325a-1325b中的每一个都对应于例如来自图2A和2B的示例性知识本体125的示例性鸟类类别205m的,图3A的专家域列表320a中列出的一个专家域。
可以从为其显示信息源指示符1325a-1325j的信息源中的一个,检索搜索结果1330a-1330f中的任意一个。由于搜索结果1330a-1330f是从与鸟类类别相对应的一个或多个信息源检索到的,因此搜索结果1330a-1330f都代表鸟类类别。此外,选择信息源指示符1325a-1325j中的一个可能会导致只从相对应的信息源检索搜索结果,并且相对于来自其他源的结果,以排除方式或者以明显的视觉偏好,或者以相对次序进行显示,这进一步确保了这些搜索结果代表上述例子中的鸟类类别。
在选择了类别标识符1320b之后,可以选择类别标识符1320a和1320c以分别检索来自与音乐家类别和橄榄球类别相对应的信息源的,该查询的搜索结果。选择类别标识符1320a和1320c之一可能会导致与所选类别相对应的信息源的一个或多个信息源指示符得以显示。可以选择每一个信息源指示符,以便检索和显示只来自相应信息源的搜索结果。
在图13A和13B的搜索工具用户界面的其他实现方式中,在选择类别标识符1320a-1320c中的一个之前,可以呈现该查询的多组搜索结果。类别标识符1320a-1320c中的每一个都可以与一组搜索结果相关联。与某一类别标识符相关联的搜索结果代表从与该类别标识符相对应的查询类别相对应的一个或多个信息源检索的一个或多个搜索结果。一组搜索结果可以包括在对搜索查询进行消歧之前检索的搜索结果,从而可以从不必对应于某一特定查询类别的多个域检索搜索结果。多组搜索结果可以帮助用户识别为该查询所打算的类别。如图13B所示,选择与所打算类别相对应的类别标识符可以从与所呈现的查询类别相对应的一个或多个信息源检索额外的搜索结果。
参见图14,过程1400用来将专家域与查询知识本体中所包含的查询类别相关联。过程1400识别能够从中识别出该查询知识本体中特定类别的查询的绝大部分搜索结果的域,并将所识别的域作为该特定类别的专家域与该特定类别相关联。将对应于特定类别的查询提交给专家域,从而为特定类别检索的搜索结果代表该特定类别。换句话说,专家域是在图12的过程420期间向其发送与特定类别相对应的查询的信息源。图1中的两者,由知识本体引擎120执行过程1400以准备知识本体125。
当保存和/或访问将查询关联于查询类别的知识本体时,过程1400开始(1405)。例如,保存与图1,2A和2B的知识本体125相类似的知识本体。
知识本体引擎向一个或多个搜索引擎提交与该知识本体中所包含类别相关联的查询(1410)。在一种实现方式中,把知识本体中所包含的所有查询都提交给一个或多个搜索引擎。在另一实现方式中,把来自知识本体中所包含各个类别的特定数目的查询提交给一个或多个搜索引擎。通常,可以提交知识本体中所包含的任意数目的查询,尤其是当所提交的查询均匀地代表知识本体中所包含的类别时。
此外,在某些实现方式中,可以将查询提交给所有可用的搜索引擎或者可用搜索引擎的子集。例如,可以将查询提交给可以从它那儿检索许多类型的搜索结果的通用搜索引擎。替代地,可以将查询提交给可以从它那儿检索专用类型的搜索结果的多个搜索引擎。作为另一个例子,可以将查询既提交给通用搜索引擎,又提交给专用搜索引擎。通常,可以将查询提交给任意一组搜索引擎,尤其是当可以从这些搜索引擎均匀地检索不同类型的搜索结果时。从向其提交查询的搜索引擎接收搜索结果(1415)。
知识本体引擎确定在其中检索所接收搜索结果之一的各个域在所接收搜索结果中的出现频率(1420)。确定域的出现频率包括确定在该域中检索到所接受搜索结果之一的概率。这种概率可以定义为在该域中检索到的所接收搜索结果数目与所接收搜索结果数目的比率。替代地,确定域的出现频率可以包括确定从该域检索到所接收搜索结果的数目。在一种实现方式中,可以只使用所检索搜索结果的子集,来确定在其中检索搜索结果的各个域的出现频率。例如,非常接近地匹配各个所提交查询的搜索结果的特定数目可以用来确定该频率。
所确定的出现频率代表单词或短语来自搜索结果的随机集合或常规集合的频率的基础统计模型。能够将所确定的频率与为来自查询知识本体中特定类别的查询的搜索结果所确定的频率比较。将来自特定类别的查询的搜索结果中频率较高的域识别为该特定类别的专家域。
接下来,知识本体引擎从知识本体中选择一个类别(1425)。知识本体引擎向一个或多个搜索引擎提交与所选类别相关联的查询(1430)。可以向一个或多个搜索引擎提交与所选类别相关联的某些或所有查询。这些查询可以提交给先前向其提交来自这些类别的查询的,同样的搜索引擎。从一个或多个搜索引擎接收出自所选类别的,所提交查询的搜索结果(1435)。
知识本体引擎确定从其中识别所接收查询结果之一的各个域在为出自所选类别的所提交查询接收的搜索结果中的出现频率(1440)。可以按照类似于先前如何利用为知识本体中所包含查询而接收的搜索结果来确定频率的方式,来确定这些频率。
对于从其中检索所接收查询结果之一的各个域,知识本体引擎比较出自所选类别的查询的搜索结果中的出现频率与出自这些类别的查询的搜索结果中的出现频率(1445)。通常,比较特定域的这两个频率表示该特定域是否在出自所选类别的查询的搜索结果中更常出现。比较这两个频率还可以表示该特定域是否在出自所选类别的查询的搜索结果,和出自这些类别的查询的搜索结果这两者当中,以相对等同的频率出现。比较这两个频率可以包括识别该域的加权因子。该加权因子表示这两个频率之间的相对差别。高加权因子可以表示该域在出自所选类别的查询的搜索结果中,比出自这些类别的查询的搜索结果中更常出现。另一方面,低加权因子可以表示该域在出自所选类别的查询的搜索结果中,不比出自这些类别的查询的搜索结果中更常出现。
把在出自查询知识本体中所选类别的查询的搜索结果中更常出现的域识别为所选类别的专家域(1450)。专家域的识别可以基于在所接收搜索结果中出现的域的加权因子。在一种实现方式中,将具有最高加权因子的特定数目的域识别为专家域。在另一实现方式中,将加权因子超过阈值加权因子的域识别为专家域。
可以使用户能够添加或移除所选类别的专家域(1455)。例如,用户可以使用客户端系统,如图1的客户端系统105来访问知识本体引擎,以便添加或移除所选类别的专家域。替代地,用户可以访问知识本体引擎来直接指定专家域。添加或移除所选类别的专家域的用户可以是知识本体和知识本体引擎的编辑者或管理者。使用户能够复核自动识别的专家域能够使用户确定为所选类别识别的最佳专家域。用户可以移除不是所选类别最佳专家域的专家域。用户还可以添加没有自动识别为所选类别最佳专家域的专家域。在某些实现方式中,可以防止用户移除一个或多个专家域。例如,可以防止用户移除已经识别了最佳加权因子的专家域。因此,具有最佳加权因子的专家域总是可以与所选的类别相关联,并可以用于所选的类别。
知识本体引擎将一个或多个所识别的关键字与所选类别关联起来(1460)。在一种实现方式中,如图2A和2B所示,专家域与查询知识本体中的所选类别存储在一起。在另一实现方式中,通过这些类别相对于查询知识本体外部的类别的专家域的映射,将专家域与所选类别相关联。这种映射可以由知识本体引擎来保存。
知识本体引擎确定是否已经为查询知识本体中所包含的所有类别识别了专家域,或者是否需要为更多的类别识别专家域(1465)。倘若这样,那么知识本体引擎选择还没有为它识别专家域的类别之一(1425),向一个或多个搜索引擎提交与所选类别相关联的查询(1430),并接收所提交查询的搜索结果(1435)。确定这些域的出现频率(1440),并将该频率与先前确定的,出自这些类别的查询的搜索结果中出现的域的出现频率进行比较(1445)。根据该比较,识别所选类别的专家域(1450),由用户进行修改(1455),并将它与所选类别相关联(1460)。以这种方式,循序地为查询知识本体中所包含的每个类别识别专家域,直到为查询知识本体中所包含的所有类别都识别了专家域为止,此时过程1400完成(1470)。
参见图15,过程425表示图4的操作425的一种实现方式,其中根据搜索结果的替代表示的视觉特性来指定搜索结果的得分。根据替代表示来指定得分模拟了用户对搜索结果相关性的评估。作为图4的过程400的一部分,过程425可以由搜索界面,如图1的搜索界面110来执行。
搜索界面从一个或多个搜索引擎接收某一查询的搜索结果的替代表示(1505)。更具体地,搜索界面接收来自一个或多个搜索引擎中每一个的,该查询的一组搜索结果。可以根据从它那接收这组搜索结果的搜索引擎指定的得分,对这组搜索结果中的搜索结果进行排序。在图4的过程400期间,或者图12的过程420期间,可以将该查询提交给一个或多个搜索引擎。
搜索结果的替代表示是搜索结果的相对短的摘要或摘录,它可以代替搜索结果自身而呈现,由此使用户能够同时感知到各个搜索结果的概览。搜索结果的替代表示可以包括搜索结果的标题,搜索结果的简短描述或摘要,到搜索结果的超链接,创建或修改搜索结果的日期,搜索结果中出现的关键字,以及描述该搜索结果的其他元数据。该替代表示可以代替搜索结果呈现给用户,而用户可以选择搜索结果的替代表示的至少一部分来访问与该替代识别形式相对应的搜索结果。在某些实现方式中,替代表示的某些部分可能不能呈现,例如日期和关键字,但是当指定得分时仍然可以加以考虑。
搜索界面根据该替代表示的可视特性为每个搜索结果指定一个得分(1510)。为搜索结果指定的得分可以基于搜索结果的替代表示中查询的存在。例如,与该查询没有出现在替代表示中相比,当该查询出现在搜索结果的替代表示中时,可以为该搜索结果指定更高的得分。为搜索结果指定的得分还可以基于搜索结果的替代表示中查询的位置。例如,与该查询包含于替代表示的描述部分中相比,当该查询包含于替代表示的标题中时,可以为该搜索结果指定更高的得分。替代地或另外地,为搜索结果指定的得分还可以基于搜索结果的替代表示中发现该查询的量。例如,与在搜索结果的替代表示中只发现该查询的一部分相比,当在替代表示中发现整个查询时,可以为该搜索结果指定更高的得分。在替代表示中发现查询的量可以根据在替代表示中发现的查询内的条件数目来测量,或者根据在替代表示中发现的查询内条件的百分比来测量。
为搜索结果指定的得分可以基于反映该查询内项的搜索结果的替代表示的量,或者替代表示的组分量。例如,与该查询占据了搜索结果的替代表示的小部分相比,当该查询占据了替代表示的大部分时,可以为该搜索结果指定更高的得分。可以对反映查询项的替代表示的量,或替代表示的组分量进行测量,用作作为查询项的单词在替代表示或其组分中的百分比。为搜索结果指定的得分还可以取决于搜索结果的替代表示中各查询项之间的距离。例如,与在搜索结果的替代表示中在两个查询项之间发现了一个或多个单词相比,当在替代表示中不间断地出现查询项时,可以为该搜索结果指定更高的得分。为搜索结果指定的得分还可以取决于搜索结果的替代表示中查询项的次序。例如,与查询项在搜索结果的替代表示中的次序发生变化相比,当查询项在替代表示中的次序不发生变化时,可以为该搜索结果指定更高的得分。
为搜索结果指定的得分还可以取决于搜索结果的替代表示中所包含的日期。例如,搜索结果的得分可以直接对应于搜索结果的使用年限,它可以用相应的日期来指示。在某些实现方式中,可以根据上述所识别的因素,为搜索结果指定得分。在某些实现方式中,根据搜索结果的替代表示为搜索结果识别的得分,可以与一个或多个搜索引擎为搜索结果指定的得分合并。
在一种实现方式中,为搜索结果指定的得分可以取决于多于一个的上述因素。在这种实现方式中,可以根据各种因素来指定得分,并且使用权重将各因素特有的得分合并为搜索结果的单一得分。例如,可以根据上述第一个因素为搜索结果指定得分1,而根据上述第二个因素来指定得分2。第一个因素具有权重1,而第二个因素可能具有权重2,因此为搜索结果指定的得分可以是每个各因素特有的得分与相应权重之积的和数,在上述例子中是5。
当确定一个因素特有的得分时也可以使用权重。例如,当在搜索结果的替代表示中出现相应的查询时,可以为搜索结果指定一个特定的得分。另外,可以为替代表示的各部分分配不同的权重,从而当在替代表示的特定部分发现该查询时,可以为该搜索结果指定更高的得分。例如,可以为替代表示的标题指定权重3,而为替代表示的描述部分指定权重1,以指示与该查询出现在描述部分相比,当该查询出现在标题中时,应当为搜索结果指定更高的得分。根据查询在替代表示中的存在为搜索结果指定的得分,可以是由于该查询出现在替代表示中而为该搜索结果指定的特定得分,与替代表示中出现该查询的部分的权重的乘积。
搜索界面可以根据所指定的得分对搜索结果进行排序(1515)。对搜索结果进行分类可以包括将所接收的多组搜索结果合并为搜索结果的单一有序列表。在一种实现方式中,可以对搜索结果进行排序,从而搜索结果以递减得分的次序出现。可以向提交为其识别搜索结果的查询的用户呈现分类后的搜索结果。替代地,在呈现之前还可以对搜索结果进行进一步的处理。
在某些实现方式中,为多组搜索结果中的一组搜索结果指定得分,从而这一组内的搜索结果的排序不会发生变化,该排序是根据从它那接收这组搜索结果的搜索引擎为这些搜索结果指定的得分。例如,当返回第一和第二搜索结果的搜索引擎认为第一搜索结果排在第二搜索结果之上时,这样为第一和第二搜索结果指定得分,从而即便第一和第二搜索结果的视觉特性可能指示第二搜索结果应当排在第一搜索结果之上,第一搜索结果也要保持排在第二搜索结果之上。换句话说,在为搜索结果指定的全部得分当中给予搜索引擎所指定得分更高的重要性或更高权重的条件下,基于搜索结果的替代表示为搜索结果指定的得分可以与搜索引擎为搜索结果指定的得分进行合并。以这种方式指定得分是有利的,因为搜索引擎在对搜索结果评分或排序时可以考虑宽广阵列的信息,这使得搜索引擎能更好地适应于对搜索结果进行排序。
然而,在从多个搜索引擎接收搜索结果的实现方式中,在接收搜索结果之后为搜索结果指定得分确保了,无论搜索结果是从哪个搜索引擎检索的,都可以连贯一致地对这些搜索结果进行评分。因此,根据连贯一致的评分来合并搜索结果,这可以减少靠近或远离某一特定搜索引擎的结果的偏差。
根据搜索结果的替代表示的视觉特性对搜索结果进行评分,模拟了用户对搜索结果相关性的评估。因此,用户评估为非常相关的搜索结果将被指定以高得分,而用户评估为不是非常相关的搜索结果被指定以低得分。因此,当根据所指定的得分对搜索结果进行排序时,首先会呈现用户会评估为非常相关的搜索结果。
参见图16,在选择按钮610之后,搜索工具界面600显示为在文本字段605中输入的查询检索的搜索结果1605a和1605b。更具体地,搜索工具用户界面600显示搜索结果1605a和1605b的替代表示。替代表示1605a和1605b分别包括标题1610a和1610b,描述1615a和1615b,地址1620a和1620b,和日期1625a和1625b。
标题1610a和1610b是搜索结果1605a和1605b的标题。标题1610a和1610b可以是选择用来访问搜索结果1605a和1605b的超链接。描述1615a和1615b是来自搜索结果1605a和1605b的摘录,或简短概要。可以规定描述1615a和1615b包含来自查询的一个或多个条件。地址1620a和1620b识别了可以通过它对搜索结果1605a和1605b进行访问的位置。地址1620a和1620b还可以是选择用来访问搜索结果1605a和1605b的超链接。日期1625a和1625b可以识别第一次能够对搜索结果1605a和1605b进行访问的日期,或最后修改的日期。
根据为搜索结果1605a和1605b指定的得分,已经将搜索结果1605a排在了搜索结果1605b之前。如上文中关于图15的过程425的操作1510所描述的,为搜索结果1605a和1605b指定的得分基于搜索结果1605a和1605b的替代表示的视觉特性。搜索结果1605a可以排在搜索结果1605b之前,是因为输入到文本字段605中的查询在标题1610a中比标题1610b中占据了更大的部分。另外,可以给搜索结果1605a更高的得分,是因为整个查询连续地出现在描述1615a中,而整个查询没有连续地出现在描述1615b中。此外,在地址1620a中发现了该查询,而在地址1620b中没有发现该查询,这可以指示应当给予搜索结果1605a比搜索结果1605b更高的得分。日期1625a和1625b,它们指示了搜索结果1605a比搜索结果1605b更新,这可以指示应当给予搜索结果1605a比搜索结果1605b更高的得分。
参见图17,过程430代表图4的操作430的一种实现方式,其中根据为搜索结果指定的得分对搜索结果进行了筛选。作为图4的过程400的一部分,过程430可以由搜索界面,如图1的搜索界面110来执行。
搜索界面从已经为其指定得分的一组搜索结果中选择两个相邻的搜索结果(1705)。可以根据图15的过程425为搜索结果指定得分。替代地,可以由从其中检索该搜索结果的源来指定得分。当没有其他搜索结果的得分位于两个搜索结果的得分之间时,这两个搜索结果称作相邻。在高得分代表高质量搜索结果的实现方式中,进行选择的两个相邻搜索结果可以是具有两个最高指定得分的搜索结果。在低得分代表高质量搜索结果的实现方式中,进行选择的两个相邻搜索结果可以是具有两个最低指定得分的搜索结果。可以对搜索结果进行排序,以便于对两个相邻的搜索结果进行选择。
搜索界面确定两个相邻搜索结果之间的得分差值(1710)。该得分差值是为两个相邻搜索结果指定的得分之间的差值。该差值可以确定为绝对得分差值,或相对得分差值。例如,得分差值可以确定为搜索结果的最大得分百分比、最小得分百分比、平均得分百分比,两个相邻搜索结果的较大得分或较小得分的百分比,最大和最小得分之间差值的百分比,或者两个相邻搜索结果的得分之间的差值百分比。搜索界面判断该得分差值是否过大(1715)。在一种实现方式中,当得分差值超出了阈值差值时,该得分差值可能过大。阈值差值可以是绝对得分差值或相对得分差值,例如搜索结果的最大得分百分比、最小得分百分比、平均得分百分比,最大和最小得分之间差值的百分比,为两个相邻搜索结果识别的得分之间的差值百分比,或者搜索结果的得分的标准差的百分比。
如果得分差值过大的话,那么搜索界面就删去排序低于两个相邻搜索结果中排序较低的一个结果的搜索结果(1720)。例如,在大得分代表高质量搜索结果的实现方式中,可以删去得分小于或等于两个相邻搜索结果中较小得分的搜索结果。作为另一个例子,在小得分代表高质量搜索结果的实现方式中,可以删去得分大于或等于两个相邻搜索结果中较大得分的搜索结果。第一搜索结果和第二搜索结果之间的大得分差值指示了在第一和第二搜索结果之间存在质量上的很大差别。更具体地,排序较低的相邻搜索结果的质量显著地低于排序较高的相邻搜索结果。由于它的质量较低,较低质量的搜索结果可能对于为他检索搜索结果的用户来说是没有用的。因此,可以删去该搜索结果,以及质量更低的其他搜索结果,以避免向用户提供低质量的搜索结果。
如果得分差值并非过大,那么搜索界面判断在搜索结果内是否可以找到更多对相邻的搜索结果(1725)。倘若这样的话,那么搜索界面选择另一对相邻的搜索结果(1705),并根据所选的这对相邻搜索结果之间的得分差值,对搜索结果进行筛选(1710,1715,1720)。以这种方式,循序地对各对相邻搜索结果进行处理,以便根据这些对相邻搜索结果的得分差值,判断是否应当删去这些搜索结果。
搜索界面还可以删去得分小于或等于最小允许得分的搜索结果(1730)。得分小于或等于最小允许得分的搜索结果可能是低质量的。由于它的质量较低,低质量的搜索结果可能对于为他检索搜索结果的用户来说是没有用的。因此,可以删去那些搜索结果,以避免向用户提供低质量的搜索结果。
所述系统、方法和技术可以实现为数字电子电路,计算机硬件,固件,软件,或这些元件的组合。配备这些技术的装置可以包括适当的输入和输出设备,计算机处理器,以及有形地收录于机器可读存储设备以便由可编程处理器执行的计算机程序产品。配备这些技术的过程可以由执行指令程序的可编程处理器执行,从而通过对输入数据进行操作和生成适当的输出来执行预期的功能。这些技术可以实现为可以在可编程系统上执行的一个或多个计算机程序,该可编程系统包含耦合以接收数据和指令,并发送数据和指令的至少一个可编程处理器,数据存储系统,至少一个输入设备,和至少一个输出设备。每个计算机程序可以用高级程序语言或面对对象的编程语言来实现,或者如果需要的话,也可以用汇编或机器语言来实现;并且无论如何,该语言都可以是汇编的或解译的语言。举例来说,适当的处理器既包括通用微处理器也包括专用微处理器。通常,处理器能够接收来自只读存储器和/或随机访问存储器的指令和数据。适合有形地收录计算机程序指令和数据的存储设备包括所有形式的非易失性存储器,举例来说包括半导体存储设备,如可擦写可编程只读存储器(EPROM),电可擦写可编程只读存储器(EEPROM),和闪速存储设备;磁盘,例如内部硬盘和可移动式磁盘;磁光盘;和压缩盘-只读存储器(CD-ROM)。前述任意一种设备都可以由专门设计的ASIC(专用集成电路)进行补充,或者并入到专门设计的ASIC中。
应当理解,在不脱离本发明精神和范围的情况下,可以进行各种各样的修改。例如,如果以不同的次序来执行所披露技术的步骤,和/或如果把所披露系统中的部件以不同的方式进行合并和/或用其他部件进行替换或补充,仍然能够获得有利的结果。因此,其他实现方式也在下述权利要求的范围之内。

Claims (41)

1.一种路由查询的方法,该方法包括:
保持查询知识本体,所述查询知识本体包含一个或多个查询类别、以及与所述一个或多个类别中的每一个相关联的一个或多个查询,该查询知识本体中包含的与特定类别相关联的所述一个或多个查询代表与该特定类别相关联的查询;
从用户接收查询;
将所接收的查询与所述查询知识本体内包含的一个或多个所述查询进行比较;
形成所接收查询的变形,每个变形均表示所接收查询中包含的一个或多个项的组合;
从查询知识本体中识别与形成的所接收查询的变形的一个或多个相对应的一个或多个类别;
识别对应于所识别出的类别之一的信息源;及
将所接收查询路由给所识别出的信息源。
2.根据权利要求1的方法,其中路由所接收查询给所识别出的信息源的步骤包括:
向所识别出的信息源提交所接收查询;及
从所识别出的信息源接收所接收查询的搜索结果。
3.根据权利要求1的方法,还包括使用户能够感知到对于所接收查询的、来自所识别别出的信息源的搜索结果。
4.根据权利要求1的方法,其中在查询知识本体中对应于所识别出的类别的所识别出的信息源与所识别出的类别相关联,并且识别对应于所识别出的类别的信息源的步骤包括从查询知识本体识别出所识别出的类别相关联的信息源。
5.根据权利要求1的方法,其中保持查询知识本体的步骤包括将查询知识本体内的一个或多个类别排列为有向非循环图中的节点,并且识别与所接收查询的变形相对应的、在查询知识本体中包含的一个或多个类别的步骤包括识别该查询知识本体中包含的、作为在查询知识本体中包含的与所接收查询的变形相关联的类别的祖先类别或孩子类别的一个或多个类别。
6.根据权利要求1的方法,其中识别与所接收查询的变形相对应的、在查询知识本体中包含的所述一个或多个类别的步骤包括:
识别与所接收查询的变形相对应的、在查询知识本体中包含的多个类别;及
将该多个类别的子集识别为与所接收查询的变形相对应的类别。
7.根据权利要求1的方法,还包括:给所接收查询补充以与同所接收查询相对应的、在查询知识本体中包含的类别相关联的信息。
8.根据权利要求1的方法,其中所接收查询的每一个变形均表示该查询内接连的项的子集,所述接连的项按照所述接连的项包括在该查询中的顺序包括在所述变形中。
9.一种对搜索结果进行分类的方法,该方法包括:
向多个搜索引擎提交从用户接收的查询;
从所述多个搜索引擎的每一个接收该查询的搜索结果的集合;
访问若干所述搜索结果中的每一个的替代表示;
根据与这些搜索结果中的每一个相对应的替代表示的视觉特性,为这些搜索结果中的每一个指定得分;及
根据为这些搜索结果指定的得分来合并搜索结果的集合。
10.根据权利要求9的方法,其中合并搜索结果的集合的步骤包括创建搜索结果的一个单个列表,该列表包含按照递减得分排序的搜索结果。
11.根据权利要求9的方法,其中根据与这些搜索结果中的每一个相对应的替代表示的视觉特性为这些搜索结果中的每一个指定得分的步骤包括:根据相应替代表示内的查询项的存在来给搜索结果指定得分。
12.根据权利要求9的方法,其中根据与这些搜索结果中的每一个相对应的替代表示的视觉特性为这些搜索结果中的每一个指定得分的步骤包括:根据相应替代表示内查询项之间的距离来给搜索结果指定得分。
13.根据权利要求9的方法,其中根据与这些搜索结果中的每一个相对应的替代表示的视觉特性为这些搜索结果中的每一个指定得分的步骤包括:根据相应替代表示内查询项的次序,来给搜索结果指定得分。
14.根据权利要求9的方法,其中根据与这些搜索结果中的每一个相对应的替代表示的视觉特性为这些搜索结果中的每一个指定得分的步骤包括:根据相应替代表示内的查询项的存在、相应替代表示内查询项之间的距离,和相应替代表示内查询项的次序的组合来给搜索结果指定得分。
15.根据权利要求9的方法,其中根据与这些搜索结果中的每一个相对应的替代表示的视觉特性为这些搜索结果中的每一个指定得分的步骤包括:根据相应替代表示内存在的查询数量来给搜索结果指定得分。
16.根据权利要求15的方法,其中根据相应替代表示内存在的查询数量来给搜索结果指定得分的步骤包括:根据相应替代表示内存在的查询项的数目来给搜索结果指定得分。
17.根据权利要求15的方法,其中根据相应替代表示内存在的查询数量来给搜索结果指定得分的步骤包括:根据相应替代表示内存在的查询项数目与该查询内查询项数目的比,来给搜索结果指定得分。
18.根据权利要求9的方法,其中根据与这些搜索结果中的每一个相对应的替代表示的视觉特性为这些搜索结果中的每一个指定得分的步骤包括:根据反映查询项的相应替代表示的数量来给搜索结果指定得分。
19.根据权利要求18的方法,其中根据反映查询项的相应替代表示的数量来给搜索结果指定得分的步骤包括:根据相应替代表示内存在的查询项数目与相应替代表示中项数的比,来给搜索结果指定得分。
20.根据权利要求9的方法,其中根据与这些搜索结果中的每一个相对应的替代表示的视觉特性为这些搜索结果中的每一个指定得分的步骤包括:根据查询项在相应替代表示中的位置来给搜索结果指定得分。
21.根据权利要求9的方法,其中搜索结果的替代表示包括由搜索结果的标题、超链接、日期、描述、关键字,和元数据构成的组中的至少一个。
22.根据权利要求9的方法,还包括根据为搜索结果指定的得分对搜索结果进行筛选。
23.一种用于识别查询的专家域的方法,该方法包括:
保持查询知识本体,所述查询知识本体包含一个或多个查询类别、以及与所述一个或多个类别中的每一个相关联的一个或多个查询,与该查询知识本体中所包含的与特定类别相关联的所述一个或多个查询代表与该特定类别相关联的查询;
检索该查询知识本体中所包含的查询的搜索结果;
确定从中总体上识别出在该查询知识本体中所包含的查询的搜索结果之一的各个域在所检索出的搜索结果中的出现频率;
检索查询知识本体中所包含的与一个类别相关联的查询的搜索结果;
确定从中识别出与该类别相关联的查询的搜索结果之一的各个域在所检索出的搜索结果中的出现频率;
对于从中识别出与该类别相关联的查询的搜索结果之一的各个域,将它在与该类别相关联的查询的搜索结果中的出现频率与它在查询知识本体中总体上所包含的查询的搜索结果中的出现频率进行比较;及
将从中在与该类别相关联的查询的搜索结果中比在查询知识本体中总体上所包含的查询的搜索结果中更常能识别出的搜索结果的一个或多个域,识别为该类别的专家域。
24.根据权利要求23的方法,还包括在查询知识本体中将所识别出的专家域与类别相关联。
25.根据权利要求24的方法,还包括:
从用户接收查询;
将所接收查询的变形与类别相关联;及
向用户呈现与该类别相关联的一个或多个专家域。
26.根据权利要求25的方法,还包括:一旦用户选择了这些专家域中的一个,就从所选的专家域检索所接收查询的专家搜索结果。
27.根据权利要求23的方法,其中确定从中识别出该查询知识本体中所包含的查询的搜索结果之一的各个域在所检索出的搜索结果中的出现频率的步骤包括:确定从该域中识别出的所检索出的搜索结果的数目,并且其中确定从中识别出该类别中所包含的查询的搜索结果之一的各个域在所检索出的搜索结果中的出现频率的步骤包括确定从该域中识别出的所检索出的搜索结果的数目。
28.根据权利要求23的方法,其中确定从中识别出该查询知识本体中所包含的查询的搜索结果之一的各个域在所检索出的搜索结果中的出现频率的步骤包括确定从该域中识别出所检索出的所述搜索结果之一的概率,并且其中确定从中识别出该类别中所包含的查询的搜索结果之一的各个域在所检索出的搜索结果中的出现频率的步骤包括确定从该域中识别出所述所检索出的搜索结果之一的概率。
29.根据权利要求23的方法,还包括:
将一个域在查询知识本体中所包含的查询的搜索结果中的出现频率与这个域在该类别中所包含的查询的搜索结果中的出现频率进行比较;
根据所述频率的比较结果来识别用于这个域的加权因子;及
将加权因子超出阈值加权因子的一个或多个域识别为专家域,或者将具有最高加权因子的特定数目的域识别为专家域。
30.根据权利要求23的方法,其中检索查询知识本体中所包含的查询的搜索结果的步骤包括:
向搜索引擎提交在该查询知识本体中所包含的查询的每一个;及
从该搜索引擎接收每一个所提交的查询的搜索结果。
31.根据权利要求23的方法,其中检索查询知识本体中所包含的与一个类别相关联的查询的搜索结果的步骤包括:
向搜索引擎提交与该类别相关联的查询的每一个;及
从该搜索引擎接收每一个所提交的查询的搜索结果。
32.根据权利要求23的方法,其中检索查询知识本体中所包含的查询的搜索结果的步骤包括检索所述搜索结果的子集,并且其中检索查询知识本体中所包含的与一个类别相关联的查询的搜索结果的步骤包括检索所述搜索结果的子集。
33.根据权利要求23的方法,还包括:使用户能够删除所识别出的专家域的一个或多个,并向所识别出的专家域添加一个或多个额外的专家域。
34.一种筛选搜索结果的集合的方法,该方法包括:
检索从用户接收的查询的搜索结果;
为所检索出的搜索结果的每一个识别一个得分;
根据指定给所述搜索结果的得分选择所述搜索结果中的两个,其中选择这两个搜索结果,使得没有其他搜索结果具有介于指定给这两个搜索结果的得分之间的指定的得分;
确定为这两个搜索结果指定的得分之间的差值;及
当为这两个搜索结果指定的得分之间的差值超出最大允许差值时,删去指定的得分指示出低于这两个搜索结果中的较低等级搜索结果的等级的搜索结果。
35.根据权利要求34的方法,其中为所检索出的搜索结果中的每一个指定得分的步骤包括:为该搜索结果指定由从中检索出该搜索结果的源计算出的得分。
36.根据权利要求34的方法,其中确定为所述两个搜索结果指定的得分之间的差值的步骤包括:确定为所述两个搜索结果指定的得分之间的绝对差值。
37.根据权利要求34的方法,其中确定为所述两个搜索结果指定的得分之间的差值的步骤包括:确定相对于所述搜索结果之一的至少一个得分的为所述两个搜索结果指定的得分之间的差值。
38.根据权利要求34的方法,其中:
检索搜索结果的步骤包括检索搜索结果的替代表示;及
为所检索出的搜索结果中的每一个指定得分的步骤包括:根据与所检索出的搜索结果中的每一个相对应的替代表示的视觉特性为所检索出的搜索结果中的每一个指定得分。
39.根据权利要求34的方法,还包括:根据所识别出的得分对搜索结果进行分类。
40.根据权利要求34的方法,还包括:使用户能够感知到没有删去的搜索结果。
41.根据权利要求34的方法,其中所述最大允许差值是由最大识别出的得分的百分比、最小识别出的得分的百分比、平均识别出的得分的百分比、最大识别出的得分和最小识别出的得分之间的差值的百分比、为所述两个搜索结果识别出的得分之间的差值的百分比、以及所识别出的得分的标准偏差的百分比构成的组中的至少一个。
CNA200580047571XA 2004-12-29 2005-12-29 向信息源路由查询以及对查询结果进行分类和筛选 Pending CN101128818A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US11/023,633 2004-12-29
US11/023,651 2004-12-29
US11/023,642 2004-12-29
US11/023,648 2004-12-29
US11/023,633 US7571157B2 (en) 2004-12-29 2004-12-29 Filtering search results

Publications (1)

Publication Number Publication Date
CN101128818A true CN101128818A (zh) 2008-02-20

Family

ID=36612986

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200580047571XA Pending CN101128818A (zh) 2004-12-29 2005-12-29 向信息源路由查询以及对查询结果进行分类和筛选

Country Status (2)

Country Link
US (1) US7571157B2 (zh)
CN (1) CN101128818A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214207A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种用于对信息实体中的属性集合进行排序的方法与设备
CN102439592A (zh) * 2009-03-30 2012-05-02 通用汽车环球科技运作有限责任公司 利用本体按照相关度对记录排序
CN102591985A (zh) * 2011-01-11 2012-07-18 微软公司 与搜索框关联的查询重构
CN102789466A (zh) * 2011-05-19 2012-11-21 百度在线网络技术(北京)有限公司 一种提问标题质量判定方法、提问引导方法及其装置
CN103577049A (zh) * 2012-07-24 2014-02-12 百度在线网络技术(北京)有限公司 一种用于提供下载建议对象的方法、装置与设备
CN102119385B (zh) * 2008-03-19 2014-09-17 聚焦网络公司 用于在内容检索服务系统内检索媒体内容的方法和子系统
US8966389B2 (en) 2006-09-22 2015-02-24 Limelight Networks, Inc. Visual interface for identifying positions of interest within a sequentially ordered information encoding
WO2015043430A1 (en) * 2013-09-27 2015-04-02 Tencent Technology (Shenzhen) Company Limited Webpage data search method, device and system thereof
US9015172B2 (en) 2006-09-22 2015-04-21 Limelight Networks, Inc. Method and subsystem for searching media content within a content-search service system
CN104700835A (zh) * 2008-10-31 2015-06-10 诺基亚公司 提供话音接口的方法和系统
CN107077467A (zh) * 2014-08-22 2017-08-18 汤姆逊许可公司 用于处理文件的方法和装置
CN107256275A (zh) * 2011-11-02 2017-10-17 微软技术许可有限责任公司 路由查询结果
CN108846014A (zh) * 2018-05-04 2018-11-20 中国信息安全研究院有限公司 一种数据需求满足方法
US11281846B2 (en) 2011-11-02 2022-03-22 Microsoft Technology Licensing, Llc Inheritance of rules across hierarchical levels
US20230244705A1 (en) * 2020-06-11 2023-08-03 Shimadzu Corporation Method, System, and Device for Evaluating Performance of Document Search

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2519693A1 (en) 2003-03-27 2004-10-14 University Of Washington Performing predictive pricing based on historical data
US7206780B2 (en) * 2003-06-27 2007-04-17 Sbc Knowledge Ventures, L.P. Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values
US7562069B1 (en) * 2004-07-01 2009-07-14 Aol Llc Query disambiguation
CN1985534B (zh) * 2004-07-05 2011-10-05 艾利森电话股份有限公司 通信网络中服务质量管理的结合机制
CN1981490B (zh) * 2004-07-05 2012-04-25 艾利森电话股份有限公司 改变服务质量的方法和设备
US7970600B2 (en) * 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
US8150846B2 (en) * 2005-02-17 2012-04-03 Microsoft Corporation Content searching and configuration of search results
US20060277028A1 (en) * 2005-06-01 2006-12-07 Microsoft Corporation Training a statistical parser on noisy data by filtering
US20060277290A1 (en) * 2005-06-02 2006-12-07 Sam Shank Compiling and filtering user ratings of products
US7984039B2 (en) * 2005-07-14 2011-07-19 International Business Machines Corporation Merging of results in distributed information retrieval
CN101223521B (zh) * 2005-07-15 2010-06-16 惠普开发有限公司 社群特有表现检测装置及方法
CA2545237A1 (en) 2005-07-29 2007-01-29 Cognos Incorporated Method and system for managing exemplar terms database for business-oriented metadata content
CA2545232A1 (en) * 2005-07-29 2007-01-29 Cognos Incorporated Method and system for creating a taxonomy from business-oriented metadata content
US7562074B2 (en) * 2005-09-28 2009-07-14 Epacris Inc. Search engine determining results based on probabilistic scoring of relevance
EP1920366A1 (en) 2006-01-20 2008-05-14 Glenbrook Associates, Inc. System and method for context-rich database optimized for processing of concepts
US8374895B2 (en) * 2006-02-17 2013-02-12 Farecast, Inc. Travel information interval grid
US8200514B1 (en) 2006-02-17 2012-06-12 Farecast, Inc. Travel-related prediction system
US8484057B2 (en) * 2006-02-17 2013-07-09 Microsoft Corporation Travel information departure date/duration grid
US8392224B2 (en) 2006-02-17 2013-03-05 Microsoft Corporation Travel information fare history graph
US7593939B2 (en) * 2006-04-07 2009-09-22 Google Inc. Generating specialized search results in response to patterned queries
US20080027971A1 (en) * 2006-07-28 2008-01-31 Craig Statchuk Method and system for populating an index corpus to a search engine
WO2008022384A1 (en) * 2006-08-21 2008-02-28 Choice Engine Pty Limited A choice engine
US7692655B2 (en) * 2007-02-16 2010-04-06 Mitac International Corporation Apparatus and method of generating curved baseline for map labeling
WO2008112926A1 (en) * 2007-03-13 2008-09-18 Farecast, Inc. Deal identification system
US8286086B2 (en) 2007-03-30 2012-10-09 Yahoo! Inc. On-widget data control
US8112501B2 (en) 2007-03-30 2012-02-07 Yahoo! Inc. Centralized registration for distributed social content services
US8332209B2 (en) * 2007-04-24 2012-12-11 Zinovy D. Grinblat Method and system for text compression and decompression
US8312108B2 (en) * 2007-05-22 2012-11-13 Yahoo! Inc. Hot within my communities
US20080294760A1 (en) * 2007-05-22 2008-11-27 Yahoo! Inc. Hot with my readers
US8041709B2 (en) * 2007-05-25 2011-10-18 Microsoft Corporation Domain collapsing of search results
US7792826B2 (en) * 2007-05-29 2010-09-07 International Business Machines Corporation Method and system for providing ranked search results
US7783620B1 (en) * 2007-06-29 2010-08-24 Emc Corporation Relevancy scoring using query structure and data structure for federated search
US7783630B1 (en) * 2007-06-29 2010-08-24 Emc Corporation Tuning of relevancy ranking for federated search
US20090055368A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content classification and extraction apparatus, systems, and methods
US20090063167A1 (en) * 2007-08-28 2009-03-05 Jay Bartot Hotel rate analytic system
US8051076B1 (en) 2007-12-13 2011-11-01 Google Inc. Demotion of repetitive search results
KR100915295B1 (ko) * 2008-01-22 2009-09-03 성균관대학교산학협력단 검색 결과 자동 분류 시스템 및 그 방법
US7937387B2 (en) * 2008-02-01 2011-05-03 Mandiant System and method for data preservation and retrieval
US7890530B2 (en) * 2008-02-05 2011-02-15 International Business Machines Corporation Method and system for controlling access to data via a data-centric security model
US8095546B1 (en) 2009-01-09 2012-01-10 Google Inc. Book content item search
US8316032B1 (en) 2009-01-09 2012-11-20 Google Inc. Book content item search
US20100257171A1 (en) * 2009-04-03 2010-10-07 Yahoo! Inc. Techniques for categorizing search queries
CN102063432A (zh) 2009-11-12 2011-05-18 阿里巴巴集团控股有限公司 一种检索方法和系统
US10546311B1 (en) 2010-03-23 2020-01-28 Aurea Software, Inc. Identifying competitors of companies
US9760634B1 (en) 2010-03-23 2017-09-12 Firstrain, Inc. Models for classifying documents
US10643227B1 (en) 2010-03-23 2020-05-05 Aurea Software, Inc. Business lines
US8463790B1 (en) 2010-03-23 2013-06-11 Firstrain, Inc. Event naming
US20110320466A1 (en) * 2010-06-24 2011-12-29 Oded Broshi Methods and systems for filtering search results
WO2012058332A1 (en) * 2010-10-26 2012-05-03 Google Inc. Rich results relevant to user search queries for books
US8675957B2 (en) * 2010-11-18 2014-03-18 Ebay, Inc. Image quality assessment to merchandise an item
US8799312B2 (en) * 2010-12-23 2014-08-05 Microsoft Corporation Efficient label acquisition for query rewriting
US8862741B1 (en) 2011-06-23 2014-10-14 Amazon Technologies, Inc. Layered machine images
WO2013025556A1 (en) 2011-08-12 2013-02-21 Splunk Inc. Elastic scaling of data volume
US8782042B1 (en) 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
CN103377240B (zh) 2012-04-26 2017-03-01 阿里巴巴集团控股有限公司 信息提供方法、处理服务器及合并服务器
US8977613B1 (en) 2012-06-12 2015-03-10 Firstrain, Inc. Generation of recurring searches
US8751499B1 (en) 2013-01-22 2014-06-10 Splunk Inc. Variable representative sampling under resource constraints
US8682906B1 (en) 2013-01-23 2014-03-25 Splunk Inc. Real time display of data field values based on manual editing of regular expressions
US9582585B2 (en) 2012-09-07 2017-02-28 Splunk Inc. Discovering fields to filter data returned in response to a search
US9753909B2 (en) 2012-09-07 2017-09-05 Splunk, Inc. Advanced field extractor with multiple positive examples
US20140208217A1 (en) 2013-01-22 2014-07-24 Splunk Inc. Interface for managing splittable timestamps across event records
US8751963B1 (en) 2013-01-23 2014-06-10 Splunk Inc. Real time indication of previously extracted data fields for regular expressions
US8788525B2 (en) * 2012-09-07 2014-07-22 Splunk Inc. Data model for machine data for semantic search
US20150019537A1 (en) 2012-09-07 2015-01-15 Splunk Inc. Generating Reports from Unstructured Data
US9594814B2 (en) 2012-09-07 2017-03-14 Splunk Inc. Advanced field extractor with modification of an extracted field
US10394946B2 (en) 2012-09-07 2019-08-27 Splunk Inc. Refining extraction rules based on selected text within events
US9251421B2 (en) * 2012-09-13 2016-02-02 General Electric Company System and method for generating semantic annotations
US9152714B1 (en) 2012-10-01 2015-10-06 Google Inc. Selecting score improvements
US10592480B1 (en) 2012-12-30 2020-03-17 Aurea Software, Inc. Affinity scoring
US9152929B2 (en) 2013-01-23 2015-10-06 Splunk Inc. Real time display of statistics and values for selected regular expressions
US20140310270A1 (en) * 2013-04-16 2014-10-16 Wal-Mart Stores, Inc. Relevance-based cutoff for search results
US9852224B2 (en) * 2014-07-03 2017-12-26 Google Llc Promoting preferred content in a search query
US10515151B2 (en) * 2014-08-18 2019-12-24 Nuance Communications, Inc. Concept identification and capture
US9940362B2 (en) 2015-05-26 2018-04-10 Google Llc Predicting user needs for a particular context
US9298836B1 (en) * 2015-07-07 2016-03-29 Yext, Inc. Suppressing duplicate listings on multiple search engine web sites from a single source system given a synchronized listing is unknown
US10726030B2 (en) 2015-07-31 2020-07-28 Splunk Inc. Defining event subtypes using examples
JP6600203B2 (ja) * 2015-09-15 2019-10-30 キヤノン株式会社 情報処理装置、情報処理方法、コンテンツ管理システム、およびプログラム
US10268734B2 (en) * 2016-09-30 2019-04-23 International Business Machines Corporation Providing search results based on natural language classification confidence information
US20220027855A1 (en) * 2020-10-23 2022-01-27 Vmware, Inc. Methods for improved interorganizational collaboration

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265065A (en) 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5640553A (en) 1995-09-15 1997-06-17 Infonautics Corporation Relevance normalization for documents retrieved from an information retrieval system in response to a query
US6272507B1 (en) 1997-04-09 2001-08-07 Xerox Corporation System for ranking search results from a collection of documents using spreading activation techniques
US5924090A (en) 1997-05-01 1999-07-13 Northern Light Technology Llc Method and apparatus for searching a database of records
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6263342B1 (en) 1998-04-01 2001-07-17 International Business Machines Corp. Federated searching of heterogeneous datastores using a federated datastore object
US6175829B1 (en) 1998-04-22 2001-01-16 Nec Usa, Inc. Method and apparatus for facilitating query reformulation
US6275820B1 (en) 1998-07-16 2001-08-14 Perot Systems Corporation System and method for integrating search results from heterogeneous information resources
JP2002521753A (ja) 1998-07-24 2002-07-16 ジャーグ コーポレーション 複数のオントロジーに基づく検索システム及び検索方法
US6363378B1 (en) 1998-10-13 2002-03-26 Oracle Corporation Ranking of query feedback terms in an information retrieval system
US6460029B1 (en) 1998-12-23 2002-10-01 Microsoft Corporation System for improving search text
US6571234B1 (en) 1999-05-11 2003-05-27 Prophet Financial Systems, Inc. System and method for managing online message board
US6701310B1 (en) 1999-11-22 2004-03-02 Nec Corporation Information search device and information search method using topic-centric query routing
US6546388B1 (en) 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6311194B1 (en) 2000-03-15 2001-10-30 Taalee, Inc. System and method for creating a semantic web and its applications in browsing, searching, profiling, personalization and advertising
US20030171914A1 (en) 2000-04-18 2003-09-11 Il-Hyung Jung Method and system for retrieving information based on meaningful core word
US6581057B1 (en) 2000-05-09 2003-06-17 Justsystem Corporation Method and apparatus for rapidly producing document summaries and document browsing aids
US6704729B1 (en) 2000-05-19 2004-03-09 Microsoft Corporation Retrieval of relevant information categories
US6675159B1 (en) 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
EP1182581B1 (en) 2000-08-18 2005-01-26 Exalead Searching tool and process for unified search using categories and keywords
US6571249B1 (en) 2000-09-27 2003-05-27 Siemens Aktiengesellschaft Management of query result complexity in hierarchical query result data structure using balanced space cubes
US6766316B2 (en) 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US20020165860A1 (en) 2001-05-07 2002-11-07 Nec Research Insititute, Inc. Selective retrieval metasearch engine
US6920448B2 (en) 2001-05-09 2005-07-19 Agilent Technologies, Inc. Domain specific knowledge-based metasearch system and methods of using
US20030101170A1 (en) 2001-05-25 2003-05-29 Joseph Edelstein Data query and location through a central ontology model
US6795820B2 (en) 2001-06-20 2004-09-21 Nextpage, Inc. Metasearch technique that ranks documents obtained from multiple collections
JP3825281B2 (ja) * 2001-06-20 2006-09-27 日立ソフトウエアエンジニアリング株式会社 検索スケジューリング装置、プログラム及びプログラムを記録した記録媒体
US6778979B2 (en) 2001-08-13 2004-08-17 Xerox Corporation System for automatically generating queries
US6728704B2 (en) 2001-08-27 2004-04-27 Verity, Inc. Method and apparatus for merging result lists from multiple search engines
WO2003075186A1 (en) 2002-03-01 2003-09-12 Paul Jeffrey Krupin A method and system for creating improved search queries
US7567953B2 (en) 2002-03-01 2009-07-28 Business Objects Americas System and method for retrieving and organizing information from disparate computer network information sources
US20030220913A1 (en) 2002-05-24 2003-11-27 International Business Machines Corporation Techniques for personalized and adaptive search services
US20040010491A1 (en) 2002-06-28 2004-01-15 Markus Riedinger User interface framework
US7676452B2 (en) 2002-07-23 2010-03-09 International Business Machines Corporation Method and apparatus for search optimization based on generation of context focused queries
US7599911B2 (en) 2002-08-05 2009-10-06 Yahoo! Inc. Method and apparatus for search ranking using human input and automated ranking
US6983280B2 (en) 2002-09-13 2006-01-03 Overture Services Inc. Automated processing of appropriateness determination of content for search listings in wide area network searches
US8166033B2 (en) * 2003-02-27 2012-04-24 Parity Computing, Inc. System and method for matching and assembling records
US7007014B2 (en) 2003-04-04 2006-02-28 Yahoo! Inc. Canonicalization of terms in a keyword-based presentation system
US7219090B2 (en) 2003-04-25 2007-05-15 Overture Services, Inc. Method and system for blending search engine results from disparate sources into one search result
US20040220907A1 (en) * 2003-04-30 2004-11-04 Camarillo David W. Technique for searching for contact information concerning desired parties
US7836391B2 (en) * 2003-06-10 2010-11-16 Google Inc. Document search engine including highlighting of confident results
AU2004258349B2 (en) 2003-07-22 2010-11-11 Kinor Technologies Inc. Information access using ontologies
JP3842768B2 (ja) * 2003-08-26 2006-11-08 株式会社東芝 サービス検索装置およびサービス検索方法
US7444327B2 (en) * 2004-01-09 2008-10-28 Microsoft Corporation System and method for automated optimization of search result relevance
US8041713B2 (en) * 2004-03-31 2011-10-18 Google Inc. Systems and methods for analyzing boilerplate
US7293017B2 (en) 2004-07-01 2007-11-06 Microsoft Corporation Presentation-level content filtering for a search result
US7562069B1 (en) 2004-07-01 2009-07-14 Aol Llc Query disambiguation
US20060020672A1 (en) 2004-07-23 2006-01-26 Marvin Shannon System and Method to Categorize Electronic Messages by Graphical Analysis

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9015172B2 (en) 2006-09-22 2015-04-21 Limelight Networks, Inc. Method and subsystem for searching media content within a content-search service system
US8966389B2 (en) 2006-09-22 2015-02-24 Limelight Networks, Inc. Visual interface for identifying positions of interest within a sequentially ordered information encoding
CN102119385B (zh) * 2008-03-19 2014-09-17 聚焦网络公司 用于在内容检索服务系统内检索媒体内容的方法和子系统
CN104700835A (zh) * 2008-10-31 2015-06-10 诺基亚公司 提供话音接口的方法和系统
US9978365B2 (en) 2008-10-31 2018-05-22 Nokia Technologies Oy Method and system for providing a voice interface
CN102439592A (zh) * 2009-03-30 2012-05-02 通用汽车环球科技运作有限责任公司 利用本体按照相关度对记录排序
CN102591985A (zh) * 2011-01-11 2012-07-18 微软公司 与搜索框关联的查询重构
CN102591985B (zh) * 2011-01-11 2016-03-30 微软技术许可有限责任公司 与搜索框关联的查询重构
CN102214207A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种用于对信息实体中的属性集合进行排序的方法与设备
CN102789466A (zh) * 2011-05-19 2012-11-21 百度在线网络技术(北京)有限公司 一种提问标题质量判定方法、提问引导方法及其装置
CN102789466B (zh) * 2011-05-19 2015-09-30 百度在线网络技术(北京)有限公司 一种提问标题质量判定方法、提问引导方法及其装置
CN107256275A (zh) * 2011-11-02 2017-10-17 微软技术许可有限责任公司 路由查询结果
US11281846B2 (en) 2011-11-02 2022-03-22 Microsoft Technology Licensing, Llc Inheritance of rules across hierarchical levels
CN103577049A (zh) * 2012-07-24 2014-02-12 百度在线网络技术(北京)有限公司 一种用于提供下载建议对象的方法、装置与设备
CN104516887A (zh) * 2013-09-27 2015-04-15 腾讯科技(深圳)有限公司 一种网页数据搜索方法、装置和系统
CN104516887B (zh) * 2013-09-27 2019-08-30 腾讯科技(深圳)有限公司 一种网页数据搜索方法、装置和系统
WO2015043430A1 (en) * 2013-09-27 2015-04-02 Tencent Technology (Shenzhen) Company Limited Webpage data search method, device and system thereof
CN107077467A (zh) * 2014-08-22 2017-08-18 汤姆逊许可公司 用于处理文件的方法和装置
CN108846014A (zh) * 2018-05-04 2018-11-20 中国信息安全研究院有限公司 一种数据需求满足方法
CN108846014B (zh) * 2018-05-04 2023-07-25 中国信息安全研究院有限公司 一种数据需求满足方法
US20230244705A1 (en) * 2020-06-11 2023-08-03 Shimadzu Corporation Method, System, and Device for Evaluating Performance of Document Search

Also Published As

Publication number Publication date
US20060143159A1 (en) 2006-06-29
US7571157B2 (en) 2009-08-04

Similar Documents

Publication Publication Date Title
CN101128818A (zh) 向信息源路由查询以及对查询结果进行分类和筛选
US9183250B2 (en) Query disambiguation
US8135737B2 (en) Query routing
US7272597B2 (en) Domain expert search
US7818314B2 (en) Search fusion
US7082426B2 (en) Content aggregation method and apparatus for an on-line product catalog
KR101061234B1 (ko) 정보처리 장치와 방법, 및 기록 매체
US9519716B2 (en) System and method for conducting a profile based search
US20040210565A1 (en) Personals advertisement affinities in a networked computer system
CN101111837A (zh) 查询自动分类的搜索处理
KR19990078644A (ko) 다중 추천 에이전트들을 이용하는 추천 시스템
WO2006071928A9 (en) Routing queries to information sources and sorting and filtering query results
KR20070102033A (ko) 문서검색 시스템 및 그 방법
JP3707361B2 (ja) 情報提供サーバ及び情報提供方法
EP1639505A2 (en) Content aggregation method and apparatus for on-line purchasing system
KR102538255B1 (ko) 비대면 이용자를 위한 도슨트 서비스 플랫폼 시스템 및 그 방법
CN114722152A (zh) 交互式搜索方法及装置
KR20240006319A (ko) 문화적 특성의 자가 평가를 이용한 직무 분석 시스템 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication