CN101467147A

CN101467147A - 在竖直区域内执行搜索的系统和方法

Info

Publication number: CN101467147A
Application number: CNA2007800217312A
Authority: CN
Inventors: 兰迪·亚当斯; 保罗·彼德森
Original assignee: SearchMe Inc
Current assignee: SearchMe Inc
Priority date: 2006-04-13
Filing date: 2007-04-13
Publication date: 2009-06-24
Also published as: US20070244862A1

Abstract

本发明提供了存储在客户端计算机的存储器中的图形用户界面。该界面包括对于来自用户的竖直搜索查询的提示域。该界面还包括用于显示多个名称的区域。每个这样的名称代表竖直集。每当用户在提示域中输入字符时，作为提示域中的一个或多个字符串的函数，自动填入多个名称。计算机包括存储器，该存储器存储了用于接收竖直搜索查询、将该查询传送给远程计算机和从远程计算机接收多个名称的指令。每个名称代表了与竖直搜索查询相关的竖直集。当用户向竖直搜索查询中输入额外的字符时，显示多个名称。

Description

在竖直区域内执行搜索的系统和方法

相关申请的交叉引用

本申请要求于2006年4月13日提交的题为“Systems and Methods forPerforming Searches within Vertical Dormain”的美国专利申请号11/404,687的优先权，该申请的全部内容被并入本文中作为参考。本申请还要求于2006年4月13日提交的题为“Systems and Methods for Ranking Vertical Domain”的美国专利申请号11/404,620的优先权，本文中也并入了该申请的全部内容作为参考。

技术领域

本发明总体上涉及信息搜索和提取。更具体而言，本发明公开了利用竖直区域(vertical domain)改善互联网搜索的系统和方法。

背景技术

网络产生了对信息提取的新挑战。网络上的信息量正在迅速增长。通过利用新的和更容易使用的网络工具，经过很少的或没经过正规网络训练的用户能够访问网站。许多搜索引擎，诸如Google和Yahoo！，允许用户搜索和提取信息。这些常规的搜索引擎在本质上是水平的。它们索引整个网络。然后，针对这个索引来搜索用户提供的搜索查询，并返回最相关的结果。然而，因为互联网上可得到的信息量很大，并且这种信息很复杂，所以需要越来越复杂的搜索表达式来从这种水平索引中提取有用信息。

此外，因为词语经常有多于一种的含义，搜索词条(search term)经常会提取到不需要的文件类型。例如，词语“tiger(老虎)”可表示仅能在亚洲部分地区找到的肉食性动物。这个词也是高尔夫球传奇人物Tiger Woods的姓，以及Macintosh操作系统的名字。因此，在常规搜索引擎中使用词条“tiger(老虎)”作为搜索词条可能会提取出各种各样的文件，在这些文件中，有些与动物有关，有些与高尔夫有关，还有些与操作系统有关。用这样的搜索查询返回的赞助链接和/或广告将类似地布满整个地图(map)。为了说明这个问题，对最近键入到Google中的搜索查询“tiger(老虎)”产生响应，顶部响应(top responses)包括到计算机外围设备店TigerDirect.com的链接，到“Save the Tiger Fund(拯救老虎基金)”的链接，到Macintosh OS X虎操作系统的链接，到“Tiger Haven(老虎避难所)”(狮子、老虎和美洲豹的保护区)的链接，到Tiger Woods的官方网站的链接，以及在eBay.com上搜索“老虎”的广告。这样，因为相同的短语对于不同人有完全不同的意思，搜索表达式中的模糊性经常是不可避免的。这使得信息搜索和提取更加困难，并对用户造成很大的问题。因为服务器不能集中到与用户提供的搜索查询真正相关的广告上，这也会给门户网站带来问题。

解决基于文本的搜索表达式所固有的模糊性的一种方式，是将搜索限制到其本身限定在特定主题的数据库中进行。网络搜索引擎(例如，dmoz、Yahoo！、looksmart，等)提供了这种特定主题数据库。例如，dmoz已经收集了数百万个站点，然后将这些站点分成数千个类别。这些类别以分级方式排列。图1示出了dmoz的顶级类别(例如，数据库102)。每个类别主要是限制到一个或多个特定主题的文件的数据库。可将搜索限制到任意一个这种具体目录中。尽管dmoz将搜索限制到具体类别中，但分级的用户界面是不方便的。经常要花费相当多的时间和相当大的努力来搜索分级列表，以便恰当地找到正确的数据库。用户经常必须深入搜索五级或更多级才能到达希望的目录或网页。在dmoz的顶级处键入的搜索查询会返回一排数据库可能性。然而，数据库可能性包括每个数据库的全部分级信息。尽管这种分级信息向一些用户传达了信息，但对于普通用户来说，这种分级信息是没有用的。更糟的是，该分级信息使识别合适的文件数据库以进行搜索的任务趋于复杂。

与dmoz相反，诸如looksmart和Yahoo！这样的搜索引擎提供了平级的不分级的主题类别列表。然而，这种方法的缺点是它预先假设用户实际上知道特定的搜索查询应指向哪个类别。但用户经常对应该搜索什么类别没有概念。应该在“食品类别”中还是在“家居”类别中搜索关于园艺的问题？应该在“时尚”、“运动”还是“服饰”中搜索高尔夫鞋？假设存在完全独立的“共有基金”类别，那么“金融”类别覆盖共有基金吗？因此，诸如looksmart和Excite！这样的门户的缺点是没有有效的方式用来在进行实际的搜索以前向门户传达要搜索哪个类别。

考虑到以上背景，本区域所需要的是用于利用互联网或其它广域网搜索文件的改善的系统和方法。

发明内容

本发明提供了响应用户输入的竖直建议。通常，这种输入通过键盘或其它数据输入装置进行。用户在数据输入装置上输入字母和/或词语，而系统将这些字母和/或词语转换成一个或多个针对候选竖直集(verical collection)的查询(query)。系统对候选竖直集进行评价，并返回相关的候选竖直集的名称的列表。然后，用户可通过选择其中一个被建议的候选竖直集来继续交互。然后，系统将搜索所选的竖直集，并返回来自于所选的竖直集的与用户输入相关的文件的列表。

本发明的一个方面提供了存储在客户端计算机的存储器中的图形用户界面。该图形用户界面包括：用于获得来自用户的竖直搜索查询的提示域，以及用于显示多个名称的显示域。该多个名称中的每个名称代表了多个竖直集中的一个竖直集。当用户在提示域中输入额外的字符时，作为用户在提示域中输入的一个或多个词条的函数，显示域中的多个名称被自动填充。

在某些实施方案中，显示域中多个名称中的每个相应名称，被显示为具有一定尺寸的图形，该尺寸是基于竖直搜索查询的由各自名称代表的竖直集的相关度的函数。例如，在某些实施方案中，当第一图形表示了多个竖直集中的第一竖直集，且该第一竖直集与由第二图形表示的多个竖直集中的第二竖直集相比与竖直搜索查询更相关时，显示域中的第一图形的尺寸比显示域中第二图形的尺寸大。

在某些实施方案中，显示域中多个名称中的每个名称被显示为具有视觉标记的图形。显示域中显示的各个图形的视觉标记，是由各个图形代表的竖直集的相关度确定的。在某些实施方案中，这种视觉标记是尺寸或颜色。

在某些实施方案中，多个竖直集中的每个竖直集被放置在远程服务器上，并包括与特定类别有关的文件。在某些情况下，该图形用户界面作为网络可访问的浏览器内的应用程序运行。在某些实施方案中，每当用户在提示域中输入一个或多个字符时，通过在用户输入了一个或多个字符后将提示域中的内容传送给远程服务器，显示域中的多个名称被重新填入。在这种实施方案中，从远程服务器接收新的多个名称，以作为传送给远程服务器的提示域的内容的函数在显示域中显示。在某些实施方案中，在用户向提示域中输入每个字符后，提示域的内容被发送给远程服务器。在某些实施方案中，当检测到字符串信号的结尾时，提示域的内容被发送给远程服务器。在某些实施方案中，竖直搜索查询包括单个字符。在某些实施方案中，竖直搜索查询包括通过一个或多个谓词条件(predicate condition)(例如，AND、OR、NOT)彼此分隔开的多个词语。

本发明的又一方面提供了与客户端计算机系统结合使用的计算机程序产品。该计算机程序产品包括计算机可读存储介质和嵌入其中的计算机程序机制。该计算机程序机制包括：用于接收来自客户端计算机系统的用户的竖直搜索查询的指令、用于将竖直搜索查询传送给远程计算机的指令，和用于从远程计算机接收多个名称的指令。多个名称中的每个名称代表了多个竖直集中的一个竖直集。多个竖直集中的每个竖直集与竖直搜索查询有关。计算机程序产品还包括用于在用户向竖直搜索查询中输入额外的字符时显示多个名称的指令。

在某些实施方案中，多个名称中的每个相应名称被显示为具有一定尺寸的图形，该尺寸是由各个名称代表的竖直集的相关度的函数。在一个实例中，当第一图形表示了多个竖直集中的第一竖直集，且该第一竖直集与由第二图形表示的第二竖直集相比与竖直搜索查询更相关时，显示的第一图形的尺寸比第二图形大。在某些实施方案中，多个名称中的每个名称被显示为具有视觉标记的图形，而各个图形的视觉标记是由基于竖直搜索查询的由各个图形代表的竖直集的相关度确定的。在某些实施方案中，这种视觉标记是尺寸或颜色。

本发明的另一实施方案提供了一种计算机，该计算机包括中央处理单元和与该中央处理单元相连的存储器。该存储器存储了用于从计算机的用户接收竖直搜索查询的指令、用于将竖直搜索查询传送给远程计算机的指令，和用于从远程计算机接收多个名称的指令。多个名称中的每个名称代表了多个竖直集中的一个竖直集。每个竖直集与竖直搜索查询相关。该存储器还包括用于在用户向竖直搜索查询输入额外的字符时显示多个名称的指令。

本发明的另一实施方案提供了嵌在载波中的数字信号，其包括多个名称。多个名称中的每个名称代表了多个竖直集中的一个竖直集。多个竖直集中的每个竖直集与竖直搜索查询相关。嵌在载波中的数字信号还包括多个分数。多个分数中的每个分数对应于多个名称中的一个名称。每个分数代表了多个竖直集中的一个竖直集与竖直搜索查询的相关度。在某些实施方案中，竖直搜索查询包括单个字符。在某些实施方案中，竖直搜索查询包括多个词条，其中，多个词条中的各个词条任选地通过一个或多个谓词条件彼此分隔开。

附图说明

图1示出了现有技术中的dmoz门户网站；

图2示出了根据本发明实施方案向竖直引擎服务器提交查询的客户端计算机；

图3A-3F示出了根据本发明实施方案将竖直搜索查询“tiger(老虎)”的每个字符键入到提示栏中时与该竖直搜索查询相关的竖直类别的渐进搜索；

图4示出了根据本发明的一个实施方案的竖直引擎服务器400；

图5示出了根据本发明的一个实施方案的竖直索引的体系结构；

图6示出了根据本发明实施方案的示例性方法。

在各个附图中，相似的附图标记表示相应的部分。

具体实施方式

本发明与已知的搜索引擎不同。在本发明中，使用竖直集，而不使用代表整个互联网的索引。“竖直集”包括关于共同的类别的一组文件(例如，URL、网站等)。例如，有关帆船的网页可能构成“帆船”竖直集。有关赛车的网页可构成“赛车”集。用户搜索竖直集，由此仅向用户返回与该竖直集代表的类别相关的文件。有益的是，本发明提供了用于帮助搜索者识别正确的竖直集以进行搜索的系统和方法。

如图2中所示，竖直搜索查询由客户端计算机100提交到竖直引擎服务器110。接收到竖直搜索查询后，竖直引擎服务器110在竖直集索引442中识别与该搜索查询有关的竖直集。然后向客户端计算机100返回候选竖直集的名称。然后用户选择其中一个竖直集，并继续用初始搜索表达式或新搜索表达式来搜索竖直集。

在详细说明竖直引擎服务器110如何针对给定搜索查询生成候选竖直集列表前，提供由竖直引擎服务器110的实施方案返回的候选竖直集的屏幕快照，如图3A-3F所示，由此可以更好地理解本发明的优点。在图3A中，向用户提供包括提示栏302在内的图形。值得注意的是，在图3A中，尽管存在提示栏302，但并不存在“搜索”按键(toggle)。图3A中还存在竖直集云朵(v-cloud)304，其显示所建议的竖直集的集合。在竖直集云朵304中列出的竖直集的标识完全是提示栏302的内容的函数。实际上，在本发明的一些实施方案中，提示栏302的内容被轮询，由此每当在提示栏302中键入额外的字符或有些情况下键入多个字符时，提示栏302的内容被当作竖直搜索查询，对于该竖直搜索查询，使用竖直引擎服务器110提取竖直集的新集合。然后，在竖直集云朵304中重新填充竖直集的新集合。利用这种方式，在用户向提示栏32中添加额外的字符时，竖直集云朵304总是包含最相关的竖直类别。当用户选择了竖直集云朵304中的其中一个竖直集时，利用提示栏302处的竖直搜索查询来搜索相应的竖直集。

为了说明本发明的概念，设想搜索表达式“tiger(老虎)”。如图3A中所示，用户通过首先键入字母“t”来利用提示栏302开始建立这个搜索表达式。在用户在提示栏302处键入字符“i”以前，竖直引擎服务器110搜索竖直集索引120中与竖直搜索查询“t”最相关的竖直集。竖直引擎服务器110然后将这些最相关的竖直集的标识传送给客户端计算机100，在该客户端计算机100中用这些标识来填充竖直集云朵304。这样，响应于提示栏302中的竖直搜索查询“t”，竖直集云朵304包括竖直集“apparel(服装)”(因为“t”是表达式T恤中的首字母)，竖直集“cellular phone(蜂窝电话)”(因为“t”是蜂窝电话公司T-Mobile的名称中的首字母)，竖直集“television programs(电视节目)”(因为“t”形成表达式“t.v.”的一部分)，等等。

参考图3B，当用户在提示栏302内输入“i”时，竖直引擎服务器110搜索竖直集索引120中与竖直搜索查询“ti”最相关的竖直集。竖直引擎服务器110然后将这些最相关的竖直集的标识传送给客户端计算机100，在该客户端计算机100中用这些标识来填充竖直集云朵304。这样，参考图3B，响应于提示栏302处的竖直搜索查询“ti”，竖直集云朵304包括竖直集“calculator(计算器)”(因为“ti”代表了计算器制造商Texas Instruments)以及竖直集“chemistry(化学)”和“elements(元素)”(因为“ti”是元素钛的化学符号)。参考图3C，当用户在提示栏302内输入“g”时，竖直引擎服务器110搜索竖直集索引120中与竖直搜索查询“tig”最相关的竖直集。竖直引擎服务器110然后将这些最相关的竖直集的标识传送给客户端计算机100，在该客户端计算机100中用这些标识来填充竖直集云朵304。这样，参考图3C，响应于提示栏302处的竖直搜索查询“tig”，竖直集云朵304包括竖直集“insurance(保险)”(因为“tig”代表了TIG保险公司)。因为竖直搜索查询“tig”与已知为钨惰性气体(TIG)焊接的焊接常用形式之间的类似性，竖直集云朵304还包括竖直集“welding(焊接)”。

参考图3D，当用户在提示栏302处输入“e”时，竖直引擎服务器110搜索竖直集索引120中与竖直搜索查询“tige”最相关的竖直集。竖直引擎服务器110然后将这些最相关的竖直集的标识传送给客户端计算机100，在该客户端计算机100中用这些标识来填充竖直集云朵304。这样，参考图3D，响应于提示栏302处的竖直搜索查询“tige”，竖直集云朵304包括竖直集“actor(男演员)”(因为类似的男演员Tige Andrews)，竖直集“boating(划船)”(因为Tige制船厂)，竖直集“shoes(鞋)”(因为与Brown鞋业公司有关的Buster Brown连环画中使用的斗牛犬角色)，以及竖直集“Texas”(因为Tige峡谷溪流位于Texas)。

参考图3E，当用户通过在提示栏302内输入“r”来完成表达式“tiger(老虎)”时，竖直引擎服务器110搜索竖直集索引120中与竖直搜索查询“tiger(老虎)”最相关的竖直集。竖直引擎服务器110然后将这些最相关的竖直集的标识传送给客户端计算机100，在该客户端计算机100中用这些标识来填充竖直集云朵304。这样，参考图3E，响应于提示栏302处的竖直搜索查询“tiger(老虎)”，竖直集云朵304包括竖直集“Chinese astrology(中国占星学)”(因为中国占星学中的虎生肖)，竖直集“golf(高尔夫)”(因为著名的高尔夫球员TigerWoods)，竖直集“Operating Systems(操作系统)”(因为Tiger Macintosh操作系统)，竖直集“seafood(海鲜)”(因为斑节对虾(tiger shrimp)是一种海鲜)，和竖直集“wild animals(野生动物)”，因为老虎当然也是一种野生动物。

这样，继续参考图3E，设想用户对Tiger Woods感兴趣的情况。因此，用户会从竖直集云朵304中选择竖直类别“golf(高尔夫)”。响应于该选择，执行对高尔夫竖直集的搜索，并且返回结果以便进行显示，如图3F所示。如可以看到的那样，与诸如Google等水平搜索引擎的情况不同，在高尔夫竖直集内响应Tiger竖直搜索查询，每个返回的文件都与高尔夫有关。从用户的角度看，这是有益的。用户从来都不用付出很多努力来识别合适的类别以便搜索。随着每次键击，竖直集云朵304自动提供若干不同的候选竖直集以便搜索。用户所需做的仅仅是一个字母接一个字母的不断输入，直至相关的竖直类别出现在竖直集云朵304中为止。如图3F所示，本发明的另一个优点是：一旦用户选择了高尔夫竖直集，则竖直搜索引擎110提供的每个广告都与高尔夫有关。这样，用户就更有可能对广告作出响应。

已经公开了对本发明的系统和方法的概述。根据该概述，可以很明显地看到本发明的很多优点和特征。本发明为用户自动提供了候选竖直集的列表，该列表可用做用户引导查询的目标。通过使用本发明的系统和方法，用户可以用从候选竖直集的列表中选择目标竖直集所需的最少的努力来搜索目标竖直集中与搜索查询相关的文件。这样，通过利用本发明，就不再需要通过类别的级别列表来导航，或通过根据对整个因特网的广泛搜索而获得的搜索结果来筛选与给定搜索查询相关的文件。

现在已经展现了对本发明的概述和本发明的优点，以下将公开对本发明的系统和方法的更详细的描述。为了达到这个目的，图4示出了根据本发明的一个实施方案的竖直引擎服务器110。在一些实施方案中，通过利用一个或多个计算机系统400来实现竖直引擎服务器110，如图4中示意性示出的那样。本领域技术人员将会理解，被设计来处理大量的竖直搜索查询的竖直引擎可利用比图4中所示的更复杂的计算机体系结构。例如，前端的一组服务器可用于接收竖直搜索查询并在实际处理用户查询的后端服务器组中分布竖直搜索查询。在这样的系统中，如图4中所示的系统400应是一种这样的后端服务器。

计算机系统400通常具有用户界面404(包括显示器406和键盘408)、一个或多个处理单元(CPU)402、网络或其它通信界面410、存储器414，和一个或多个用于互联这些部件的通信总线412。存储器414可包括高速随机存取存储器，并可包括非易失性存储器，诸如一个或多个磁盘存储装置(未示出)。存储器414可包括远离中央处理单元402安置的海量存储器。存储器414优选地存储：

操作系统416，其包括用于处理各种基本系统服务和用于执行依赖于硬件的任务的进程；

网络通信模块418，其用于通过诸如因特网、其它广域网、局域网(例如，可将客户端计算机100连接到计算机400的无线局域网)、城域网等通信网络来将系统400连接到各种客户端计算机100(图1)以及可能的其它服务器或计算机；

查询处理器(handler)420，其用于从客户端计算机100接收竖直搜索查询；

搜索引擎422，其用于搜索选定竖直集450中与竖直搜索查询有关的文件466并用于形成与搜索查询有关的一组分等级的文件；

竖直搜索引擎424，其用于搜索竖直索引442中与给定的竖直搜索查询有关的一个或多个竖直索引列表444；

竖直索引构造模块460，其用于构造竖直索引442；以及

索引构造模块464，其用于根据文件466的集合构造文件索引462。

在查询处理器420接收竖直搜索查询以前，由索引构造模块464开始执行本发明的方法。索引构造模块464通过扫描文件466中的相关搜索词条来构造文件索引462。以下说明了文件索引462的示例：

词条	文件标识符
词条	文件标识符	词条1	docID_1a，……，docID_1x
词条2	docID_2a，……，docID_2x	词条1	docID_1a，……，docID_1x
词条2	docID_2a，……，docID_2x	词条3	docID_3a，……，docID_3x
……	……	词条3	docID_3a，……，docID_3x
……	……	词条N	docID_Na，……，docID_Nx

在一些实施方案中，文件索引462由索引构造模块464利用常规索引技术来构造。在美国专利申请公开20060031195中公开了示例性索引技术，该申请的全部内容被并入本文中作为参考。要说明的是，在某些实施方案中，当给定词条在特定文件中出现的次数多于阈值次数时，可将该词条与该特定文件关联起来。在某些实施方案中，当给定词条获得了比阈值分数还高的分数时，可将该给定词条与特定文件关联起来。可用来相对于候选词条对文件进行评分的标准包括但不限于：(i)候选词条在该文件的上部出现的次数，(ii)在文件内的候选词条的标准化平均位置，(iii)候选词条中的字母的个数，以及(iv)文件被其它文件引用的次数。评分较高的文件被与词条关联起来。文件索引462存储了词条列表、独一无二地标识与词条列表中的词条相关的每个文件的文件标识符、和这些文件的分数。本领域技术人员将会理解：存在许多将词条与文件关联起来以便建立文件索引462的方法，并且这些方法都可以用于构造本发明的文件索引462。

对于文件索引462中可呈现的词条的个数并没有限制。在某些实施方案中，长度为1到10个ASCII字符的字符串的所有组合被表示为文件索引462中的词条。在某些实施方案中，长度为1到20个ASCII字符的字符串的所有组合被表示为文件索引462中的词条。在某些实施方案中，长度为1到30个ASCII字符的字符串的所有组合被表示为文件索引462中的词条。而在某些实施方案中，长度为1到50个ASCII字符的字符串的所有组合被表示为文件索引462中的词条。此外，对于可与文件索引462中的每个词条关联起来的文件466的个数并没有限制。例如，在某些实施方案中，将零至100个文件466与搜索词条关联起来，将零至1000个文件466与搜索词条关联起来，将零至10000个文件466与搜索词条关联起来，或将10000个以上的文件466与搜索词条关联起来。此外，对于可将给定文件466与之关联起来的搜索词条的个数并没有限制。例如，在某些实施方案中，给定文件466与零至100个、零至100个、零至1000个、零至10000个或10000个以上的搜索词条关联起来。

在本申请的上下文中，文件466可被理解为可由搜索引擎索引和提取的任何类型的媒介，包括网络文件、图像、多媒体文件、文本文件、PDF或其它图像格式的文件、铃音、全轨媒介等。文件466可具有适合其内容和类型的一个或多个分页、分区、分段或其它部分。等同地，文件466可被称为“分页”，如通常用于称呼因特网上的文件那样。通过利用一般术语“文件”来暗示对本发明的范围并没有限制。在本发明中，存在许多由索引构造模块464索引的文件466。通常，存在由索引构造模块464索引的十万个以上文件、百万个以上文件、十亿个以上的文件、甚至万亿个以上的文件。

竖直集450用涉及特定的非等级类别的文件索引462中的文件来构造。例如，一个竖直集450可从涉及电影的文件索引462索引的文件来构造，另一个竖直集450可从涉及体育的文件索引462索引的文件来构造，依此类推。竖直集450可由竖直引擎服务器系统操作员以相对直接的方式来构造、合并或拆分。在某些实施方案中，存在数百个以这种方式建立起的竖直集450。在某些实施方案中，存在数千个以这种方式建立起的竖直集450。

一旦文件索引462由索引构造模块464构造，则竖直索引构造模块460就可以构造竖直索引442。为了完成这些，每个竖直集450被反转。根据图4，每个竖直集450具有以下形式：

在某些实施方案中，竖直集450中的每个DocId进一步包括由索引构造模块464分配的文件质量分数。每个竖直集450的反转和将这些被反转的竖直集中的每一个合并形成了具有以下数据结构的被反转的文件-竖直索引：

被反转的文件-竖直索引

文件标识符	相关的竖直集450
文件标识符	相关的竖直集450	DocId_1-1	V_a，……，V_x
DocId_1-2	V_b，……，V_y	DocId_1-1	V_a，……，V_x
DocId_1-2	V_b，……，V_y	……	……
DocId_1-P	V_c，……，V_z	……	……
DocId_1-P	V_c，……，V_z	DocId_2-1	V_d，……，V_aa
……		DocId_2-1	V_d，……，V_aa

这样，对于文件索引462中的每个给定文件466，在被反转的文件-竖直索引中提供了与给定文件关联起来的竖直集450的列表。可存在几个与任何给定文件关联的竖直集450。进一步，不要求将每个文件466与唯一一组竖直集450。

利用该被反转的文件-竖直索引，就可以通过反转的文件-竖直索引提出的与文件标识符相关联的相应竖直集代替文件索引462中的该文件标识符，来创建竖直索引442。在一种方法中，这可以通过逐个基于词条扫描文件索引462，和收集被反转的文件-竖直索引提出的与每个词条关联起来的文件相关联的竖直集450的集合来完成。例如，考虑以上提出的示例性文件索引462中的词条1。根据文件索引462，词条1与docID_1a、……，docID_1x关联起来。这样，对于集合docID_1a，……，docID_1x中的每个docID_i，查阅被反转的文件-竖直索引以确定哪些竖直集450与各docID_i关联。然后，将这些竖直集450中的每一个与词条1关联起来，以便构成词条1的竖直索引列表444。这样，从文件索引462中的词条1的条目开始，

词条1	DocID_1a，……，docID_1x

从被反转的文件-竖直索引中收集与DocID_1a，……，docID_1x关联的竖直集的集合，以便构造竖直索引列表：

词条1	V1，V2，……，VN

其中，V₁，V₂，……，V_N中的每一个是指示唯一的竖直集450的竖直集标识符。这个数据结构是竖直索引列表444。如所说明的那样，竖直索引列表444是共享可定义的属性(例如，“词条1”)的竖直集450的竖直集标识符列表。如果词条1是“假期”，那么竖直索引列表444包含了竖直集450的标识符，这些竖直集450包括含有词语“假期”的文件。定义列表的谓词，以上实例中的“词条1”，称为“头词条”。

通过考虑词条集中的所有词条，构成竖直索引442。在词条集中可能存在大量的词条。例如，在一些实施方案中，词条集包含了长度在1至10个ASCII字符之间的字符串的所有组合、长度在1至20个ASCII字符之间的字符串的所有组合、长度在1至30个ASCII字符之间的字符串的所有组合，或长度在1至50个ASCII字符之间的字符串的所有组合。竖直索引442包括竖直索引列表444，以及能定位和返回对应于给定属性(搜索词条)的竖直索引列表444的有效率处理。例如，竖直索引442可被定义为包含了集合中出现的所有词语的竖直索引列表444。竖直索引442为集合中的每个给定词语存储了那些竖直集450的竖直索引列表444。对于给定词语的竖直索引列表444中的每个这种竖直集450包含至少几个含有给定词语的文件466。

参考图5，提供了根据本发明的一个实施方案的关于竖直索引442的具体结构。在这个实施方案中，竖直索引442包含哈希查找表和竖直索引列表存储部件。哈希查找表含有准确定位各个竖直索引列表444的位置的指针或文件偏移。给定头词条(搜索词条)的哈希提供了到相应的竖直集450列表的正确偏移，该竖直集450包含了关于给定头词条的文件466。例如，考虑头词条是“假期”的情况。在该实例中，头词条被散列(hash)给出偏移03。在竖直索引442中偏移03处查找的列表，给出对应于头词条“假期”的标识符列表[verIb₃₁，verIb₃₂，verIb₃₃，verIb₃₄，……]。集合[verIb₃₁，verIb₃₂，verIb₃₃，verIb₃₄，……]中的每个标识符，对应于含有具有“假期”头词条的文件的竖直集450。继续参考图5，竖直索引列表444被显示具有不同的长度，因为这是一种常见情况。在某些实施方案中，将词条具体分数与每个竖直索引列表444中的每个竖直标识符关联，如以下将更详细地描述的那样。

以上已经详细描述了用于构成竖直索引442的步骤。对于头词条集中的每个头词条，竖直索引442包括竖直集450的列表，这些竖直集450具有包含了各个头词条的文件。为了优化竖直索引442，可采取额外的步骤来将每个竖直索引列表444中引用的每个竖直集450分级，使得对于每个给定的竖直搜索查询仅仅返回最有意义的竖直集450。这样，对于竖直索引442中呈现的每个头词条(t)，相对于头词条来为各头词条的竖直索引444中列出的各竖直集(v)评分，以给出分数score(t，v)。给定具体头词条分数score(t，v)的情况下，可以多种不同的方式来计算竖直集450的分数。在某些实施方案中，给定具体头词条(score(t，v))的情况下，通过将竖直集中的所有文件466累加起来来计算竖直集450的分数，如以下这样计算：

score (t, v) = [\underset{d &Element; v}{Σ} score (t, d)] \cdot w (d, v) - - - (I)

其中，score(t，d)是关于竖直集450中的文件的分数，而w(d，v)是分配给包含了该文件的竖直集450的某个权数。

在某些实施方案中，w(d，v)是对具有给定头词条的最高频率的那些竖直集450增加权重的权数。换言之，在这样的实施方案中，与具有头词条(t)出现次数较少的文件的第二竖直集450相比，具有头词条(t)出现次数较多的文件的第一竖直集450的w(d，v)更高。在某些实施方案中，w(d，v)是对竖直集450增加权重的权数，在这些竖直集450内，等级最高的文件中，头词条的出现度较高。换言之，在这样的实施方案中，与在其等级较高的文件466内头词条(t)出现度较低的第二竖直集450相比，在其等级较高的文件466内头词条(t)出现度较高的第一竖直集450的w(d，v)更高。这里，等级较高的文件466指从索引构造模块464接收到高等级的那些文件。索引构造模块464为某个文件466指定高等级的方法在本区域中是众所周知的。为文件466分等级的一种标准是，例如，评定有多少个其它文件引用了给定文件466。这种分级方案背后的想法是：越多的文件引用了给定文件，给定文件必定越有意义。本领域技术人员已知若干其它的用于为文件分级的标准和方法，而所有的这些标准和方法都可在本发明中用于为文件466分级。然后，使用这种为文件索引462中的文件466进行分级的操作来为含有这种文件的竖直集450分配score(t，v)。可替换的，在不太优选的实施方案中，可以不依赖于索引构造模块464，用本领域中通常用来为文件分级的标准和方法，为竖直集内的文件466分级。在某些实施方案中，不使用w(d，v)来计算score(t，v)。即，在某些实施方案中，不存在w(d，v)。在某些实施方案中，对于给定竖直集450的w(d，v)是竖直集450的流行度的函数，即在竖直集450内文件466的链接密度的总计，或通常用于评价文件466的质量的任何其它标准。

在某些实施方案中，

score (t, d) = (A + \log (f (d, t))) \cdot \log (B + \frac{f (N)}{v (t)}) - - - (II)

其中，f(d，t)是头词条(t)在竖直集450的文件(d)中出现的次数，而f(N)是竖直搜索引擎424可访问的竖直集450的数目的函数(这种竖直集是否存储在存储器414中和/或可通过网络界面410来访问)。在某些实施方案中，f(N)仅仅是M_v，存储在存储器414中的竖直集和/或可通过网络界面410得到的竖直集的个数。在某些实施方案中，f(N)是log(M_v)或M_v的一些其它函数，诸如Mv的根。在公式(II)中，v(t)是含有头词条(t)的竖直集450的个数。实际上，v(t)是在竖直索引列表442中关于头词条(t)的竖直集450的个数。此外，在公式(II)中，A和B在某些实施方案中均等于1。在其它实施方案中，A和B是相同的或不同的常数。在某些实施方案中，A大于B。在某些实施方案中，A小于B。在某些实施方案中，A等于B。也可能有关于score(t，d)的其它公式。例如，在某些实施方案中，

score(t，d)＝f(d，t) (III)，

其中，f(d，t)是在竖直集450的文件(d)中头词条(t)出现的次数。

将公式(II)代入到公式(I)中并重新排列，在某些实施方案中：

score (t, v) = \log (B + \frac{f (N)}{v (t)}) \underset{d &Element; v}{Σ} (A + \log (f (d, t))) \cdot w (d, v) - - - (IV)

对于这些实施方案，整体w(d，v)被应用到整个竖直集450中的每个文件上，以及

score (t, v) = \log (B + \frac{f (N)}{v (t)}) \underset{d &Element; v}{Σ} (A + \log (f (d, t))) \cdot w (d, t) - - - (V)

对于这些实施方案，基于词条(t)的身份来将w(d，t)应用到每个文件上。

在某些实施方案中，公式(IV)或(V)中表达的score(t，v)是在给定词条(t)的情况下关于竖直集450的整个分数(scoreov)的一部分，具有以下形式：

μ₁*score₁(t，v)⁺μ₂*score₂(t，v) (VI)

其中，score₂是公式(IV)和(V)的score(t，v)，而score₁(t，v)具有以下形式：

score₁(t，v)＝竖直v中的头词条t的分数＝(C+log(f(v，t)))*log(D+f(N)/v(t))(VII)

其中，f(v，t)是含有词条(t)的竖直集(v)中的文件466的个数，f(N)是由存储器414跟踪的竖直集的个数的函数(例如，N，由存储器414跟踪的竖直集的个数，log(N)，N的根，等等)，v(t)是在词条(t)的竖直索引列表444中的竖直集450的个数，而C和D是常数。在某些实施方案中，C和D均等于1。在其它实施方案中，C和D是相等的或不等的常数。在某些实施方案中，C大于D。在某些实施方案中，C小于D。在公式(VI)中，μ₁和μ₂是可以独立地调节的单元。在典型的实施方案中，μ₁和μ₂是恒定的值。这些值可以是相同的也可以是不同的。在某些实施方案中，μ₁是零。在某些实施方案中，μ₁是小于μ₂的恒定的值。在某些实施方案中，μ₁是大于μ₂的恒定的值。

参考图6，描述了根据本发明的一个实施方案的示例性方法。该方法详细列出了：在用户建立起竖直搜索查询时，竖直搜索引擎424用来交互性地为用户提供竖直集450的推荐列表的步骤。

步骤602。在步骤602中，从客户端计算机100接收竖直搜索查询。竖直搜索查询包括关键词列表，这些关键词可能由布尔算符AND、OR以及NOT连接，且任选地用括号或引号分组。竖直搜索查询的实例包括：(i)“佛罗里达打折假期”，(ii)“美国总统”，和“(小汽车OR汽车)AND(传动装置OR制动器)”。参考图3，竖直搜索查询是给定时间点处的提示栏302的内容。在某些实施方案中，竖直搜索查询的形式是http请求。

步骤604。在步骤604中，作出关于用户是否已经选择了竖直集450的判断。参考图3A，例如，用户可通过选择竖直集云朵304中列出的任何竖直集，在任何时刻选择竖直集450。在某些实施方案中，当提示栏302是空的时，在竖直集云朵304中没列出任何竖直集450，因此，在提示栏302是空的阶段，用户在这样的实施方案中不能选择竖直集450。在某些实施方案中，当提示栏302是空的时候，竖直集云朵304被填充以流行的和/或受赞助的竖直集450。如果用户没有选择竖直类别(604-否)，那么控制处理进行至步骤606。如果用户选择了竖直类别(604-是)，那么控制处理进行至步骤620。

步骤606。在步骤606中，将竖直搜索查询解构成基本(atomic)竖直搜索查询。基本竖直搜索查询由单个词条或谓词条件构成。例如，竖直搜索查询“(car OR automobile)AND(transmission OR brakes)”包括单个词条“car(小汽车)”、“automobile(汽车)”、“transmission(传动装置)”、“brakes(制动器)”和优先级“()”、AND和OR的谓词条件。

步骤608。在典型的实施方案中，竖直搜索查询中的仅仅一个基本竖直搜索查询是新的或被改变。这样，在步骤608中，首先标识新的或已经被改变的基本竖直搜索查询。为了说明，考虑在最近一次步骤608中的竖直搜索查询是“car(小汽车)OR auto(汽车)”的情况，而在当前一次步骤608中，竖直搜索查询是“car(小汽车)OR automobile(汽车)”。在步骤606中，竖直搜索查询“car(小汽车)OR automobile(汽车)”被分解成基本竖直搜索查询“car(小汽车)”和“automobile(汽车)”。基本竖直搜索查询“car(小汽车)”相对于最近一次步骤608保持不变，因此在步骤新的一次步骤608中不会被散列。另一方面，基本竖直搜索查询“automobile(汽车)”具有最近一次步骤608中的形式“auto”，并且因此在新的一次步骤608中不会被散列。在某些实施方案中，与重新散列全部的基本竖直搜索“汽车”不同，利用前一次步骤608中进行的对“auto”的散列，并用额外的字符“mobile”执行累积散列，以便实现对当前步骤608中的“automobile(汽车)”的完整散列。在某些实施方案中，不执行这样的累积散列。在某些实施方案中累积散列是更优选的，使得可在用户有机会向提示栏302中键入更多字符之前向客户端计算机100返回被推荐的竖直集450。这样，能加速步骤606至612的计算的任何技术都是优选的。

在某些实施方案中，基本竖直搜索查询并没有被散列。在这样的实施方案中，竖直索引442并不按照基本竖直搜索查询的哈希值排序。在某些实施方案中，在竖直搜索查询内的多于一个基本竖直搜索查询是新的或已经被改变。在这样的实施方案中，在步骤608中对每个新的或被改变的基本竖直搜索查询进行单独的散列。如果对于这些被改变的基本竖直搜索查询中的任何一个可得到前体表达式，则利用对这种前体表达式的散列来加速对相应的被改变的基本竖直搜索查询的散列。

步骤610。在步骤610中，对于竖直查询中的每个新的或被改变的基本竖直搜索查询的竖直索引列表444被识别。在竖直索引442是哈希表(例如图5中所示的)的实施方案中，这种操作是利用每个新的或被改变的基本竖直搜索查询的各个散列进行简单的哈希表查找。在某些实施方案中，并不使用哈希表。例如，在某些实施方案中，竖直索引442是含有竖直索引444的一些其它形式的数据结构，诸如阵列、列表、堆栈、队列、树或数据库。在Brookshear，Computer Science，2003，Addison-Wesley，New York中描述了这样的数据结构，该文章的全部内容被并入本文中作为参考。在某些实施方案中，与竖直搜索查询中并不是新的基本竖直搜索查询相对应的竖直索引444已经从前次步骤610中得知，因此并不在后续步骤610中获得。在某些实施方案中，在每次步骤610中识别竖直搜索查询中的每个基本竖直搜索查询的竖直索引444。无论任何实施方案，一旦完成了步骤610，则在竖直搜索查询中的每个基本竖直搜索查询的竖直索引列表444被识别。

步骤612。在步骤612中，组成来自客户端计算机100的竖直搜索查询的推荐竖直集450的列表。在竖直搜索查询仅包括一个基本竖直搜索词条的情况下，步骤612简单地包括提取基本竖直搜索词条的竖直索引444中提及的每个竖直集450的名称，该竖直索引444是在步骤610中识别的。在竖直搜索词条包括多于一个基本竖直搜索词条的情况下，需要进行更多的工作。考虑在竖直搜索词条查询中存在两个基本竖直搜索词条的情况，其中，在两个搜索词条之间或者没有算符，或者两个搜索词条用“AND”运算符联合起来。在这种情况下，首先利用以上描述的处理来识别每个基本竖直搜索词条的竖直集450的名称。因此，如果基本竖直搜索词条是词条₁和词条₂，该操作会产生以下的识别结果：

词条1	VC_1-1，V_C1-2，……，VC_1-N
词条1	VC_1-1，V_C1-2，……，VC_1-N	词条2	VC_2-1，VC_2-2，……，VC_2-N，

然后，为了识别该例子中的推荐竖直集450的列表，在本发明的一些实施方案中考虑每个竖直集450列表的相交区。这意味着，仅仅由两个竖直索引列表444所共有的那些竖直集450，才会包括在这样的实施方案中的推荐竖直集450的列表中。在某些实施方案中，除了要求每个推荐竖直集要出现在两个索引列表444中，每个推荐竖直集必须具有最小相关度分数score(v，t)。

接下来考虑用“OR”算符连接两个基本竖直索引词条的情况。这里，对两个搜索词条的两个竖直索引列表444中的竖直集450进行合并。即，在任一个竖直索引列表444中的竖直集450被选择包含在候选竖直集450的名称列表中，这些候选竖直集450的名称响应竖直搜索查询被发送回客户端计算机100。在某些实施方案中，每个竖直索引列表444中的每个竖直集450的相关度分数也被用于确定哪个竖直集450被选入侯选竖直集450的名称列表。例如，在某些实施方案中，在两个基本竖直搜索词条的竖直索引列表444中存在的那些竖直集450被相加。因为这种相加操作，这些在两个基本竖直搜索词条的竖直索引列表444中都存在的竖直集450有出现在这些实施方案的推荐竖直集450的列表中的趋势。然而，在这样的实施方案中，仅在两个竖直索引列表444中的一个列表中出现的竖直集450也极有可能被推荐，如果这样的竖直集450具有较高分数的话。以下例子说明了这一点。考虑关于词条₁和词条₂的竖直索引444，其中已经计算了每个竖直集450的质量或相关度分数，其中用“OR”算符将词条₁和词条₂关联起来：

词条1	VC₁₅₀(分数_150，t1)，VC₁₇₀(分数_170，t1)，VC₁₇₅(分数_175，t1)
词条1	VC₁₅₀(分数_150，t1)，VC₁₇₀(分数_170，t1)，VC₁₇₅(分数_175，t1)	词条2	VC₁₅₁(分数_151，t2)，VC₁₇₀(分数_170，t2)，VC₁₇₅(分数_175，t2)

这样，为了确定哪些竖直集450要被收入到响应给定的竖直搜索查询的推荐竖直集的列表中，作出以下计算：

VC₁₅₀＝分数_150，t1

VC₁₇₀＝分数_170，t1+分数_170，t2

VC₁₇₅＝分数_175，t1+分数_175，t2

VC₁₅₁＝分数_151，t2

这里，VC₁₇₀和VC₁₇₅受益于两个分数的加和，而VC₁₅₀和VC₁₅₁仅接收一个分数。然而，VC₁₅₀或VC₁₅₁仍有可能具有比VC₁₅₀和VC₁₅₁更高的分数，因此，可能被包括在推荐竖直集450的列表中。这里，每个分数可能是在以上对公式(I)至(VII)的描述中提到任何一种分数，或为给定搜索词条指定竖直集质量或竖直集的相关度的一些其它的分数。

对于用NOT算符连接的两个基本竖直搜索词条，从与没有被否定的搜索词条相关联的竖直索引444中的竖直集450的列表中减掉被否定的搜索词条的竖直索引列表444中的那些竖直集450，从而形成对于给定竖直搜索请求的竖直集推荐列表。为了说明，考虑关于词条₁和词条₂的竖直索引444，其中，已经计算出每个竖直集450的质量或相关度分数，并且其中，用“NOT”算符将词条₁和词条₂连接：

这样，在这种情况下，仅竖直集VC₁₅₀会被选入推荐竖直集450的列表中。

可利用由诸如AND、OR以及NOT这样的布尔表达式联结起来的基本竖直搜索查询的组合来建立更复杂的逻辑表达式。此外，可利用括号来引入优先级。本领域技术人员将理解，可以用其它形式的逻辑来合并或拆分竖直索引442中的竖直索引450的列表，以便形成对给定的竖直搜索查询的推荐竖直集列表的最终集合，且所有这样的逻辑形式都落在本发明的范围内。

在某些实施方案中，推荐竖直集450的列表包含了最大数目的竖直集450。对于某些搜索表达式，被识别的竖直集450的数目不会超过这个最大数。然而，对于某些搜索表达式，被识别的竖直集450的数目不会超过推荐竖直集450的最大可能数目。在这样的实施方案中，利用与每个竖直集450相关的基于词条的相关度分数来确定哪些竖直集要包括在给定竖直搜索查询的竖直集的推荐列表中。仅为列表选择得分最高的竖直集450。

步骤614-618。由步骤608至612执行的查找经设计很迅速。在某些实施方案中，在由用户输入到提示栏302中的每次字符敲击之间，向客户端计算机100返回竖直集450的推荐列表。相应地，在某些实施方案中，每当用户向图3的提示栏302中输入新的字符，客户端计算机100就发送新的竖直搜索查询。在某些实施方案中，每当客户端计算机100检测到字符串信号的结尾，则客户端计算机发送新的竖直搜索查询。在某些实施方案中，当检测到用户键击的停顿时，客户端计算机100检测到这种字符串信号的结尾。例如，参考图3A和3B，如果在输入“t”(图3A)和“i”(图3B)之间存在延迟(例如，1秒、2秒的延迟、三秒的延迟等)，那么字符串信号的结尾被客户端计算机100检测到，并且“t”被发送到远程服务器(竖直引擎服务器110)，作为竖直搜索查询。在某些实施方案中，当空格字符或回车，或其它指定字符由用户输入到提示栏302中时，也会检测到字符串信号的结尾。

在某些实施方案中，执行检查，以判断是否已经从客户端计算机100接收到新的竖直查询(步骤614)。例如，在某些实施方案中，判断是否有来自客户端计算机100的带有新的或修正过的竖直搜索查询的新http请求到达。如果接收到新的或修正过的竖直查询(614-是)，则控制返回到步骤604而不用报告推荐竖直集(步骤616)。如果新的或修正过的竖直搜索查询还没到达(614-否)，那么推荐的竖直集450被报告给客户端计算机100，在该客户端计算机100处，推荐的竖直集450被显示在诸如竖直集云朵304的图形中(步骤618)。在某些实施方案中，即使当新的竖直搜索查询已经从客户端计算机100到达时，也将推荐的竖直集450报告给客户端计算机100。

在某些实施方案中，返回给客户端计算机100的推荐竖直集的列表包括推荐竖直集450的标识(名称)和每个竖直集450的相关度分数。可例如利用以上公式(I)至(VII)所描述的任何评分函数，或为给定竖直搜索查询评定竖直集450的质量和/或竖直集450的任何其它评分函数，来计算这种相关度分数。然后，如图3所示，那些分数较高的竖直集相比那些相关度分数较低的竖直集显示为更大的图形。例如，参考图3，对于竖直搜索查询“t”，竖直集“Apparel”的整个相关度分数比竖直集“电视节目”高。因此，在竖直集云朵304中，竖直集“Apparel”显示为比竖直集“电视节目”更大的图形。在某些实施方案中，若不将具有更高相关度的竖直集450显示为更大的图形，或除了这种方式之外，还可以使用其它的指示。例如，可将这样的竖直集以从色谱中选出的颜色列出。例如，更相关的竖直集可在色谱的一端处，例如绿色，而不太相关的竖直集就位于色谱的另一端。同样，更相关的竖直集可以较粗的格式来显示，而不太相关的竖直集可以不太粗的格式来显示。

在完成了步骤618之后，控制返回到步骤602以等待新的竖直搜索查询。

步骤620-622。最后，用户选择竖直集450。当发生这一操作时，竖直搜索查询被指引向所选的竖直集450。搜索所选的竖直集450中与最终的竖直搜索查询最为相关的那些文件(步骤620)。在某些实施方案中，搜索引擎422执行对所选的竖直集450的搜索。然后，在步骤622，这些等级较高的文件被报告给客户端计算机100，在客户端计算机100处，这些文件被显示成例如图3F所示的那样。

已经公开了用于向构造搜索查询的用户自动推荐竖直集的计算机系统、图形用户界面、计算机程序产品和方法。由于几个原因，这些技术是非常有益的。竖直索引442的搜索极快。这使得竖直搜索引擎424能在用户键击之间向用户返回推荐竖直集450的列表。这样，用户就能快速发现哪类主题与搜索查询相关，并且可以或者选择其中一个类别，继续在搜索查询中输入，或者在出现不感兴趣的竖直集450的情况下，用新的竖直搜索查询重新开始。利用本发明，用户可享受到在相关的竖直集内搜索的所有好处，而无需在类别的分级列表中搜寻或不得不对什么可能是要搜索的正确类别作出统一的猜想。此外，从服务器的角度来看，本发明非常有益，如图3F所示，对竖直集的基于用户的选择，结合竖直搜索查询，为除去搜索查询中的任何模糊度提供了基础，(例如，判断tiger(老虎)是表示“Tiger Woods”、Macintosh操作系统还是动物)，因此能传送有意义的且相关的广告和/或赞助的链接。

本文所引用的所有参考文件都是以全文引用的方式且为所有目的以相同程度并入，其引用程度就如同将每一个别公开、专利或专利申请均特定且个别地为所有目的以全文引用的方式并入。

本发明可作为计算机程序产品来实现，该产品包括被嵌入在计算机可读存储介质中的计算机程序机制。例如，该计算机程序产品可包含图4中所示的程序模块。这些程序模块可存储在CD-ROM、DVD、磁盘存储产品，或任何其它的计算机可读数据或程序存储产品上。计算机程序产品中的软件模块也可以经由因特网或通过在载波上传递计算机数据信号(其中嵌入了软件模块)来电分布。

对于本领域技术人员来说很明显的是，在不脱离本发明的精神和范围的情况下，可以对本发明作出许多修改和改动。本文所描述的具体实施方案仅仅是以举例的方式提供的。选择和描述实施方案是为了更好地解释本发明的原理和其实际应用，从而使本领域技术人员能够最好地利用本发明和适合于预期的特定用途的具有各种修改的各种实施方案。本发明仅受所附权利要求的术语以及权利要求规定的等同物的整个范围的限制。

Claims

1、存储在客户端计算机的存储器中的图形用户界面，所述图形用户界面包括：

用于从用户获得竖直搜索查询的提示域；以及

用于显示多个名称的显示域，其中所述多个名称中的每个名称表示多个竖直集中的一个竖直集；其中

当用户仍在所述提示域中键入额外的字符时，作为该竖直搜索查询的函数，在所述显示域中自动填充多个名称。

2、如权利要求1所述的图形用户界面，其中所述显示域中的所述多个名称中的各个名称被显示为具有尺寸的图形，该尺寸是由所述各个名称所代表的竖直集的相关度的函数。

3、如权利要求2所述的图形用户界面，其中，当第一图形表示多个竖直集中的第一竖直集，且该第一竖直集比由第二图形表示的多个竖直集中的第二竖直集与所述竖直搜索查询更相关时，在所述显示域中的该第一图形比该显示域中的所述第二图形具有更大的尺寸。

4、如权利要求1-3中任一项所述的图形用户界面，其中，所述显示域中的所述多个名称中的每个名称被显示为具有视觉标记的图形，并且其中，在该显示域中显示的各图形的视觉标记是由所述各图形所代表的竖直集的基于竖直搜索查询的相关度确定的。

5、如权利要求4所述的图形用户界面，其中，所述视觉标记是尺寸或颜色。

6、如权利要求1-5中任一项所述的图形用户界面，其中，该多个竖直集中的每个竖直集被设置在远程服务器上并包括与特定类别相关的文件。

7、如权利要求1-6中任一项所述的图形用户界面，其中，所述图形用户界面作为网络可访问浏览器内的应用程序运行。

8、如权利要求1-7中任一项所述的图形用户界面，其中，每当所述用户在所述提示域输入一个或多个字符时，通过在所述用户输入一个或多个字符之后将所述提示域的内容传送到远程服务器，并且从所述远程服务器接收新的多个名字以作为所述提示域的内容的函数在所述显示域中显示，在所述显示域中重新填充所述多个名称。

9、如权利要求8所述的图形用户界面，其中在用户向所述提示域中输入每个字符之后，所述提示域的内容被发送到远程服务器。

10、如权利要求8所述的图形用户界面，其中当检测到字符串信号的结尾时，所述提示域的内容被发送到远程服务器。

11、如权利要求1-10中任一项所述的图形用户界面，其中该竖直搜索查询包括单个字符。

12、如权利要求1-10中任一项所述的图形用户界面，其中该竖直搜索查询包括多个词条，并且其中多个词条中的词条任选地被一个或多个谓词条件彼此分开。

13、与客户端计算机系统结合使用的计算机程序产品，其中该计算机程序产品包括计算机可读存储介质和嵌入其中的计算机程序机制，所述计算机程序机制包括：

用于接收来自所述客户端计算机系统的用户的竖直搜索查询的指令；

用于将所述竖直搜索查询传送给远程计算机的指令；

用于从所述远程计算机接收多个名称的指令，其中该多个名称中的每个名称代表多个竖直集中的一个竖直集，并且其中多个竖直集中的每个竖直集与所述竖直搜索查询有相关性；以及

用于在用户仍向所述竖直搜索查询中输入额外的字符时，显示所述多个名称的指令。

14、如权利要求13所述的计算机程序产品，其中所述多个名称中的各名称被显示为具有一定尺寸的图形，该尺寸是所述各名称代表的竖直集的基于竖直搜索查询的相关度的函数。

15、如权利要求14所述的计算机程序产品，其中，当第一图形表示多个竖直集中的第一竖直集，该第一竖直集比由第二图形的表示多个竖直集中的第二竖直集与所述竖直搜索查询更相关时，显示的该第一图形比显示的所述第二图形具有更大的尺寸。

16、如权利要求13-15中任一项所述的计算机程序产品，其中，所述多个名称中的每个名称被显示为具有视觉标记的图形，并且其中各图形的视觉标记是由所述各图形代表的竖直集的基于竖直搜索查询的相关度确定的。

17、如权利要求16所述的计算机程序产品，其中所述视觉标记是尺寸或颜色。

18、如权利要求13-17中任一项所述的计算机程序产品，其中，

所述用于接收的指令进一步包括用于接收所述多个名称中的每个名称的竖直搜索查询相关度分数的指令；以及

所述用于显示的指令进一步包括用于作为名称的相关度分数的函数显示多个名称中的每个名称的指令。

19、如权利要求13-18中任一项所述的计算机程序产品，其中所述多个竖直集中的各竖直集被放置在所述远程计算机上并包括与特定类别有关的文件。

20、如权利要求13-19中任一项所述的计算机程序产品，其中，

每当所述用户向所述竖直搜索查询中输入一个或多个字符时，用于传送所述竖直搜索查询的指令被重复；并且

在重复所述用于传送的指令的所有次数或部分次数，通过所述用于接收多个名称的指令从所述远程计算机接收多个名称；并且

在每次通过所述用于接收多个名称的指令接收多个名称时，重复用于显示的指令；其中，各多个名称代表的竖直集与所述用于传送的指令传送的相应竖直搜索查询有相关度。

21、如权利要求20所述的计算机程序产品，其中，每当所述用户向所述竖直搜索查询中输入单个字符时，用于传送竖直搜索查询的指令被重复。

22、如权利要求20所述的计算机程序产品，其中，每当检测到字符串信号的结尾时，用于传送所述竖直搜索查询的指令被重复。

23、如权利要求13-22中任一项所述的计算机程序产品，其中，该竖直搜索查询包括单个字符。

24、如权利要求13-22中任一项所述的计算机程序产品，其中，该竖直搜索查询包括多个词条，其中多个词条中的词条任选地由一个或多个谓词条件彼此分开。

25、计算机，包括：

中央处理单元；

与中央处理单元耦合的存储器，该存储器存储了用于执行以下步骤的指令：

接收来自所述计算机的用户的竖直搜索查询；

将所述竖直搜索查询传送到远程计算机；

从所述远程计算机接收多个名称，其中该多个名称中的每个名称代表了多个竖直集中的一个竖直集，并且其中多个竖直集中的每个竖直集与所述竖直搜索查询有相关度；以及

在用户仍向所述竖直搜索查询中输入额外字符时显示所述多个名称。

26、嵌入载波中的数字信号，包括：

多个名称，其中该多个名称中的每个名称代表了多个竖直集中的一个竖直集，并且其中多个竖直集中的每个竖直集与竖直搜索查询有相关度；以及

多个分数，其中该多个分数中的每个分数与该多个名称中的一个名称相对应，并且其中每个分数代表了该多个竖直集中的一个竖直集与所述竖直搜索查询之间的相关度。

27、如权利要求26所述的数字信号，其中该竖直搜索查询包括单个字符。

28、如权利要求26所述的数字信号，其中该竖直搜索查询包括多个词条，其中多个词条中的词条任选地由一个或多个谓词条件彼此分开。

29、与服务器计算机系统结合使用的计算机程序产品，其中该计算机程序产品包括计算机可读存储介质和嵌入其中的计算机程序机制，所述计算机程序机制包括用于执行以下步骤的指令：

从远程客户端计算机系统接收竖直搜索查询；

识别与竖直索引中的所述竖直搜索查询相关的多个候选竖直集，其中，对于所述多个候选竖直集中的每个候选竖直集，存在与相应候选竖直集相关联的竖直搜索查询相关度分数；以及

将所述多个候选竖直集中的每个候选竖直集的名称与所述多个候选竖直集中的每个候选竖直集的竖直搜索查询相关度分数一起，传送给所述远程客户端计算机系统。

30、如权利要求29所述的计算机程序产品，其中，所述多个候选竖直集中的每个候选竖直集包括与特定类别相关的文件。

31、如权利要求29或30所述的计算机程序产品，其中该竖直搜索查询包括单个字符。

32、如权利要求29或30所述的计算机程序产品，其中，该竖直搜索查询包括多个基本竖直搜索查询，其中多个基本竖直搜索查询中的词条任选地由一个或多个谓词条件彼此分隔，并且其中用于识别的指令进一步包括：

将所述竖直搜索查询分解成所述多个基本竖直搜索查询；

为所述多个基本竖直检索查询中的各基本竖直检索查询确定与所述各基本竖直搜索查询相关的多个竖直集；以及

将与所述多个基本竖直搜索查询中的各竖直搜索查询相关的各多个竖直集合并到所述多个候选竖直集中。

33、如权利要求32所述的计算机程序产品，其中只有在每组所述的多个基本竖直搜索查询中存在的竖直集才包括在所述多个候选竖直集中。

34、如权利要求32所述的计算机程序产品，其中，在与基本竖直搜索查询相关的给定的多个竖直集中，只有相对于该基本竖直搜索查询具有较高相关度分数score(t，v)的竖直集才被包括在所述多个候选竖直集中。

35、如权利要求34所述的计算机程序产品，其中，对于所述给定的多个竖直集中的竖直集，其相对于所述基本竖直搜索查询的相关度分数score(t，v)通过以下公式确定：

score (t, v) = [\underset{d &Element; v}{Σ} score (t, d)] \cdot w (d, v)

其中，score(t，d)是竖直集中的文件的分数，而w(d，v)是指定给竖直集的权数。

36、如权利要求35所述的计算机程序产品，其中w(d，v)是在该竖直集包含了具有高出现次数的该基本竖直搜索查询的文件时，对该竖直集增加权重的权数。

37、如权利要求35所述的计算机程序产品，其中w(d，v)是在该基本搜索查询在该竖直集内的等级最高的文件中很普遍时，对该竖直集增加权重的权数。

38、如权利要求35所述的计算机程序产品，其中，w(d，v)是一致的。

39、如权利要求35所述的计算机程序产品，其中，w(d，v)是该竖直集的流行度的函数或是该竖直集内的文件的链接密度的总计。

40、如权利要求35所述的计算机程序产品，其中，

score (t, d) = (A + \log (f (d, t))) \cdot \log (B + \frac{f (N)}{v (t)})

其中，

f(d，t)是在该竖直集的文件(d)中出现基本竖直搜索的次数；

f(N)是由该服务器计算机系统跟踪的竖直集的数目的函数；

v(t)是在所述给定的多个竖直集中的竖直集的数目；并且

A和B是常数。

41、如权利要求40所述的计算机程序产品，其中f(N)是由该服务器计算机系统跟踪的竖直集的数目M_v、log(M_v)或M_v。

42、如权利要求35所述的计算机程序产品，其中

score(t，d)＝f(d，t)

其中

f(d，t)是在该竖直集的文件(d)中出现的基本竖直搜索的次数。

43、如权利要求34所述的计算机程序产品，其中对于所述给定的多个竖直集中的竖直集，其相对于所述基本竖直搜索查询的相关度分数score(t，v)通过以下公式来确定：

score (t, v) = \log (B + \frac{f (N)}{v (t)}) \underset{d &Element; v}{Σ} (A + \log (f (d, t))) \cdot w (d, v)

其中

f(d，t)是在该竖直集的文件(d)中出现的自动竖直搜索的次数；

f(N)是由该服务器计算机系统跟踪的竖直集的数目的函数；

v(t)是在所述给定的多个竖直集中的竖直集的个数；

A和B是常数；并且

w(d，v)是权数。

44、如权利要求34所述的计算机程序产品，其中对于所述给定的多个竖直集中的竖直集，其相对于所述基本竖直搜索查询的相关度分数score(t，v)通过以下公式来确定：

μ₁*score₁(t，v)+μ₂*score₂(t，v)

其中

score₁(t，v)＝(C+log(f(v，t)))*log(D+f(N)/v(t))

并且

{score}_{2} (t, v) = \log (B + \frac{f (N)}{v (t)}) \underset{d &Element; v}{Σ} (A + \log (f (d, t))) \cdot w (d, v),

其中，

f(d，t)是在该竖直集的文件(d)中出现的基本竖直搜索的次数；

f(N)是由该服务器计算机系统跟踪的竖直集的数目的函数；

v(t)是在给定的多个竖直集中的竖直集的数目；

A、B、C、D、μ₁和μ₂是常数；并且

w(d，v)是权数。

45、计算机，包括：

中央处理单元；

与所述中央处理单元相连的存储器，该存储器存储了用于执行以下步骤的指令：

从远程客户端计算机系统接收竖直搜索查询；

在竖直索引中识别与所述竖直搜索查询相关的多个候选竖直集，其中，对于所述多个候选竖直集中的每个候选竖直集，存在与各候选竖直集关联的竖直搜索查询相关度分数；以及

将所述多个候选竖直集中的每个候选竖直集的名称与所述多个候选竖直集中的每个候选竖直集的竖直搜索查询相关度分数一起传送给所述远程客户端计算机系统。

46、与服务器计算机系统结合使用的计算机程序产品，其中，该计算机程序产品包括计算机可读存储介质和嵌入其中的计算机程序机制，该计算机程序机制包括：

包括多个竖直索引列表的竖直索引，其中多个竖直索引列表中的竖直索引列表包括头词条和多个竖直集标识符，其中，由所述多个竖直集标识符中的竖直集标识符提及的每个竖直集包含包括所述头词条的文件。

47、如权利要求46所述的计算机程序产品，其中该多个竖直索引列表中的竖直索引列表进一步包括所述多个竖直集标识符中的竖直集标识符提及的多个竖直集中的各竖直集的特定头词条相关度分数score(t，v)。

48、根据权利要求47所述的计算机程序产品，其中所述给定的多个竖直集中的竖直集的相关度分数score(t，v)通过以下公式确定：

score (t, v) = [\underset{d &Element; v}{Σ} score (t, d)] \cdot w (d, v)

其中，score(t，d)是该竖直集中的文件的分数，并且w(d，v)是指定给该竖直集的权数。

49、如权利要求48所述的计算机程序产品，其中w(d，v)是在该竖直集包含了具有高出现次数的该头词条的文件时，对该竖直集增加权重的权数。

50、如权利要求48所述的计算机程序产品，其中w(d，v)是在该头词条在该竖直集内的等级最高的文件中很普遍时，对该竖直集增加权重的权数。

51、如权利要求48所述的计算机程序产品，其中，w(d，v)是一致的。

52、如权利要求48所述的计算机程序产品，其中，w(d，v)是该竖直集的流行度的函数或是对于竖直集内的文件的链接密度的总计。

53、如权利要求47所述的计算机程序产品，其中，

score (t, d) = (A + \log (f (d, t))) \cdot \log (B + \frac{f (N)}{v (t)})

其中

f(N)是由该服务器计算机系统跟踪的竖直集的个数的函数；

v(t)是该竖直索引列表提及的竖直集的个数；并且

A和B是常数。

54、如权利要求53所述的计算机程序产品，其中f(N)是由服务器计算机系统跟踪的竖直集的数目Mv、log(Mv)或Mv。

55、如权利要求48所述的计算机程序产品，其中

score(t，d)＝f(d，t)

其中

f(d，t)是在该竖直集的文件(d)中出现的头词条的次数。

56、如权利要求47所述的计算机程序产品，其中对于所述多个竖直集中的竖直集的相关度分数，score(t，v)，通过以下公式来确定：

score (t, v) = \log (B + \frac{f (N)}{v (t)}) \underset{d &Element; v}{Σ} (A + \log (f (d, t))) \cdot w (d, v)

其中

f(d，t)是在竖直集的文件(d)中发生的头词条的次数；

f(N)是由该服务器计算机系统跟踪的竖直集的个数；

v(t)是该竖直索引中的竖直集的个数；

A和B是常数；并且

w(d，v)是权数。

57、如权利要求47所述的计算机程序产品，其中所述多个竖直集中的竖直集的相关度分数score(t，v)通过以下公式来确定：

μ₁*score1(t，v)+μ2*score2(t，v)

其中

score₁(t，v)＝(C+log(f(v，t)))*log(D+f(N)/v(t))

并且

{score}_{2} (t, v) = \log (B + \frac{f (N)}{v (t)}) \underset{d &Element; v}{Σ} (A + \log (f (d, t))) \cdot w (d, v)

其中

f(d，t)是在该竖直集的文件(d)中出现的头词条的次数；

f(N)是由该服务器计算机系统跟踪的竖直集的个数的函数；

v(t)是在竖直索引列表中的竖直集的个数；

A、B、C、D、μ₁和μ₂是常数；并且

w(d，v)是权数。

58、计算机，包括：

中央处理单元；

与所述中央处理单元相连的存储器，该存储器包括：

包含多个竖直索引列表的竖直索引，其中该多个竖直索引列表中的竖直索引列表包括头词条和多个竖直集标识符，其中所述多个竖直集标识符中的竖直集标识符提及的各竖直集包含包括所述头词条的文件；

用于从远程客户端计算机系统接收竖直搜索查询的指令；

用于在所述竖直索引中识别与所述竖直搜索查询相关的多个候选竖直集的指令，其中，对于所述多个候选竖直集中的每个候选竖直集，存在与各候选竖直集关联的竖直搜索查询相关度分数；以及

用于将所述多个候选竖直集中的每个候选竖直集的名称与所述多个候选竖直集中的每个候选竖直集的竖直搜索查询相关度分数一起传送给所述远程客户端计算机系统的指令。