CN102646108B

CN102646108B - 使用主题意识文件评级器的信息检索

Info

Publication number: CN102646108B
Application number: CN201210023129.5A
Authority: CN
Inventors: G.库马; 陈伟华; N.E.克拉斯威尔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-02-02
Filing date: 2012-02-02
Publication date: 2016-07-06
Anticipated expiration: 2032-02-02
Also published as: WO2012106550A2; TWI479344B; US20120197905A1; EP2671175A4; TW201243630A; EP2671175A2; WO2012106550A3; EP2671175B1; US8868567B2; CN102646108A

Abstract

本文中描述的主题涉及确定暗示文件（例如，网页）与搜索查询的相关性的文件分数。例如，接收由表示主题的一个或多个项目构成的搜索查询。识别在语义上与主题类似的等价主题。通过考虑主题频率和等价主题频率这二者确定文件分数。

Description

使用主题意识文件评级器的信息检索

背景技术

文件评级器评估文件以确定文件与搜索查询的相关性。评级器常常不充分考虑（accountfor）包括多个主题（也称作“概念”）的搜索查询，其中每个主题由一组关键字组成。即，评级器常常将相互独立地对待关键字，而不考虑关键字如何组合以形成相同的搜索查询内感兴趣的主题或话题。另外，评级器常常不能充分考虑文件内可能包括的语义上类似的关键字或主题，比如同义词和替选拼写。

发明内容

此处为了提供公开内容的概述和引入下面具体实施方式章节中进一步描述的概念的选择的原因提供本发明各种方面的高级概述。此发明内容并非意在确定要求保护主题的关键特征或必要特征，也并非意在用作确定要求保护主题范围的孤立协助。

简言之和以高级别，本公开尤其描述了确定文件分数（score），其暗示文件与搜索查询的相关性。例如，接收由表示主题的一个或多个项目（term）组成的搜索查询。对于每个主题，可以识别在语义上与该主题类似的一个或多个等价主题。通过考虑主题频率和等价主题频率这二者来确定文件分数。例如，评分函数可以通过处罚完全不能表示查询主题或它的等价主题中任意一个主题的文件把平衡文件评级得较高。

附图说明

下面参照附图详细描述本发明的说明性实施例，其中：

图1描绘了按照本发明实施例的示范性计算环境；

图2描绘了按照本发明实施例的另一个示范性计算环境；以及

图3和4包括描绘了按照本发明实施例的方法的流程图。

具体实施方式

在本文中利用特性描述了本发明选择实施例的主题以满足法定需求。但是描述本身并非意在限定被视为本发明的内容，这是权利要求完成的内容。可以结合其它目前或未来技术，以其它方式实施要求保护的主题以包括与本文件中描述的步骤类似的步骤的组合或不同步骤。除非和除了当明确叙述各步骤的次序时，术语不应当被解释成暗示本文中公开的各种步骤之中或之间的任何特定次序。

本文中描述的主题涉及确定暗示文件与搜索查询的相关性的文件分数。例如，接收由表示主题的一个或多个项目组成的搜索查询。识别在语义上与主题类似的等价主题。通过考虑主题频率和等价主题频率这二者确定文件分数。可以使用具有评级器的搜索引擎确定文件分数，这二者包括计算设备。

具体地最初参照图1，一般地用于实现本发明实施例的示范性操作环境被示出和指定为计算设备100。计算设备100只是合适计算环境的一个实例并且并非意在暗示关于本发明实施例的用途或功能范围的任何限制。也不应当把计算环境100解释成具有与图示的组件中的任何一个或组合有关的任何依赖性或需求。

可以在由计算机或其它机器（如，个人数据助理或其它手持设备）执行的包括诸如程序模块的计算机可执行指令的计算机代码或机器可用指令的总体背景中描述本发明的实施例。通常，包括例程、程序、对象、组件、数据结构等的程序模块是指执行特定任务或实现特定抽象数据类型的代码。可以在包括手持设备、消费电子产品、通用计算机、更专业的计算设备等的多种系统配置中实践本发明的实施例。还可以在通过通信网络链接的远程处理设备执行任务的分布式计算环境中实践本发明的实施例。

参照图1，计算设备100包括直接或间接耦合以下设备的总线110：存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出端口118、输入/输出组件120以及说明性电源122。总线110表示什么可以是一个或多个总线（如，地址总线、数据总线或者其组合）。虽然为了清楚起见通过线示出了图1的各种块，但实际上，勾画各种组件并非如此清楚，并且打比方说，线更准确地将是灰色的和模糊的。例如，可以认为诸如显示设备的呈现组件是I/O组件。另外，处理器具有存储器。我们认识到这是本领域的本性，以及重申图1的图对可以结合本发明的一个或多个实施例使用的示范性计算设备仅是说明性的。由于全部是在图1的范围内构思以及是对“计算设备”的引用，因此在诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等类别之间未做出区分。

计算设备100典型地包括多种计算机可读介质。计算机可读介质可以是计算设备100可以访问的任何可用介质并且包括易失性以及非易失性介质、可移除以及不可移除介质。通过举例而非限制，计算机可读介质可以包括计算机存储介质和通信介质。

计算机存储介质包括以用于存储信息（诸如计算机可读指令、数据结构、程序模块或其它数据）的任何方法或技术实现的易失性和非易失性、可移除和不可移除、有形和非瞬态介质。计算机存储介质包括RAM；ROM；EEPROM；闪存或其它存储器技术；CD-ROM；数字多功能盘（DVD）或其它光盘存储部件；磁盒、磁带、磁盘存储或其它磁存储设备；或者可以用来存储期望信息和可被计算设备100访问的其它介质。

通信介质典型地实施计算机可读指令、数据结构、程序模块或在诸如载波或其它传输机制的已调制数据信号中的其它数据并且包括任何信息传递介质。术语“已调制数据信号”意指以对于在信号中编码信息的这种方式设置或改变其特性中的一个或多个特性的信号。以实例的方式，通信介质包括有线介质（如，有线网络或直接连线连接）和无线介质（如，声学、RF、红外和其它无线介质）。上述任何内容的组合也应当包括在计算机可读介质的范围内。

存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移除的、不可移除的、或者其组合。示范性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备100包括从诸如存储器112或I/O组件120的各种实体读取数据的一个或多个处理器。呈现组件116向用户或其它设备呈现数据指示。示范性呈现组件包括显示设备、扬声器、打印组件、振动组件等。

I/O端口118允许计算设备100逻辑地耦合到包括I/O组件120的其它设备，其中一些可以是内置的。说明性组件包括麦克风、操纵杆、游戏手柄、碟形卫星天线、扫描仪、打印机、无线设备等。

现在参照图2，描绘了总体上通过附图标记210标识的另一个示范性计算环境。环境210包括客户端计算设备212和搜索引擎214。客户端212和搜索引擎214均可以包括针对图1描述的组件中的一些或所有组件，比如处理器和计算机可读介质。例如，搜索引擎214包括计算机可读介质230a－c，其具有在其上实施的计算机可执行指令，该指令在被执行时执行确定暗示文件与搜索查询的相关性的文件分数的方法。

在一个实施例中，客户端212向搜索引擎214提交搜索查询216（例如，用于出租的拉斯维加斯房屋）。搜索引擎214确定文件220（例如，通过网络可获得的网页或任何其它文件）的文件分数280，文件分数280暗示文件220与搜索查询216的相关性。即，搜索引擎214包括各种组件，如，通过连接225通信的搜索查询接收器226、主题识别器228、等价主题识别器242以及文件评级器218。如下面将更详细描述的，这些组件226、228、242、以及218相互通信以确定文件分数280。可以使用文件分数280来编译向客户端212提供的搜索结果网页222。

搜索引擎214包括接收搜索查询216的搜索查询接收器226。在描绘了示范性搜索查询包括“用于出租的拉斯维加斯房屋”的分解视图224中描绘了搜索查询216。为了解释性目的，本公开全文引用了示范性搜索查询“用于出租的拉斯维加斯房屋”。搜索查询接收器226可以通过网络（如，互联网）接收搜索查询216。

搜索查询接收器226与主题识别器228通信。主题识别器228包括在执行时识别搜索查询216中包括的主题的计算机可读介质230a。如本文中所使用的，术语“主题”是指形成不同概念的搜索查询内的一个项目或一组项目。例如，箭头232描绘了主题识别器228识别搜索查询“用于出租的拉斯维加斯房屋”内的两个主题。即，主题识别器228把“拉斯维加斯”和“用于出租的房屋”这二者识别成两个不同概念。

主题识别器228可以使用多种技术识别主题。例如，主题识别器228可以把接收的搜索查询216划分成各种n元（n-gram）。在表234中描绘了可以根据示范性搜索查询“用于出租的拉斯维加斯房屋”生成的示范性n元。即，可以把搜索查询216划分成存在于搜索查询216的搜索项目之中的各种单元、双元、三元等组合。表234描绘了包括“拉斯”、“维加斯”、“拉斯维加斯”、“拉斯维加斯房屋”等的示范性n元。

表234中描绘的N元包括对搜索查询216的各种程度的相对重要性。例如，主题“拉斯维加斯”可能比n元“拉斯维加斯房屋”或“用于……的房屋”对搜索查询216更重要。同样，主题识别器228可以通过生成每个n元的权重确定每个n元的相对重要性。权重量化了n元的测量重要性，在表234的列235中列出了示范性权重。可以使用各种技术确定N元权重。例如，主题识别器228可以参考项目库240以获得每个n元的n元频率数据。项目库240可以包括各种项目源，如，查询日志、n元清单以及文件集合。

可以通过各种方式使用N元频率数据以确定每个n元的相应权重。在一个实施例中，可以使频率计数较低的相对较罕见单元相对于搜索查询中的其它n元权重较高。例如，“维加斯”的频率计数可以比其它单元（“拉斯”、“房屋”、“用于”、以及“出租”）低，从而指示“维加斯”是搜索查询“用于出租的拉斯维加斯房屋”内的更相关的主题。

然而，当对具有多于一个项目的双元、三元以及其它序列加权时，可以使用较高频率计数来分配较高n元权重。这种加权方案基于如下假设：具有多于一个项目的相对较罕见或罕有的n元可以是无意义的，或者不然可以并非与搜索查询非常相关。例如，n元“维加斯房屋”的频率计数可以比“拉斯维加斯”低，暗示它在查询“用于出租的拉斯维加斯房屋”的上下文中并非如此相关。

可以在加权具有多于一个项目的n元时把其它因素考虑在内。例如，可以使包括单独地具有相对较高的频率计数的项目的多项目n元（例如，“如果……将会怎样”）权重较低。同样，把n元频率以及项目频率考虑在内。同样地，可以为较大相关n元中包括的n元分配较低权重。例如，因为“用于……的房屋”也在也可能具有相对较高频率的相关n元“用于出租的房屋”中，所以可以为可能具有相对较高的频率的“用于……的房屋”分配较低权重。这种加权方案基于如下假设：当较小n元是较大相关n元的一部分时，独自匹配文件中的较小n元（即，当对文件进行评级时）可能是较没用的。

相应地，可以把“主题”定义成根据搜索查询创建的所有n元，在此情形中向每个n元分配的相应权重确定在对文件评级时该n元多重要。可替代地，在对文件评级时考虑的n元可以只包括权重满足一个或多个准则的n元。例如，一个准则可能需要n元的权重在根据搜索查询创建的所有n元的上限百分比（例如，25%）中。另一准则可能需要n元的权重在根据搜索查询创建的所有n元的上限数量（例如，五个）中。另一准则可能需要n元的权重在阈值以上以便在对文件评级时考虑。在进一步的实施例中，把根据相同搜索查询创建的n元的n元权重归一化，如，通过调整n元权重以合计达值1。

一旦在搜索查询216中识别了主题（例如，“拉斯维加斯”和“用于出租的房屋”），则使用等价主题识别器242识别等价主题。例如，等价主题识别器242包括具有在其上实施的计算机可执行指令的计算机可读介质230b，该计算机可执行指令在被执行时识别等价主题。如本文中所使用的，“等价主题”描述在语义上与识别的主题类似的项目或短语。等价主题的实例包括同义词、重新排序词语的语句以及替选拼写。图2描绘了等价主题识别器242包括：包括信息246的等价主题数据存储器244。为了说明性目的，在分解视图248中描绘了信息246，分解视图248包括主题和等价主题候选的表250。相应地，为了识别“拉斯维加斯”或“用于出租的房屋”的等价主题，等价主题识别器242可以参考数据存储器244。

可以使用各种技术生成等价主题。例如，可以应用随机游走模型以找到大查询日志中语义上有关的查询对。排列这些查询对以及聚集数据可以识别有希望的等价主题。表250包括含有可以生成的等价主题候选的列252。这种技术还可以生成等价主题分数，其暗示等价主题候选在语义上与主题类似的置信度。表250包括列254，列254包括列出的等价主题候选中每一个的等价主题分数。

可以基于来自大日志的许多语义上有关的查询对来生成等价主题分数254。如以上所指示的，可以通过点击图上的随机游走或通过观测用户重建模式来建立查询对查询（query-to-query）语义关系。例如，可以找到许多X值的<‘用于出租的X房屋’，‘X出租房屋’>（例如，“用于出租的拉斯维加斯房屋”和“拉斯维加斯出租房屋”）形式的许多查询对，从而导致具有等价主题‘出租房屋’的主题‘用于出租的房屋’的强等价主题分数。

然而，查询对查询数据集可以具有诸如<‘用于出租的X房屋’，‘X按揭贷款’>的干扰事件，因为有时随机游走或会话重建展现偏移意图。为此，重要的是，在确定等价主题分数时考虑除了仅仅存在查询对查询关系之外的多个特征。其它特征的实例包括暗示查询对查询关系的上下文的数量（即，X的值）、每个查询对查询关联的强度、以及主题和等价主题在日志中的频率是否大致等价。即，如果一个查询比另一查询明显更频繁，则它通常是等价性差的指示。例如‘苹果’和‘苹果们’在查询{苹果ipod}比{苹果们ipod}明显更频繁的情况下可能不是良好等价物。优选倾向于在点击率高和在会话的末端附近发生的“成功”查询中出现的可替代主题也是有用的。这些特征的简单线性组合给出我们的等价主题分数。

等价主题识别器242可以基于分数过滤等价主题候选。即，当向文件评级器218传送信息时，等价主题识别器可以只识别具有满足一个或多个准则的置信度分数的等价主题。例如，准则可能需要等价主题的置信度分数在针对主题识别的所有等价主题的上限百分比（例如，25%）中。另一准则可能需要等价主题的置信度分数在针对主题识别的所有等价主题的上限数量（例如，五个）中。另一准则可能需要等价主题的置信度分数在阈值以上以便在对文件评级时考虑。

文件评级器218使用主题识别器228和等价主题识别器242提供的信息测量文件与搜索查询216的相关性。主题识别器228提供的示范性信息包括被认定为搜索查询216内包括的主题列表。例如，主题识别器228提供指示在搜索查询216内包括“拉斯维加斯”256和“用于出租的房屋”258的信息。另外，主题识别器228提供每个识别主题的相应权重，该相应权重暗示该主题在搜索查询216的上下文中多重要。表270的列260列出了主题识别器228可以提供的示范性权重。

等价主题识别器242提供的示范性信息包括被认定在语义上与搜索查询216的每个主题类似的等价主题列表。例如，等价主题识别器242可以提供指示“维加斯”262是在语义上与“拉斯维加斯”256类似的等价主题以及“出租房屋”264和“用于出租的住宅”266在语义上与“用于出租的房屋”258类似的信息。进一步地，等价主题识别器250可以提供暗示等价主题在语义上与主题类似的置信度的分数。列268列出了等价主题识别器242可以提供的示范性分数。在一个实施例中，为主题分配置信度1（例如，100%），并且为等价主题分配与被认为在语义上类似于等价主题的主题相同的权重。

文件220被检索，并且评级器218通过考虑多种因素评估文件220与搜索查询216的相关性。例如，评级器218确定在文件220中找到每个主题256和258以及等价主题262、264以及266的次数。在本文中可以把表示在文件中找到主题或等价主题的次数的值（分别）称作主题频率或等价主题频率。另外，表270包括标注为“项目计数”的列272，其描述在文件中找到项目（即，主题或等价主题）的次数。即，在本文中使用“项目”作为包括“主题”和“等价主题”这二者的通用描述。可以在文件的各种部分中（如，在文件220的标题、题目或者主体中）找到主题或等价主题。

评级器218可以把用来生成表270的列273下包括的加权项目计数的附加因素考虑在内。一些因素基于文件220内找到项目的地点。一个因素包括基于文件220内找到项目的地点（例如，标题或主体）的显著性对命中（hit）或频率计数加权的“项目地点重要性”。例如，可以使文件220的标题或题目中的命中权重比文件220的主体中的命中多。另一因素包括“项目散布（termdispersal）”，其基于文件内的项目包含遍及文件220散布的程度对频率计数加权。例如，可以使反映遍及文件（即，从文件的起点至文件的末端）均匀扩展的命中的项目计数权重比集中命中（例如，位于文件220的单个段落内的命中）多。

也可以在决定如何对项目计数加权时把其它因素考虑在内。例如，可以把查询中项目相对于其它项目的权重（即，列260下的权重）考虑在内。另外，也可以把置信度分数（即，列268下的分数）考虑在内。同样，可以把列260和/或列268下包括的值应用于列272下包括的值以确定列273下的加权项目计数。在列273中包括变量X、Y、W、以及Z中的每个以表示可以用来对项目计数加权的各种因素。

当评估文件220时，评级器218把主题（例如，拉斯维加斯）与相应等价主题组合以创建主题组。表270包括描绘了第一主题组“拉斯维加斯”和第二主题组“用于出租的房屋”的较大网格线275。相应地，在主题组内把项目计数或加权的项目计数进行组合以确定表270的列274下描绘的组计数。例如，可以把“拉斯维加斯”和“维加斯”这二者的项目计数进行组合以生成“拉斯维加斯”主题组的组计数。同样地，可以把加权的项目计数（即，基于项目地点重要性和项目散布加权的项目计数）组合以生成组计数。相应地，当把加权的项目计数组合以生成组计数时，组计数可以反映项目计数、项目地点重要性、项目散布、权重（即，列260下）、置信度（即，列268下）或者其组合。如果未向项目计数应用权重，则可以把列273下的变量（例如，X、Y、W以及Z）设置为值1。在本文中也把术语“组计数”称作“主题组频率”。

评级器218向组计数应用函数以确定每个主题组的组分数。相应地，在一个实施例中，组分数等于组计数除以可定制的参数和组计数分数的总和。有时把此函数称作饱和函数。虽然在BM25中在词语级别而非主题级别使用函数，但可以如在公知评级函数BM25中一样在2泊松假设下建立函数。在经验上证明了该函数相当有效，但是最重要的属性是减少返回的属性：对于每个主题我们给定初始出现的最多信用，所以加权的项目计数10比0更好，但是1010几乎与1000相同。“k”参数控制饱和度并且可以基于无论什么值给定文件的最佳评级凭经验设置。

另外，评级器218把搜索查询中包括的每个主题组的每个组分数进行组合。例如，评级器218把主题组“拉斯维加斯”的组分数276与主题组“用于出租的房屋”的组分数278组合以生成文件分数280。可以随后把文件220的文件分数280与其它文件（未示出）的其它文件分数相比较以确定应当如何在生成搜索结果网页222时在其它文件之中对文件220评级。

评级器218可以应用各种技术以确定应当如何把各种因素考虑在内，如，项目计数、项目地点重要性、项目散布、权重（即，列260下）、置信度（即，列268下）、文件质量或其组合。例如，可以使用确定了各种因素的训练文件和训练搜索查询来训练虚拟机。相应地，一旦针对搜索查询216和文件220确定了各种因素，就可以把各种因素提交给虚拟机以确定文件分数。

现在参照的是描绘了按照本发明实施例的方法310的图3。当描述图3时，也可以参照图2。例如，图3针对确定暗示文件（例如，220）与搜索查询（例如，216）的相关性的文件分数（例如，280）。本发明的实施例包括具有在其上实施的计算机可执行指令的计算机可读介质（例如，230a－c），该计算机可执行指令在被执行时执行图3描绘的方法。

方法310的步骤312包括接收包含表示主题的一个或多个项目的搜索查询。例如，搜索查询接收器226接收由主题“拉斯维加斯”和主题“用于出租的房屋”组成的搜索查询216，其中每一个主题是单独的主题。如针对主题识别器226所述，可以通过应用各种技术识别主题。例如，可以生成n元（例如，表234中）以及基于根据项目库240生成的频率数据对n元加权。可以把所有生成的n元视作主题，或者可替代地，只选择权重满足准则的那些n元作为主题。

方法310的步骤314包括识别在语义上与主题类似的等价主题，其中，主题和等价主题构成（comprise）主题组。例如，主题识别器242参考维持等价主题候选的列表（例如，在列252下）的数据存储器244。同样，对于主题“用于出租的房屋”，可以识别的等价主题包括“出租房屋”和“用于出租的住宅”。如表270中所描绘的，线275指示在与包括“拉斯维加斯”和“维加斯”的主题组不同的主题组中包括主题“用于出租的房屋”和等价主题“出租房屋”和“用于出租的住宅”。

在方法310中，步骤316包括确定文件的文件分数。文件分数由主题组分数组成，该主体组分数使用主题频率和等价主题频率这二者来计算。主题频率包括在文件中找到该主题的次数，等价主题频率包括在文件中找到等价主题的次数。参照图2，评级器218确定暗示文件220与搜索查询216的相关性的文件分数280。使用主题组分数276和278计算文件分数280。使用标注为“项目计数”的列272下列出的主题频率和等价主题频率这二者来计算每个主题组分数276和278。“项目”（如表270中所使用的）描述主题256和等价主题262这二者，以使得“项目计数”是指在文件220中找到主题或等价主题的频率或次数。

现在参照的是描绘了按照本发明实施例的方法410的图4。当描述图4时，也可以参照图2。例如，图4针对确定暗示文件（例如，220）与搜索查询（例如，216）的相关性的文件分数（例如，280）。本发明的实施例包括具有在其上实施的计算机可执行指令的计算机可读介质（例如，230a－c），该计算机可执行指令在被执行时执行图4描绘的方法。

方法410的步骤412包括接收包含表示第一主题和第二主题的项目的搜索查询。例如，搜索查询接收器226接收由主题“拉斯维加斯”和主题“用于出租的房屋”组成的搜索查询216，以使得“拉斯维加斯”是示范性第一主题且“用于出租的房屋”是示范性第二主题。

方法410在步骤414处包括识别在语义上与第一主题类似的第一等价主题和在语义上与第二主题类似的第二等价主题，其中，每对主题和等价主题构成（comprise）相应的主题组。例如，“维加斯”是在语义上与第一主题“拉斯维加斯”类似的第一等价主题，而“出租房屋”是在语义上与第二主题“用于出租的房屋”类似的第二等价主题。这对“拉斯维加斯”和“维加斯”构建主题组，而这对“用于出租的房屋”和“出租房屋”构建不同主题组。

步骤416包括确定由第一主题频率（例如，列272下的值2）和第一等价主题频率（例如，列272下的值3）这二者构成的第一主题组频率（例如，2X＋3Y）。第一主题频率包括在文件（例如，文件220）中找到第一主题（例如，拉斯维加斯）的次数，第一等价主题频率包括在文件（例如，文件220）中找到第一等价主题（例如，维加斯）的次数。

步骤418包括确定由第二主题频率（例如，列272下的值2）和第二等价主题频率（例如，列272下的值2）这二者构成的第二主题组频率（例如，2W＋2Z）。第二主题频率包括在文件（例如，文件220）中找到第二主题（例如，用于出租的房屋）的次数，第二等价主题频率包括在文件（例如，文件220）中找到第二等价主题（例如，用于出租的住宅）的次数。

步骤420包括计算文件的文件分数。文件分数由第一主题组分数和第二主题组分数构成，并且每个主题组分数通过向相应主题组频率应用饱和函数来计算。例如，通过用（2X＋3Y）除以（2X＋3Y＋K）计算主题组分数（例如，276）。

描绘的各种组件的许多不同布置、以及未示出的组件，在不脱离以下权利要求范围的情况下是可能的。通过示例性而非限制性的意图描述了本技术的实施例。可替代实施例将会在阅读它之后和因为阅读它而对本公开的读者而言变得明显。可以在不脱离以下权利要求范围的情况下完成实施上述内容的可替代手段。某些特征和子组合是实用的并且可以在不参考其它特征和子组合的情况下采用且在权利要求的范围内构思。

Claims

1.一种确定暗示文件与搜索查询的相关性的文件分数的方法，该方法包括：

接收（312）由表示主题的一个或多个项目构成的搜索查询（216）；

把搜索查询解析成具有第一权重的第一n元和具有第二权重的第二n元，其中第一权重量化了第一n元对于所述搜索查询的重要性，第二权重量化了第二n元对于所述搜索查询的重要性；

确定所述第一权重和第二权重满足阈值权重准则，其中当n元权重不满足阈值权重准则时，所述n元不用于确定文件分数；

识别（314）在语义上与第一n元类似的第一等价主题（252）以及在语义上与第二n元类似的第二等价主题，其中，第一n元和第一等价主题构成第一主题组，第二n元和第二等价主题构成第二主题组；以及

确定（316）文件（220）的文件分数（280），

其中，文件分数由第一主题组分数（276）和第二主题组分数构成，以及

其中，使用包括在文件中找到相应n元的次数的主题频率和包括在文件中找到相应等价主题的次数的等价主题频率这二者来计算所述两个主题组分数。

2.如权利要求1所述的方法，进一步包括：

把搜索查询解析成n元组合，其中，n元组合包括多个主题，以及

对n元组合加权以确定多个主题之中每个主题的相对重要性。

3.如权利要求2所述的方法，其中，具有多于一个搜索查询项目的n元的权重是库中n元的每个项目的频率和库中n元的频率这二者的函数。

4.如权利要求2所述的方法，其中，当认定n元是较大n元的一部分时减小n元的权重。

5.如权利要求1所述的方法，

其中，通过向主题组频率应用饱和函数来计算主题组分数，以及

其中，主题组频率包括主题频率和等价主题频率这二者。

6.一种确定暗示文件与搜索查询的相关性的文件分数的方法，该方法包括：

接收（412）搜索查询（216）；

把搜索查询解析成包括第一n元的多个n元，所述第一n元包括量化了所述第一n元对于所述搜索查询的重要性的第一权重；

确定所述第一权重满足阈值权重准则；

识别（414）在语义上与第一n元（255）类似、且与第一n元构成主题组的第一等价主题（252），其中所述第一等价主题与等价主题分数相关联，所述等价主题分数量化了第一等价主题和第一n元识别同一主题的置信度；

确定（416）由包括在文件中找到第一n元的次数的第一主题频率和包括在文件中找到第一等价主题的次数的第一等价主题频率这二者构成的第一主题组频率；以及

计算（420）文件（220）的文件分数（280），

其中，文件分数由第一主题组分数（276）构成，以及

其中，第一主题组分数通过如下方式来计算：将第一等价主题频率与所述等价主题分数结合，使得第一等价主题频率基于第一等价主题在语义上与第一n元相类似的置信度来加权。

7.如权利要求6所述的方法，其中，识别等价主题包括参考等价主题数据存储器，该等价主题数据存储器维持已被识别成在语义上与第一主题和第二主题类似的等价主题的列表。

8.如权利要求6所述的方法，其中，饱和函数包括用主题组频率除以可定制的参数和主题组频率的总和。

9.一种确定暗示文件与搜索查询的相关性的文件分数的计算机系统，该计算机系统包括：

用于接收（412）搜索查询（216）的装置；

用于把搜索查询解析成包括第一n元的多个n元的装置，所述第一n元包括量化了所述第一n元对于所述搜索查询的重要性的第一权重；

用于确定所述第一权重满足阈值权重准则的装置；

用于识别（414）在语义上与第一n元（255）类似、且与第一n元构成主题组的第一等价主题（252）的装置，其中所述第一等价主题与等价主题分数相关联，所述等价主题分数量化了第一等价主题和第一n元识别同一主题的置信度；

用于确定（416）由包括在文件中找到第一n元的次数的第一主题频率和包括在文件中找到第一等价主题的次数的第一等价主题频率这二者构成的第一主题组频率的装置；以及

用于计算（420）文件（220）的文件分数（280）的装置，

其中，文件分数由第一主题组分数（276）构成，以及

10.如权利要求9所述的计算机系统，

其中，用于计算（420）文件（220）的文件分数（280）的装置还计算主题组分数，以及通过计算加权的等价主题频率和加权的主题频率之和来计算所述主题组分数，所述主题频率基于n元在文件中的地点被加权。