CN102368252B

CN102368252B - 将搜索查询应用到内容集

Info

Publication number: CN102368252B
Application number: CN201110293210.0A
Authority: CN
Inventors: W.J.钟; M.J.帕佩尔; S.M.迪亚斯-克拉; C.C.蒂德; C.S.埃斯特斯; J.马尔谢斯
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-09-30
Filing date: 2011-09-30
Publication date: 2015-05-20
Anticipated expiration: 2031-09-30
Also published as: US20120084291A1; CN102368252A

Abstract

应用于内容集（例如文件系统中的文件）的查询经常产生包括许多具有匹配查询的关键词的标识符的内容项的搜索结果。然而，许多搜索技术不说明匹配的相关性，例如该匹配是否可预测地与用户相关，或者内容项是否仅稍微有关地匹配查询。本文所提出的技术涉及：如果查询的标记匹配标识符，则根据具有指示预测相关性的标识符权重的各种标识符在内容索引中对内容项编索引。然后候选的内容项可以被呈现为通过匹配的标识符的合计的标识符权重分类的搜索结果，由此大大地提升高度相关的内容项并且降级偶然匹配的内容项。可以进行附加的调节（例如，提升匹配特别罕见的标记或匹配查询中的短语的内容项）。

Description

将搜索查询应用到内容集

背景技术

在计算领域内，许多场景（scenario）涉及包括一个或多个内容项的内容集，内容项例如文件系统中的一组文件、电子邮件邮箱中的一组电子邮件消息和地址簿中的一组联系人记录。这种内容项可以通过许多标识符来标识，例如名称、内容集内的位置、指示为内容项的所有者或创建者的用户或由内容项的内容专注（address）的一个或多个主题。

在这样的内容集内，用户可能希望搜索特定内容项。用户可以因此提供包括一个或多个关键词的查询（query），关键词例如表示内容项的文件的文件名的一部分或在电子邮件消息中出现的一个或多个词。为了评估这样的查询，搜索算法因此可以根据与内容项相关联的各种关键词（例如根据文件系统中文件的文件名或电子邮件邮箱中电子邮件消息的主题或正文中出现的词）对一个或多个内容项集的相应内容项编索引（index）。搜索算法因此可以例如通过使用搜索索引识别具有文件名中或消息的内容中的关键词的内容项而将查询应用到内容项集，并且可以向用户呈现与该查询匹配的一组候选内容项。该搜索算法因此可以以高效方式应用该查询并且可以快速向用户返回结果。

发明内容

提供这个发明内容以便以简化的形式介绍下面在具体实施方式中进一步描述的概念的选择。该发明内容不旨在标识要求保护的主题的关键因素或必不可少的特征，也不旨在用于限制要求保护的主题的范围。

尽管通过使用对内容项编索引的搜索索引来评估包括一组关键词的查询可以是高效的，但是由这样的搜索算法返回的结果可以是不充分地具有选择性的或帮助性。作为第一实例，使用这些技术选择内容项中经常出现的关键词可能是困难的。在一个这样的场景中，用户可能希望搜索姓Plant的个人的联系人记录，但是如果用户对园艺感兴趣，则大量的内容项可以偶然地包括术语“plant”并且可以出现在搜索结果中，由此遮蔽（obscuring）与用户所寻找的联系人记录相关的搜索结果。作为第二实例，将一些查询应用到在所述搜索索引中被编索引的内容项可能是困难的，所述查询例如针对短词的查询（例如对姓Su的个人的联系人记录的搜索可以出现（turn up）大量的特征在于字母组合“Su”的内容项）和基于个人的首字母的查询（例如，对具有首字母“CC”的用户的搜索可以产生特征在于包含字母“C”的名字的结果集）。

然而，可能的是，基于用户在规划（formulate）查询时的暗示的和推断的意图解释该查询。因此，不是简单地应用查询的条件（terms）与整个内容项的任何标识符的机械匹配（rote matching），而是可以基于用户基于特定字段（field）搜索特定内容项的可能性对内容项编索引。作为第一实例，可以理解，用户更有可能基于一些标识符（例如与用户名字、文件名称或电子邮件消息标题相关联的元数据字段）而不是其他标识符（例如，长文档中文本的小段）搜索内容项。作为第二实例，使用首字母“CC”的搜索可以被推断为搜索具有带有这些首字母的名字的个人或搜索包含以这些字母（例如“carrot cake”）开始的一系列词的文档或其他文件。因此，技术可以被设计成根据用户可以选择来搜索内容项的方式对内容项编索引，并且基于用户在规划查询时的推断的意图在搜索内容项的同时应用查询。这样的技术因此可以呈现搜索结果，可以基于查询的推断的意图以作为与用户的更高相关性的方式对搜索结果进行排序（order）。

本文提出了用于相对于包括各种内容项（例如本地存储的各种类型的对象，例如文件系统中的文件、电子邮件邮箱中的电子邮件消息和地址簿中的联系人记录）的内容集评估查询的技术，其可以更具鲁棒性地评估查询并且可以呈现更具选择性的搜索结果，这些搜索结果可以更加高度地适合查询的预期意义。根据这些技术，可以根据各种标识符（例如，文件的文件名或文件名的一部分；发送者电子邮件地址、接受者电子邮件地址和电子邮件消息的主题关键词；以及地址簿中的联系人记录的名、姓、昵称、全名和电子邮件地址）在背景索引中对内容项编索引，但是每个标识符可能与指示用户通过使用该标识符搜索内容项的可能性的标识符权重相关联。当用户键入查询时，可以将该查询的标记（token）与与不同内容项相关联的不同标识符匹配，并且候选内容项（利用匹配查询的标记的标识符编索引的那些内容项）可以根据相关联的标识符的权重分类。而且，如果该查询是在特定的搜索背景中键入的（例如，键入到电子邮件客户端中的查询），则可以推断，用户可能正在该搜索背景中设计查询，并且可能正在基于与该搜索背景相关联的标识符选择查询条件（terms）。因此，与搜索背景相关联的标识符（例如，更强烈地与电子邮件消息相关联的主题字段或发送人字段）可以在计算评级得分（rank score）时被更重地加权，从而增加所取回的内容项可以与用户更相关的可能性，这归因于其中用户键入查询的搜索背景。

例如，用户键入查询“Su”可以匹配姓“Su”的联系人（contact）、名为“Susan”的第二联系人、包括术语“sugar”的名为“食品列表（Grocery list）”的文件以及在主题中包括词“surgery”的电子邮件消息。一些搜索算法可以将所有这些内容项呈现为有可能以任意标准（例如，按字母顺序或通过创建日期）分类的搜索结果。然而，根据本文所提出的技术，指示符（通过它对每个内容项编索引）与指示用户键入查询“Su”预期定位内容项的可能性的权重相关联。因此，姓“Su”（其确切地匹配所述查询）的联系人被呈现为第一搜索结果，其指示用户正在搜索该内容项的高预测的可能性（鉴于与内容项的频繁搜索的属性的确切匹配）；名为“Susan”的联系人和包括术语“surgery”的电子邮件消息可以被呈现为第二和第三搜索结果，其指示用户正在搜索这些内容项的中等的预测的可能性（鉴于与这些内容项的罕见搜索的属性的部分匹配）；以及名为“食品列表”且包括术语“sugar”的文件可以被呈现为最后的搜索结果，其指示用户正在搜索该内容项的低预测的可能性（鉴于与内容项的罕见搜索的属性的匹配）。所述搜索结果因此基于用户在将“Su”提供为查询的标记时的预测的意图以更具选择性的方式来呈现。

如本文进一步提供的，可以应用附加技术，附加技术可以进一步改进搜索算法在识别用户规划查询时的预测的意图时的选择性。例如，例如，在评估各种指示符的预测的相关性的同时，可以考虑所述搜索背景。例如，如果查询“Su”被键入在针对个人的搜索（例如关于电子邮件消息的“To：”字段发起的或在地址簿应用内的搜索）的背景中，则可以推断匹配关于名字相关字段的查询的内容项很可能具有更高的预测相关性（例如，相对于其他内容项，进一步加权姓“Su”名“Susan”的联系人）。然而，如果用户在通信内容搜索的背景中（例如在关于消息正文（body）的搜索的背景中）发起查询，则包括术语“surgery”的电子邮件消息可以被更高地加权；且如果用户在文件内容搜索的背景中发起查询，则包含词“sugar”的“食品列表”文件可以被更高地加权。因此，搜索的背景可以用于调节与查询匹配的标识符的权重，以便改进与搜索结果的评级和选择的用户的预测相关性。

作为另一种（可替代的或附加的）技术，可以基于以下调节搜索条件的权重：基于查询标记的连续顺序（sequential order）与标识符的匹配部分的连续顺序的对应（correspondence）（例如，对于包括标记“jost”的查询，相对于搜索结果“Steve Jones”，优先呈现搜索结果“Joe Stone”）；基于标记与多个指示符的匹配（例如，对于包括标记“an”的查询，相对于搜索结果“Ann Smith”，优先呈现搜索结果“Ann Anderson”）；以及基于标记与标识符的完全匹配（例如，对于包括标记“Michael”的查询，相对于搜索结果“Steve Michaelson”，优先呈现搜索结果“Joe Michael”）。与搜索结果的任意分类相比，这种启发式法可以促进以更可能符合由用户规划的查询的预期意义的顺序呈现搜索结果（例如，通过字母的顺序或通过创建日期）来对搜索结果的呈现。此外，这种启发式法可以是比较简单的，使得可以实时进行所述调节，而不显著延长查询的评估或延迟响应于此的搜索结果的呈现。

为了实现前述和相关的目的，下文的描述和附图阐明了某些说明性方面和实现方式。这些仅指示可以在其中使用一个或多个方面的各种方式中的少数方式。在结合附图考虑时，根据下面的详细描述，本公开的其他方面、优点和新颖特征将变得清楚明白。

附图说明

图1是特征在于包括含有一个或多个内容项的各种内容集的计算环境的示范性场景的图示。

图2是特征在于将由用户提交的查询应用到各种内容集的内容项的示范性场景的图示。

图3是特征在于根据本文所提出的技术对各种内容集的内容项编索引的示范性场景的图示。

图4是特征在于根据本文所提出的技术将由用户提交的查询应用到各种内容集的内容项的示范性场景的图示。

图5是图示相对于包括至少一个内容项的至少一个内容集评估包括至少一个标记的查询的示范性方法的流程图。

图6是图示用于相对于包括至少一个内容项的至少一个内容集评估包括至少一个标记的查询的示范性系统的组件（component）框图。

图7是包括被配置成体现（embody）本文所阐明的措施（provision）中一个或多个措施的处理器可执行指令的示范性计算机可读介质的图示。

图8是特征在于根据各种标识符在内容索引中对内容项编索引的示范性场景的图示。

图9是特征在于从查询中提取标记以应用到内容索引的示范性场景的图示。

图10是特征在于基于多个与标记匹配的标识符的标识符部分调节内容项的评级得分的示范性场景的图示。

图11是特征在于基于标记对于标识符的匹配标识符部分的连续顺序调节内容项的评级得分的示范性场景的图示。

图12是特征在于向用户呈现作为搜索结果的候选内容项的示范性场景的图示。

图13图示了示范性计算环境，其中可以实现本文所阐明的措施中的一个或多个措施（provision）。

具体实施方式

现在参考附图描述要求保护的主题，在附图中同样的附图标记通篇用于指代同样的元件。在下面的描述中，为了解释的目的，阐明了许多特定细节以便提供对要求保护的主题的彻底理解。然而，可能显然的是，可以在没有这些特定细节的情况下实践要求保护的主题。在其他实例中，结构和设备被以框图形式示出，以便使描述要求保护的主题便利。

在计算领域内，许多场景涉及包括各种内容项的内容集，例如包括一个或多个文件的文件系统、包括一个或多个电子邮件消息的电子邮件邮箱、以及特征在于一个或多个联系人记录的地址簿。这些内容集可以本地存储（例如存储在由用户操作的设备的存储器上）、远程地通过局域网存储（例如，存储在网络文件服务器上）、或远程地通过广域网存储（例如，存储在连接到因特网的各种服务器上）。这些内容集中的每一个可以以特定方式存储内容项（例如，文件系统可以以分层方式存储文件；电子邮件邮箱可以将电子邮件消息存储在一个或多个文件夹中；以及地址簿可以将所有联系人记录一起存储为无组织集）。每个内容集的各项也可以以各种方式构造，其特征在于在语义上标识内容项的各种类型的元数据（例如文件系统中的文件可以具有名称、文件系统的层次内的位置、创建日期和文件类型；电子邮件邮箱中的电子邮件消息可以具有发送者电子邮件地址、主题和递送日期；以及地址簿中的联系人记录可以具有全名、邮寄地址和简档图片（profile picture））。这些各种属性可以充当标识符，由此用户可以有区别地识别和引用特定内容项。

在这样的场景内，用户可能希望搜索满足特定标准的一个或多个内容项。例如，用户可能希望搜索与同事的名字相关联的内容项，例如该同事创建的文件、拥有的文件或涉及该同事的文件、与该同事交换的电子邮件消息或讨论该同事的电子邮件消息、以及该同事的一个或多个联系人记录。因此，用户可以提交包括可能与用户寻找的内容项的标识符相关的一个或多个关键词的查询。由可以访问内容项的用户操作的设备因此可以以各种方式将该查询应用到内容集的内容项，并且可以生成包括已被识别为与用户所提供的查询匹配的候选内容项的结果集。例如，当接收到来自用户的包括一组关键词的特定查询时，该用户的设备可以针对匹配所有关键词的内容项而检查所有可用内容集，并且可以响应于该查询向用户呈现匹配的候选内容项。

图1呈现了特征在于可以提交将被应用于计算环境的各种内容集20（例如，存储在诸如计算机之类的设备上的一组用户生成的数据项）的查询14的用户12的示范性场景10的图示。各种内容集20可以包括一个或多个内容项22（例如，存储一组文件的文件系统、存储了一组电子邮件消息的电子邮件邮箱和存储一组联系人记录的地址簿）。例如，由用户12操作的设备18可以存储一组应用，例如文件系统浏览器、电子邮件消息发送客户端和地址簿应用，并且每个应用可以存储与该应用一起使用的特定类型的内容项22。在该示范性场景10中，用户12可以提交指定一组一个或多个关键词16（例如，“joe”和“smith”）的查询14，并且可以希望让设备18识别与查询14的关键词16匹配的内容项22。例如，代表文件系统的第一内容集20可以包括：名为“Joe_Smith.doc”的第一文件；具有作为文档的作者的元数据字段而包括的名字“Joe Smith”的第二文件；和包括含有词“Joe Smith”的文档的第三文件。代表电子邮件邮箱的第二内容集20可以存储从电子邮件地址“Joe_L_Smithmail.com”发送的第一电子邮件消息；特征在于主题“Joe Adams and Diane Smith’s Wedding”的第二电子邮件消息；以及从名字为Joe Harrington的个人发送的且特征在于主题“Alice Smith’s party”的第三电子邮件消息。代表地址簿的第三内容集20可以存储来自被称为Smith Design Labs，Inc的公司的名字为Joe Schneider的个人的第一联系人记录；名字为Joe Smithsonian的个人的第二联系人记录；以及名字为Joe Blacksmith的个人的第三联系人记录。所有这些内容项22可以匹配查询14的关键词16，并且设备18因此可以响应于查询14将所有这些内容项22作为结果集呈现。

在许多这样的场景中，用户12可以相对于其提交查询14的存储在内容集20中的内容项22的数量可以是大的。因此，执行对内容集20中的每个内容项22的彻底的特别搜索（ad hoc search）可能非常耗时，从而导致响应于查询14向用户12提供候选内容项的结果集中的显著延迟。因此，许多设备18和内容集20被配置成生成、保持和利用表示可快速搜索的数据结构（例如哈希表）中的每个内容项22的标识符的索引的搜索索引。当设备18接收到新内容项22或对内容项22的更新时，设备18可以针对可以随后被作为关键词16键入在查询14中的与内容项22相关联的标识符而检查内容项22，并且可以根据所述标识符在所述搜索索引中对内容项22编索引。当设备18稍后从用户12接收到查询14时，设备18可以查阅（refer to）索引以识别与查询14的每个关键词16相关联的内容项22，并且可以快速识别并向用户12呈现针对查询14的候选内容项。

图2呈现特征在于内容项20的编索引和查询14的实现的示范性场景30的图示。在该示范性场景30中，用户12再次提交特征在于一组关键词16（例如，“Joe”和“smith”）的查询14，并且由用户12操作的设备18可以努力呈现匹配查询14的关键词16的候选内容项38。特别地，设备18可以生成并保持搜索索引34，其中内容集20的内容项22通过可以对应于查询14的关键词16的各种标识符来编索引。设备18还可以利用搜索算法32来生成搜索索引34（例如用于例如根据由特定哈希算法生成的哈希码在搜索索引34中对内容项22编索引的特定算法）和/或使用搜索索引34识别匹配的内容项22。当设备18接收到查询14时，设备18可以将搜索算法32应用到搜索索引34以识别匹配查询的关键词16的内容项22，并且可以生成并向用户12呈现包括匹配查询14的候选内容项38的一组搜索结果36。设备18可以以任意顺序（例如，存储在搜索索引34中或由搜索算法32识别的顺序）呈现候选内容项38，或者可以以各种方式分类候选内容项38（例如，按字母顺序，例如图2的示范性场景30中所图示，和/或基于内容项22的内容集20分组）。以此方式，设备18可以实现用户12的请求以识别匹配查询14的内容项22。

然而，尽管许多搜索算法32可以正确地识别匹配查询14的关键词16的内容项22，然而搜索结果36可能对用户12而言是不令人满意的或没有帮助的。作为第一实例，如果许多内容项22匹配查询14，则搜索结果36可以是庞大的（voluminous），并且用户12可能难以从搜索结果36的候选内容项38识别感兴趣的内容项22。作为第二实例，许多内容项22可以以用户12可能不预期的方式偶然地匹配特定关键词16。例如，用户12可以希望搜索姓“Plant”的个人并且可以因此提交包括关键词“plant”的查询14。然而，如果用户12被雇佣为园丁，则用户12的计算环境中的许多内容项22（例如文件和电子邮件消息）可以包括关键词“plant（植物）”并且因此可以被标识为候选内容项38，即使这对用户12而言不是该术语的预期意义。作为第三实例，所述设备可能不能将一些关键词16应用到内容集20的内容项22，甚至使用搜索索引34也不能。例如，搜索索引34可以根据具有（例如三个字母数字字符的）最小长度的标识符对内容项22编索引，因为较短的标识符可以匹配大量的内容项22。因此，用户12可能不能提交针对姓“Su”的个人的查询14，因为这个关键词16可能太短而不能被搜索索引34评估。作为第四实例，该设备可以被被配置成评估特定类型的查询，例如针对具有首字母“CC”的个人的查询。在这些和其他场景中，用户12可能不能提交期望的查询14，并且/或者可能难于在一大组候选内容项38之中识别感兴趣的内容项22。

可以理解，用于将查询14应用到一个或多个内容集20的比较简单的技术的无效率的重要原因涉及不能评估内容项22中匹配的标识符对查询14的关键词16的相关性。例如，在图2的示范性场景30中，指定关键词16“joe”和“smith”的用户12的查询14可以将来自Joe Harrington的电子邮件消息与主题“Alice Smith’s party”匹配，但是这些关键词16在这个内容项22中的呈现可能不是显著相关的。然而一种比较简单的技术可以将这个内容项22作为候选内容项38包括在搜索结果36中，连同可以与逻辑上匹配查询14的关键词16的标识符相关联的许多其他候选内容项38，但是其中这样的匹配可以对于用户12具有低相关性。结果，搜索结果36可以包含许多候选内容项38，其可以在逻辑上匹配查询14但是对用户12具有比较低的相关性，并且用户12可能难于识别感兴趣的候选内容项38。此外，响应于一些查询14（例如那些包括短名字“Su”或首字母“CC”的查询）产生的大量低相关性候选内容项38可以显著地干扰相关搜索结果36的呈现，或可以导致搜索算法32根据评估拒绝这样的查询14。

根据这个意见，本文所提出的技术被设计成以还估计查询14对内容项22的匹配的预测相关性的方式相对于各种内容集20的内容项22执行查询14的评估。这些技术可以被设计成不将查询14的元素看作要以机械方式与内容项22比较的标准，使得以至少最小容量（capacity）匹配所有标准的每个内容项22被识别和呈现为同等有效的搜索结果。相反，查询14的元素可以被看作描述用户12希望定位的内容项（一个或多个）22的“线索”或形容词。例如，用户可以希望识别与具有特定属性的设备有关的计算机系统中存储的内容项22，所述设备例如由被称为“Mobility”的公司制造的且具有50厘米显示器、键区（keypad）和黑（black）色的移动电话。该用户因此可以生成包括术语“mobility 50 键区（keypad）黑（black）”的查询14。不那么复杂的搜索算法可以简单地识别以某容量匹配这些标记中的所有四个的每个候选内容项38，并且可以以未被分类或任意分类的方式呈现结果。然而，根据本文所提出的技术规划的实施例可以努力根据查询的每个元素的暗示的意图应用查询。例如，数“50”可以匹配非常大量的候选项22的至少一个方面，但是这样的匹配可以具有不同的意义。例如，与具有50千字节的文件大小的文档或50天前创建的文件相比，更可能的是，用户12旨在取回描述具有50厘米显示器的电话或生活在50主街（50 Main Street）的个人的内容项22。尽管取回具有50千字节的文件大小的文档或50天前创建的文件这一结果可能是有效的，但是取回描述具有50厘米显示器的电话或生活在50主街（50 Main Street）的个人的内容项22这一结果可以具有与查询14的意图的更高的相关可能性。因此，这些技术的一个实施例可以不仅基于一组标识符42而且还基于各种标识符42的不同标识符权重44来对不同的内容项22编索引，该权重44指示搜索内容项22的用户12可以根据标识符42选择描述或搜索它的可能性。该信息可以用于选择对用户12具有更高预测相关性的候选内容项38，并且用于相应地调节候选内容项38的呈现（例如，通过根据指示匹配查询14的元素的标识符42的标识符权重44的评级得分来分类候选内容项38）。

作为本文所提出的技术的一个实例，在图1的示范性场景10中的内容项22之中，可以观察到，与其他内容项22相比，一些内容项22可以是对查询14的关键词16“joe”和“smith” 的更相关的匹配。作为第一实例，与一些指示符的匹配可以指示比与其他指示符的匹配更重要；例如将术语“joe smith”与第二内容项22中的元数据“Author（作者）”字段匹配可以被认为比将相同的术语与第三内容项22的内容匹配具有更高预测相关性。作为第二实例，第五内容项22以与比较接近的查询14的关键词16（例如，电子邮件消息的“Subject（主题）”字段中分开的少数词）的匹配为特征，并且因此可以被认为比第六内容项22具有更高的预测相关性，该第六内容项22匹配不同字段中的每个关键词16（例如，“joe”在“Sender（发送者）”字段中匹配且“Smith”在“Subject（主题）”字段中匹配）。作为第三实例，将关键词“smith”与个人的姓的开头匹配的第八内容项22可被认为比第九内容项22具有更高预测相关性，第九内容项22将相同关键词与个人的姓的中间部分匹配。以此方式，可以理解，说明候选内容项38与查询14的预测相关性的技术可以允许呈现具有与用户12预期的查询14的更大预测相关性的搜索结果36。

图3-4一起呈现了一种示范性场景，其特征在于在内容索引42的规划（formulation）中应用这些概念，以及在向用户12呈现搜索结果36中使用内容索引42，搜索结果36包括具有与用户12的高预测相关性的候选内容项38。图3呈现示范性场景40，其特征在于设备18，设备18被配置成生成内容索引46，内容索引46以促进查询14与一组内容集20中的一组内容项22（例如文件系统中的文件、电子邮件邮箱中的电子邮件消息以及地址簿中的联系人记录）的指示符的相关性敏感的匹配的方式对这样的内容项22编索引。特别地，在这个示范性场景40中，对于每个内容项22，选择若干标识符42并参考内容项22在内容索引46中对若干标识符42编索引。然而，根据本文所提出的技术，每个标识符42连同标识符权重44被存储在内容索引46中，该标识符权重44指示可以针对内容项22预测的与指定标识符16的查询14的相关性。例如，与与地址簿中的联系人的名相关联的标识符42的匹配可以指示高相关性，而与与文件的文件名的一部分相关联的标识符42的匹配可以被认为指示中等预测相关性，以及与与文档中呈现的词相关联的标识符42的匹配可以指示低预测相关性。标识符权重44可以被相应地分配例如为在从1到10的数值范围上的整数。这些标识符42和标识符权重44可以存储在与对应的内容项22相关联的内容索引46中（例如，设备18可以在接收到新内容项22或对其进行的更新时选择标识符42并因此选择标识符权重44并且可以将这些项存储在内容索引46中）。而且，不同的标识符42可以基于用户12可以根据标识符 42搜索内容项22的不同可能性而被分配不同的标识符权重44。例如，名为“Joe Schneider”和“Joe Smithsonian”的地址簿中表示的两个不同个人，但是第一个人可以是用户12的亲密的朋友或家庭成员并且因此可以用名的比姓更高的标识符权重44编索引。然而，第二个人可以是用户12可以与名相比更经常地通过姓来提及的疏远的熟人，所以与名相比，更高的标识符权重44可以与姓相关联。类似地，尽管标识符“Joe”、“Smith”和“Letter”全都标识包括名为“Letter.doc”并被名为“Joe Smith”的作者写的的文件的内容项22，但是该作者字段可以被认为与相当普通的文件名相比更可能是搜索条件，并且因此可以被存储为具有更高标识符权重44的标识符42。以此方式，不同的标识符42可以基于用户12可以使用标识符42搜索内容项22的可能性而被不同地加权。

图4呈现了示范性场景50，其特征在于在相对于内容集20的内容项22评估查询14中使用标识符权重44。在该示范性场景50中，用户12提交包括一组标记54（例如由空白字符（例如空格、制表符或回车）分开的字母数字字符的一个或多个字符串）的查询14，这组标记54可以与内容项22的标识符42匹配。这些技术的一个实施例54（例如在诸如计算机之类的设备18上执行的软件组件）可以涉及图3的示范性场景40中生成的内容索引46以识别根据内容索引46匹配查询14的相应标记52的内容项22。而且，根据这些技术，对于每个候选内容项38，该实施例54可以基于匹配查询14的标记52的标识符42的标识符权重44来计算评级得分56（例如，作为和、平均算术平均值或中值）。基于匹配的标识符42与查询14的标记52的语义关系，该评级得分56可以指示候选内容项38对查询14的预测相关性。该实施例54然后可以向用户12呈现候选的内容项38，但是可以基于评级得分56来这样做，例如通过以评级得分56递减的顺序分类候选内容项38，从而导致在具有低预测相关性的候选内容项38之前呈现具有高预测相关性的候选内容项38。如可以根据图4的示范性场景50中的搜索结果36（根据本文所提出的技术生成的）与图2的示范性场景30中的搜索结果36的比较而清楚明白的，实施例54可以呈现搜索结果36，搜索结果36的特征在于与用户12的更高预测相关性。

在一些实施例中，附加技术可以被应用到所计算的评级得分56以便增强相关性预测。除了基于匹配查询12的标记52的标识符42的标识符权重44计算评级得分56之外，一个实施例可以基于匹配的各种属性调节该评级得分56。例如，如果匹配相应标记52的标识符42顺序地并拢（close together），则候选内容项38的评级得分56可以增加；如果相同标识符42匹配若干标记52，则候选内容项38的评级得分56可以增加；或者如果标记52匹配标识符42的大部分或全部（例如，更高的评级得分56可以归因于示范性查询14中的标记52“joe”和“smith”与标识符42“Joe Smithy”而不是“Joe Smithkowski”的匹配，这是由于标记52匹配前一个标识符42的更大的百分比），则候选内容项38的评级得分56可以增加。各种调节技术（本文提出了其中一些）或其组合可以用于调节各种候选内容项38的评级得分56以便改进候选内容项42与查询14的相关性预测。

图5呈现了这些技术的第一实施例，其被图示为相对于分别包括至少一个内容项22的至少一个内容集20评估包括至少一个标记52的查询14的示范性方法60，其中各个内容项22具有至少一个标识符42。该示范性方法60由具有处理器的设备18执行，并且可以例如被表示为存储在设备18的易失性或非易失性存储器组件（例如系统存储器、硬盘驱动器、固态存储设备或磁性光盘）上且可在设备18的处理器上执行的一组软件指令。设备18还包括内容索引46（例如诸如哈希表之类的数据结构，其存储在设备18的存储器组件中且被保留以便根据一个或多个标识符42对各个内容项22编索引）。该示范性方法60在62处开始并涉及在处理器上执行64被配置成根据本文所提出的技术响应于查询14呈现内容项22的指令。特别地，所述指令被配置成，对于各个内容项22根据具有标识符权重56的至少一个标识符42在内容索引46中对内容项22编索引66。所述指令还被配置成，当接收到68查询14时，以下面的方式评估查询14并呈现搜索结果36。当接收到68查询时，所述指令被配置成对于查询14的各个标记52，通过匹配标记52的标识符42的至少标识符部分识别70在内容索引46中编索引的候选内容项38。所述指令还被配置成，在接收到查询14时，对于各个候选内容项38，根据匹配查询14的标记52的标识符42的标识符权重44计算72评级得分56，并且呈现74根据该评级得分56分类的候选内容项38。以此方式，示范性方法60根据用户14的推断的意图实现了根据与查询14的预测相关性呈现候选内容项38，并因此在76处结束。

图6呈现了这些技术的第二实施例，其被图示为被配置成相对于包括至少一个内容项22的至少一个内容集20评估包括至少一个标记52的查询14的示范性系统86，其中各个内容项22具有至少一个标识符42。该示范性系统可以例如实现为包括一组互操作以执行本文所提出的技术的组件的软件架构，其中各个组件被实现为存储在设备82的易失性或非易失性存储器（例如系统存储器、硬盘驱动器、固态存储设备或磁盘或光盘）中的一组指令。该示范性系统86的组件还与存储在设备82上的内容索引46（例如诸如哈希表之类的数据结构，其存储在设备82的存储器组件中且被保留以便根据一个或多个标识符42对各个内容项22编索引）相互作用。该示范性系统86包括内容项编索引组件88，其被配置成，对于各个内容项22根据具有标识符权重44的至少一个标识符42在内容索引46中对内容项22编索引。该示范性系统86还包括内容项评估组件90，其被配置成：在接收到查询14时，对于查询14的各个标记52，通过匹配标记52的标识符42的至少标识符部分识别在内容索引46中被编索引的候选内容项38；以及，对于相应的候选内容项38，根据匹配查询14的标记52的标识符42的标识符权重44计算评级得分56。该示范性系统86还包括搜索结果呈现组件92，其被配置成响应于查询14呈现根据评级得分56分类的候选内容项38。以此方式，示范性系统86的组件互操作以根据本文所提出的技术呈现匹配由用户12提交的查询14的内容项22。

又一个实施例涉及计算机可读介质，其包括被配置成应用本文所提出的技术的处理器可执行指令。在图7中图示了可以以这些方式设计的示范性计算机可读介质，其中实现方式100包括计算机可读介质102（例如，CD-R、DVD-R或硬盘驱动器的盘片（platter）），其上是编码的计算机可读数据104。该计算机可读数据104又包括被配置成根据本文所阐述的原理操作的一组计算机指令106。在一个这样的实施例中，处理器可执行指令106可以被配置成执行相对于包括至少一个内容项的至少一个内容集评估包括至少一个标记的查询的方法，例如图5的示范性方法60。在另一个这样的实施例中，处理器可执行指令106可以被配置成实现用于相对于包括至少一个内容项的至少一个内容集评估包括至少一个标记的查询的系统，例如图6的示范性系统86。该计算机可读介质的一些实施例可以包括非暂时性的（nontransitory）计算机可读存储介质（例如硬盘驱动器、光盘或闪存设备），其被配置成存储以此方式配置的处理器可执行指令。许多这样的计算机可读介质可以由本领域普通技术人员设计，这样的计算机可读介质被配置成根据本文所提出的技术操作。

本文所讨论的技术可被设计成在许多方面具有变化，并且一些变化可以相对于这些和其他技术的其他变化呈现附加的优点和/或减少缺点。而且，一些变化可以以组合方式实现，并且一些组合可以通过协同合作以附加的优点和/或减少的缺点为特征。所述变化可以被并入各种实施例（例如图5的示范性方法60和图6的示范性系统86）中以在这样的实施例上赋予（confer）单独的和/或协同的优点。

可以在这些技术的各实施例之间变化的第一方面涉及其中可以利用这样的技术的场景。作为第一实例，这些技术可以用于许多类型的设备18，包括工作站、服务器、诸如笔记本之类的便携式计算机和诸如智能电话之类的小型设备。作为该第一方面的第二实例，许多类型的内容集20和内容项22可以以此方式被编索引和搜索，包括许多类型的用户或系统数据对象，例如文件系统中的文件、电子邮件邮箱中的电子邮件消息、联系人数据库中的联系人、对象系统中的对象、数据库中的数据库记录、图像集中的图像、以及会计系统中的财务条目（entry）。作为第一方面的第三实例，可以接收包括各种类型的标记52的许多类型的查询12，例如文本标记、整数或浮点标记、以逻辑方式构造的查询（例如，利用布尔连接器）和包括从口语音素转化的标记52的语音查询。作为第一方面的第四实例，内容项22可以对于以许多方式实现这些技术的设备18是可访问的，例如包括存储在设备18的存储器组件中的内容项22的本地存储的内容集20，包括通过局域网可访问的内容项22的网络可访问内容集20、或包括通过诸如因特网之类的广域网可访问的内容项22的远程内容集20。

本文提出的技术在其中特别有用的特定场景涉及包括内容项类型的内容项22的内容集20。例如，设备18可以存储一组应用，其中每一个应用可以管理包括定制内容项类型的一组内容项22的定制内容集20。这些技术的一个实施例（例如图6的示范性场景80中的示范性系统86）可以被配置成允许指定定制内容项类型的内容项22将在内容索引46中被编索引的应用，并且允许用户12输入可以在由所述应用管理的内容项22之间搜索的查询14。例如，存储特定类型数据的应用可以基于用户12可以如何考虑搜索内容项22以各种方式选择对表示数据的内容项22编索引。在一个这样的场景中，包括汽车数据库的应用可以包括含有关于特定车辆的构造化数据（例如年份、颜色和发动机类型）的字段。该应用因此可以请求这些技术的实施例根据匹配相应字段的各种标识符42（例如“1957”、“蓝色”和“v8”）将记录编索引为内容项22，使得可以向将这些术语中的一些或全部键入到查询中的用户呈现作为候选内容项38的这个记录。用户12还可以通过明确地表征查询14的一些或全部来使这个搜索变窄。例如，这个记录可以根据诸如“车辆”或“汽车”之类的标识符42来编索引，并且可以基于这个标识符42而被作为候选内容项取回。可替代地或此外，一些标识符42可以根据标识符类型（可能作为密钥（key）/值对）而被明确地编索引，例如“车辆颜色：蓝色”，并且查询14可以指定这样的标识符类型，例如“车辆颜色蓝色”。因此，这个能力（capability）可以代表“可插的”方面，其中定制应用可以利用设备14的搜索基础设施来扩展定制内容项类型。

此外，这些技术在一些场景中可以特别有用，这归因于相对于一组内容项22的查询14的快速评估。作为一个实例，在用户12继续键入查询14时，这些技术可以在查询结果的建议的背景中应用。例如，当用户12开始键入第一查询14时，对应于第一查询14的第一组候选内容项38可以被识别并被呈现给用户12。然而，用户12可以继续键入查询14（例如，添加新标记，移除曲解搜索结果的标记，或者修改或者重新排序现有的标记）。相应地，第二查询14可以被识别，并且搜索结果可以被改变（例如通过移除不匹配已被添加到第二查询14的第二查询标记的候选内容项38；通过添加不匹配第一查询14但由于一个或多个第一查询标记的移除而匹配第二查询14的候选内容项38）和/或被重新排序（例如通过基于第二查询14的标记重新评级候选内容项38）。第二组搜索结果因此可以基于第二查询14而被呈现给用户12。

所述变化可以允许用户在键入查询14的同时接近实时地观看对搜索结果的调节；可以允许用户12确定如何修改查询14以识别预期的搜索结果（例如通过移除匹配太多不相关的候选内容项38的查询条件）；以及可以允许用户12在查询14被充分聚焦（focus）或已经识别用户12正寻找的候选内容项38时停止键入附加的搜索条件。例如，用户12可以键入包括特定标记集（例如，“蓝色 1957”）的第一搜索查询，并且可以快速地被呈现有候选内容项38的宽广列表。用户12然后可以继续键入包括查询12的附加“线索”的标记52（例如，“蓝色 1957 汽车”），由此将候选内容项38的集缩小为描述涉及年份1957的蓝色汽车的那些候选内容项，并且移除与汽车不相关的候选内容项38。用户12然后可以添加另一个线索，例如“蓝色 1957 汽车 v8”，其可以自动调节搜索结果以呈现搜索结果的空集（例如，如果用户12错误地记得所讨论的汽车具有v8发动机）。用户12然后可以用新标记52“v6”取代后面的标记52，并且该实施例可以显示满足这些标记52的搜索结果的小集合，其可以包括用户12寻找的候选内容项38。响应于查询14的输入对候选内容项38的这个调节可以通过快速显示添加、移除或改变关于匹配查询14的候选内容项38的各种“线索”的结果来允许用户12使查询14适合用户12的期望意图。本领域普通技术人员可以设计许多其中可以利用本文所提出的技术的场景。

可以在这些技术的实施例之间变化的第二方面涉及根据各种标识符42对内容项22编索引的方式。作为第一实例，标识内容项22的许多数据段可以被用作标识符42，例如内容项22的名称或标题、内容项22在内容集20内的位置、创建日期、包括内容项22的拥有者或创建者的用户12的名字、内容项类型、内容项22的内容的各种属性（例如，文档中频繁出现的一组关键词或概要，或图像的文本描述）、与内容项22相关联的各种元数据段或与该内容项22相关的其他内容项22。此外，可以期望根据与各个内容项22相关联的所有标识符42对各个内容项22编索引（并且向每个标识符42分配至少最小权重）。相反，关于用于在内容索引46中对内容项22编索引的标识符42，应用可以是选择性的。例如，在对电子邮件消息编索引中，应用可以按词法识别明显涉及消息内容的消息的标题和正文的关键词（从而用户12可以根据这样的关键词搜索电子邮件消息），但是可以制止根据仅与消息稍微有关的其他关键词对该消息编索引（从而用户12不可能根据所述关键词搜索消息）。作为该第二方面的第二实例，可以以各种方式在内容索引46内对标识符42编索引。例如，标识符42可以本来地存储在内容索引46中，可以被转换为标准数据类型（例如字母数字字符串），或者可以根据压缩格式（condensed format）（例如，标识符42的哈希码）存储。

作为该第二方面的第三实例，标识符42除了作为整个标识符被编索引外，可以在各种部分中被编索引。例如，标识符42可以包括标识符的、用户12可以搜索的若干部分，例如文件的文件名的不同部分（例如，文件“David’s_Report.doc”可以被用户12作为“David”、“Report”、“doc”、“David’s_Report”、“Report.doc”或“David’s_Report.doc”来查询）。因此，基于用户12可以搜索查询20中的标识符14的方式的这些变化，可以以各种不同方式对特定内容项22的特定标识符42编索引。而且，不同的标识符权重44可以与不同的标识符42一起存储以指示在将内容项22标识为区别于其他内容项22中标识符42的特殊性和/或匹配相应标识符42的标记52的相对相关性。例如，内容项22可以与具有各种名称组成部分（例如首名称、中间名称、末名称和后缀）的名称相关联，并且这些技术的一个实施例可以被配置成通过名称和各种名称组成部分对内容项22编索引。而且，不同名称组成部分的不同选择性可以被表示为不同的标识符权重44；例如表示内容项22的名称的标识符42可以以高标识符权重编索引，而名称组成部分可以以低标识符权重编索引。

图8呈现了特征在于各种内容集20的一组内容项22的示范性场景110，对于该场景各种标识符42可以被提取并连同不同的标识符权重44存储在内容索引46中。根据这个第二方面的这个第三实例，每个内容项22可以用若干标识符42编索引，其中每个标识符可以基于与查询14的标记52匹配的标识符42的重要性具有不同的标识符权重44。例如，与具有文件名“Joe_Smith.doc”的文件相关联的第一内容项22可以通过包括字符串“joe”的第一标识符42（具有比较低的标识符权重44，其指示文件名的这个小部分的低重要性）、包括匹配该文件的扩展名的字符串“doc”的第二标识符42（具有甚至更低的标识符权重44，其指示用户12不可能通过搜索内容项22的扩展名来搜索该内容项22）、以及包括匹配整个文件名的字符串“Joe_Smith.doc”的第三标识符42（指示用户12基于文件的全名称搜索文件的稍微高些的可能性）来在内容索引46中被编索引。对于包括具有标题“Alice Smith’s party”的电子邮件消息的第二内容项22，可以针对“Alice”、“Alice Smith”和“Alice Smith’s party”创建具有稍微增加的标识符权重44标识符42。类似地，对于包括名字为Joe Schneider的个人的联系人记录的第三内容项22，可以针对“Joe”、“Schneider”和“Joe Schneider”创建具有增加的标识符权重44的标识符42。然而，因为这个个人是用户12紧密熟知的，所以与表示个人的姓的标识符42相比，表示该个人的名的标识符42可以以更高的标识符权重44来编索引，这说明了以下事实：与姓（“Schneider”）或全名字（“Joe Schneider”）相比，用户12更经常通过名（“Joe”）来提及该熟悉的个人。这样的不同标识符42可以例如通过使用各种标准（例如非字母和非数字字母数字字符和/或空白）分离标识符42而被自动提取，并且/或者例如通过识别所提取的部分的长度和/或选择性而被加权（例如，文件系统中许多文档类型文件可以通过扩展名“.doc”来标识，但是只有少数文件可以包括字符串“joe”，从而导致这个标识符42的更高的选择性和更高的标识符权重44）。本领域普通技术人员可以在实现本文所提出的技术的同时设计出在内容索引46中对内容项22编索引的许多方式。

可以在这些技术的实施例之间变化的第三方面涉及可以结合本文提供的基于相关性的技术实现的简单的过滤技术。作为第一实例，用户12可以提交指定要被呈现的候选内容项38的特定内容项类型的查询14，例如仅仅电子邮件消息或仅仅联系人记录（例如，查询“电子邮件joe smith”可以被推断为将候选内容项38仅限为电子邮件消息）。作为该第三方面的第二实例，用户12可以提交包括一个或多个标记52的查询14，其指定特定内容集30，例如特定文件系统中或其特定部分中的对象（例如查询“文件系统joe smith”可以被推断为将候选内容项38仅限为存储在本地文件系统中的那些候选内容项）。作为该第三方面的第三实例，查询14可以指定一个或多个标记52仅被应用到特定标识符类型（例如，查询“名字 joe smith”可以被推断为将候选内容项38仅限为匹配“名字”标识符类型的接着的标记52的那些候选内容项，例如文件的拥有者、电子邮件消息的发送者或接受者或联系人记录的名和/或姓）。例如，不同类型的内容项22可以具有不同组的标识符42，但一些标识符42可以具有共享的语义（例如，“名称”、“标题”或“创建日期”）和/或共享的数据格式（例如，“电子邮件地址”、“日期”或“电话号码”）。查询14的标记52因此可以指定候选内容项38具有特定值的标识符类型（例如，查询14“名字 joe smith”可以指定具有值例如为“Joe Smith”的语义类型“名字”的标识符的内容项22；查询14“电子邮件 joemail.com”可以指定具有格式化为电子邮件地址且具有值“joemail.com”的标识符的内容项22）。以此方式，查询14的各种标记52可以被构造成指定可以应用到内容项22的各种类型的简单过滤。本领域普通技术人员可以在实现本文所提出的技术的同时设计出允许用户12将简单的过滤程序（filter）应用到查询14的许多方式。

可以在这些技术的实施例之间变化的第四方面涉及从查询14提取标记52以应用到内容索引46的方式。作为第一实例，用户12可以例如通过以某顺序键入不同的标记52来明确区分标记52。可替代地，用户12可以通过各种属性、例如通过分离空白字符（例如空格、制表符或回车）而在查询14内描绘标记52。一些实施例也可以允许用户12指定若干序列被评估为单个标记，例如通过将一组标记封在引号或括号中。

作为该第四方面的第二实例，一个实施例可以以各种方式将标记52应用到内容索引46。作为第一个这种变化，标记52可以以特定顺序应用到内容索引46；例如被识别为在内容项22的小集合中具有高度选择性的标记52（例如，长字符串或不寻常的术语）可以在被识别为在内容项22之间不那么具有选择性的标记52（例如，短字符串或常见术语）之前应用到内容索引46。作为第二这种变化，一个实施例可以努力建议并校正可能的印刷上的错误（例如建议用标记52“patent”取代标记52“patnet”）。作为第三这种变化，一个实施例可以应用每个标记52，以及包括整个查询14的标记52。该变化可以是有帮助的，例如有助于促进与匹配整个查询14或其重要部分的标识符42的匹配。

图9呈现了示范性场景120，其图示从查询14提取标记52以应用到内容索引46。在该示范性场景120中，用户12键入查询14“joe smith party”。这些技术的一个实施例可以通过空白字符分割该查询14以提取标记52“joe”、“smith”和“party”，其中的每一个可以通过搜索算法32而应用到内容索引46。此外，整个查询14可以被评估为单个标记52（“joe smith party”），其可以快速地识别匹配整个短语的内容项22。以此方式，查询14的标记52可以被提取并被应用到内容索引46。本领域普通技术人员可以在实现本文提出的技术的同时设计出从查询14提取标记52以应用到内容索引46的许多方式。

作为该第四方面的第三实例，标记52到内容索引46的应用可以以各种方式调节。在第一这种变化中，内容项22可以仅在内容项22的至少一个标识符42匹配查询14的每个标记52的情况下仅被选择为候选内容项38。考虑到每个标记52具有一些对用户12的语义值，以及如果任何标记38不以某种方式与候选内容项38匹配则内容项22不能被选择为候选内容项38，这个变化是有利的。作为另一个变化，高度相关的内容项22可以作为候选内容项38而被包括，即使查询14的一个或多个标记52不匹配至少一个标识符42。该变化可以是有利的，例如如果高度相关的标记碰巧不能匹配查询14的一个或多个标准，或者如果一个特定标记52不匹配内容项22（例如，不匹配任何内容项22的标识符42的标记52中的印刷错误可以被忽略）。可替代地，接近调节可以被计算并被用在搜索内容索引46中；例如，如果诸如“patnet”之类的标记52匹配内容项22的很少的标识符42或不匹配这些标识符42，则可以选择包括一个或多个接近标记52的标识符42的候选内容项38，例如包含术语“patent”的那些。

可以在这些技术的实施例之间变化的第五方面涉及鉴于可以是候选内容项38对查询14的匹配相关性的预测的其他标准对候选内容项38的评级得分56进行调节。在这些技术的一些实施例中，在取回匹配查询42的标记52的标识符42并且基于与这样的标识符42一起存储的标识符权重44计算相关联的候选内容项38的评级得分56之后，候选内容项38的评级得分56可以被调节以鉴于其对用户12在规划查询14时的意图的预测相关性改进候选内容项38的排序（ordering）。

作为该第五方面的第一实例，候选内容项38的评级得分56可以鉴于查询14的特定搜索背景来计算。可以理解，不同的查询14可以键入在不同的搜索背景中。例如，第一查询14可以键入在电子邮件客户端应用的搜索控制中；第二查询14可以被键入到联系人数据库的搜索控制中；以及第三查询14可以被键入到文件系统的搜索控制中。然而，可以理解，用户12可以鉴于搜索背景不同地选择查询14的不同标记。例如，如果用户12在名字搜索（例如，在电子邮件消息中“To：”行的背景中发起的搜索）的背景中键入查询14，则匹配名字相关标识符（例如，电子邮件消息的发送者字段或联系人记录的名字字段）上的查询14的候选内容项38与匹配文件系统相关的标识符（例如，文件名字段）上的查询14的候选内容项38相比可以具有与用户12更高的预测相关性。相反，如果用户12在文件相关的搜索背景中键入查询14（例如，将对象附接到电子邮件消息），则文件名字段可以具有更高的预测相关性。因此，在推断用户12的意图并解释查询14的同时，可以考虑每个查询的搜索背景。例如，如果查询14由用户12提供在与至少一个标识符相关联的搜索背景中，则可以通过提高匹配查询14的标记52、还与搜索背景相关联的标识符42的标识符权重44来计算各种候选内容项38的评级得分56。

作为该第五方面的第二实例，如果候选内容项38可以针对普及性（popularity）而评估（例如，在由用户12访问的内容项22的背景中，用户12过去已经访问内容项22的频率；以及在web搜索结果的背景中，基于通过到特定内容项22的链接点击的用户的数量，或者基于到其他页上内容项22的链接的数量），那么标识符42的标识符权重44的贡献可以基于候选内容项38的普及性而被调节。例如，如果内容项22的普及性与用户搜索内容项22的可能性相关联，则候选内容项38的评级得分52可以增加，由此将普及的候选内容项38呈现为与类似加权但不普及的候选内容项38相比具有与用户12的更高的预测相关性。

作为该第五方面的第三实例，如果标记52匹配标识符42的多个标识符部分，则可以增加标识符42的标识符权重44对候选内容项38的评级得分56的贡献。例如，如果查询14包括特定标记52，则与具有该标记52的更少或仅一个实例的标识符42相比，具有该标记52的若干实例的标识符42可以被认为具有更高的预测相关性。相应地，在计算各个候选内容项38的评级得分56的同时，这些技术的一个实施例可以被配置成提高匹配查询14的多于一个的标记52的标识符42的标识符权重44。

图10呈现示范性场景130的图示，其特征在于根据该第五方面的该第三实例调节候选内容项38的评级得分56。在该示范性场景130中，提交包括标记52“joe”的查询14，并且将该查询14与两个不同候选内容项38的两个标识符42匹配，每个标识符具有值为6的初始标识符权重44。然而，查询14的标记52仅在一个标识符部分（如粗体所示）中匹配第一标识符42（“Joe Smith”，其具有电子邮件地址“js12mail.com”），但是在两个标识符部分中匹配第二标识符42（“Joe Adams”，其具有电子邮件地址“joe_adamsmail.com”）。相应地，第二标识符42的评级得分56可以被增加以用于包含在第二候选内容项38的评级得分56中，这指示第二候选内容项38与查询14的意图的更高预测相关性。

作为该第五方面的第四实例，查询14具有多个指定为某序列的标记52，但是其可以一起匹配特定标识符42的各种标识符部分。可以理解，用户12在查询14中键入标记52的顺序可以是重要的，并且匹配标记52的序列的标识符42的标识符部分的顺序符合性可以预测相关联的候选内容项38与查询14的意图的相关性。因此，在该第四实例中，如果标记52以近似相同顺序匹配标识符部分，则标识符42的标识符权重44可以提高。例如，如果第二标记52顺序地跟随查询中的第一标记52，标识符42的标识符权重44可以在第一标记52匹配标识符42的第一标识符部分且第二标记52匹配顺序地跟随第一标识符部分的标识符42的第二标识符部分的情况下增加。在第一个这样的变化中，标识符权重44还可以与标识符42的第二标识符部分与第一标识符部分的接近程度成比例地增加；例如，当标记52匹配在标识符内更紧密地在一起的标识符部分时，标识符权重44提升的幅度增加。在第二个这种变化中，如果第二标识符部分直接顺序地跟随第一标识符部分，例如如果第一标记52和第二标记52与标识符42中直接跟随的标识符部分的序列（例如短语）匹配，则标识符权重44可以特别强烈地增加。如果附加的标记56还根据标识符42中标识符部分的序列而匹配（例如，四个标记匹配候选内容项38的四个直接顺序的标识符部分），则可以做出评级得分56的附加增加。

图11呈现示范性场景140，其特征在于根据该第五方面的该第四实例调节各种候选内容项38的评级得分56。在该示范性场景140中，查询14包括标记“joe”和“smith”，并且匹配与四个候选内容项38相关联的四个标识符42，其包括在地址簿中四个不同联系人记录中指定的四个不同个人的四个不同名字。然而，匹配各个标识符42的标识符部分的标记52的序列可以被用于调节候选内容项38的评级得分56以改进与查询14的意图匹配的相关性。作为第一实例，标记52匹配两个标识符部分中的第一标识符42（“Angela Smith Joe”），但是在相反的连续顺序中（首先“smith”，然后“joe”），而是，标记52以正确的连续顺序（第一标识符部分“joe”，在重要的标识符部分之后，顺序地跟随着第二标识符部分“smith”）匹配第二标识符42（“Joe Douglas Samuel Smith”）。因此，第二标识符42的标识符权重44可以被计算成对应的候选内容项38的评级得分56，其具有与第二标识符42相比向上的调节（例如，7而不是6的标识符权重44）。作为第二实例，第三标识符42（“Joe Mark Smith”）可以类似地匹配具有正确连续顺序的标识符部分中的标记52，但是与第二标识符42相比，可以具有更小的标识符42的居间部分（例如，一个四-字母词对包括13个字母的两个词）。因此，第三标识符42的标识符权重44可以被计算成对应的第三候选内容项38的评级得分56，其具有比第二候选内容项38的第二标识符42的标识符权重44更高的值（例如标识符权重44为8）。作为第三实例，第四标识符42（“David Joe Smith”）可以以直接顺序地匹配查询14中的标记52的序列的标识符部分为特征，并且因此可以被计算成对应的候选内容项38的评级得分56，其具有强烈增加的值10。这种基于与查询14中的标记52的序列匹配的标识符42的标识符部分的序列对候选内容项38的评级得分56的调节可以改进所呈现的搜索结果36与用户12的意图的相关性。

作为该第五方面的第五实例，如果标识符22完全匹配查询14，则候选内容项38的评级得分56可以强烈地增加。例如，包括标记52“joe smith”的查询14可以导致具有名字“Joe Smith”的联系人记录的强烈增加的评级得分56的计算。该调节可以满足碰巧键入与候选内容项38相关联的标识符42的完全和确切的内容的用户12的意图。

作为该第五方面的第六实例，标识符42的评级得分56可以基于匹配标记52的标识符42的标识符部分的百分比而增加。例如，对于包括具有三个字符的标记52（例如“Kat”）的查询14，匹配标记52的三个字符且具有四个字符的全长的第一标识符42（例如“Kate”，其中标识符42的75%匹配标记52）的标识符权重44可以被分解为对应的候选内容项38的评级得分56，其具有比匹配标记52的三个字符但具有9个字符的全长的第二标识符42（“Katherine”，其中仅标识符42的33%匹配标记52）更高的调节。

作为该第五方面的第七实例，候选内容项38的评级得分56可以基于与候选内容项38匹配的标识符38在内容集20的内容项22之间的特殊性而增加；例如，与匹配候选内容项38但也匹配许多其他内容项22的比较常见的标记56相比，匹配候选内容项38的比较罕见的标记56可以具有调节的更高的标识符权重44。因此，标识符42的标识符权重44可以与匹配标记52的内容项22的内容项计数相反地增加。例如，对于包括标记52“joe”和“arrington”的查询14，标记52“joe”可以匹配许多内容项22，但是标记“arrington”可以仅匹配少数内容项22，并且因此可以在候选内容项38中具有相比而言高度的选择性。因此，与相比而言不那么选择性地匹配标记52“joe”相比，这些技术的一个实施例可以提高匹配标记“arrington”的候选内容项38的评级得分56以反映该匹配的选择性。本领域普通技术人员可以根据本文所提出的技术设计出调节候选内容项38的评级得分56以改进搜索结果36与用户12在规划查询14时的意图的预测相关性的许多方法。

可以在这些技术的实施例之间变化的第六方面涉及响应于查询14向用户12呈现作为一组搜索结果36的候选内容项38。作为该第六方面的第一实例，候选内容项38可以被简单地识别（例如，作为文件列表），可以被链接（例如作为一组超链接或基于图标的捷径（shortcut））以便容易访问，可以被呈现为预览（例如，文档的文本摘录或缩略图集），和/或可以被呈现给用户12（例如，作为匹配查询14的图像的幻灯片）。作为该第六方面的第二实例，呈现根据评级得分56分类的候选内容项38，但是候选内容项38也可以根据其他标准分类。在一个这种变化中，其中候选内容项38具有名称，候选内容项38可以首先通过名称的名称长度分类，并且然后可以根据评级得分56稳定地分类。作为该第六方面的第三实例，候选内容项56可以连同匹配查询14的标记52的标识符42被呈现。该实例可能有利于例如向用户12呈现在搜索结果36中呈现相应内容项22的一些基本原理，特别是对于其中这样的基本原理可能根据呈现的其他信息不容易明白的内容项22（例如，可能不清楚的是，名称为“Report.doc”的候选内容项38为什么被包含在包括标记52“joe smith”的查询14的搜索结果36中，所以，匹配查询14的标记52的标识符42，例如指定名字“Joe Smith”的作者元数据字段或包含文档中嵌入的这个名字的短语，可以连同候选内容项36一起呈现）。此外，匹配查询14的各个标记52的标识符42的标识符部分可以例如通过以粗体字体呈现匹配的标识符部分来在候选内容项38的呈现中被强调。

图12呈现了示范性场景150，其特征在于响应于查询14呈现包括匹配的候选内容项38的搜索结果36。在该示范性场景150中，用户12可以提交包括各种标记52的查询14，并且该查询14可以通过这些技术的实施例54、利用内容索引46来评估，内容索引46根据具有标识符权重44的各种标识符42对各种内容集20的内容项22编索引。候选内容项38然后可以被呈现为根据相应评级得分58分类的搜索结果36，但是也可以利用可能对用户12有帮助的一些附加变化来呈现。作为第一实例，候选内容项38可以根据诸如名称之类的有区别的特性分类，并且可以以各种方式分类（例如，按字母顺序和/或根据名称长度）。作为第二实例，可以呈现匹配查询14的标记52的标识符42，并且可以例如通过使用粗体字体强调匹配标记52的标识符部分。以此方式，搜索结果36可以以下述方式呈现：其与查询14相关且指示候选内容项38与查询14的标记58的相关性。本领域普通技术人员可以在实现本文所提出的技术的同时设计出响应于查询14呈现候选内容项38的许多方式。

尽管已经以特定于结构特征和/或方法动作的语言描述了本主题，但是应当理解，所附权利要求中定义的该主题不必被限于上文描述的特定特征或动作。相反，上述特定特征和动作是作为实现权利要求的实例形式而公开的。

本申请中所使用的术语“组件”、“模块”、“系统”、“接口”等等一般地旨在意指计算机相关实体，硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行（executable）、执行线程、程序和/或计算机。通过图示，运行在控制器上的应用和该控制器这二者都可以是组件。一个或多个组件可以存在于执行的线程和/或进程内，并且组件可以定位在一个计算机上和/或可以分布在两个或更多个计算机之间。

而且，要求保护的主题可以被实现为方法、装置或制造的产品，其使用标准的编程和/或工程技术产生软件、固件、硬件或其任意组合以控制计算机实现所公开的主题。本文所使用的术语“制造的产品”旨在包含可从任何计算机可读设备、载体或介质访问的计算机程序。当然，本领域技术人员将认识到可以对这个配置进行许多修改而不背离要求保护的主题的范围或精神。

图13和下面的讨论提供了对用于实现本文所提出的一个或多个措施的实施例的适当计算环境的简要、总体的描述。图13的操作环境仅仅是适当的操作环境的一个实例，并且不旨在暗示关于操作环境的使用或功能的范围的任何限制。实例计算设备包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、移动设备（例如移动电话、个人数字助理（PDA）、媒体播放器等等）、多处理器系统、消费型电子产品、迷你计算机、大型计算机、包括上述系统或设备中任意一个的分布式计算环境等等。

尽管没有要求，但是在由一个或多个计算设备执行的“计算机可读指令”的总的背景中描述实施例。计算机可读指令可以经由（下文所讨论的）计算机可读介质分布。计算机可读指令可以被实现为执行特定任务或实现特定抽象数据类型的程序模块，例如函数、对象、应用编程接口（API）、数据结构等等。典型地，计算机可读指令的功能可以在各种环境中随意地组合或分布。

图13图示了包括被配置成实现本文所提供的一个或多个实施例的计算设备162的系统160的实例。在一个配置中，计算设备162包括至少一个处理单元166和存储器168。取决于计算设备的确切配置和类型，存储器168可以是易失性的（例如RAM）、非易失性的（例如ROM、闪存等）或这二者的某种组合。这个配置在图13中用虚线164图示出。

在其他实施例中，设备162可以包括附加的特征和/或功能。例如，设备162还可以包括附加的存储装置（例如可移动的和/或不可移动的），其包括但不限于磁性存储装置、光学存储装置等等。这种附加的存储装置在图13中用存储装置170图示出。在一个实施例中，用于实现本文所提供的一个或多个实施例的计算机可读指令可以在存储装置170中。存储装置170还可以存储用于实现操作系统、应用程序等等的其他计算机可读指令。例如，计算机可读指令可以被加载在存储器168中以用于由处理单元166来执行。

本文所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质，用于存储诸如计算机可读指令之类的信息或其他数据。存储器168和存储装置170是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘（DVD）或其他光学存储装置、磁盒、磁带、磁盘存储装置或其他磁性存储设备、或可以用于存储期望的信息并且可以被设备162访问的任何其他介质。任何这种计算机存储介质可以是设备162的一部分。

设备162还可以包括允许设备162与其他设备通信的通信连接（一个或多个）176。通信连接（一个或多个）176可以包括但不限于调制解调器、网络接口卡（NIC）、集成网络接口、射频发射器/接收器、红外端口、USB连接或用于将计算设备162连接到其他计算设备的其他接口。通信连接（一个或多个）176可以包括有线连接或无线连接。通信连接（一个或多个）176可以发送和/或接收通信介质（media）。

术语“计算机可读介质”可以包括通信介质。通信介质典型地包含诸如载波或其他传输机制之类的“经调制的数据信号”中的计算机可读指令或其他数据并且包括任何信息传送介质。术语“经调制的数据信号”可以包括一种信号，其具有其特性集的一个或多个或已经以这样的方式改变以便编码信号中的信息。

设备162可以包括输入设备（一个或多个）174，例如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外照相机、视频输入设备和/或任何其他输入设备。设备162中还可以包括输出设备（一个或多个）172，例如一个或多个显示器、扬声器、打印机和/或任何其他输出设备。输入设备（一个或多个）174和输出设备（一个或多个）172可以经由有线连接、无线连接或其任意组合连接到设备162。在一个实施例中，来自另一个计算设备的输入设备或输出设备可以用作计算设备162的输入设备（一个或多个）174或输出设备（一个或多个）172。

计算设备162的组件可以通过诸如总线之类的各种互连而被连接。这种互连可以包括外围组件互连（PCI）（例如高速PCI）、通用串行总线（USB）、火线（IEEE 1394）、光学总线结构等等。在另一个实施例中，计算设备162的组件可以通过网络互连。例如，存储器168可以由通过网络互连的位于不同物理位置中的多个物理存储单元构成。

本领域技术人员将认识到用于存储计算机可读指令的存储设备可以跨网络分布。例如，可经网络178访问的计算设备180可以存储用于实现本文所提供的一个或多个实施例的计算机可读指令。计算设备162可以访问计算设备180并且下载一部分或全部计算机可读指令以供执行。可替代地，计算设备162可以根据需要下载计算机可读指令的段（piece），或者一些指令可以在计算设备162处执行并且一些指令可以在计算设备180处执行。

本文提供了实施例的各种操作。在一个实施例中，所描述的操作的一个或多个可以构成存储在一个或多个计算机可读介质上的计算机可读指令，如果这些计算机可读指令被计算设备执行，则将使计算设备执行所描述的操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必定是顺序相关的。受到该说明书的益处的本领域技术人员将会理解可替代的排序。而且，应当理解，不是所有操作都必定存在于本文所提供的每个实施例中。

而且，词“示范性的”在本文中用于意指充当实例、例证或说明。在本文中被描述为“示范性的”的任何方面或设计不必被解释为优于其他方面或设计。相反，使用词示范性的旨在以具体方式提出概念。本申请中所使用的术语“或”旨在意指包含性的“或”而非排他性的“或”。即，除非另外指定，或从上下文中清楚，“X使用A或B”旨在意指任意自然的包含性的置换。即，如果X使用A；X使用B；或X使用A和B这二者，则“X使用A或B”在任何前述情形下被满足。此外，本申请和所附权利要求中使用的冠词“一”通常可以被解释为意指“一个或多个”，除非另外指定或从上下文清楚指向单数形式。

而且，尽管已经相对于一个或多个实现方式示出和描述了本公开，但是本领域其他技术人基于阅读并理解本说明书和附图将会想到等效改变和修改。本公开包括所有这样的修改和改变并且仅由下面的权利要求的范围限制。特别是考虑由上述组件（例如元件、资源等）执行的各种功能，用于描述这样的组件的术语旨在对应于（除非另外指示）执行所描述组件的指定功能的任何组件（例如其是功能等效的），即使不是在结构上等同于执行本文中说明的本公开的示范性实现方式中的功能的所公开的结构。此外，尽管本公开的特定特征可能已经相对于若干实现方式中的仅一个实现方式被公开，但是这样的特征可以与对于任何给定的或特定的应用是期望的和有利的其他实现方式的一个或多个其他特征组合。而且，就术语“包含”、“具有”或其变形用在具体实施方式中或用在权利要求中这个范围而言，这样的术语旨在以与术语“包括”相似的方式作为包含性的。

Claims

1.一种相对于设备（82）上的至少一个内容集（20）评估包括至少一个标记（52）的查询（14）的方法（60），其中所述设备具有处理器（84）和内容索引（46），所述至少一个内容集（20）各自包括至少一个内容项（22），该内容项（22）各自具有至少一个标识符（42），该方法包括：

在处理器（84）上执行（64）指令，指令被配置成：

对于各个内容项（22），根据具有标识符权重（44）的至少一个标识符（42）的至少一个标识符部分在内容索引（46）中对内容项（22）编索引（66），该标识符权重指示用户通过使用该标识符搜索内容项的可能性；以及

在接收（68）查询时：

对于查询（14）的各个标记（52），通过匹配标记（52）的标识符（42）的至少标识符部分识别（70）在内容索引（46）中被编索引的候选内容项（38）；

对于各个候选内容项（38），根据匹配查询（14）的标记（52）的标识符（42）的标识符权重（44）计算（72）评级得分（56）；以及

呈现（74）根据评级得分（56）分类的候选内容项（38）。

2.权利要求1的方法：

在与至少一个标识符相关联的搜索背景中提供查询；并且

计算所述评级得分包括：对于各个候选内容项，提高匹配查询的至少一个标记并且与搜索背景相关联的候选内容项的标识符的标识符权重。

3.权利要求1的方法：

所述至少一个内容集包括本地存储的内容项集，该内容项集包括内容项类型的内容项；

至少一个内容项的内容项类型包括与应用相关联的定制项类型；以及

所述指令被配置成，在从所述应用接收根据至少一个定制标识符对定制项类型的内容项编索引的请求时，根据至少一个定制标识符在内容索引中对内容项编索引。

4.权利要求1的方法：

内容项包括具有至少一个名称组成部分的名称；以及

所述指令被配置成根据以下在内容索引中对内容项编索引：

内容项的名称，以及

内容项的名称的各个名称组成部分。

5.权利要求1的方法：

所述指令被配置成，根据各个候选内容项的名称的名称长度分类候选内容项；以及

呈现候选内容项包括：在根据各个内容项的名称的名称长度分类候选内容项之后，呈现根据评级得分稳定地分类的候选内容项。

6.权利要求1的方法，呈现候选内容项包括：利用各个候选内容项呈现匹配查询的标记的标识符。

7.权利要求1的方法，计算候选内容项的评级得分包括：提高匹配查询的多于一个的标记的标识符的标识符权重。

8.权利要求1的方法：

由第一标识符部分标识至少一个内容项，第二标识符部分顺序地跟随第一标识符部分；

所述查询包括第一标记，第二标记顺序地跟随第一标记；以及

计算候选内容项的评级得分包括：提高具有第二标识符部分的标识符的标识符权重，第二标识符部分顺序地跟随第一标识符部分并且匹配第二标记，第二标记顺序地跟随匹配第一标识符部分的第一标记。

9.权利要求8的方法，提高标识符的标识符权重包括：提高具有第二标识符部分的标识符的标识符权重，第二标识符部分直接顺序地跟随第一标识符部分并且匹配第二标记，第二标记直接顺序地跟随匹配第一标识符部分的第一标记。

10.权利要求8的方法，提高标识符的标识符权重包括：使具有第二标识符部分的标识符的标识符权重与第二标识符部分跟第一标识符部分的接近程度成比例地提高，其中所述第二标识符部分顺序地跟随第一标识符部分并且匹配第二标记，第二标记顺序地跟随第一标记。

11.权利要求1的方法，计算候选内容项的评级得分包括：提高完全匹配查询的标识符的标识符权重。

12.权利要求1的方法，计算候选内容项的评级得分包括：与被标记匹配的标识符的标识符部分的百分比成比例地提高匹配标记的标识符的标识符权重。

13.权利要求1的方法，计算候选内容项的评级得分包括：与具有匹配标记的至少一个标识符的内容项的内容项计数成反比地提高匹配标记的标识符的标识符权重。

14.一种被配置成相对于设备（82）上的至少一个内容集（20）评估包括至少一个标记（52）的查询（14）的系统（86），其中所述设备具有内容索引（46），所述至少一个内容集（20）各自包括至少一个内容项（22），该内容项（22）各自具有至少一个标识符（42），该系统（86）包括：

内容项编索引组件（88），其被配置成：对于各个内容项（22），根据具有标识符权重（44）的至少一个标识符（42）的至少一个标识符部分在内容索引（46）中对内容项（22）编索引（66），该标识符权重指示用户通过使用该标识符搜索内容项的可能性；

内容项评估组件（90），其被配置成在接收查询（14）时：

搜索结果呈现组件（92），其被配置成响应于查询（14），呈现（74）根据评级得分（56）分类的候选内容项（38）。