CN105045799A

CN105045799A - 可搜索索引

Info

Publication number: CN105045799A
Application number: CN201510221966.2A
Authority: CN
Inventors: J·哈姆森; T·D·钱德拉; M·方图拉
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-05-02
Filing date: 2015-05-04
Publication date: 2015-11-11
Also published as: US20190220460A1; US10853360B2; US20150317357A1; US10255319B2; US20210149890A1; US20240037096A1; EP2940606A1; US11782915B2

Abstract

公开了用于基于由一个或多个机器学习的模型生成的规则生成针对可搜索索引的条目的系统和技术。索引条目可以包括与成果相关的一个或多个令牌和成果概率。令牌的子集可以基于事件的特性进行标识。索引可以基于事件针对对应于与令牌的子集相似或匹配的令牌的成果及其相应概率而被搜索。<pb pnum="1" />

Description

可搜索索引

背景技术

推荐系统可以具有分离的信息检索和机器学习的排名阶段。信息检索阶段基于各种信号从语料库选择文档(视频、广告、音乐、文本文档等)并且机器学习的系统对信息检索系统的输出进行排名。例如，当用户录入查询“猫”时，上下文信息检索系统可以从所有可用的广告中选择包含词语“猫”的候选广告集。此候选广告集继而可以基于机器学习的模型被排名，该机器学习的模型已经被训练以基于各种特征(诸如，用户的类型、用户的位置、一天中进行查询的时间等)来预测广告被用户点入(clickthrough)的可能性。信息检索工具是计算上高效的，但是仅可以产生向用户最佳推荐的项目的粗略估计。机器学习的模型能够产生更精确的推荐，但是与信息检索工具相比经常在计算上更密集。此外，因为信息检索工具较不准确，因此其可以使用机器学习的模型从考虑中排除可能另外排名高的某些候选。

发明内容

根据本公开主题的实现方式，来自机器学习的模型的多个规则可以由计算机化的机器学习系统生成并接收，每个规则包含成果、一个或多个特征以及由机器学习的模型针对该一个或多个特征和成果预测的成果概率。针对基于令牌的索引的条目可以针对多个规则中的每个规则被生成并且可以包含基于规则的一个或多个特征、规则的成果和规则的成果概率的一个或多个令牌。查询可以被接收并且对应于该查询的令牌的子集可以被标识。基于令牌的索引可以被搜索以基于令牌的子集获得多个成果概率。成果可以基于多个成果概率被选择并且可以被提供给用户。选定成果的子集可以被排名。例如，数百视频(成果)可以通过概率排名并且前二十可以从最高概率到最低概率被显示给用户。

根据本公开的系统和技术可以基于作为机器学习系统的产品的模型的规则和结果生成或修改一个或多个索引。生成或修改的索引可以被用于基于搜索技术来提供结果。本公开主题的附加特性、优点和实现方式可以通过考虑以下具体实施方式、附图和权利要求书进行阐述或者变得容易理解。此外，应当理解以上发明内容和以下具体实施方式包括各种示例并且旨在提供进一步的解释而不是限制权利要求书的范围。

附图说明

为提供对本公开主题的进一步理解而包括的附图并入在本说明书中并且构成本说明书的一部分。附图还图示了本公开主题的各实现方式，并且与具体实施方式一起用于解释本公开主题的各实现方式的原理。并未试图示出比对于本公开主题以及在其中可实践本公开主题的各种方法的基本理解所必需的更为详细的结构细节。

图1示出了根据本公开主题的一个实现方式的用于经由基于令牌的索引提供成果/成果概率的示例图示。

图2a示出了根据本公开主题的一个实现方式的生成基于令牌的索引的示例过程。

图2b示出了根据本公开主题的一个实现方式的基于成果概率针对成果搜索基于令牌的索引的示例过程。

图3示出了根据本公开主题的一个实现方式的计算机。

图4示出了根据本公开主题的一个实现方式的网络配置。

具体实施方式

根据本公开主题的各实现方式，可搜索索引可以基于从机器学习的模型推导的规则来生成。通过此方式，机器学习的模型的卓越智能和逻辑可以被体现在易于可搜索的索引中。标准信息检索工具可以用于使用该索引高效地检索数据。这通过消除在信息检索阶段另外可能被机器学习的模型高评分的候选的损失而比具有分离的信息检索和机器学习排名阶段的系统相比更为有利。总之，根据本公开主题的实现方式更多候选可以被更精确地排名。

本公开的技术可以被应用于使用有监督的学习数据(诸如标记的示例)生成的机器学习的模型。该标记的示例可以被输入机器学习系统并且机器学习系统的输出可以是包含响应于标记的数据而生成的权重的机器学习的模型。该标记的示例可以包含成果(outcome)以及与特定实例相关联的属性两者。应当理解，权重和成果可以是无单位数值、百分比、出现计数或者其他定量。机器学习系统可以接收标记的数据(例如，标记的示例)以开发包含响应于有监督的标记的数据而生成的权重的机器学习的模型。一个或多个规则可以由机器学习的模型创建。

规则可以包括成果、特征集和概率。例如，规则：

(keyword：car，video：carmaker_1)->.03

指示当用户在搜索引擎提交搜索关键字“车(car)”(特征)并且该用户被呈现以关于carmaker_1的视频(成果)时，存在3％的概率用户将选择该视频以查看它(概率)。

可搜索索引中的条目可以包括文档和可搜索令牌。机器学习的基于令牌的索引中的令牌可以被称为索引的令牌。索引的令牌可以包括关键字或者可以不包括关键字。例如，索引可以包括包含关键字“车”的一个令牌以及不包括关键字但涉及诸如位置、语言和浏览器设置之类的其他特征的其他令牌。通常，特征可以包括关于用户已知的任何信息，诸如由用户提交的查询文本、由用户设置的浏览器配置等。同样，特征可以是通用状态信息，诸如一天中的时间、地理位置等。例如，网页可以被索引以产生如下条目：

web_page_1:[text:boxcar,4.0],[image:train，2.0]

这指示网站的网页(“web_page_1”，文档)包括文本串“boxcar”四次以及两个火车(train)的图像。

根据本公开主题的一个实现方式，标准基于规则的机器学习的模型可以被分解成具有权重的文档和令牌集。例如，以下规则指示将搜索关键字“车”录入搜索引擎的用户将选择关于特定车企(carmaker)的视频的可能性：

(keyword：car，video：carmaker_1)->.03

(keyword：car，video：carmaker_2)->.05

这些规则可以被变换成包括对应于每个视频的可搜索令牌的集合的条目，诸如：

carmaker_1：[keyword：car，.03]

carmaker_2：[keyword：car，.05]

条目可以包括成果(诸如“carmaker_1”)、令牌(诸如keyword：car)和权重(诸如3％)。令牌可以基于机器学习的规则中的特征的出现。权重可以对应于成果将基于某些特征(这里表示为令牌)的出现而出现的概率。

由于实现方式的数据具有与标准web搜索信息检索问题相同的结果，因此可以使用标准web搜索和其他信息检索技术，诸如反向索引(invertedindices)和倒排列表(postinglists)。实现方式由此可以消除针对分离的信息检索步骤的需求并且可以使用机器学习的模型对所有成果进行有效地评分。通过此方式，可以向用户提供比典型索引的搜索更适当的搜索结果，该搜索结果可以基于用户的性质、搜索的上下文等。

在一个实现方式中，特征可以与给定用户相关联。例如，以下表格示出了针对用户A-D的特征(查询，用户位置(欧洲(Europe)，美国(America))以及用户是否具有高带宽连接)的存在(1)或缺少(0)：

	车	欧洲	美国	高带宽
					用户A	0	0	1	1
用户B	1	0	1	0
					用户C	0	1	0	1

用户D

1

0

1

机器学习的模型可以包括能够指示各特征对成果的可能性的相关贡献的权重。例如，下表示出了上表中特征对用户将选择用于查看特定视频A-D的可能性的相对贡献：

	车	欧洲	美国	高带宽
					视频A	0.1	0.4	0.8	0.5
视频B	0.3	0.9	0.7	0.8
					视频C	0.5	0.1	0.2	0.1
视频D	0.2	0.6	0.2	0.8

针对给定用户的特征的存在或缺少可以与针对成果的特征的权重一起使用来确定针对该用户的成果的可能性。例如，针对用户B的关键字：车和美国的存在与针对视频C的那些特征的权重(分别是0.5和0.2)组合可以用于预测用户B将选择视频C来查看的概率。通过相似方式，可以计算每个用户将选择查看每个不同视频的可能性。可以理解，权重可以是无单位数值、百分比、出现计数或者其他定量。

规则可以基于机器学习的模型来生成。规则可以使至少一个特征与给定成果的出现的概率相关。若干规则可以基于特征的各置换的出现来生成。

根据一个实现方式，令牌集可以基于规则中的特征来生成。这种令牌的示例可以包括[keyword:car]、[location:Europe]和[bandwidth:high]。对应于规则中的特征集的令牌集可以与给定成果的概率相关并被索引。例如，令牌[keyword:car]、[location:Europe]和[bandwidth:high]可以与视频C将被选择以查看的概率4％相关：

VideoC：[keyword:car,location:Europe,bandwidth:high,.04]

这可以连同从其他规则推导的其他这种结果一起存储为可搜索索引。编译的索引可以使用标准信息检索工具容易地搜索。生成的索引被称为基于令牌的索引。索引基于不限于关键字的令牌。可选地，一个或多个排名技术可以此后被用于响应于查询进一步精化搜索结果。

索引可以用于仅考虑对应于针对给定用户的特征的那些令牌。例如，索引的搜索可以检索针对其概率已经针对最近查看的视频是关于猫并且位置是美国的用户而被计算出的所有视频。在向用户呈现为后续查看选项时，结果视频可以通过接下来选择用于查看的概率从最高可能到最低可能进行排名。列表中排名顶位的视频的描述(例如，缩略图)可以被推荐给用户。

成果可以是机器学习模型针对其预测成果值的成果。该值可以是权重、可能性或概率。仅通过示例的方式，本文参考概率。成果可以是任何适用的结果，诸如基于回归的预测、排名、变换概率、点入概率、持续时间预测(例如，用户可能查看/交互与该成果相关联的内容多久)等。如先前示例中所述，查看视频Y的用户和查看视频Z的用户是成果的示例。成果的其他示例可以是选择链接、选择推广、打开账户、购买产品或服务、用户查看内容(例如，视频、图像、文本等)的持续时间、重复访问(例如，用户期望重新访问内容的程度)等。

成果概率可以通过任何有用的形式来表示，包括整数表示、布尔分类、归一化(例如，转换成归一化概率、转换率、百分比等的概率值)。应当理解，成果概率可以是任何适用的预测，诸如百分比、比率等以及/或者可以对应于花费量(例如，花费的美金)、接触时间量(例如，观看的视频分钟)等的预测。如本文所公开，成果概率可以从机器学习模型做出的预测来推导。作为成果概率的示例，可搜索索引可以包含多个条目、每个条目与成果相关联。每个条目可以对应于预测用户选择与成果相关联的内容的可能性的成果概率。因此，成果概率可以表示用户选择与成果相关联的内容的百分比机会。

注意，根据本公开主题的各实现方式，如图1中所示，机器学习的模型110可以基于训练示例和特征而被训练。可搜索的基于令牌的索引120可以基于由机器学习的模型生成的规则来生成。可搜索的基于令牌的索引120可以被组织使得与查询130相关联的令牌可以与可搜索的基于令牌的索引120中的令牌匹配，并且一个或多个成果140可以使用搜索算法而基于一个或多个成果概率来被选择。

根据本公开主题的一个实现方式，机器学习系统可以用于生成和/或更新用于做出预测和/或提供排名的模型。基于机器学习模型的预测的实例可以包含成果、一个或多个特征和预测值。作为经由机器学习模型做出预测的示例，针对给定事件的多个特征可以被提供给机器学习模型，并且基于特征的存在机器学习模型可以输出概率或预测。作为更具体的示例，预测用户是否将查看视频Y(成果的示例)的机器学习模型可以被提供有该用户位于美国、过去查看过音乐视频X并且已经将其默认语言设置为英语(特征的示例)的特征。机器学习模型可以包含针对每个特征的权重(即，.5作为位于美国，.9作为查看过音乐视频X，以及.3作为将默认语言设置为英语)。应当理解，机器学习模型可以包含针对其他特征(例如，用户位于加拿大)的权重，然而由于那些特征没有被呈现在此示例预测中，其权重可能对预测没有贡献。备选地，缺少特定特征的存在可能在对成果进行预测中是重要的并且可以被考虑。例如，机器学习模型可以基于特征的缺少(例如，用户没有正在使用移动设备)为用户是否将查看音乐视频Y提供权重。预测值可以被归一化以通过任何适用的方式表示百分比或概率。本文中的实例可以包含成果：“用户是否将查看视频Y”，特征：“位于美国”、“查看视频X”和“默认语言英语”，以及预测：“.9”(归一化)。

特征可以是与实例相关联的任何适用的特性并且可以基于用户(例如，用户人口统计、用户历史、用户关联诸如用户账户或偏好)、设备(例如，用户设备类型、设备特征、设备容量、设备配置等)、当前事件等。特征的示例可以包括用户位置、用户语言偏好、查看历史、用户账户、用户订阅、设备型号类型、设备屏幕分辨率、设备操作系统、节日指定、体育赛事举行等。另外，如本文所述，特征可以是从用户接收的搜索输入(诸如，文本关键字、图像、音频文件等)。应当理解，成果、特征和/或预测可以通过任何有用的形式表示，诸如整数表示、经由布尔分类、归一化(例如，转换成归一化概率的概率值、转换率、百分比等)。根据本公开主题的一个实现方式，机器学习模型可以使用如本文所述的一个或多个用户的先前选择(成果)而被训练。注意，机器学习模型做出的预测可以基于成果的成功选择或者缺少选择，使得预测的成果概率可以基于选定的候选结果而增加并且可以基于未选定的成果而减少。

根据本公开主题的一个实现方式，如图2a所示，在步骤210，可以接收基于机器学习模型的多个规则。基于机器学习模型的规则的实例可以包含成果、一个或多个特征和成果概率。作为经由机器学习模型做出的预测的示例，可以向机器学习模型提供针对给定事件的多个特征，并且基于特征的存在机器学习模型可以输出概率或预测。作为更具体的示例，预测用户是否将查看视频Y(成果)的机器学习模型可以被提供有该用户位于美国、过去查看过音乐视频X并且已经将其默认语言设置为英语(特征)的数据。机器学习模型可以规定针对每个特征的权重，例如，.5作为位于美国，.9作为查看过音乐视频X，以及.3作为将默认语言设置为英语。因此，机器学习的模型可以基于与规则相关联的特征预测用户将查看音乐视频Y的权重为1.7。概率值可以被归一化以通过任何适用的方式表示百分比或概率。本文中的实例可以包含成果：“用户是否将查看视频Y”，特征：“位于美国”、“查看视频X”和“默认语言英语”，以及预测：“.9”(归一化)。应当理解，成果、特征和/或概率可以通过任何适用的方式来表示，诸如哈希值、整数表示、布尔分类、归一化(例如，转换成归一化概率的概率值、转换率、百分比等)。作为一个示例，针对“选择视频X”的成果可以由哈希值“e0d123e5f316”表示。

在步骤220，基于机器学习模型的规则的实例可以被转换成基于可搜索特征的索引中的条目。基于可搜索特征的索引中的条目可以包含与一个或多个令牌相关联的成果和成果概率。令牌可以基于规则中包含的特征。继续先前的示例，模型可以基于各特征预测成果“用户将查看视频Y”的概率为0.9。基于令牌的索引可以包括与成果“用户将查看视频Y”相关的令牌位置：美国，查看的视频：X和“语言：英语”以及概率0.9。基于令牌的索引可以使相同令牌与其他成果相关，每个成果具有其自己的概率。例如，相同令牌可以与具有概率0.8的成果“用户将查看视频Z”相关。

基于可搜索令牌的索引可以是反向索引或者倒排列表，使得其作为被配置为存储从内容(例如，词语、数目、值等)到数据库文件中位置、文档或文档集的映射的索引数据结构。基于可搜索令牌的索引可以允许快速全文本搜索并且可以是数据库文件本身而不是其索引。

在步骤230，在图2b中，查询可以被检索。查询可以基于由人类用户、计算机、数据库、软件、应用、服务器等导致的事件而生成。如这里所使用的，项(term)查询可以包括可以用于搜索索引以基于一个或多个事件的出现获得一个或多个成果的概率的任何输入。例如，当用户选择给定视频时，选择的特性(例如，视频的标识、视频的题目、用户的位置等)可以被用作用于针对用户将搜索其他视频以接下来观看的成果及其相应概率来搜索索引的查询的基础。查询的结果例如可以预测用户将选择视频B的概率为0.2、视频C的概率为0.1以及视频D的概率0.4。

在一个实现方式中，查询可以基于令牌的子集公式化，该令牌的子集可以在步骤240例如基于事件来标识。例如，针对“车”的关键字搜索已经由加拿大的用户在5:07PMET提交，其中用户浏览器的语言设置被设置成“法语”。可以被标识的令牌的子集可以包括关键字：车、位置：加拿大、时间：5:07PMET和语言：法语。在步骤250，这些令牌可以被用于针对与索引中相同或相似令牌相关的成果以及概率来搜索索引。例如，与查询相关联的令牌可以是：

关键字：车

位置：美国

带宽：高

这些令牌例如可以对应于索引中的以下条目，其可以使用标准索引搜索技术来高效地检索：

一个或多个成果(以上视频)可以例如基于其相应的成果概率从以上结果中选择。如上所示，成果视频F具有被选择用于接下来查看的最高概率。因此，视频F的链接可以被提供给用户。类似地，接下来最高排名的(最高可能)视频(视频R和视频A)也可以被呈现。

本公开主题的各实现方式可以在各组件和网络架构中实现并与其一起使用。图3是适于实现本公开主题的各实施方式的示例计算机系统20。计算机20包括总线21，该总线21将计算机20的主要组件互连，诸如一个或多个处理器24、存储器27(诸如RAM、ROM、闪速RAM等)、输入/输出控制器28和固定存储装置23(诸如硬盘、闪速存储装置、SAN设备等)。应当理解，可以包括或可以不包括其他组件，诸如用户显示器(诸如经由显示器适配器的显示器屏幕)、用户输入接口诸如控制器和相关联的用户输入设备诸如键盘、鼠标、触摸屏等，以及本领域已知用于通用计算设备或与其结合的其他组件。

总线21允许中央处理器24与存储器27之间的数据通信。RAM通常是其中加载了操作系统和应用程序的主存储器。ROM或闪速存储器可以包含其他代码，控制基本硬件操作(诸如与外围组件的交互)的基本输入-输出系统(BIOS)。通过计算机20驻留的应用通常存储在计算机可读介质上并经由其进行访问，诸如固定存储装置23和/或存储器27、光驱动、外部存储机构等。

所示的每个组件可以与计算机20集成或者可以是分离的并且通过其他接口访问。其他接口(诸如网络接口29)可以经由电话链路、有线或无线局域网或广域网连接、专有网络连接等与远程系统和设备的连接。例如，如图4所示，网络接口29可以允许计算机经由一个或多个局域网或广域网或其他网络与其他计算机通信。

许多其他设备或组件(未示出)可以通过相似方式连接，诸如文档扫描仪、数码相机、辅助、补充或后备系统等。相反地，不需要呈现图3中所示的所有组件以实践本公开。组件可以通过与所示不同的方式互连。诸如图3中所示的计算机的操作是本领域已知的并且在此说明书中不进行详细描述。用于实现本公开的代码可以存储在计算机可读存储介质中，诸如存储器27、固定存储装置23、远程存储位置或本领域已知的任何其他存储机构中的一个或多个。

图4示出了根据本公开主题的一个实施方式的示例布置。一个或多个客户端10、11(诸如本地计算机、智能电话、平板计算设备、远程服务等)可以经由一个或多个网络7连接至其他设备。该网络可以是局域网、广域网、因特网或一个或多个任何其他适当的通信网络，并且可以在包括有线和/或无线网络的任何适当平台上实现。客户端10、11可以与一个或多个计算机系统通信，诸如处理单元14、数据库15和用户接口系统13。在某些情况下，客户端10、11可以与用户接口系统13通信，该用户接口系统13可以提供对一个或多个其他系统(诸如数据库15、处理单元14等)的访问。例如，用户接口13可以是提供来自一个或多个其他计算机系统的数据的用户可访问网页。用户接口13可以向不同客户端提供不同的接口，诸如人类可读网页被提供给web浏览器客户端10，并且计算机可读API或其他接口被提供给远程服务客户端11。用户接口13、数据库15和处理单元14可以是集成系统的一部分，或者可以包括经由专有网络、因特网或任意其他适当网络通信的多个计算机系统。处理单元14例如可以是分布式系统(诸如，基于云的计算系统、搜索引擎、内容递送系统等)的一部分，该分布式系统还可以包括数据库15和/或用户接口13或者与之通信。在某些实现方式中，分析系统5可以提供后端处理，诸如存储的或获取的数据在被递送到处理单元14、数据库15和/或用户接口13之前由分析系统5进行预处理。例如，机器学习系统5可以向一个或多个其他系统13、14、15提供各种预测模型、数据分析等。

在本公开主题的实现方式收集关于用户的个人信息或者可以利用个人信息的情况下，用户可以提供有控制程序或特征是否收集用户信息(例如，用户的表现评分、用户的工作成果、用户提供的输入、用户的地理位置和与用户相关联的任何其他相似的数据)或者控制是否和/或如何从可能更与用户相关的教学课程提供者接收教学课程内容的机会。另外，某些数据可以在其被存储或使用之前通过一个或多个方式进行处理，使得个人可标识信息被移除。例如，用户的标识可以被处理使得不能够针对用户确定个人可标识信息，或者与教学课程相关联的用户的地理位置可能在获得位置信息的地方被泛化(诸如到城市、ZIP编码或国家层次)，使得用户的特定位置无法被确定。因此，用户可以控制信息如何关于用户进行收集并且由教学课程提供者使用。

上文描述出于解释的目的已经针对特定实现方式被描述。然而，上文所示论述不旨在穷尽或限制本公开主题的实现方式到所述的具体形式。鉴于上文的教导，许多修改和变化也是可能的。为了解释本公开主题实现方式的原理及其实践应用，选择并描述了各种实现方式，由此使得本领域的其他人员能够利用那些实现方式以及可以适于特定用户预期的具有各种修改的各种实现方式。

Claims

1.一种由计算机化的机器学习系统实现的方法，所述方法包括：

从由所述计算机化的机器学习系统生成的机器学习的模型接收多个规则，每个规则包括成果、一个或多个特征以及由所述机器学习的模型针对所述一个或多个特征和所述成果预测的成果概率；以及

针对所述多个规则中的每个规则，生成针对基于令牌的索引的条目，所述条目包括：

基于所述规则的所述一个或多个特征的一个或多个令牌；

所述规则的所述成果；以及

所述规则的所述成果概率。

2.根据权利要求1所述的方法，其中所述规则基于文档的未索引的语料库。

3.根据权利要求1所述的方法，其中所述条目与文档相关联。

4.根据权利要求1所述的方法，其中多个所述一个或多个令牌基于查询。

5.根据权利要求1所述的方法，其中所述机器学习的模型使用由一个或多个用户对成果的先前选择被训练。

6.根据权利要求1所述的方法，其中所述基于令牌的索引是从由反向索引和倒排列表组成的组中选择的一个。

7.一种由计算机化的机器学习系统实现的方法，所述方法包括：

接收查询；

基于所述查询标识至少一个令牌；

将至少一个标识的所述令牌匹配到机器学习的基于令牌的索引中的至少一个索引的令牌；

基于至少一个匹配的所述令牌标识至少一个成果；以及

基于至少一个匹配的所述令牌和所述至少一个成果提供针对所述查询的结果。

8.根据权利要求7所述的方法，其中所述提供针对所述查询的所述结果进一步基于成果概率。

9.根据权利要求7所述的方法，其中所述查询基于关键字。

10.根据权利要求7所述的方法，其中所述查询基于文档的点入。

11.根据权利要求7所述的方法，其中所述查询基于事件。

12.根据权利要求7所述的方法，其中所述提供针对所述查询的结果基于多个成果，每个成果与成果概率相关联，并且进一步包括基于所述多个成果的相应成果概率对所述多个成果进行排名。

13.一种由计算机化的系统实现的方法，所述方法包括：

基于所述规则的所述一个或多个特征的一个或多个令牌；

所述规则的所述成果；以及

所述规则的所述成果概率；

接收查询；

基于所述查询标识至少一个令牌；

基于至少一个匹配的所述令牌标识至少一个成果；以及

14.一种系统，包括：

处理器，所述处理器被配置为：

基于所述规则的所述一个或多个特征的一个或多个令牌；

所述规则的所述成果；以及

所述规则的所述成果概率。

15.根据权利要求14所述的系统，其中所述规则基于文档的未索引的语料库。

16.根据权利要求14所述的系统，其中所述条目与文档相关联。

17.根据权利要求14所述的系统，其中多个所述一个或多个令牌基于查询。

18.根据权利要求14所述的系统，其中所述机器学习的模型使用由一个或多个用户对成果的先前选择被训练。

19.根据权利要求14所述的系统，其中所述基于令牌的索引是从由反向索引和倒排列表组成的组中选择的一个。

20.一种系统，包括：

处理器，所述处理器被配置为：

接收查询；

基于所述查询标识至少一个令牌；

基于至少一个匹配的所述令牌标识至少一个成果；以及

21.根据权利要求20所述的系统，其中所述提供针对所述查询的所述结果进一步基于成果概率。

22.根据权利要求20所述的系统，其中所述查询基于关键字。

23.根据权利要求20所述的系统，其中所述查询基于文档的点入。

24.根据权利要求20所述的系统，其中所述查询基于事件。

25.根据权利要求20所述的系统，其中所述提供针对所述查询的结果基于多个成果，每个成果与成果概率相关联，并且进一步包括基于所述多个成果的相应成果概率对所述多个成果进行排名。