CN106796600A

CN106796600A - 相关项目的计算机实现的标识

Info

Publication number: CN106796600A
Application number: CN201580050487.7A
Authority: CN
Inventors: 邱郁翔; 郁欣; A·K·萨彻蒂
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-09-17
Filing date: 2015-09-16
Publication date: 2017-05-31
Also published as: KR20170055970A; WO2016044355A1; EP3195151A1; US20160078364A1

Abstract

本文中描述了一种用于生成至少一个模型组件的计算机实现的训练系统。训练系统通过利用已经评估的文档来间接地生成用于特定种子项目(例如，特定查询)和特定个体候选项目(例如，查询的潜在同义词)之间的每个配对的标签。也就是说，训练系统基于以下各项生成标签：评估测量，其测量文档的集合中的文档已经被评定为与特定种子项目相关的程度；以及检索信息，其反映在文档的集合中发现特定候选项目的程度。训练系统基于标签信息和特征信息来生成模型组件。特征信息对应于针对种子项目和候选项目的不同配对而生成的特征值的集合。本文中还描述了用于应用在上述过程中所生成的模型组件的模型应用系统。模型应用系统(例如，其实现搜索服务)通过以下方式来操作：接收输入项目(例如，输入查询)并且应用模型组件以生成被模型组件确定为与输入项目相关的零个、一个或多个相关项目的集合。模型应用系统然后基于相关项目的集合生成输出结果，并且将该输出结果传递给终端用户。

Description

相关项目的计算机实现的标识

背景技术

应用有时将输入的语言项目扩展成相关语言项目的集合。例如，搜索引擎可以将用户的输入查询扩展成被认为与用户的输入查询同义的术语的集合。搜索引擎然后可以基于查询和相关术语而不仅仅是原始查询来执行搜索。为了执行上述任务，搜索引擎可以应用在机器学习过程中产生的模型。机器学习过程进而对由有标签的训练示例的集合组成的训练数据语料库进行操作。该行业已经使用不同的技术来产生用于在训练过程中使用的标签，一些是手动的，一些是自动的。

发明内容

本文中描述了一种用于生成至少一个模型组件的计算机实现的训练系统。在一个实现中，训练系统通过利用已经评估的文档来间接地生成特定种子项目(例如，特定查询)和特定单个候选项目(例如，查询的潜在同义词)之间的每个配对的标签。也就是说，训练系统基于以下各项生成标签：评估测量，该评估测量测量文档的集合中的文档已经被评定为与特定种子项目相关的程度；以及检索信息，该检索信息反映在文档的集合中发现特定候选项目的程度。

总体上，训练系统基于标签信息和特征信息生成模型组件。标签信息共同地对应于在上面概括的处理中生成的标签。特征信息对应于为种子项目和候选项目的不同配对而生成的特征值的集合。

本文中还描述了用于应用在上述过程中生成的模型组件的模型应用系统。模型应用系统(例如，其实现搜索服务)通过以下方式来操作：接收输入项目(例如，输入查询)并且应用模型组件以生成被模型组件确定为与输入项目相关的零个、一个或多个相关项目的集合；该集合可以包括或排除原始输入项目作为其一部分。模型应用系统然后基于相关项目的集合而生成输出结果，并且将该输出结果传递给终端用户。

在另一实现中，训练系统生成第一模型组件和第二模型组件。在应用阶段，第一模型组件标识与输入项目相关的相关项目的初始集合。第二模型组件从相关项目的初始集合中选择相关项目的子集。

上述方法可以在各种类型的系统、设备、组件、方法、计算机可读存储介质、数据结构、图形用户界面演示、制品等中体现。

提供本发明内容以便以简化形式介绍概念的选择；这些概念在下面的具体实施方式中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

附图说明

图1示出了其中训练系统产生由模型应用系统(例如，搜索服务)使用的一个或多个模型组件的环境的概述。

图2示出了图1的训练系统的一个实现。

图3示出了项目扩展组件的一个实现，其是图1的模型应用系统的组件。

图4示出了表示图1的整体环境的实现的一个计算系统。

图5示出了第一模型生成组件的一个实现，其是图2的训练系统的(可选)组件。

图6是由图5的第一模型生成组件执行的操作的示例。

图7示出了候选生成组件的一个实现，其是图5的第一模型生成组件的一个组件。

图8示出了标签生成组件的一个实现，其是图5的第一模型生成组件的另一组件。

图9是由图8的标签生成组件执行的操作的示例。

图10示出了特征生成组件的一个实现，其是图5的第一模型生成组件的另一组件。

图11示出了第二模型生成组件的一个实现，其是图2的训练系统的另一(可选)组件。

图12是由图11的第二模型生成组件执行的操作的示例。

图13示出了过程，图1的训练系统可以通过该过程来生成模型组件(诸如第一模型组件(使用图5的模型生成组件)或第二模型组件(使用图11的第二模型生成组件))。

图14示出了过程，图1的训练系统可以通过该过程来生成标签用于在产生模型组件时使用。

图15示出了过程，图1的训练系统可以通过该过程来生成第二模型组件。

图16示出了表示图1的模型应用系统的一种操作方式的过程。

图17示出了可以被用于实现前述附图中所示的特征的任何方面的说明性计算功能。

在整个公开和附图中使用相同的附图标记来指代相同的组件和特征。系列100数字是指最初在图1中找到的特征，系列200数字是指最初在图2中找到的特征，系列300数字是指最初在图3中找到的特征，等等。

具体实施方式

本公开内容组织如下。部分A描述用于生成和应用一个或多个模型组件的说明性环境。也就是说，训练系统生成(多个)模型组件，而模型应用系统应用(多个)模型组件以将输入项目扩展成相关项目的集合。部分B阐述了解释部分A的环境的操作的说明性方法。部分C描述可以用于实现部分A和部分B中描述的特征的任何方面的说明性计算功能。

作为初步事项，一些附图在一个或多个结构组件(不同地被称为功能、模块、特征、元件等)的上下文中描述概念。图中所示的各种组件可以通过任何物理和有形机制以任何方式来实现，例如通过在计算机设备上运行的软件、硬件(例如，芯片实现的逻辑功能)等、和/或其任何组合。在一种情况下，图中所示的各种组件的分离成独立的单元可以反映对应的独立的物理和有形组件在实际实现中的使用。替代地或者另外地，图中所示的任何单个组件可以由多个实际物理组件实现。替代地或者另外地，图中的任何两个或更多个分离组件的描绘可以反映由单个实际物理组件执行的不同功能。将依次描述的图17提供关于图中所示的功能的一个说明性物理实现的附加细节。

其他附图以流程图形式描述概念。在该形式中，某些操作被描述为构成以特定顺序执行的独立的框。这样的实现是说明性的而非限制性的。本文中描述的某些框可以被分组在一起并且在单个操作中执行，某些框可以被分解成多个组件框，并且某些框可以以与本文中所示的顺序不同的顺序执行(包括以并行方式执行框)。流程图中所示的框可以通过任何物理和有形机制以任何方式实现，例如通过在计算机设备上运行的软件、硬件(例如，芯片实现的逻辑功能)等、和/或其任何组合。

关于术语，短语“被配置为”包括可以构造任何种类的物理和有形功能以执行所标识的操作的任何方式。该功能可以被配置为使用例如在计算机设备上运行的软件、硬件(例如，芯片实现的逻辑功能)等和/或其任何组合来执行操作。

术语“逻辑”包括用于执行任务的任何物理和有形功能。例如，流程图中所示的每个操作对应于用于执行该操作的逻辑组件。可以使用例如在计算机设备上运行的软件、硬件(例如，芯片实现的逻辑功能)等和/或其任何组合来执行操作。当由计算设备实现时，逻辑组件以所实现的任何方式表示作为计算系统的物理部分的电气组件。

以下解释可以将一个或多个特征标识为“可选的”。这种类型的陈述不应当被解释为可以被认为是可选的特征的详尽指示；即，虽然在文本中没有明确地标识，但是可以认为其他特征是可选的。此外，单个实体的任何描述并不旨在排除使用复数个这样的实体；类似地，复数的实体的描述并不旨在排除单个实体的使用。此外，虽然描述可以将某些特征解释为执行所标识的功能或实现所标识的机制的替代方式，但是这些特征也可以以任何组合方式组合在一起。最后，术语“示例性”或“说明性”是指潜在的很多实现中的一个实现。

A.说明性环境

A.1.概述

图1示出了具有训练域104和应用域106的环境102。训练域104生成一个或多个模型组件。应用域106在实时操作阶段应用(多个)模型组件。例如，应用域106可以使用(多个)模型组件将输入项目(例如，查询)扩展成相关项目的集合(例如，查询的同义词)。

如本文中所使用的术语“项目”是指由一个或多个单词和/或其他符号组成的任何语言项目。例如，项目可以对应于由单个单词、短语等组成的查询。术语“种子项目”是指所考虑的给定的语言项目，正在寻找其一个或多个相关语言项目。术语“候选项目”是指正被调查以确定其与种子项目相关的程度的语言项目。

该子章节提供环境102的概述。下面的子章节A.2和A.3提供关于环境102内的各个组件的附加细节。

从训练域104开始，该领域包括用于生成一个或多个模型组件110的训练系统108。例如，下面描述的图2示出了示例，在该实例中训练系统108在训练操作的两个相应的阶段产生两个模型组件。然而，在另一示例中，训练系统108可以在单个训练阶段产生单个模型组件。

训练系统108基于训练样本语料库生成(多个)模型组件110。例如，训练系统108可以基于多个训练示例生成第一模型组件，每个训练示例包括：(a)特定种子项目和特定候选项目的配对；(b)推理性地特征化特定种子项目与特定候选项目之间的关系的标签；以及(c)描述特定种子项目和/或特定候选项目的不同特性的特征集。训练系统108使用至少一个标签生成组件来确定与训练示例相关联的标签。训练系统108使用至少一个特征生成组件来生成与训练示例相关联的特征集。标签生成组件和特征生成组件进而基于从不同数据源(诸如从文档(在一个或多个数据储存库114中提供的)中提取的信息)和其他数据源116接收的输入数据来执行它们的操作。

(多个)数据储存库114中的文档可以对应于从(多个)任何源获得的(多个)任何类型的任何信息单元。在一个实现中，例如，文档可以对应于可以经由广域网(诸如因特网)检索的任何信息单元。例如，文档可以包括文本文档、视频项、图像、文本注释的音频项、网页、数据库记录等中的任何一个或多个。此外，任何单个文档还可以包含内容类型的任何组合。不同的作者118可以生成相应的文档。

至少一些文档与评估测量相关联。每个评估测量(其也可以被称为评估得分或评估标签)描述关于特定种子项目的文档评定的相关性。例如，考虑对应于博客条目的文档，其进而对应于关于美国西雅图市的讨论。用于该文档的评估测量可以描述文档与种子项目“Space Needle(太空针塔)”的相关性。在一些情况下，评估测量可以具有二进制值，以指示文档是否与种子项目相关(即，正相关)。在其他情况下，评估测量采用在连续范围内的值或一组可能的值。例如，评估测量可以以0到100的尺度指示文档与种子项目的相关性，其中0指示文档完全不相关，并且100指示文档高度相关。可选地，评估测量还可以指示一个项目与另一项目在语义上相反(例如，负相关)的程度，例如通过提供负的得分。更一般地，如本文中所使用的，两个项目之间的相关性的评定广泛地旨在指示它们的关系，而无论什么关系都可以；例如，相关性的测量可以指示两个项目是相关的(例如，正相关)或不相关的(例如，不相关)，以及可选地指示该关系的程度。

可以使用不同的初步处理来生成评估测量。在一种方法中，例如，人类文档评估器120可以手动检查文档，并且对于特定种子项目和特定文档的每个配对，确定文档是否与种子项目相关(例如，正相关)。在另一种情况下，任何(多种)类型的自动算法(或多个算法)可以自动确定文档与种子项目的相关性。例如，潜在语义分析(LSA)技术可以将种子项目和文档转换为高级语义空间中的两个相应的向量，然后确定这些向量在该空间内有多接近。在另一种情况下，终端用户的聚集行为(例如，标记行为)可以用于在种子项目和文档之间建立联系等。但是为了便于解释，将假定人类评估器120提供评估测量。

在一些情况下，评估器120可以生成评估测量以服务于与训练域104中的评估测量的使用无关的一些目标。例如，评估器120可以生成评估测量以提供用于在训练要在搜索引擎中部署的排序算法时使用的标签，而不是生成图1所示的(多个)模型组件110。在这种情况下，训练域104有效地将由文档评估器120生成的预先存在的评估测量改作他用。但是在另一种情况下，评估器120可以以开发训练数据用于在训练域104中使用作为明确目标来提供评估测量。

子章节A.2和A.3(以下)将详细描述训练系统108的(多个)标签生成组件的操作。这里作为概述，在生成第一模型组件时，通过首先标识已经被评估器120评定关于特定种子项目的相关性的文档的集合，第一标签生成组件为特定种子项目(例如，特定查询)和特定候选项目(例如，潜在同义词查询)之间的每个配对间接地生成标签。例如，假定目标是生成用于特定种子项目“Space Needle”和特定候选项目“Seattle tower(西雅图塔)”的配对的标签。第一标签生成组件首先标识对于所考虑的特定种子项目(例如，“Space Needle”)存在评估测量的文档的集合。

标签生成组件然后基于以下各项生成用于训练示例的标签：评估测量，其测量所标识的文档的集合中的文档已经被评定为与特定种子项目相关的程度(例如，“SpaceNeedle”)；以及检索信息，其反映在文档的集合中找到的特定候选项目(例如，“Seattletower”)的程度。再次，“相关性”广义上传达具有任何性质的两个项目之间的关系。如将在子章节A.2和A.3中阐述的，标签生成组件可以通过计算重新调用量度和精确量度(将在下面定义)来具体地生成标签。

总的来说，训练系统108使用任何计算机实现的机器学习技术基于标签信息和特征信息来生成第一模型组件。标签信息共同地对应于在上述处理中用于种子项目和候选项目的相应配对而生成的标签。特征信息对应于用于种子项目和候选项目的不同配对而生成的特征值的集合。

现在参考应用域106，该功能包括用于应用以上述方式生成的(多个)模型组件110的至少一个模型应用系统122。模型应用系统122包括用于诸如通过接收由终端用户提交的输入项目(例如，输入查询)来与终端用户交互的用户界面组件124。项目扩展组件126使用(多个)模型组件110生成由(多个)模型组件110确定为与输入项目相关的相关项目的集合。换句话说，项目扩展组件126使用(多个)模型组件110将输入项目映射到相关项目的集合。

处理组件128对相关项目的集合执行一些动作来生成输出结果。例如，处理组件128可以对应于由搜索服务提供的搜索引擎。搜索引擎基于相关项目的集合在索引(在一个或多个数据储存库130中提供)中执行查找操作。也就是说，搜索引擎确定是否在索引中找到相关项目的集合中的每个项目，以提供输出结果。用户界面组件124将输出结果返回给终端用户。在搜索相关的上下文中，输出结果可以构成搜索结果页面，以提供已经由项目扩展组件126扩展的与用户的输入查询匹配的文档的列表。

在其他实现中，模型应用系统122可以执行其他相应的功能。例如，模型应用系统122可以执行机器翻译功能、挖掘/发现功能等。

根据一个潜在的益处，训练系统108可以以有效且经济的方式产生其(多个)模型组件110。更具体地，训练系统108可以消除雇佣专职的专家来直接判断语言项目的对之间的相似性的费用。这是因为，代替专职的专家，训练系统108依赖于作者118和评估器120的组合来提供可以由训练系统108挖掘以间接地推断语言项目的对之间的关系的数据。此外，如上所述，文档和评估测量可能已经存在，已经由作者118和评估器120创建，目的是服务于某些其他目的。因此，模型开发者可以将这些个体产生的信息改作他用，而不是支付专职工作人员来执行这些任务。

根据另一潜在的益处，训练系统108可以使用上述过程产生具有相对高质量的训练集。并且因为训练集具有良好的质量，所以训练系统108还可以产生具有良好质量的(多个)模型组件110。良好质量模型组件是指准确且有效地确定终端用户在提交输入项目(例如，输入查询)时的意图的模型组件。

参考用于生成训练数据的替代技术，可以最好地理解训练系统108的质量相关益处。在第一替代技术中，模型开发者可以雇用评估器团队以直接评定语言项目的对之间的相关性，例如通过请求评估器确定术语“Space Needle”是否是“Seattle tower”的同义词。这种技术具有上述缺点，即，它产生雇佣专职的专家的费用。此外，这些专家进行的工作可能具有不同的质量水平。例如，专家可能不知道“Space Needle”是美国太平洋西北部的著名地标；因此该专家可能无法意识到术语“Seattle tower”和“Space Needle”是指相同的地标。当一个市场领域的专家被要求做出应用于另一个市场领域的判断时，这种失败的风险变得更加复杂，就像美国专家被要求对意大利市场领域做出判断一样。

图1的训练系统108可以消除或减少上述类型的不准确性。这是因为训练系统利用已经创建文档的作者118的专家以及判断种子项目和文档之间的相关性的评估器120。与上述情况中的专家相比，这些个体可以预期产生更少的错误。例如，再次考虑已经写了关于西雅图市的博客条目的作者。预期该作者了解关于西雅图的主题，否则他或她不会已经试图创建关于这个主题的文档。并且评估器处于良好的位置以确定种子项目(例如“SpaceNeedle”)与该文档的相关性，因为评估器具有他或她可用的整个文档来判断在其中做出比较的上下文。换句话说，不要求评估器孤立地判断两个术语的相关性。此外，在训练域104将为了训练某种其他类型的模型组件(不与训练域104中执行的训练相关联)的目的而开发的已经存在的评估测量的改作他用情况下，可以存在关于要绘制什么的大量这样的信息，这是有助于生产健壮的训练数据的另一因素。

在第二替换技术中，模型开发者可以仅基于从点进(Click-through)数据提取的标签来构建模型组件。例如，如果这两个语言项目都已经被用于点击(多个)相同的文档，则模型开发者可以考虑“Space Needle”和“Space tower”是相关的。然而，这种方法可能导致不准确的标签，因此，该方法可能在训练数据中引入“噪声”。例如，用户可能会错误点击或可能误解他们点击的项目的性质。或者对于某些尾部查询项目，点击日志可能不具有足够的信息来得出关于用户的联合行为的可靠结论。图1的训练系统108可以消除或减少上述不准确性，因为其以上述方式协同地利用文档作者118和评估器120的丰富表达的专业知识。

高质量模型组件的产生具有其他间接的益处。例如，考虑应用域106应用模型组件以执行搜索的情况。通过以时间高效的方式定位期望的信息，用户从(多个)高质量模型组件110中受益，例如，因为用户可以减少标识有用信息所需的查询的数目。再次由于其在用户搜索会话过程中更快速地标识相关搜索结果的能力，通过以资源有效的方式处理用户搜索会话，搜索引擎从(多个)模型组件110获益。例如，(多个)模型组件110可以有助于其处理和存储器资源的有效使用。

作为说明而非限制，引用以上潜在的技术优点。其他实现可以提供另外的益处。

现在参考图2，该图示出了图1的训练系统108的一个实现。在第一种情况下，模型训练系统108仅使用第一模型生成组件202来生成第一模型组件(M₁)。模型应用系统122可以结合第一模型组件使用候选生成组件来将输入项目(例如，查询)映射到得分相关项目(例如，同义词)的集合。

在第二种情况下，模型训练系统108结合第二模型生成组件204使用第一模型生成组件202。第一模型生成组件202生成上述第一模型组件(M₁)，而第二模型生成组件204生成第二模型组件(M₂)。如前所述，模型应用系统122可以使用候选生成组件和第一模型组件来将输入项目(例如，查询)映射到得分相关项目(例如，同义词)的集合。模型应用系统122然后可以使用第二模型组件来选择由第一模型组件提供的相关项目的子集。

图2还示出了从第一模型生成组件202指向第二模型生成组件204的线。该线表明第二模型生成组件204可以在生成其训练数据的过程中使用第一模型组件。第二模型生成组件204使用机器学习技术基于该训练数据来生成第二模型组件。总的来说，图5和伴随的解释(以下)提供关于第一模型生成组件202的更多的细节，而图11和伴随的解释(以下)提供关于第二模型生成组件204的更多的细节。

图3示出了项目扩展组件126的一个实现，项目扩展组件126是图1的模型应用系统122的组件。项目扩展组件126可以包括用于接收输入项目(例如，输入查询)并且用于生成候选项目的初始集合的候选生成组件302。图7描述候选生成组件302的一种操作方式。这里作为概述，候选生成组件302可以挖掘多个数据源(诸如点击日志)以确定潜在地与输入项目相关的候选项目。

评分组件304可以使用第一模型组件(M₁)来向候选项目分配得分。更具体地，评分组件304生成与输入项目和特定候选项目的每个配对相关联的特征值，然后将这些特征值作为输入数据提供给第一模型组件；第一模型组件将特征值映射到所考虑的配对的得分。

在一个实现中，评分组件304的输出表示项目扩展组件126的最终输出。例如，(图1的)处理组件128可以使用由候选生成组件302和评分组件304标识的前n个候选项目来执行搜索。例如，处理组件128可以使用前10个同义词以及原始查询来执行搜索。

在另一实现中，组合选择组件306使用第二模型组件(M₂)来选择由评分组件304标识的初始候选项目的评分集合中的单个候选项目的子集。更具体地，组合选择组件306生成与输入项目和初始候选项目的特定组合的每个配对相关联的特征值，然后将这些特征值作为输入数据提供给第二模型组件；第二模型组件然后将特征值映射到所考虑的配对的得分。然后(图1的)处理模块128可以应用具有最高得分的组合以执行搜索。

例如，候选生成组件302和评分组件304可以标识五十个个体的候选项目。组合选择组件306可以选择表示这些个体的候选项中的二十个的特定组合。更具体地，组合选择组件306选择组合内的项目的数目以及组合的特定成员，而不是挑选固定数目的顶部条目，或者通过挑选高于固定得分阈值的条目。换句话说，候选选择组件306基于所考虑的组合选择的性质动态地选择最佳组合。

尽管图2和图3中未示出，但是训练系统108的其他实现可以生成多于两个模型组件，并且项目扩展组件126的其他实现可以类似地应用多于两个模型组件。模型组件可以通过在连续阶段和/或并行地和/或以任何其他配置提供分析来操作。

还应当注意，图3示出了作为两个离散单元的评分组件304(其应用第一模型组件)和组合选择组件306(其应用第二模型组件)。但是评分组件304和组合选择组件306也可以共享公共资源，诸如公共的特征生成逻辑。

图4示出了表示图1的整个环境102的实现的一个计算系统402。如图所示，计算系统402可以将训练系统108实现为一个或多个服务器计算设备。类似地，计算系统402可以将模型应用系统122实现为一个或多个服务器计算设备和/或其他计算设备(例如，数据储存库、路由器、负载平衡器等)。例如，模型应用系统122可以对应于在线搜索服务，该在线搜索服务在响应于用户的搜索查询的过程中使用(多个)模型组件11。

终端用户可以经由计算机网络406使用本地计算设备404与模型应用系统122交互。本地计算设备404可以对应于固定的个人计算设备(例如，工作站计算设备)、膝上型计算设备、机顶盒设备、游戏控制台设备、平板型计算设备、智能电话、可穿戴计算设备等。计算机网络406可以对应于局域网、广域网(例如，因特网)、一个或多个点对点链路等、或其任何组合。

替代地或者另外地，另一本地计算设备408可以托管本地模型应用系统410。该本地模型应用系统410可以出于任何目的而使用由训练系统108产生的(多个)模型组件110。例如，本地模型应用系统410可以对应于使用(多个)模型组件110来扩展用户的输入查询的本地文档检索应用。在该上下文中，终端用户可以以离线方式与本地模型应用系统410交互。

A2.第一模型生成组件

图5示出了图2中引入的可选的第一模型生成组件202的一个实现。第一模型生成组件202的目的是生成第一模型组件(M₁)。当应用时，第一模型组件的目的是生成与输入项目和特定候选项目的每个配对相关联的得分。该得分描述候选项目与输入项目的相关性(或缺乏相关性)的程度。为了便于解释，将结合图6中阐述的示例来描述第一模型生成组件202。该示例呈现“种子项目”和“候选项目”的概念的具体实例化。

候选生成组件502接收种子项目的集合，例如{X₁,X₂,...X_n}。每个种子项目对应于由一个或多个单词和/或其他符号组成的语言项目。候选生成组件502为每个种子项目生成一个或多个候选项目。候选项目表示可以或可以不与所考虑的种子项目具有关系的语言项目。在图5的符号中，每个候选项目用符号Y_ij表示，其中i指代所考虑的种子项目，并且j表示在K个候选项目的集合中的第j个候选项目。一个或多个数据储存库504可以存储种子项目和候选项目。

例如，图6示出了一个特定种子项目(X₁)对应于单词“狗”。候选生成组件502生成该单词的候选项目的集合，包括“康妮狗”(Y₁₁)、“猎犬”(Y₁₂)、“非纯种狗”(Y₁₃)和“幼犬”(Y₁₄)等。下面，将结合图7的解释来描述候选生成组件502执行此任务的方式。作为概述，候选生成组件502可以挖掘多个数据源(诸如点击日志)以确定潜在地与术语“狗”相关的候选项目。

返回图5，标签生成组件506向特定种子项目和特定候选项目的每个配对分配标签。标签指示种子项目与候选项目相关的程度。图8和图9以及伴随的解释(以下)解释标签生成组件506的一种操作方式。作为概述，标签生成组件506利用文档中的信息与同这些文档相关联的评估测量一起来生成其用于种子项目和候选项目的特定配对的标签。标签生成组件506可以将其输出结果存储在一个或多个数据储存库508中。共同地，由标签生成组件506生成的标签可以被称为标签信息。

特征生成组件510生成用于特定种子项目和特定候选项目的每个配对的特征值的集合。图10以及伴随的解释(以下)解释特征生成组件510的一种操作方式。作为概述，特征生成组件510产生描述特定种子项目和/或特定候选项目的不同特性的特征值。特征生成组件510可以将其输出结果存储在一个或多个数据储存库512中。共同地，由特征生成组件510生成的特征集合可以被称为特征信息。

模型训练组件514基于标签信息(由标签生成组件506计算)和特征信息(由特征生成组件510计算)使用计算机实现的机器学习过程来生成第一模型组件(M₁)。模型训练组件514可以使用任何算法或计算机实现的算法的组合来执行训练任务，包括但不限于以下中的任何：决策树或随机森林技术、神经网络技术、贝叶斯网络技术、聚类技术等。

图6示出了与以上提供的解释并行的具体操作。如图所示，标签生成组件506针对候选项{Y₁₁,Y₁₂,...}(相对于种子项目X₁)生成标签{标签₁₁,标签₁₂,...}，并且特征生成组件510针对候选项目(相对于种子项目X₁)生成特征集{FS₁₁,FS₁₂,...}。

图7示出了在图5的上下文中引入的候选生成组件502的一个实现。(注意，具有相同名称和功能的组件也在图3的上下文中使用，例如在将(多个)模型组件110应用于输入项目的上下文中，诸如输入查询)。下面对候选生成组件502的说明将在简化场景的上下文中描绘，其中其针对指定的种子项目(X₁)(诸如图6中的单词“狗”)生成候选项目的集合{Y₁₁,Y₁₂,Y₁₃,...}。候选生成组件502相对于其他种子项目执行相同的功能。

候选生成组件502可以使用不同的候选合集模块(例如，模块702，...，704)来标识候选项目；这些模块(702，...，704)又依赖于一个或多个数据源706。例如，第一候选合集模块可以从会话日志中提取候选项目。也就是说，假定种子项目X₁是“狗”。第一候选合集模块可以标识用户在其中提交术语“狗”的用户搜索会话；则，第一候选合集模块可以提取在这些相同会话中提交的其他查询。这些其他相同会话查询构成候选项目。

第二候选合集模块可以从搜索引擎的点击日志中提取候选项目。点击日志捕获用户做出的选择(例如，“点击”)以及由用户提交的在选择之前的查询。例如，第二候选合集模块可以确定用户在提交术语“狗”作为搜索查询之后点击的文档。然后，第二候选合集模块可以标识用户在点击相同文档之前提交的除了查询“狗”之外的其他查询。这些查询构成另外的候选项目。

第三候选合集模块可以以其他方式利用搜索引擎的点击日志。例如，第三候选合集模块可以标识用户在提交查询“狗”之后点击的文档的标题。这些标题构成了另外的候选项目。

上述候选合集模块在所示的精神内阐述，而不是限制；其他实现可以使用其他技术来生成候选项目。

注意，图7在其中种子项目是单个单词的说明性场景的上下文中描绘，并且所建议的候选项目中的每个类似地是单个单词。在其他情况下，种子项目及其候选项目可以各自由两个或更多个单词组成。例如，种子项目可以对应于“狗病”，并且候选项目可以对应于“康妮狗小病”。在该情况下，候选生成组件502可以以下面的说明性方式操作。

首先，候选生成组件502可以将种子项目(例如，“狗病”)分解成其组成词，即“狗”和“病”。然后，候选生成组件502可以将每个单词(不是停止单词)展开为单词候选项目的集合。候选生成组件502然后可以通过形成从单词候选项目的不同列表中的单词中选择的不同排列来形成短语候选项目的最终列表。例如，“狗”的两个候选项目是“康妮狗”和“非纯种狗”等，并且“病”的两个候选项目是“aliments”和“疾病”等。因此，候选生成组件502可以输出包括“狗病”、“狗小病”、“狗疾病”、“康妮狗病”、“康妮狗小病”等候选的最终列表。

图8示出了在图5的上下文中引入的标签生成组件506的一个实现。标签生成组件506生成标签，用于特定种子项目(例如，X₁)和特定候选项目(例如，Y₁)的每个配对。

标签生成组件506包括用于标识与特定种子项目(例如“狗”)相关联的文档的集合的文档信息合集组件(为了简洁起见，称为“合集组件”)802。合集组件802可以通过标识具有与所考虑的种子项目(例如“狗”)有关的评估测量的文档的集合来执行该任务。

合集组件802还可以编译与每个文档相关联的文本项目的合集。该合集包括包含在文档本身中的所有文本项目(或其一些子集)，包括其标题、章节标题、主体等。合集组件802还可以提取与文档有关的补充文本项目，并且将这些文本项目也与文档相关联。例如，合集组件802可以标识与文档相关联的标志(例如，由终端用户添加的)、用户在点击文档之前已经提交的查询等。此外，所考虑的文档可以是文档的分组的成员，认为所有这些文档传达相同的基本信息。例如，分组中的文档可以包含相同的照片或相同照片的变体。合集组件802可以提取与文档分组中的其他成员相关联的文本项目，诸如注释或其他元数据等。

候选项目匹配组件(为了简洁起见，称为“匹配组件”)804将所考虑的候选项目与属于种子项目的文档的集合中的每个文档进行比较，以确定候选项目是否匹配与该文档相关联的文本信息。例如，考虑候选项目是“康妮狗”(Y₁₁)并且种子项目(X₁)再次是“狗”的情况。匹配组件804确定所考虑的文档是否包含单词“康妮狗”。匹配组件804可以使用任何匹配准则来确定两个字符串何时匹配。在一些情况下，匹配组件804可以坚持候选项目和文档中的对应的项目之间的精确匹配。在其他情况下，匹配组件804可以指示当两个字符串基于任何相似性度量充分相似时匹配已经发生。匹配组件804的结果在本文中通常被称为检索信息。

标签生成组件806基于与文档(由合集组件802标识的)相关联的评估测量和检索信息(由匹配组件804标识的)来确定用于特定种子项目和特定候选项目的配对的标签。标签生成组件806可以使用不同的计算机实现的公式和/或算法来计算标签。在一个实现中，标签生成组件808使用以下等式生成标签(label)：

label(标签)＝recall(重新调用)*precision(精度)^r。

在本文中被称为重新调用测量的变量recall通常描述候选项目与文档的集合中的良好文档匹配的能力，其中文档与其评估测量成比例地变得越来越“好”。被称为精度测量的变量precision通常描述候选项目在聚焦于或针对文档的集合内的某些良好文档时的成功程度。变量r是平衡参数，其影响精度测量在标签计算中的相对贡献。

更具体地，在一个非限制性实现中，标签生成组件806可以通过首先将与和所考虑的特定种子项目(例如，“狗”)有关的文档集合中匹配候选项目(例如，匹配“康妮狗”)的所有文档相关联的评估测量相加来计算重新调用测量。该和可以被称为检索的增益测量。标签生成组件806然后可以将与所考虑的特定种子项目(例如，“狗”)有关的整个文档集合相关联的所有评估测量相加。该总和可以被称为总的增益可用测量。通过将检索的增益量度除以总的增益可用测量来计算重新调用测量。

标签生成组件806可以通过标识与候选项目(例如，“康妮狗”)匹配的文档的集合中的文档的数目来计算精度测量。该和可以被称为文档检索的测量。通过将检索的增益测量(如上定义)除以文档检索的测量来计算精度测量。

图9阐明了上述操作。合集组件802首先标识相对于种子项目“狗”具有评估测量的至少四个文档。也就是说，对于每个文档，至少一个评估器已经做出关于术语“狗”与文档的内容的相关性的确定。评估器120可能已经在某些初步过程中产生了评估测量，可能结合与训练系统108的目标无关的一些任务。假定评估器已经向第一文档分配了评估测量30，向第二文档分配了评估测量40，向第三文档分配了评估测量20，并且向第四文档分配了评估测量60。例如，每个这样的评估测量可以表示由多个个体的评估器120规定的评估测量的平均值。

匹配组件804接下来确定包含作为所考虑的候选项目的单词“康妮狗”的文档。假定第一文档和第四文档包含该术语，但是第二和第三文档不包含该术语。如上所述，构成两个字符串之间的匹配的内容可以从精确匹配到不同程度的模糊匹配以任何精确度级别来定义。

重新调用测量对应于与匹配的文档相关联的评估测量的总和(例如，30+60＝90)除以所有四个文档的评估测量的总和(例如，30+40+20+60＝150)。精度测量对应于与匹配的文档相关联的评估测量的总和(再次，90)除以匹配的文档的数目(例如，2)。标签对应于重新调用测量和精度测量的乘积(这里忽略平衡参数r的贡献，例如通过假定r＝1)。标签生成组件506还可以以不同的方式标准化其标签。例如而非限制，标签生成组件506可以将每个重新调用测量乘以100，并且将每个精度测量归一化，使得精度测量的允许范围在0到1之间(例如，这可以通过将精度测量除以所考虑的候选项目的集合遇到的最大精度测量来实现)；作为这些操作的结果，标签值将落在0到100的范围内。

在其他实现中，可以说标签生成组件506更一般地基于检索的增益测量、总的增益可用测量和文档检索的测量来生成标签，例如根据以下等式：

a、β和γ中的每个对应于环境特定的平衡参数。当a＝1+r，β＝1并且γ＝r时，上述等式等效于第一个陈述的公式。在其他实现中，标签生成组件506可以使用与上述两个公式中的任一个不同的公式。

标签生成组件506可以被认为隐含地实施以下推理过程。首先，标签生成组件506假定文档评估器120已经可靠地标识了种子项目(“狗”)与集合中的文档之间的相关性。第二，标签生成组件506假定具有相对高的评估测量的文档(对应于相对“好的文档”的示例)在表达与种子项目相关联的概念时做得很好，并且作为进一步的结果，也可能包含种子项目的有效同义词。第三，标签生成组件506做出如下假定：如果在很多良好文档中找到候选项目并且如果候选项目以相对高的精度聚焦于良好文档，则存在该候选是种子项目的同义词的良好的概率。第三前提部分地由第一和第二前提推断。

图10示出了特征生成组件510的一个实现，其是图5中介绍的另一组件。特征生成组件510生成特征值的集合，用于特定种子项目(例如，“狗”)和特定候选项目(例如，“康妮狗”)的每个配对。特征生成组件510可以使用不同的特征生成模块(1002，...，1004)来生成不同类型的特征值。不同的特征生成模块(1002，...，1004)又可以依赖于不同的资源1006。

例如，第一特征生成模块可以通过使用一个或多个语言模型组件来生成与每个候选项目相关联的一个或多个特征值。例如，对于依次具有三个单词ABC的短语，考虑到紧接在前的两个单词是A和B，三元(Tri-gram)模型组件提供单词C将出现的概率。双元(Bi-gram)模型组件提供单词B将跟随单词A的概率以及单词C将跟随单词B的概率。一元(Uni-gram)模型组件描述单词A、B和C的出现的个体的频率。任何单独的计算机实现的过程可以通过计算文本文档的语料库内的单词的出现来生成语言模型组件。

在一个说明性且非限制性方法中，第一特征生成模块可以通过将虚拟符号添加到每个短语的开始和结尾来扩大所考虑的每个短语，例如通过产生用于短语(“短语”)的序列“短语”，其中“”表示任意引入符号，“”表示任意结束符号。短语本身可以具有一个或多个单词。第一特征生成模块然后可以在扩大短语中的单词上运行三单词窗口，然后使用三元模型组件来为每个三单词组合生成得分，其中介绍和结束符号也构成要考虑的“单词”。第一特征生成模块然后可以通过形成个体的语言模型得分的乘积来计算最终语言模型得分。第一特征生成模块可以可选地结合适当的语言模型平滑技术来使用其他语言信息(例如，双元和一元得分等)，在这些情况下，三元得分不可用于所考虑的短语或所考虑的短语的部分。

第二特征生成模块可以使用转换模型组件生成与种子项目和候选项目的配对相关联的一个或多个特征值。转换模型组件通常描述项目被转换为语言内以及特定使用上下文内的其他项目的概率。在一种情况下，任何单独的计算机实现的过程可以基于在语言中执行的变换的任何证据来计算转换模型组件。例如，单独的过程可以通过确定在用户搜索会话的过程中更改查询的方式来计算转换模型组件。替代地或者另外地，单独的过程可以通过确定已经提交的查询和已经被点击的文档标题之间的关系来计算转换模型组件。替代地或者另外地，单独的过程可以基于已经用于点击相同文档的查询等来计算转换模型组件。

在一个实现中，第二特征生成模块可以通过使用转换模型组件确定种子项目可变换成候选项目的概率(或反之亦然)来计算翻译相关的特征值。例如，特征值可以反映用户在执行搜索时将“康妮狗”替换为“狗”的频率，反之亦然。

第三特征生成模块通过确定种子项目和候选项目之间的基于文本的相似性来生成一个或多个特征值。第三特征生成模块可以使用任何规则来进行该评定。例如，可以基于两个项目具有共同的单词的数目、项目具有共同的字符的数目、两个项目之间的编辑距离等来评定相似性。第三特征生成模块还可以生成特征值，其描述种子项目和/或候选项目的其他基于文本的特征，诸如项目中的单词的数目、这些项目中的停用单词的数目等。

第四特征生成模块生成一个或多个特征值，这些特征值涉及与种子项目和/或候选项目相关联的任何用户行为。例如，第四特征生成模块可以公式化一个或多个特征值，这些特征值表示用户使用种子项目和候选项目来点击(或以其他方式选择)相同文档或不同文档等的程度。其他行为相关的特征值可以描述用户提交种子项目和/或候选项目的频率，例如作为搜索项目。其他与行为相关的特征值可以描述已经为种子项目和/或候选项目服务的印象数目等。

上述特征生成模块在说明性而非限制性的精神上被阐述；其他实现可以使用用于生成特征值的其他技术。

A.3.第二模型生成组件

图11示出了第二模型生成组件204的一个实现，其是训练系统108的另一组件。然而，如上所述，训练系统108可以可选地省略第二模型生成组件204的使用，例如通过仅使用第一模型生成组件202来计算单个模型组件。当应用于模型应用系统122中时，第二模型组件(M₂)的总体目的是从个体候选项目的多个可能的组合中选择已经由第一模型组件(M₁)标识的个体候选项目的子集。对于这种情况，第二模型生成组件204基于使用第一模型(M₁)已经生成的训练数据的语料库生成第二模型(M₂)。在另一种情况下，如下面将描述的，第二模型生成组件204可以基于已经使用任何类型的候选生成组件生成的任何其他训练语料库来生成第二模型组件(M₂)，包括不使用第一模型组件(M₁)的候选生成组件。为此，训练系统108不需要使用第一模型生成组件202。

下面将在图12所示的具体示例的上下文中描述第二模型生成组件204。此外，在这个阶段，假定第一模型生成组件202已经生成了第一模型组件(M₁)。

第二模型生成组件204被描述为包括与第一模型生成组件202相同命名的组件，因为其执行与第一模型生成组件202相同的核心功能，诸如生成候选项目，生成标签，生成特征值，以及应用机器学习来产生模型组件。但是，由于下面阐述的原因，第二模型生成组件204与第一模型生成组件202相比也以不同的方式操作。在一种情况下，第一模型生成组件202和第二模型生成组件204表示两个离散处理引擎。但是这些引擎可以共享公共资源，诸如公共的特征生成逻辑、公共的机器训练逻辑等等。在另一种情况下，第一模型生成组件202和第二模型生成组件204可以表示相同引擎的不同实例或应用。

开始，第二模型生成组件204使用候选生成组件1102来生成多个分组候选项目。每个分组候选项目表示个体候选项目的特定组合。候选生成组件1102可以将分组候选项目存储在数据储存库1104中。

为了计算分组候选项目，候选生成组件首先使用初始生成和评分(“G&S”)组件1106来生成初始候选项目的集合，其中得分由第一模型组件M₁分配。在操作中，G&S组件1106首先接收新的种子输入项目的集合{P₁,P₂,...,P_n}。这些新的种子输入项目与由第一模型生成组件202的候选生成组件502接收的种子输入项目{X₁,X₂,...,X_n}相比较可以相同或不同。然后，G&S组件1106针对每个新的种子输入项目P_i使用在图5中描述的类型的候选生成组件502生成初始候选项的集合{R_i1,R_i2,...}。然后，G&S组件1106计算用于特定种子项目和特定初始候选项目的每个配对的特征集。G&S组件1106接下来使用第一模型组件M₁将特征集映射到该配对的得分。换句话说，G&S组件1106执行与图3的候选生成组件302和评分组件304相同的功能，但是这里，在生成用于在产生第二模型组件M₂时使用的训练集的上下文中。数据储存库1108可以存储评分的个体候选项目。

组合枚举组件1110接下来形成个体候选项目的不同组合，其中每个候选项目被称为分组候选项目。例如，组合枚举组件1110可以通过生成与第一新种子项目P1有关的个体候选项目{R₁₁,R₁₂,R₁₃,...}的不同排列来生成分组候选项目{G₁₁,G₁₂,G₁₃,...}的集合。组合枚举组件1110可以以不同的方式执行该任务。在一种方法中，组合枚举组件1110可以选择以下各项的组合：增加大小，递增地向下移动个体候选项目的列表，例如，通过首先选择一个项目，然后选择两个，然后三个等。这种操作方式具有递增地降低阈值的效果，该阈值确定个体候选项目是否将被包括在组合中(即，基于由第一模型组件分配给候选项目的得分)。在另一种方法中，组合枚举组件1110可以生成个体候选项目的集合的所有可能的排列。还要注意，任何给定的组候选项目可以表示包括或排除种子项目本身的组合。例如，在其中拼写错误、模糊等的情况下排除种子项目可能是适当的。

前进到图12，假定所考虑的一个种子项目是术语“猫”。G&S组件1106可以连同得分一起生成至少四个个体的候选项目，包括得分为90的“猫咪”，得分为80的“虎斑猫”，得分为75的“猫科动物”，以及得分为35的“捕鼠动物”等。然后，组合枚举组件1110可以形成这些个体的候选项目的不同组合。例如，第一组可以仅包括候选项目“猫咪”，第二组可以包括“猫咪”和“虎斑猫”的组合，第三组可以包括“猫咪”、“虎斑猫”和“猫科动物”的组合等。虽然未示出，但是组合也可以包括种子项目，即“猫”。

还要注意，图12描绘了简化情况，其中每个种子项目对应于单个单词，并且每个个体的候选项目同样对应于单个单词。但是在其他情况下，种子项目和候选项目可以对应于各自具有两个或更多个单词和/或其他符号的相应的短语。用于短语的候选项目可以以上面相对于图5描述的相同方式来生成。

返回图11，标签生成组件1112执行与第一模型生成组件202的标签生成组件506相同的核心功能；但是，在图11的上下文中，标签生成组件1112被应用于贴标签分组候选项目而不是个体的候选项目的任务。换句话说，在一个特定实现中，标签生成组件1112可以相对于特定种子项目(例如，“猫”)计算用于每个分组候选项目的重新调用测量和精度测量，然后将标签形成为这两个测量的乘积。平衡参数可以修改精度测量的贡献。

在生成重新调用测量和精度测量时，如果文档包括组成分组候选项目的任何元素，则认为它是分组候选项目的匹配。例如，假定分组候选项目对应于“猫咪”和“虎斑猫”的组合。如果文档包括单词“猫咪”或“虎斑猫”中的一个或两个，则文档匹配该分组候选项目。标签生成组件1112可以将有标签的分组候选项目存储在一个或多个数据储存库1114中。还注意，如上所述，在其他实现中，标签生成组件506可以使用其他等式来生成其标签，诸如上述更一般的等式(基于检索的增益测量、总的增益可用测量和文档检索的测量生成标签，其中任何一个可以通过平衡参数来修改)。

特征生成组件1116针对每个分组候选项目生成特征值的集合，并且将这些特征集存储在一个或多个数据储存库1118中。考虑将个体的候选项目的特定组合一起分组的特定分组候选项目。特征生成组件1116生成与其相应组件的个体候选项目相关联的特征集的合集。例如，考虑包含单词“猫咪”、“虎斑猫”和“猫科动物”并且与种子项目“猫”(P₁)相关联的分组候选项目G₁₃。特征生成组件1116生成用于“猫”和“猫咪”的配对的第一特征集、用于“猫”和“虎斑猫”的配对的第二特征集、以及用于“猫”和“猫科动物”的配对的第三特征集。特征生成组件1116可以相对于图5的特征生成组件510的操作以与上述相同的方式生成每个组件特征集，例如，通过利用文本相似性计算、用户行为数据、语言模型资源、转换模型资源等。

特征生成组件1116然后可以基于对分组候选项目的特征集的合集内的个体的特征集的任何类型的基于分组的分析来形成每个分组候选项目的基于分组的特征值的单个集合。特征生成组件1116可以存储基于分组的特征值的单个集合来代替与个体候选项目相关联的特征集。

例如，基于分组的分析可以形成基于统计的特征值，其提供了个体的特征集的统计概要。例如，特征值的最终集合可以提供最小值、最大值、平均值、标准偏差值等，其概括了分组候选项目的组件特征集中的特征值。例如，假定“猫咪”具有语言得分0.4，“虎斑猫”具有语言得分“0.3”，并且“猫科动物”具有语言得分“0.2”。对于该类别的特征值，特征生成组件1116可以计算最小特征值、最大特征值、平均特征值和/或标准偏差特征值等。例如，最小值为0.2，最大值为0.4。

另外地或者替代地，基于分组的分析可以生成概括每个分组候选项目的组成的其他元数据。例如，考虑与种子项目/候选项目配对的分组相关联的分组候选项目；基于分组的分析可以标识分组中的配对的数目、分组中的单词的数目、分组中的独立的单词的数目、分组的聚合编辑距离(通过将相应配对中语言学项目之间的各个编辑距离相加而形成)等。

最后，模型训练组件应用任何类型的计算机实现的机器训练技术基于标签信息(由标签生成组件1112生成)和特征信息(由特征生成组件1116生成)来生成第二模型组件(M₂)。

在图12的上下文中，标签生成组件1112针对相应的分组候选项目{G₁₁,G₁₂,...}生成标签{标签₁₁,标签₁₂,...}。特征生成组件1116然后生成相应的分组候选项目的统计特征集{FS₁₁,FS₁₂,...}。然后，模型训练组件1120基于上述标签和特征信息生成第二模型组件(M₂)。

在上述实现的变型中，第二模型生成组件204(图2的)可以基于使用任何其他候选生成组件产生的任何其他训练语料库来产生第二模型组件(M₂)，包括不使用第一模型组件(M₁)的候选生成组件。例如，可以使用不同类型的机器训练的模型组件(除了模型组件M₁)和/或一些其他启发式或方法来生成构成训练语料库的语言项目的配对。然后，第二模型生成组件204以与上述相同的方式对该训练语料库进行操作，以产生第二模型组件(M₂)。在训练系统108不需要使用第一模型生成组件202的情况下，第一模型生成组件202可以被认为是训练系统108的可选组件。

类似地，在实时应用阶段，组合选择组件306(图3的)可以从某种其他类型的候选生成组件(或多个组件)、而不是特别地使用模型组件M₁的上述候选生成组件302和/或评分组件304来接收初始项目的集合。组合选择组件306否则使用模型组件M₂来执行上述相同的操作。

B.说明性过程

图13-图16以流程图形式示出了解释章节A的环境102的操作的过程。由于在章节A中已经描述了环境操作的原理，因此在本章节中将以简要的方式描述某些操作。过程中的操作被描绘为具有特定顺序的一系列框。但是其他实现可以改变操作的顺序和/或并行地执行某些操作。

以图13开始，该图描述了表示图1的训练系统108的一种操作方式的过程1302。更具体地，该图描述了训练系统108可以通过其生成第一模型组件(M₁)或第二模型组件(M₂)的过程。在前一种情况下，第一模型生成组件202使用过程1302对个体的候选项目进行操作，其中每个个体的候选项包括单个语言项目(例如，单个单词、短语等)。在后一种情况下，第二模型生成组件204使用过程1302再次对候选项目进行操作；但是这里，每个候选项目对应于特定分组候选项目，该特定分组候选项目包括从个体的候选项目的可能组合的集合中选择的个体的候选项目的组合。

为了便于解释，因此，将参照第一模型生成组件202的操作来解释图13的示例。在框1304中，训练系统108提供至少一个种子项目，例如单词“狗”。在框1306中，候选生成组件502针对每个种子项目标识并且存储候选项目的集合。一个这样的候选项目可以对应于单词“康妮狗”。在框1308中，标签生成组件506生成并且存储特定种子项目和特定候选项目的每个配对的标签，以共同提供标签信息。在框1310中，特征生成组件510生成并且存储种子项目和候选项目的每个配对的特征值的集合，以共同提供特征信息。在框1312中，模型训练组件514基于标签信息和特征信息生成并且存储模型组件(M₁)。

图14示出了过程1402，其更具体地描述了由图5的标签生成组件506执行的标签生成过程，再次相对于第一模型生成组件202。在框1404中，标签生成组件506标识已经建立相应评估测量的文档的集合；更具体地，每个评估测量反映特定种子项目(例如，“狗”)与该集合中的特定文档(例如，关于狗(狗)美容的文章)之间的评定的相关性。在框1406中，标签生成组件506确定在每个文档中是否找到特定候选项目(例如，“康妮狗”)，以提供检索信息。在框1408中，标签生成组件506基于与集合中的文档相关联的评估测量和检索信息来生成特定候选项目的标签。

图15示出了过程1502，通过该过程1502，图11的第二模型生成组件204可以生成第二模型组件(M₂)。在框1504中，G&S组件1106使用第一模型组件(M₁)(和/或一些其他选择机制或技术)来提供多个新的个体的候选项目，在一些情况下，这些候选项目分配有得分。在框1506中，组合枚举组件1110生成并且存储多个分组候选项目，每个分组候选项目反映一个或多个新的个体候选项目的特定组合。在框1508中，标签生成组件1112生成并且存储分组候选项目的新的标签信息。在框1510中，特征生成组件1116生成并且存储分组候选项目的新的特征信息。在框1512中，模型训练组件1120基于新的标签信息和新的特征信息生成并且存储第二模型组件(M₂)。

图16示出了表示图1的模型应用系统122的一种操作方式的过程1602。在框1604中，模型应用系统122接收并且存储输入项目，诸如来自终端用户的输入查询。在框1606中，项目扩展组件126可以生成并且存储表示输入项目的扩展的零个、一个或多个相关项目的集合；如本文中所使用的，“相关项目的集合”这一概念将被宽泛地解释为包括或排除原始输入项目作为其部分。在框1608中，任何类型的处理组件128(诸如搜索引擎)基于相关项目的集合生成并且存储输出结果。在框1610中，模型应用系统122将输出结果提供给终端用户。

项目扩展组件126可以使用不同的技术来执行框1606的操作。在一种方法中，在框1612中，某种类型的机制生成相关项目的初始集合。例如，该机制可以对应于(图3的)与评分组件304组合的候选生成组件302；在这种情况下，评分组件304使用第一模型组件(M₁)(和/或一些其他模型组件、机制、技术等)来提供相关项目的初始集合的得分。在框1614中，组合选择组件306使用第二模型组件(M₂)从相关项目的初始集合中选择候选项目的特定子集。该子集构成被馈送给处理组件128的相关项目的最终集合。在其他情况下，项目扩展组件126可以省略框1614的操作，使得被馈送到框1608的相关项目的集合对应于在框1612中生成的相关项目的初始集合。

总的来说，可以说模型应用系统122利用(多个)模型组件的使用来促进相关输出结果的有效生成。例如，在搜索上下文中，相关输出结果对应于满足终端用户的搜索意图的信息。模型应用系统122被认为是部分有效的，因为它可以快速地提供相关的输出结果，例如通过消除或减少用户提交多个输入项目以找到他或她寻求的信息的需要。

在另一种方法中，项目扩展组件126可以省略组合选择组件306的使用。相反，项目扩展组件126可以使用第一模型组件(M₁)来生成候选项目的评分的集合。项目扩展组件126然后可以挑选规定数目的排在首位的候选项目。或者项目扩展组件126可以选择具有高于规定的阈值的得分的所有候选项目。所选择的候选项目构成被馈送给处理组件128的相关项目的集合。

为了总结章节A和B中的解释，根据第一方面，提供了一种用于生成至少一个模型组件的计算机实现的方法。该计算机实现的方法使用包括一个或多个计算设备的训练系统用于：提供至少一个种子项目；针对每个种子项目标识候选项目的集合；以及使用计算机实现的标签生成组件来生成用于特定种子项目和特定候选项目的每个配对的标签，以共同地提供标签信息。继而，通过以下步骤使用标签生成组件来生成标签：标识已经建立相应的评估测量的文档的集合，每个评估测量反映文档的集合中的特定文档与特定种子项目之间的评定的相关性；确定在文档的集合中的每个文档中是否找到特定候选项目，以提供检索信息；以及基于与文档的集合中的文档相关联的评估测量和检索信息来生成用于特定候选项目的标签。训练系统还使用计算机实现的特征生成组件来生成特定种子项目和特定候选项目的每个配对的特征值的集合，以共同地提供特征信息。最后，训练系统使用计算机实现的模型生成组件以基于标签信息和特征信息来生成并且存储模型组件。

根据第二方面，一种模型应用系统包括一个或多个计算设备，其操作以：接收输入项目；应用模型组件以生成由模型组件确定为与输入项目相关的零个、一个或多个相关项目的集合；至少基于相关项目的集合生成输出结果；并且将输出结果提供给终端用户。总体上，模型应用系统利用模型组件的使用来促进输出结果的有效的生成。

根据第三方面，如相对于特定种子项目所应用的，标识候选项目的集合的操作包括标识与特定种子项目具有联系的一个或多个项目，如基于一个或多个数据源所评定的。

根据第四方面，文档的集合中的每个文档与文本项目的合集相关联，并且其中文本项目的合集包括文档内的文本项目以及被确定为与文档关联的文本项目。

根据第五方面，生成用于特定候选项目的标签的操作包括：生成检索的增益测量，该检索的增益测量与和文档的集合中匹配特定候选项目的文档的子集合相关联的评估测量的聚合相对应；生成总的增益可用测量，该总的增益可用测量与和文档的集合中的所有文档相关联的评估测量的聚合相对应；生成文档检索的测量，其与文档的集合中匹配特定候选项目的文档的数目相对应；以及基于检索的增益测量、总的增益可用测量和文档检索的测量来生成标签。

根据第六方面，通过将总的增益可用测量乘以文档检索的测量以形成乘积并且将检索的增益测量除以乘积来生成标签。

根据第七方面，通过指数平衡参数修改检索的增益测量、总的增益可用测量和/或文档检索的测量中的至少一个。

根据第八方面，生成用于特定种子项目和特定候选项目的配对的特征值的集合的操作包括确定至少一个特征值，该至少一个特征值评定特定种子项目与特定候选项目之间的基于文本的相似性。

根据第九方面，生成用于特定种子项目和特定候选项目的配对的特征值的集合的操作包括通过应用语言模型组件确定特定候选项目在语言内的出现的概率来确定至少一个特征值。

根据第十方面，生成用于特定种子项目和特定候选项目的配对的特征值的特定集合的操作包括通过应用转换模型组件确定特定种子项目可变换成特定候选项目(反之亦然)的概率来确定至少一个特征值。

根据第十一方面，生成用于特定种子项目和特定候选项目的配对的特征值的特定集合的操作包括通过确定与特定种子项目和/或特定候选项目有关的在先用户行为的特性来确定至少一个特征值。

根据第十二方面，所生成的模型组件对应于第一模型组件，并且其中方法还包括：使用训练系统来生成第二模型组件；使用模型应用系统来应用第一模型组件以生成与输入项目相关的相关项目的初始集合；以及使用模型应用系统来应用第二模型组件以从相关项目的初始集合中选择相关项目的子集。

根据第十三方面，训练系统可以通过以下操作来生成第二模型组件：使用第一模型组件来生成多个新的个体的候选项目；生成多个分组候选项目，每个分组候选项目反映一个或多个新的个体的候选项目的特定组合；使用另一计算机实现的标签生成组件来生成用于分组候选项目的新的标签信息；使用另一计算机实现的特征生成组件来生成用于分组候选项目的新的特征信息；以及使用另一计算机实现的模型生成组件基于新的标签信息和新的特征信息来生成第二模型组件。

根据第十四方面，候选项目的集合(相对于第一方面)中的每个候选项目对应于包括选自可能的组合的集合的个体候选项目的组合的分组候选项目，个体候选项目使用任何类型的候选生成组件而被生成。

根据第十五方面，使用特征生成组件来生成新的特征信息的操作包括：针对每个特定分组候选项目：确定与特定分组项目相关联的每个个体候选项目的特征值的集合，以整体提供与特定分组候选项目相关联的特征集合的合集；以及确定至少一个特征值，该至少一个特征值提供概括特征集合的集合的基于分组的信息。

根据第十六方面，模型应用系统实现搜索服务，输入项目对应于输入查询，并且相关项目的集合对应于语言项目的集合，该语言项目的集合被确定为与输入查询相关。

根据另一方面，可以提供包括第一至第十六方面的任何排列的方法。

根据另一方面，可以提供一个或多个计算设备，用于使用相应的组件来实现第一至第十六方面的任何排列。

根据另一方面，可以提供一个或多个计算设备，用于使用相应的装置来实现第一至第十六方面的任何排列。

根据另一方面，可以提供一种计算机可读介质，用于使用相应的逻辑元件来实现第一至第十六方面的任何排列。

C.代表性计算功能

图17示出了可以用于实现在上述附图中阐述的环境102的任何方面的计算功能1702。例如，图17所示的类型的计算功能1702可以用于实现训练系统108和/或模型应用系统122的(多个)任何部分。在所有情况下，计算功能1702表示一个或多个物理和有形处理机制。

计算功能1702可以包括一个或多个处理设备1704，诸如一个或多个中央处理单元(CPU)和/或一个或多个图形处理单元(GPU)等。

计算功能1702还可以包括用于存储诸如代码、设置、数据等任何种类的信息的任何存储资源1706。例如而非限制，存储资源1706可以包括以下中的任意：任何类型的RAM、任何类型的ROM、闪存设备、硬盘、光盘等。更一般地，任何存储资源可以使用任何用于存储信息的技术。此外，任何存储资源可以提供信息的易失性或非易失性保留。此外，任何存储资源可以表示计算功能1702的固定或可移除组件。当处理设备1704执行存储在任何存储资源或存储资源组合中的指令时，计算功能1702可以执行上述功能中的任何功能。

关于术语，任何存储资源1706或存储资源1706的任何组合可以被视为计算机可读介质。在很多情况下，计算机可读介质表示某种形式的物理和有形实体。术语计算机可读介质还包括传播的信号，例如，经由物理导管和/或空气或其他无线介质等传输或接收的信号。然而，每个具体术语“计算机可读存储介质”、“计算机可读介质设备”、“计算机可读设备”、“计算机可读硬件”和“计算机可读硬件设备”明确排除传播的信号本身，包括其他形式的计算机可读设备。

计算功能1702还包括用于与任何存储资源交互的一个或多个驱动机制1708，诸如硬盘驱动器机制、光盘驱动器机制等。

计算功能1702还包括用于接收各种输入(经由输入设备1712)和用于提供各种输出(经由输出设备1714)的输入/输出模块1710。说明性输入装置包括键盘设备、鼠标输入设备、触摸屏输入设备、数字化垫、一个或多个摄像机、一个或多个深度相机、自由空间手势识别机制、一个或多个麦克风、语音识别机制、任何运动检测机制(例如，加速度计、陀螺仪等)等。一个特定的输出机制可以包括呈现设备1716和相关联的图形用户界面(GUI)1718。其他输出设备包括打印机、模型生成机制、触觉输出机制、存档机制(用于存储输出信息)等。计算功能1702还可以包括用于经由一个或多个通信管道1722与其他设备交换数据的一个或多个网络接口1720。一个或多个通信总线1724将上述组件通信地耦合在一起。

(多个)通信管道1722可以以任何方式实现，例如通过局域网、广域网(例如，因特网)、点对点连接等或其任何组合来实现。(多个)通信管道1722可以包括由任何协议或协议组合管理的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

替代地或者另外地，可以至少部分地通过一个或多个专用的硬件逻辑组件来执行前面部分中描述的任何功能。例如但不限于，计算功能1702可以使用以下中的一个或多个来实现：现场可编程门阵列(FPGA)；专用集成电路(ASIC)；应用特定标准产品(ASSP)；片上系统(SOC)；复杂可编程逻辑器件(CPLD)等。

最后，本文中描述的功能可以采用各种机制以确保以符合适用的法律、社会规范以及个体用户的期望和偏好的方式处理任何用户数据。

此外，尽管用结构特征和/或方法动作专用的语言描述了主题，但是应当理解，所附权利要求中定义的主题不一定限于上述具体特征或动作。相反，上面描述的具体特征和动作被公开为实现权利要求的示例形式。

Claims

1.一种用于生成和应用至少一个模型组件的计算机实现的方法，包括：

在包括一个或多个计算设备的训练系统中：

提供至少一个种子项目；

针对每个种子项目标识候选项目的集合；

使用计算机实现的标签生成组件来生成用于特定种子项目和特定候选项目的每个配对的标签，以共同地提供标签信息，

所述标签使用所述标签生成组件通过以下方式被生成：

标识已经建立相应的评估测量的文档的集合，每个评估测量反映所述文档的集合中的特定文档与所述特定种子项目之间的评定的相关性；

确定在所述文档的集合中的每个文档中是否找到所述特定候选项目，以提供检索信息；以及

基于与所述文档的集合中的所述文档相关联的所述评估测量和所述检索信息来生成用于所述特定候选项目的所述标签；

使用计算机实现的特征生成组件来生成用于特定种子项目和特定候选项目的每个所述配对的特征值的集合，以共同地提供特征信息；

使用计算机实现的模型生成组件基于所述标签信息和所述特征信息来生成并且存储模型组件；以及

在包括一个或多个计算设备的模型应用系统中：

从用户计算设备接收输入项目；

应用所述模型组件以生成由所述模型组件确定为与所述输入项目相关的零个、一个或多个相关项目的集合；

至少基于所述相关项目的集合来生成输出结果；以及

在所述计算设备处向终端用户提供所述输出结果，所述模型应用系统利用所述模型组件的使用以促进所述输出结果的高效生成。

2.根据权利要求1所述的方法，其中：

所述模型应用系统实现搜索服务，

所述输入项目对应于输入查询，以及

所述相关项目的集合对应于语言项目的集合，所述语言项目的集合被确定为与所述输入查询相关。

3.根据权利要求1所述的方法，其中相对于所述特定种子项目应用的所述候选项目的集合的所述标识包括：标识基于一个或多个数据源被评定为与所述特定种子项目具有联系的一个或多个项目。

4.根据权利要求1所述的方法，其中所述文档的集合中的每个文档与文本项目的合集相关联，并且其中所述文本项目的合集包括所述文档内的文本项目以及被确定为与所述文档相关的文本项目。

5.根据权利要求1所述的方法，其中用于所述特定候选项目的标签的所述生成包括：

生成检索的增益测量，所述检索的增益测量与和所述文档的集合中匹配所述特定候选项目的文档的子集合相关联的评估测量的聚合相对应；

生成总的增益可用测量，所述总的增益可用测量与和所述文档的集合中的所有所述文档相关联的评估测量的聚合相对应；

生成文档检索的测量，所述文档检索的测量与所述文档的集合中匹配所述特定候选项目的文档的数目相对应；以及

基于所述检索的增益测量、所述总的增益可用测量和所述文档检索的测量来生成所述标签。

6.根据权利要求5所述的方法，其中通过将所述总的增益可用测量乘以所述文档检索的测量以形成乘积，并且将所述检索的增益测量除以所述乘积来生成所述标签。

7.根据权利要求1所述的方法，其中用于所述特定种子项目和所述特定候选项目的所述配对的所述特征值的集合的所述生成包括确定至少一个特征值，所述至少一个特征值评定所述特定种子项目与所述特定候选项目之间的基于文本的相似性。

8.根据权利要求1所述的方法，其中用于所述特定种子项目和所述特定候选项目的所述配对的所述特征值的集合的所述生成包括：通过应用语言模型组件确定所述特定候选项目在语言内出现的概率来确定至少一个特征值。

9.根据权利要求1所述的方法，其中用于所述特定种子项目和所述特定候选项目的所述配对的所述特定的特征值的集合的所述生成包括：通过应用转换模型组件确定所述特定种子项目可变换成所述特定候选项目或者所述特定候选项目可变换成所述特定种子项目的概率来确定至少一个特征值。

10.一个或多个计算设备，包括：

训练系统，包括：

候选生成组件，被配置为生成用于多个种子项目中的每个种子项目的候选项目的集合；

标签生成组件，被配置为生成用于特定种子项目和特定候选项目的每个配对的标签，以共同地提供标签信息，

所述标签使用所述标签生成组件通过以下方式被生成：

特征生成组件，被配置为生成用于特定种子项目和特定候选项目的每个所述配对的特征值的集合，以共同地提供特征信息；以及

模型训练组件，被配置为基于所述标签信息和所述特征信息来生成并且存储模型组件，

模型应用系统，包括：

用户界面组件，被配置为从终端用户接收输入项目；

项目扩展组件，被配置为应用所述模型组件以生成由所述模型组件确定为与所述输入项目相关的零个、一个或多个相关项目的集合；以及

处理组件，被配置为基于所述相关项目的集合来生成输出结果，

所述用户界面组件还被配置为向所述终端用户提供所述输出结果。

11.根据权利要求1所述的方法，其中用于所述特定种子项目和所述特定候选项目的所述配对的所述特定的特征值的集合的所述生成包括：通过确定与所述特定种子项目和/或所述特定候选项目有关的在先用户行为的特性来确定至少一个特征值。

12.根据权利要求1所述的方法，其中所生成的所述模型组件对应于第一模型组件，并且其中所述方法还包括：

使用所述训练系统来生成第二模型组件；

使用所述模型应用系统来应用所述第一模型组件以生成与所述输入项目相关的相关项目的初始集合；以及

使用所述模型应用系统来应用所述第二模型组件以从所述相关项目的初始集合中选择相关项目的子集。

13.根据权利要求12所述的方法，其中所述训练系统通过以下方式来生成所述第二模型组件：

使用所述第一模型组件来生成多个新的个体候选项目；

生成多个分组候选项目，所述多个分组候选项目中的每个分组候选项目反映一个或多个新的个体候选项目的特定组合；

使用另一计算机实现的标签生成组件来生成用于所述分组候选项目的新的标签信息；

使用另一计算机实现的特征生成组件来生成用于所述分组候选项目的新的特征信息；以及

使用另一计算机实现的模型生成组件基于所述新的标签信息和所述新的特征信息来生成所述第二模型组件。

14.根据权利要求1所述的方法，其中所述候选项目的集合中的每个候选项目对应于分组候选项目，所述分组候选项目包括选自可能的组合的集合的个体候选项目的组合，

所述个体候选项目使用任何类型的候选生成组件而被生成。

15.根据权利要求14所述的方法，其中所述特征生成组件的所述使用来生成特征信息包括：针对每个特定分组候选项目，

确定用于与所述特定分组候选项目相关联的每个个体候选项目的特征值的集合，以整体提供与所述特定分组候选项目相关联的特征集的合集；以及

确定至少一个特征值，所述至少一个特征值提供概括所述特征集的合集的基于分组的信息。