CN111201524B

CN111201524B - 百分位链接聚类

Info

Publication number: CN111201524B
Application number: CN201880044850.8A
Authority: CN
Inventors: 李峰; X.王
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2023-08-25
Anticipated expiration: 2038-08-30
Also published as: US20210173869A1; EP3642690A1; US11347812B2; WO2020046331A1; CN111201524A

Abstract

用于聚类数据元素的方法、系统、和装置，包括在计算机存储介质上编码的计算机程序。在一个方面，方法包括确定用于多个集群对中的每一个集群对的相应链接值，其中每个集群对包括相应第一集群和相应第二集群。确定用于集群对的链接值包括确定用于集群对的成对相似性值的集合。每个成对相似性值定义以下两者之间的相似性度量：(i)来自集群对的第一集群的具体数据元素、与(ii)来自集群对的第二集群的给定数据元素。将用于集群对的链接值分配为成对相似性值的集合的给定百分位，其中给定百分位大于0并且小于100。基于集群对的链接值合并集群对。

Description

百分位链接聚类

技术领域

本说明书涉及使用聚类(clustering)模型处理数据。

背景技术

聚类模型能够处理数据元素的集合以生成定义数据元素中的每一个数据元素向一个或更多数据元素的相应组的分配的聚类。

发明内容

本说明书描述了系统，该系统实施为在一个或更多定位中的一个或更多计算机上的计算机程序，计算机程序确定数据元素的集合的聚类。

根据第一方面，提供了方法，该方法包括，在一个或更多迭代中的每一个迭代处，获得定义多个数据元素的当前聚类的数据。当前聚类定义数据元素中的每一个数据元素向相应集群(cluster)的分配，并且每个集群代表一个或更多数据元素的相应组。确定用于多个集群对中的每一个集群对的相应链接值，其中每个集群对包括由当前聚类定义的相应第一集群和由当前聚类定义的相应第二集群。确定用于集群对的链接值包括确定用于集群对的成对相似性值的集合，其中每个成对相似性值定义以下两者之间的相似性度量：(i)来自集群对的第一集群的具体数据元素、与(ii)来自集群对的第二集群的给定数据元素。将用于集群对的链接值分配为作为成对相似性值的集合的给定百分位，其中给定百分位大于0并且小于100。具体集群对基于用于集群对的链接值被标识为要合并。通过合并标识的集群对更新定义当前聚类的数据。

在一些实施方式中，在一个或更多迭代的第一迭代处，聚类定义数据元素中的每一个数据元素向不同相应集群的分配。

在一些实施方式中，基于用于多个集群对的链接值标识要合并的具体集群对包括标识具有最高链接值的具体集群对。

在一些实施方式中，方法包括确定最高链接值大于预定阈值链接值。

在一些实施方式中，方法包括在一个或更多迭代的最终迭代之后输出定义当前聚类的数据。

在一些实施方式中，确定用于集群对的成对相似性值的集合，其中每个成对相似性值定义以下两者之间的相似性度量：(i)来自集群对的第一集群的具体数据元素、与(ii)来自集群对的第二集群的给定数据元素，包括访问包括预先计算的成对相似性值的数据存储，该预先计算的成对相似性值定义多个数据元素的每对数据元素之间的相应相似性度量。

在一些实施方式中，数据元素是关键字。

在一些实施方式中，(i)来自集群对的第一集群的具体数据元素、与(ii)来自集群对的第二集群的给定数据元素之间的相似性度量表征以下两者之间的相似性：(i)响应于将具体数据元素作为查询向搜索引擎提供而获得的搜索结果的具体集合、与(ii)响应于将给定数据元素作为查询向搜索引擎提供而获得的搜索结果的给定集合。

在一些实施方式中，方法包括，在一个或更多迭代的最终迭代之后，接收包括特定关键字的数字分量请求。通过确定具体数字分量具有指定包括特定关键字的关键字集群的分发参数(distribution parameter)，确定具体数字分量对于响应于数字分量请求的传输是合格的。关键字集群是在一个或更多迭代的最终迭代处由当前聚类定义的集群。响应于数字分量请求而发送具体数字分量。

根据第二方面，提供了系统，该系统包括数据处理装置和与数据处理装置数据通信的存储器。存储器存储使得数据处理装置执行先前描述的方法的操作的指令。

根据第三方面，提供了一种或更多种非暂时性计算机存储介质，存储介质存储当由一个或更多计算机运行时使得一个或更多计算机执行先前描述的方法的操作的指令。

能够实施本说明书中描述的主题的具体实施方式，以便实现以下优点中的一个或更多优点。

本说明书描述了聚类系统，聚类系统配置为，对于在每个聚类迭代处的每个集群对，基于对于集群对计算的成对相似性值的集合的给定百分位向集群对分配链接值。因为将给定百分位选择为严格地在0与100之间(即大于0但是小于100)，所以由聚类系统向集群对分配的链接值对于“异常(outlier)”成对相似性值不敏感。如果成对相似性值相比于对于集群对计算的成对相似性值的集合中的其它成对相似性值不同寻常地高或不同寻常地低，则成对相似性值可以称为是异常值。聚类系统基于分配的链接值确定是否要合并集群对，并且能够因此即使当对于集群对计算的成对相似性值中的某些成对相似性值是异常值时也确定数据元素的集合向大并且凝聚的(cohesive)集群的稳定聚类。

相反，一些常规聚类系统向集群对分配对于异常成对相似性值高度地敏感的链接值。这些常规系统可能生成不稳定集群，即由异常成对相似性值强烈地影响的集群。此外，这些常规系统可能生成具有不期望特性的集群，例如不凝聚的大量的小集群或“瘦(thin)”集群。

聚类系统能够生成项目的大并且凝聚的集群。在某些情形下，聚类系统能够创建用户、图像、文本文章、网页、或任何其它适当数据项目的集群。在特定示例中，聚类系统能够用于创建语义地相关的关键字的集群，用于作为分发参数在数字分量分发系统中使用。通过使数字分量提供者能通过选择关键字集群设置用于数字分量的分发参数，分发系统能够减轻对于数字分量提供者在设置分发参数时手动地指定大量的相关关键字上的负担。例如，不是手动地指定相关关键字“鞋子(shoes)”、“鞋(shoe)”、“鞋类(footwear)”、“靴子”、“球鞋”、“高跟鞋”、“拖鞋”、和“运动鞋”，数字分量提供者而是能够选择包括这些关键字中的一些或所有关键字的适当的预定关键字集群。这样，能够简化选择分发参数的过程。

此外，通过使数字分量提供者能通过选择语义地相关的关键字的关键字集群设置用于数字分量的分发参数，分发系统能够减少在对于具有相似分发参数的数字分量的传输要求中的变化。例如，分发系统可以取决于那些关键字的“流行度”确定对于具有指定语义地相关的关键字的分发参数的数字分量的实质上不同的传输要求。关键字的流行度指代关键字由数字分量提供者指定为分发参数有多频繁。例如，虽然关键字“鞋子”和“鞋”是语义地相关的，但是关键字“鞋子”可能比关键字“鞋”更流行(即，因为“鞋子”是比“鞋”更自然的关键字表述)。在此示例中，分发系统可以确定更大数量的数字分量对于响应于指定关键字“鞋子”而不是关键字“鞋”的数字分量请求的传输是合格的。因此，分发系统可以确定对于具有指定关键字“鞋子”的分发参数的数字分量比对于具有指定关键字“鞋”的分发参数的数字分量的更高的传输要求。通过使数字分量提供者能设置指定语义地相关的关键字的关键字集群而不是单独关键字的分发参数，本说明书中描述的分发系统更有可能确定对于具有相似分发参数的数字分量的稳定并且一致的传输要求。

本说明书的主题的一个或更多实施例的细节在附图和以下描述中阐明。从说明书、附图、和权利要求，本主题的其它特征、方面、和优点将变得显而易见。

附图说明

图1是示例聚类系统的框图。

图2是用于聚类数据元素的示例过程的流程图。

图3是其中分发数字分量的示例环境的框图。

图4是用于选择包括关键字集群的分发参数的示例数据流的图示。

图5是示例计算系统的框图。

在各个附图中相似的参考标号和名称指示相似的元件。

具体实施方式

本说明书描述了聚类系统，该聚类系统配置为处理数据元素的集合以确定数据元素的聚类，即，数据元素中的每一个数据元素向一个或更多数据元素的相应组的分配。从初始聚类开始，聚类系统基于向集群对分配的链接值(linkage value)迭代地合并集群对。链接值定义第一集群与第二集群的相似性。聚类系统基于包括来自第一集群的相应第一数据元素和来自第二集群的相应第二数据元素的数据元素对之间的成对相似性值的集合的给定百分位，分配第一集群与第二集群之间的链接值。

在某些情况下，数据元素是关键字，并且聚类系统确定关键字向语义地相关的关键字的关键字集群中的聚类。能够向配置为发送用于与电子文档呈现的数字分量的数字分量分发系统提供关键字集群。数字分量提供者能够选择由聚类系统确定的一个或更多关键字集群作为要由数字分量分发系统使用以用于确定数字分量对于响应于数字分量请求的传输的合格性的数字分量分发参数。

如贯穿本文档使用的，短语“数字分量”指代数字内容或数字信息的离散单元(例如，视频剪辑、音频剪辑、多媒体剪辑、图像、文本、或内容的另一单元)。数字分量能够作为单个文件或以文件的集合电子地存储在物理存储器设备中，并且数字分量能够采用视频文件、音频文件、多媒体文件、图像文件、或文本文件的形式，并且包括广告信息，使得广告是数字分量的类型。一般地，虽然数字分量由单个提供者或源(例如，广告者、出版者、或其它内容提供者)定义(或提供)，但是从一个源提供的数字分量能够利用来自另一源的数据(例如，从另一源获得的天气信息、实时事件信息、或其它信息)增强。

这些特征和其它特征将在以下更详细地描述。随后的描述在聚类关键字的上下文中提供聚类技术的示例。然而，本文档中讨论的聚类技术一般地适用于任何数据项目。如此，贯穿此文档提供的示例中关键字的使用不会解释为限制这些聚类技术的应用。

图1示出了示例聚类系统100。聚类系统100是实施为其中实施以下描述的系统、组件、和技术的一个或更多定位中的一个或更多计算机上的计算机程序的系统的示例。

聚类系统100配置为处理数据元素102的集合以确定数据元素102的最终聚类104。数据元素102的最终聚类104定义数据元素102中的每一个数据元素向一个或更多数据元素的相应组(在本说明书中称为“集群”)的分配。例如，如果数据元素102表示为{A，B，C，D，E}(其中A是第一数据元素，B是第二数据元素，等等)，则数据元素102的最终聚类104可以定义数据元素{A，D，E}向第一集群和数据元素{B，C}向第二集群的分配。如将在以下更详细地描述的，系统100生成趋向于使得“相似”(例如，根据数值的相似性度量)数据元素向相同集群分配并且“不相似”数据元素向不同集群分配的最终聚类104。

数据元素102可以代表关键字、网页、社交网络上的用户简档、产品、新闻文章、图片、视频、或数据的任何其它形式。一般地，不同数据元素102的相似性能够使用适当的数值相似性度量来计算。例如，如果数据元素102是关键字，则第一关键字与第二关键字之间的数值的相似性度量可以基于通过将相应关键字作为查询向搜索引擎提供而获得的搜索结果的相似性来计算(如将参考图2更详细地描述)。

为了确定数据元素102的最终聚类104，系统100迭代地(即，在多个聚类迭代中的每一个聚类迭代处)更新数据元素102的当前聚类106。对于第一聚类迭代，数据元素102的当前聚类106可以作为输入而向系统100提供，或者可以由系统100根据预定规则来确定。例如，对于第一聚类迭代，系统100可以确定数据元素102的当前聚类106以定义数据元素102中的每一个数据元素向不同相应集群的分配。在此示例中，在第一聚类迭代处由当前聚类106定义的聚类的数量等于数据元素102的数量。

示例当前聚类106由108示出。在示例当前聚类108中，数据元素102由“X”符号代表，并且当前聚类定义数据元素102向三个集群(即，集群110、112、和114)中的分配。

在每个聚类迭代处，系统100通过合并由当前聚类106定义的两个不同集群来更新当前聚类106。合并两个集群是指将两个集群组合成单个集群(例如，因此先前属于两个集群中的任一一个集群的每个数据元素此后考虑为属于同一合并的集群)。以此方式，系统100在多个聚类迭代之上将数据元素102逐渐地分组成更大集群(即，包括更多数据元素的集群)，直到系统100确定满足聚类终止标准为止。例如，如以下将更详细描述的，如果没有两个集群被确定为“足够相似”以待合并，则系统100可以确定满足聚类终止标准。

在给定的聚类迭代处，为了更新当前聚类106，系统100使用链接引擎116处理当前聚类106以确定集群链接值118的集合。每个集群链接值118对应于相应集群对，即，由当前聚类106定义的相应第一集群和由当前聚类106定义的相应第二集群。对应于集群对的集群链接值118能够理解为定义集群对的第一集群与集群对的第二集群之间的相似性。对于示例当前聚类108，链接引擎116可以确定用于集群对{110、112}、{110、114}、和{112、114}的相应集群链接值118。

为了确定用于给定集群对的链接值118，链接引擎116确定用于集群对的成对相似性值的集合。每个成对相似性值定义以下两者之间的相似性度量：(i)来自集群对的第一集群的相应第一数据元素、与(ii)来自集群对的第二集群的相应第二数据元素。例如，如果集群对的第一集群由数据元素{A，B}定义并且集群对的第二集群由数据元素{C，D}定义，则链接引擎116可以确定数据元素：A与C、A与D、B与C、以及B与D之间的相应成对相似性值。在确定用于集群对的成对相似性值的集合之后，链接引擎116分配用于集群对的成对相似性值的集合的给定百分位作为用于集群对的链接值118(如将参考图2更详细地描述)。一般地，给定百分位严格地在0与100之间，即，给定百分位大于0并且小于100(但是系统不需要被约束于仅这些值)。给定百分位的具体值是能够被选择来优化使用由系统100输出的最终聚类104的下游系统的性能的系统超参数。使用由系统100输出的最终聚类104的下游系统的示例是还参考图3和图4描述的数字分量分发系统310。

通过将用于每个集群对的链接值118分配为用于集群对的成对相似性值的集合的给定百分位(严格地在0与100之间)，链接引擎116确定对于“异常”成对相似性值不敏感的链接值118。如果成对相似性值相比于用于集群对的成对相似性值的集合中的其它成对相似性值不同寻常地高或不同寻常地低，则成对相似性值可以称为异常值。如果例如系统100使用数据元素102之间的“有噪声的”(例如，高方差)相似性度量，则某些成对相似性值可以是异常值。在具体示例中，数据元素102可以是关键字，并且系统100可以基于通过将关键字作为查询向搜索引擎提供而获得的搜索结果的相应集合，使用关键字之间的相似性度量来确定成对相似性值。在此示例中，由于由搜索引擎对于不同关键字返回的搜索结果的集合中的随机变化，某些成对相似性值可能是异常值。

作为说明性示例，对于示例当前聚类108，链接引擎116可以确定遵循分布(distribution)120的用于集群对{112，114}的成对相似性值的集合、遵循分布122的用于集群对{110，112}的成对相似性值的集合、和遵循分布124的用于集群对{110，114}的成对相似性值的集合。图1中描绘的分布120、122、和124中的每一个分布参考代表成对相似性值(即，“P.S.V.(pairwise similarity value)”)的x轴来绘制。图1中描绘的分布120、122、和124中的每一个分布参考代表成对相似性值的概率(即，“Prob.(probability)”)的y轴来绘制。对于给定集群对，成对相似性值的概率能够理解为代表用于集群对的成对相似性值的集合中成对相似性值的出现的频率。在此示例中，链接引擎116可以配置为将用于每个集群对的链接值分配为成对相似性值的对应集合的第50百分位，这由120、122、和124中的垂直虚线示出。虽然出于说明目的，将分布120、122、和124描绘为连续概率分布，但是在实践中，用于集群对的成对相似性值的分布是离散概率分布。

在链接引擎116生成链接值118之后，合并引擎126处理链接值118以标识要合并的具体集群对。例如，合并引擎126可以将由当前聚类106定义的具有最高链接值118的集群对(即，能够被理解为“最相似”的集群对)标识为要合并的集群对。如果合并引擎126确定最高链接值118小于预定的阈值链接值(例如，指示没有两个集群“足够相似”以待合并)，则系统100可以确定满足聚类终止标准并且输出最终聚类104。否则，合并引擎126通过合并具有最高链接值118的集群对来更新当前聚类106，并且行进到下一聚类迭代。

作为说明性示例，对于示例当前聚类108，合并引擎126可以标识要合并的集群对{112，114}。更具体地，合并引擎126可以将用于集群对{112，114}的链接值(例如，代表成对相似性值分布120的第50百分位的虚线)确定为最高链接值，并且因此标识要合并的集群对{112，114}。

当数据元素102是关键字并且基于通过将关键字作为查询向搜索引擎提供而获得的搜索结果的相似性来确定关键字之间的相似性时，最终聚类104可以定义关键字向语义地相似的关键字集群中的分组。例如，最终聚类104可以定义关键字“鞋子”、“鞋”、“鞋类”、“靴子”、“球鞋”、“高跟鞋”、“拖鞋”、“运动鞋”等向相同集群的分配。作为另一示例，最终聚类104可以定义关键字“菠萝”、“香蕉”、“柳橙”、“苹果”、“猕猴桃”、“青柠”、“黄柠”、“金橘”等向相同集群的分配。如还将参考图3和图4描述的，由最终聚类104定义的语义地相似的关键字集群能够用作确定数字分量对于响应于数字分量请求的传输的合格性的分发标准。

图2是用于聚类数据元素的示例过程200的流程图。具体地，过程200描述了能够在多个聚类迭代之上运行的迭代聚类过程的具体聚类迭代。为了方便起见，将过程200描述为由定位在一个或更多定位中的一个或更多计算机的系统执行。例如，聚类系统，例如图1的聚类系统100，根据本说明书适当地编程，能够执行过程200。

系统在当前聚类迭代处获得定义当前聚类的数据(202)。例如，系统可以访问数据存储(例如，逻辑数据存储区域或物理数据存储设备)以检索定义当前聚类的数据。如更早所述，定义当前聚类的数据定义数据元素中的每一个数据元素向相应集群的分配。定义当前聚类的数据能够以任何适当的格式存储。例如，定义当前聚类的数据能够以将每个数据元素与索引对应集群的数值相关联的表格式格式存储。

系统确定用于每个集群对的成对相似性值的相应集合(204)。对于给定的集群对，每个成对相似性值定义以下两者之间的相似性度量：(i)来自集群对的第一集群的相应第一数据元素、与(ii)来自集群对的第二集群的相应第二数据元素。例如，如果集群对的第一集群包括N个数据元素，并且集群对的第二集群包括M个数据元素，则系统可以确定用于集群对的N×M个成对相似性值的集合。

系统能够使用数据元素之间的任何适当的相似性度量来确定成对相似性值。例如，如果数据元素是关键字，则第一关键字与第二关键字之间的相似性度量可以基于通过将相应关键字作为查询向搜索引擎提供而获得的搜索结果的相似性来计算。在具体示例中，相似性度量可以基于以下两者之间的交集来确定：(i)响应于将第一关键字作为查询向搜索引擎提供而获得的搜索结果的第一集合、与(ii)响应于将第二关键字作为查询向搜索引擎提供而获得的搜索结果的第二集合。即，相似性度量可以基于有多少搜索结果对于搜索结果的第一集合与搜索结果的第二集合两者是公共的来确定。作为另一示例，如果数据元素能够被代表为数值的相应矢量，则第一数据元素与第二数据元素之间的相似度量可以基于代表第一数据元素的矢量与代表第二数据元素的矢量之间的欧几里德距离或余弦相似性来确定。

为了确定用于集群对的成对相似性值的集合，系统能够访问包括定义每对数据元素之间的相应相似性度量的预先计算的成对相似性值的数据存储(例如，逻辑数据存储区域或物理数据存储设备)。预先计算的成对相似性值可以被提供给系统或者可以在第一聚类迭代之前由系统计算。预先计算的成对相似性值能够以任何适当的格式存储。例如，预先计算的成对相似性值能够以将每对数据元素与对应相似性度量相关联的表格式格式存储。通过通过访问预先计算的成对相似性值来确定用于每个集群对的成对相似性值的相应集合，系统能够避免在每个聚类迭代处重新计算数据元素之间的成对相似性值。

系统向每个集群对分配相应链接值(206)。对于给定的集群对，系统向集群对分配等于(如参考204所述的)对于集群对确定的成对相似性值的集合的给定百分位(或在其某个公差范围内)的链接值。一般地，给定百分位严格地在0与100之间，即大于0并且小于100。例如，给定百分位可以是第20百分位、第80百分位、或严格地在0与100之间的任何其它百分位。

对于成对相似性值的给定集合，系统能够将成对相似性值的集合的第n百分位确定为任何具体值，其中成对相似性值的集合中的成对相似性值的n％小于具体值。例如，如果成对相似性值的集合由{0.44，0.78，0.79，0.81，0.85}给定，则系统能够将第20百分位确定为大于0.44并且小于或等于0.78的任何值(即，范围(0.44，0.78]中的任何数字)。

如更早所述，通过向每个集群对分配链接值作为用于集群对的成对相似性值的集合的给定百分位，系统确定对于异常成对相似性值不敏感的链接值。在具体示例中，用于集群对的成对相似性值的集合可以由{0.44，0.78，0.79，0.81，0.85}给定，并且系统可以配置为向每个集群对分配等于成对相似性值的集合的第20百分位(或在其某个公差范围内)的链接值。在此示例中，系统可以向集群对分配链接值0.78(即，因为成对相似性值的20％小于0.78)，尽管成对相似性值的集合包含异常成对相似性值0.44。

系统基于向集群对分配的链接值来标识要合并的具体集群对(208)。例如，系统可以将分配了最高链接值的集群对标识为要合并的集群对。如更早所述，合并两个集群是指将两个集群组合成单个集群(例如，因此先前属于两个集群中的任一一个集群的每个数据元素此后考虑为属于同一合并的集群)。

系统确定是否满足聚类终止标准(210)。例如，如果向集群对分配的最高链接值小于预定的阈值链接值，则系统可以确定满足聚类终止标准。作为另一示例，如果系统已经执行了预定数量的聚类迭代，则系统可以确定满足聚类终止标准。

响应于确定不满足聚类终止标准，系统更新定义当前聚类的数据(214)。更具体地，系统通过合并被标识为要合并的具体集群对的集群对来更新定义当前聚类的数据(例如，如在208中所描述的)。为了更新定义当前聚类的数据，系统可以访问配置为存储定义当前聚类的数据的数据存储(例如，逻辑数据存储区域或物理数据存储设备)，并且更新存储在数据存储中的定义当前聚类的数据。例如，定义当前聚类的数据可以以将每个数据元素与索引对应集群的数值相关联的表格式格式存储。在此示例中，系统可以通过将属于要合并的两个集群中的任一一个集群的每个数据元素与索引对应的合并的集群的相同数值相关联来更新当前聚类。

在更新定义当前聚类的数据之后，系统能够返回到202并且重复前面的步骤。

响应于确定不满足聚类终止标准，系统能够输出定义当前聚类的数据。例如，系统能够将定义当前聚类的数据存储在数据存储中。作为另一示例，系统能够提供定义当前聚类的数据用于在另一系统中的使用。例如，系统能够向参考图3描述的数字分量分发系统提供定义当前聚类的数据。

图3是其中发送数字分量用于与电子文档呈现的示例环境300的框图。如将在以下更详细地描述的，由(如参考图1所描述的)聚类系统100输出的关键字集群能够用作分发参数，用于确定数字分量对于响应于数字分量请求的传输的合格性。

示例环境300包括网络302，诸如局域网(local area network，LAN)、广域网(widearea network，WAN)、互联网、或其组合。网络302连接电子文档服务器304、客户端设备306、数字分量服务器308、和数字分量分发系统310(也称为“分发系统”310)。示例环境300可以包括许多不同的电子文档服务器304、客户端设备306、和数字分量服务器308。

客户端设备306是能够在网络302之上请求并且接收资源的电子设备。示例客户端设备306包括个人计算机、移动通信设备(例如，移动电话)、以及能够在网络302之上传送并且接收数据的其它设备。虽然客户端设备306典型地包括用户应用，诸如网页浏览器，以促进在网络302之上数据的传送和接收，但是由客户端设备306运行的本地应用也能够促进在网络302之上数据的传送和接收。

电子文档是在客户端设备306处呈现内容的集合的数据。电子文档的示例包括网页、文字处理文档、便携式文档格式(portable document format，PDF)文档、图像、视频、搜索结果页面、和供稿源。诸如安装在移动、平板、或台式计算设备上的应用的本地应用(例如“app(application，应用)”)也是电子文档的示例。电子文档能够通过电子文档服务器304(“电子文档服务器”)向客户端设备306提供。例如，电子文档服务器304能够包括托管发布者网站的服务器。在此示例中，客户端设备306能够发起对于给定发布者网页的请求，并且托管给定发布者网页的电子服务器304能够通过传送发起给定网页在客户端设备306处的呈现的机器可运行指令来响应于请求。

在另一示例中，电子文档服务器304能够包括客户端设备306能够从其下载应用的应用服务器。在此示例中，客户端设备306能够下载对于在客户端设备306处安装应用所要求的文件，并且然后本地运行下载的应用。

电子文档能够包括各种内容。例如，电子文档能够包括在电子文档本身内和/或不随时间改变的静态内容(例如，文本或其它指定的内容)。电子文档也能够包括可以随时间或基于每个请求而改变的动态内容。例如，给定电子文档的发布者能够维护用于填充电子文档的部分的数据源。在此示例中，给定电子文档能够包括当给定电子文档由客户端设备306处理(例如，呈现或运行)时，使得客户端设备306从数据源请求内容的一个或更多标签或脚本。客户端设备306将从数据源获得的内容集成到给定电子文档中，以创建包括从数据源获得的内容的复合电子文档。

在某些情形下，给定电子文档能够包括引用数字分量分发系统310的一个或更多数字分量标签或数字分量脚本。在这些情形下，当给定电子文档由客户端设备306处理时，数字分量标签或数字分量脚本由客户端设备306运行。数字分量标签或数字分量脚本的运行将客户端设备306配置为生成在网络302之上向数字分量分发系统310发送的对于一个或更多数字分量的请求312(称为“分量请求”)。例如，数字分量标签或数字分量脚本能够使客户端设备306能生成包括报头和有效载荷数据的分组化数据请求。分量请求312能够包括指定特征的事件数据，该特征诸如正在从其请求数字分量的服务器的名称(或网络定位)、请求设备(例如，客户端设备306)的名称(或网络定位)、和/或数字分量分发系统310能够用于选择响应于请求而提供的一个或更多数字分量的信息。分量请求312由客户端设备306在网络302(例如，电信网络)之上向数字分量分发系统310的服务器发送。

分量请求312能够包括指定其它事件特征的事件数据，诸如正在请求的电子文档以及在其处能够呈现数字分量的电子文档的定位的特性。例如，能够向数字分量分发系统310提供指定对于其中将呈现数字分量的电子文档(例如网页)的引用(例如URL)的事件数据、对于呈现数字分量可用的电子文档的可用定位、可用定位的大小、和/或对于定位中的呈现合格的媒体类型。类似地，指定与电子文档相关联的关键字(“文档关键字”)或由电子文档引用的实体(例如，人、地方、或事物)的事件数据也能够被包括在分量请求312中(例如，作为有效载荷数据)并且被提供给数字分量分发系统310，以促进对于与电子文档的呈现合格的数字分量的标识。事件数据也能够包括从客户端设备306提交了以获得搜索结果页面的搜索查询、和/或指定搜索结果和/或在搜索结果中包括的文本、可听、或其它视觉内容的数据。

分量请求312也能够包括与其它信息有关的事件数据，诸如客户端设备的用户已经被提供的信息、指示从其提交了分量请求的州或区域的地理信息、或提供用于将在其中显示数字分量的环境的上下文的其它信息(例如，分量请求的一天中的时间、分量请求的一周中的一天、将在其处显示数字分量的设备的类型(诸如移动设备或平板设备))。分量请求312能够例如在分组化网络之上发送，并且分量请求312本身能够被格式化为具有报头和有效载荷数据的分组化数据。报头能够指定分组的目的地，并且有效载荷数据能够包括以上讨论的信息中的任何信息。

分量分发系统310响应于接收分量请求312和/或使用在分量请求312中包括的信息来选择将与给定电子文档呈现的数字分量。在一些实施方式中，在少于一秒中(使用本文所述的技术)选择数字分量，以避免可能由数字分量的延迟选择而引起的错误。例如，在响应于分量请求312而提供数字分量中的延迟可能导致客户端设备306处的页面加载错误，或者使得电子文档的部分甚至在电子文档的其它部分在客户端设备306呈现之后也仍然未被填充。而且，随着在向客户端设备306提供数字分量中的延迟增加，更有可能当将数字分量递送到客户端设备306时，电子文档将不再呈现在客户端设备306处，从而负面地影响用户对电子文档的体验。此外，在提供数字分量中的延迟可能导致数字分量的失败传递，例如，如果当提供数字分量时电子文档不再在客户端设备306处呈现。

在一些实施方式中，数字分量分发系统310在分布式计算系统中实施，分布式计算系统包括例如服务器和相互连接并且响应于请求312来标识并且分发数字分量的多个计算设备的集合314。多个计算设备的集合314一起操作以从数百万个可用数字分量(DC1-x)的语料库标识对于合格呈现在电子文档中数字分量的集合。数百万个可用数字分量能够例如在数字分量数据库316中被索引。每个数字分量索引条目能够引用对应的数字分量和/或包括贡献于(例如，条件化或限制)对应的数字分量的分发/传输的分发参数(DP1-DPx)。例如，分发参数能够通过要求分量请求包括(例如，任一精确地或以某个预先指定的相似性水平)匹配数字分量的分发参数中的一个分发参数的至少一个标准来贡献于数字分量的传输。

在一些实施方式中，用于具体数字分量的分发参数能够包括必须被匹配(例如，通过电子文档、文档关键字、或分量请求312中指定的术语)的分发关键字，以便数字分量对于呈现是合格的。换句话说，分发参数用于触发数字分量在网络302之上的分发(例如，传输)。分发参数也能够要求分量请求312包括指定具体地理区域(例如，国家或州)的信息和/或指定分量请求312在具体类型的客户端设备(例如，移动设备或平板设备)处起源的信息，以便数字分量对于呈现是合格的。

分发参数也能够指定合格性值(例如，排名分数、出价(bid)、或某其它指定值)，该合格性值用于例如通过分量评估过程(例如，在其它可用数字分量当中)评估数字分量对于分发/传输的合格性。在某些情形下，合格性值能够指定数字分量的提供者愿意响应于数字分量的传输而提交的最大量的补偿(例如，对于归因于数字分量的呈现的特定事件的每个实例，诸如与数字分量的用户交互)。

合格的数字分量的标识能够被分割成然后在多个计算设备的集合314内的计算设备当中分配的多个任务317a-317c。例如，集合314中的不同计算设备能够每个分析数字分量数据库316的不同部分以标识具有匹配在分量请求312中包括的信息的分发参数的各种数字分量。在一些实施方式中，集合314中的每个给定计算设备能够分析不同数据维度(或维度的集合)，并且将分析的结果(Res 1-Res 3)318a-318c递送(例如，发送)回到数字分量分发系统310。例如，由集合314中的计算设备中的每一个计算设备提供的结果318a-318c可以标识对于响应于分量请求的分发合格的数字分量的子集和/或具有某些分发参数的数字分量的子集。数字分量的子集的标识能够包括，例如，将事件数据与分发参数比较、以及标识具有匹配事件数据的至少一些特征的分发参数的数字分量的子集。

数字分量分发系统310聚合从多个计算设备的集合314接收的结果318a-318c，并且使用与聚合的结果相关联的信息以：(i)选择将响应于请求312而提供的一个或更多数字分量，并且(ii)确定对于一个或更多数字分量的传输要求。例如，数字分量分发系统310能够基于一个或更多分量评估过程的成果来选择获胜的数字分量的集合(一个或更多数字分量)。反过来，数字分量分发系统310能够在网络302之上生成并且发送答复数据320(例如，代表答复的数字数据)，该答复数据320使客户端设备306能将获胜的数字分量的集合集成到给定电子文档中，使得获胜的数字分量的集合与电子文档的内容一起呈现在客户端设备306的显示器处。

在一些实施方式中，客户端设备306运行在答复数据320中包括的指令，该指令配置并且使客户端设备306能从一个或更多数字分量服务器获得获胜的数字分量的集合。例如，答复数据320中的指令能够包括网络定位(例如，统一资源定位符(Uniform ResourceLocator，URL))和使得客户端设备306向数字分量服务器308发送服务器请求(serverrequest，SR)321以从数字分量服务器308获得给定的获胜的数字分量的脚本。响应于请求，数字分量服务器308将标识在服务器请求321中指定的给定的获胜的数字分量(例如，在存储多个数字分量的数据库内)，并且向客户端设备306发送在客户端设备306处的电子文档中呈现给定的获胜的数字分量的数字分量数据(DC(digital component，数字分量)数据)322。

为了促进电子文档的搜索，环境300能够包括通过爬取(crawl)并且索引(例如，基于电子文档的爬取的内容而索引的)电子文档来标识电子文档的搜索系统350。关于电子文档的数据能够基于数据与其相关联的电子文档而索引。电子文档的索引的和可选地缓存的副本存储在搜索索引352(例如，(多个)硬件存储设备)中。与电子文档相关联的数据是代表在电子文档中包括的内容的数据和/或用于电子文档的元数据。

客户端设备306能够在网络302之上向搜索系统350提交搜索查询。作为响应，搜索系统350访问搜索索引352以标识与搜索查询相关的电子文档。搜索系统350以搜索结果的形式标识电子文档，并且在搜索结果页面中向客户端设备306返回搜索结果。搜索结果是由搜索系统350生成的数据，该数据标识响应(例如，相关)于具体搜索查询的电子文档，并且包括使得客户端设备响应于与搜索结果的用户交互而从指定的网络定位(例如URL)请求数据的活动链接(例如，超文本链接)。示例搜索结果能够包括网页标题、从网页提取的文本的片段或图像的部分、以及网页的URL。另一示例搜索结果能够包括可下载应用的标题、描述可下载应用的文本的片段、描绘可下载应用的用户界面的图像、和/或到能够从其向客户端设备306下载应用的定位的URL。在某些情形下，搜索系统350能够是能够从其下载应用用于在客户端设备306处安装的应用商店(或在线门户)的部分或与之交互，以便呈现关于与提交的搜索查询相关的可下载应用的信息。如其它电子文档那样，搜索结果页面能够包括能够在其中呈现数字分量(例如，广告、视频剪辑、音频剪辑、图像、或其它数字分量)的一个或更多槽(slot)。

为了选择响应于分量请求而被发送的数字分量，分发系统310可以标识对于响应于分量请求而被发送是合格的数字分量的集合。然后，分发系统310可以通过例如竞拍(auction)过程选择合格的数字分量中要发送的一个或更多合格的数字分量。在一些实施方式中，分发系统310通过根据合格的数字分量的相应合格性值对该合格的数字分量进行排名来执行竞拍过程，并且选择响应于分量请求而被发送的一个或更多最高排名的数字分量。

例如，分发系统310可以将数字分量A、B、和C标识为对于响应于分量请求而被发送是合格的。在此示例中，数字分量A具有$5的合格性值，数字分量B具有$1的合格性值，并且数字分量C具有$5.5的合格性值，其中，数字分量的合格性值代表与数字分量相关联的出价。分发系统310可以根据数字分量的相应合格性值将数字分量(例如，以下降顺序)排名为：C、A、B。最后，分发系统310可以选择最高排名的数字分量C以用于响应于分量请求的传输。

在选择响应于数字分量请求而被发送的数字分量之后，分发系统310确定对于选择的数字分量的传输要求。传输要求指定要由数字分量的提供者响应于数字分量的传输而执行的动作。例如，传输要求可以指定数字分量的提供者响应于数字分量的传输而提交补偿的量。在某些情况下，补偿的量指定对于归因于数字分量的呈现的特定事件(例如，与数字分量的用户交互)的每个实例要提交的量。

分发系统310可以基于选择的数字分量的合格性值和/或被确定为对于响应于分量请求而发送是合格的其它数字分量的合格性值，确定选择的数字分量的传输要求。例如，分发系统310可以将数字分量A、B、和C标识为对于响应于数字分量请求的传输合格，其中A、B、和C具有$5、$1、和$5.5的相应合格性值。分发系统310可以选择数字分量C用于传输(因为它具有最高合格性值)，并且可以从合格的数字分量的合格性值当中确定对于数字分量C的传输要求为下一最高合格性值。在此示例中，下一最高合格性值是$5(即，数字分量A的合格性值)，并且因此分发系统310可以将数字分量C的传输要求确定为$5。

如上所述，分发系统310可以基于对应于每个数字分量的分发参数标识对于响应于数字分量请求而被发送以用于在电子文档中呈现合格的数字分量的集合。在某些情况下，对应于数字分量的分发参数可以包括关键字集群(即，多个关键字的集合)。分发系统310可以确定来自关键字集群的一个或更多关键字必须被匹配(例如，通过电子文档、文档关键字、或在数字分量请求中指定的术语)，以便数字分量对于传输是合格的。

例如，分发系统310可以接收包括特定关键字的数字分量请求。在此示例中，仅如果特定关键字被包括在关键字集群中，分发系统310才可以确定具有指定关键字集群的分发参数的具体数字分量对于响应于数字分量请求的传输是合格的。

在一些实施方式中，分发系统310使数字分量的提供者能设置从关键字集群的预定集合指定关键字集群的分发参数。分发系统310可以获得关键字集群的预定集合作为聚类系统100的输出(例如，最终聚类104)。由聚类系统100输出的关键字集群可以定义关键字向语义地相关的关键字集群的分组。例如，聚类系统100可以输出定义关键字“鞋子”、“鞋”、“鞋类”、“靴子”、“球鞋”、“高跟鞋”、“拖鞋”、“运动鞋”等向相同集群的分配的关键字集群。

通过使数字分量提供者能通过选择关键字集群来设置用于数字分量的分发参数，分发系统310能够减轻对于数字分量提供者在设置分发参数时手动地指定大量的相关关键字上的负担。例如，不是手动地指定相关关键字“鞋子”、“鞋”、“鞋类”、“靴子”、“球鞋”、“高跟鞋”、“拖鞋”、和“运动鞋”，数字分量提供者而是能够选择包括这些关键字中的一些或所有关键字的适当的预定关键字集群。

此外，通过使数字分量提供者能通过选择语义地相关的关键字的关键字集群来设置用于数字分量的分发参数，分发系统310能够减少在对于具有类似分发参数的数字分量的传输要求中的变化。例如，分发系统310可以取决于那些关键字的“流行度”来确定对于具有指定语义地相关的关键字的分发参数的数字分量的实质上不同的传输要求。关键字的流行度指代关键字由数字分量提供者指定为分发参数有多频繁。例如，尽管关键字“鞋子”和“鞋”是语义地相关的，但是关键字“鞋子”可能比关键字“鞋”更流行(即，因为“鞋子”是比“鞋”更自然的关键字表述)。在此示例中，分发系统310可以确定更大数量的数字分量对于响应于指定关键字“鞋子”而不是关键字“鞋”的数字分量请求的传输是合格的。因此，分发系统310可以确定对于具有指定关键字“鞋子”的分发参数的数字分量的比对于具有指定关键字“鞋”的分发参数的数字分量的更高传输要求。通过使数字分量提供者能设置指定语义地相关的关键字的关键字集群而不是单独的关键字的分发参数，分发系统310更有可能确定对于具有相似分发参数的数字分量的相似传输要求。

图4是用于选择关键字集群作为分发参数的示例数据流400的图示。

交互式窗口402(例如，在显示屏上)被呈现给数字分量提供者。交互式窗口402提示数字分量提供者“输入与您的观众正在积极地研究的产品和服务相关的关键字和URL”。数字分量提供者能够使用任何适当的数据输入设备(例如键盘)输入对于交互式窗口402中的提示的响应。

由数字分量提供者响应于交互式窗口402中的提示而输入的数据被提供给分发参数选择系统404(例如，其可以是参考图3描述的分发系统310的组件)。如果分发参数选择系统404检测由数字分量提供者响应于交互窗口402中的提示而输入的数据是URL，则分发参数选择系统404能够处理URL以确定一个或更多相关关键字。例如，分发参数选择系统404能够从对应于URL的登陆页面检索一个或多个关键字。

分发参数选择系统404对于从对于交互式窗口402中的提示的响应获得的每个关键字标识关键字集群。例如，对于从对于交互式窗口402中的提示的响应获得的每个关键字，分发参数选择系统404能够从预定的关键字集群的数据库标识包括关键字的对应关键字集群。在具体示例中，从对于交互式窗口402中的提示的响应获得的关键字可以是“鞋子”，并且分发参数选择系统404可以标识包括关键字：“鞋子”、“鞋”、“鞋类”、“靴子”、“球鞋”、“高跟鞋”、“拖鞋”、和“运动鞋”等的对应关键字集群406。如更早所述，预定的关键字集群的数据库可以是由参考图1描述的聚类系统100输出的语义地相关的关键字的关键字集群的集合。预定的关键字集群的数据库能够包括其它关键字集群，例如，包括关键字“菠萝”、“香蕉”、“柳橙”、“苹果”、“猕猴桃”、“青柠”、“黄柠”和“金橘”等的关键字集群408。

分发参数选择系统404在另一交互式窗口410中呈现标识的关键字集群，并且提示数字分量提供者(例如，使用鼠标点击)选择是否要将标识的关键字集群设置为用于数字分量的分发参数。响应于从数字分量提供者接收指示标识的关键字集群应该设置用于数字分量的分发参数的输入，分发参数选择系统404将关联标识的关键字集群的数据存储为与数字分量相关联的分发参数。

图5是能够用于执行上述操作的示例计算机系统500的框图。系统500包括处理器510、存储器520、存储设备530、和输入/输出设备540。组件510、520、530、和540中的每一个组件能够例如使用系统总线550互连。处理器510能够处理用于在系统500内运行的指令。在一种实施方式中，处理器510是单线程处理器。在另一实施方式中，处理器510是多线程处理器。处理器510能够处理存储在存储器520中或在存储设备530上的指令。

存储器520在系统500内存储信息。在一种实施方式中，存储器520是计算机可读介质。在一种实施方式中，存储器520是易失性存储单元。在另一实施方式中，存储器520是非易失性存储单元。

存储设备530能够为系统500提供大容量存储。在一种实施方式中，存储设备530是计算机可读介质。在各种不同的实施方式中，存储设备530能够包括例如硬盘设备、光盘设备、由多个计算设备在网络之上共享的存储设备(例如，云存储设备)、或某个其它大容量存储设备。

输入/输出设备540为系统500提供输入/输出操作。在一种实施方式中，输入/输出设备540能够包括一个或更多网络接口设备(例如，以太网卡)、串行通信设备(例如，RS-232端口)、和/或无线接口设备，例如，和802.11卡。在另一实施方式中，输入/输出设备能够包括驱动器设备，该驱动器设备配置为接收输入数据并且将输出数据传送到其它输入/输出设备，例如键盘、打印机、和显示设备560。然而，也能够使用其它实施方式，诸如移动计算设备、移动通信设备、机顶盒电视客户端设备等。

尽管在图5中已经描述了示例处理系统，但是能够以其它类型的数字电子电路、或以计算机软件、固件、或硬件(包括本说明书中公开的结构及其结构等同)、或以其中的一个或更多的组合来实施本说明书中描述的主题和功能性操作的实施方式。

本说明书结合系统和计算机程序组件使用术语“配置”。对于要配置为执行具体操作或动作的一个或更多计算机的系统，意味着系统已经在其上安装了在操作中使得系统执行操作或动作的软件、固件、硬件、或它们的组合。对于要配置为执行具体操作或动作的一个或更多计算机程序，意味着一个或更多程序包括当由数据处理装置运行时使得装置执行操作或动作的指令。

本说明书中描述的主题和功能性操作的实施例能够以数字电子电路、以有形体现的计算机软件或固件、以计算机硬件(包括本说明书中公开的结构及其结构等同)、或以其中的一个或更多的组合实施。本说明书中描述的主题的实施例能够实施为一个或更多计算机程序，即，在有形的非暂时性存储介质上编码的用于由数据处理装置运行或控制数据处理装置的操作的计算机程序指令的一个或更多模块。计算机存储介质能够是机器可读存储设备、机器可读存储基板、随机或串行访问存储器设备、或其中的一个或更多的组合。替代地或附加地，程序指令能够被编码在被生成以编码用于向合适的接收器装置传输用于由数据处理装置运行的信息的人工生成的传播信号上，例如机器生成的电、光、或电磁信号。

术语“数据处理装置”指代数据处理硬件，并且涵盖用于处理数据的装置、设备、和机器的所有种类，通过示例的方式包括可编程处理器、计算机、或多个处理器或计算机。装置也能够是或还包括专用逻辑电路，例如，FPGA(field programmable gate array，现场可编程门阵列)或ASIC(application specific integrated circuit，专用集成电路)。除硬件之外，装置能够可选地包括为计算机程序创建运行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或其中的一个或更多的组合的代码。

能够以包括编译的或解释的语言、或声明性或程序性语言的编程语言的任何形式来编写计算机程序，计算机程序也可以称为或描述为程序、软件、软件应用、应用、模块、软件模块、脚本、或代码；并且计算机程序能够以任何形式部署，包括作为独立程序或作为模块、组件、子例程、或适用于计算环境中的使用的其它单元。程序可以但是不需要对应于文件系统中的文件。程序能够存储在保存其它程序或数据(例如，存储在标记语言文档中的一个或更多脚本)的文件的部分中，存储在专用于所讨论的程序的单个文件中，或存储在多个协调文件中(例如，存储一个或更多模块、子程序、或代码的部分的文件)。计算机程序能够部署为在一个计算机上或在定位在一个站点处或跨越多个站点分布并且通过数据通信网络互连的多个计算机上运行。

在本说明书中，术语“引擎”广泛地用于指代被编程为执行一个或更多特定功能的基于软件的系统、子系统、或过程。一般地，引擎将被实施为安装在一个或更多定位中的一个或更多计算机上的一个或更多软件模块或组件。在某些情况下，一个或更多计算机将专用于具体引擎。在其它情况下，多个引擎能够在相同的一个计算机或多个计算机上安装并且运行。

本说明书中描述的过程和逻辑流程能够由运行一个或更多计算机程序以通过操作输入数据并且生成输出来执行功能的一个或更多可编程计算机执行。过程和逻辑流程也能够由专用逻辑电路(例如，FPGA或ASIC)、或由专用逻辑电路和一个或更多编程的计算机的组合执行。

适用于计算机程序的运行的计算机能够基于通用或专用微处理器或两者、或中央处理单元的任何其它种类。一般地，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元以及用于存储指令和数据的一个或更多存储设备。中央处理单元和存储器能够由专用逻辑电路补充或并入专用逻辑电路中。一般地，计算机也将包括用于存储数据的一个或更多大容量存储设备(例如，磁、磁光盘、或光盘)，或可操作地耦合以从大容量存储设备接收数据或向其传输数据，或两者。然而，计算机不需要具有这样的设备。此外，计算机能够嵌入在另一设备中，例如，移动电话、个人数字助理(personal digital assistant，PDA)、移动音频或视频播放器、游戏机、全球定位系统(Global Positioning System，GPS)接收器、或便携式存储设备(例如通用串行总线(universal serial bus，USB)闪存驱动器)，仅举几例。

适用于存储计算机程序指令和数据的计算机可读介质包括非易失性存储器、介质和存储设备的所有形式，通过示例的方式包括半导体存储设备，例如，EPROM(ElectricallyProgrammable Read Only Memory，电可编程只读存储器)、EEPROM(ElectricallyErasable Programmable Read Only Memory，电可擦除可编程只读存储器)、和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。

为了提供用于与用户的交互，本说明书中描述的主题的实施例能够在具有用于向用户显示信息的显示设备(例如CRT(cathode ray tube，阴极射线管)或LCD(liquidcrystal display，液晶显示器)监视器)以及用户能够通过其向计算机提供输入的键盘和指点设备(例如鼠标或轨迹球)的计算机上实施。设备的其它种类也能够用于提供用于与用户的交互；例如，向用户提供的反馈能够是感觉反馈的任何形式，例如视觉反馈、听觉反馈、或触觉反馈；并且来自用户的输入能够以任何形式接收，包括声音、语音、或触觉输入。另外，计算机能够通过向由用户使用的设备传送文档以及从由用户使用的设备接收文档来与用户交互；例如，通过响应于从网络浏览器接收的请求，将网页传送到用户设备上的网络浏览器。而且，计算机能够通过向个人设备(例如，运行消息收发应用的智能电话)传送文本消息或消息的其它形式并且反过来从用户接收响应消息来与用户交互。

用于实施机器学习模型的数据处理装置也能够包括例如专用硬件加速器单元，用于处理机器学习训练或生产的通用和计算密集型部分，即推理、工作量。

能够使用机器学习框架，例如，TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架、或Apache MXNet框架来实施并且部署机器学习模型。

本说明书中描述的主题的实施例能够在包括后端组件(例如，作为数据服务器)、或包括中间件组件(例如，应用服务器)、或包括前端组件(例如，具有通过其用户能够与本说明书中描述的主题的实施方式交互的图形用户界面、网页浏览器、或应用的客户端计算机)、或一个或更多这样的后端、中间件、或前端组件的任意组合的计算系统中实施。系统的组件能够通过数字数据通信的任何形式或介质(例如，通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如互联网。

计算系统能够包括客户端和服务器。客户端和服务器一般地彼此远离，并且典型地通过通信网络交互。客户端与服务器的关系凭借在相应计算机上运行并且对于彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器向用户设备发送数据(例如HTML页面)，用于向与充当客户端的设备交互的用户显示数据并且从用户接收用户输入的目的。能够在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

尽管本说明书包含许多特定的实施细节，但是这些不应该解释为对任何发明的范围或对可以要求保护的范围的限制，而是应该解释为对可以特定于具体发明的具体实施例的特征的描述。以分开的实施例的上下文在本说明书中描述的某些特征也能够在单个实施例中以组合实施。相反地，在单个实施例的上下文中描述的各种特征也能够分开地在多个实施例中或以任何合适的子组合来实施。而且，尽管以上可以将特征描述为以某些组合起作用，并且甚至初始地如这样要求保护，但是来自要求保护的组合的一个或更多特征能够在某些情况下从组合切除，并且要求保护的组合可以指向子组合或子组合的变化。

类似地，尽管以具体顺序在附图中描绘并且在权利要求中叙述操作，但是这不应该被理解为要求以所示的具体顺序或以连续顺序执行这样的操作，或者执行所有图示的操作，以实现期望的结果。在某些情形下，多任务和并行处理可能是有利的。此外，以上描述实施例中的各种系统模块和组件的分开不应该被理解为在所有实施例中要求这样的分开，并且应当理解，所描述的程序组件和系统能够一般地一起集成在单个软件产品或打包成多个软件产品。

已经描述了主题的具体实施例。其它实施例在随后的权利要求的范围内。例如，权利要求中叙述的动作能够以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不必要地要求所示的具体顺序或连续顺序来实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。

Claims

1.一种由数据处理装置实施的方法，所述方法包括，在一个或更多迭代中的每一个迭代处：

获得定义多个数据元素的当前聚类的数据，其中所述当前聚类定义所述数据元素中的每一个数据元素向相应集群的分配，并且其中每个集群代表一个或更多数据元素的相应组；

确定用于多个集群对中的每一个集群对的相应链接值，其中每个集群对包括由所述当前聚类定义的相应第一集群和由所述当前聚类定义的相应第二集群，其中，确定用于集群对的链接值包括：

确定用于所述集群对的成对相似性值的集合，其中每个成对相似性值定义以下两者之间的相似性度量：(i)来自所述集群对的第一集群的第一数据元素、与(ii)来自所述集群对的第二集群的第二数据元素；以及

将所述成对相似性值的集合的给定百分位作为用于所述集群对的链接值分配，其中所述给定百分位大于0并且小于100；

基于用于所述多个集群对的链接值标识要合并的具体集群对；以及

通过合并所标识的集群对更新定义所述当前聚类的数据，

其中，所述数据元素是关键字，并且

其中，(i)来自所述集群对的第一集群的第一数据元素、与(ii)来自所述集群对的第二集群的第二数据元素之间的相似性度量，表征以下两者之间的相似性：(i)响应于向搜索引擎提供来自所述集群对的第一集群的第一数据元素作为查询而获得的搜索结果的第一集合、与(ii)响应于向所述搜索引擎提供来自所述集群对的第二集群的第二数据元素作为查询而获得的搜索结果的第二集合。

2.根据权利要求1所述的方法，其中，在所述一个或更多迭代的第一迭代处，所述聚类定义所述数据元素中的每一个数据元素向不同相应集群的分配。

3.根据权利要求1所述的方法，其中，基于用于所述多个集群对的链接值标识要合并的具体集群对包括：

标识具有最高链接值的具体集群对。

4.根据权利要求3所述的方法，还包括：

确定所述最高链接值大于预定的阈值链接值。

5.根据权利要求1所述的方法，还包括：

在所述一个或更多迭代的最终迭代之后，输出定义所述当前聚类的数据。

6.根据权利要求1所述的方法，其中，确定用于所述集群对的成对相似性值的集合，其中每个成对相似性值定义以下两者之间的相似性度量：(i)来自所述集群对的第一集群的第一数据元素、与(ii)来自所述集群对的第二集群的第二数据元素，包括：

访问包括预先计算的成对相似性值的数据存储，所述预先计算的成对相似性值定义所述多个数据元素的每对数据元素之间的相应相似性度量。

7.根据权利要求1所述的方法，其中，基于响应于将第一关键字作为查询提供给搜索引擎而获得的搜索结果的第一集合和响应于将第二关键字作为查询提供给搜索引擎而获得的搜索结果的第二集合中，有多少共同的搜索结果，来确定第一关键字和第二关键字之间的相似性度量。

8.根据权利要求7所述的方法，还包括，在所述一个或更多迭代的最终迭代之后：

接收包括特定关键字的数字分量请求；

确定具体数字分量对于响应于所述数字分量请求的传输是合格的，包括：

确定所述具体数字分量具有指定包括所述特定关键字的关键字集群的分发参数，其中，所述关键字集群是在所述一个或更多迭代的最终迭代处由所述当前聚类定义的集群；以及

响应于所述数字分量请求发送所述具体数字分量。

9.一种数据处理系统，包括：

数据处理装置；

存储器，与所述数据处理装置数据通信并且存储使得所述数据处理装置执行操作的指令，所述操作包括，在一个或更多迭代中的每一个迭代处：

通过合并所标识的集群对更新定义所述当前聚类的数据，

其中，所述数据元素是关键字，并且

10.根据权利要求9所述的系统，其中，在所述一个或更多迭代的第一迭代处，所述聚类定义所述数据元素中的每一个数据元素向不同相应集群的分配。

11.根据权利要求9所述的系统，其中，基于用于所述多个集群对的链接值标识要合并的具体集群对包括：

标识具有最高链接值的具体集群对。

12.根据权利要求11所述的系统，其中，所述操作还包括：

确定所述最高链接值大于预定的阈值链接值。

13.根据权利要求9所述的系统，其中，所述操作还包括：

14.一个或更多个非暂时性计算机存储介质，其存储当由一个或更多计算机运行时使得所述一个或更多计算机执行操作的指令，所述操作包括，在一个或更多迭代中的每一个迭代处：

通过合并所标识的集群对更新定义所述当前聚类的数据，

其中，所述数据元素是关键字，并且

15.根据权利要求14所述的一个或更多个非暂时性计算机存储介质，其中，在所述一个或更多迭代的第一迭代处，所述聚类定义所述数据元素中的每一个数据元素向不同相应集群的分配。

16.根据权利要求14所述的一个或更多个非暂时性计算机存储介质，其中，基于用于所述多个集群对的链接值标识要合并的具体集群对包括：

标识具有最高链接值的具体集群对。

17.根据权利要求16所述的一个或更多个非暂时性计算机存储介质，其中，所述操作还包括：

确定所述最高链接值大于预定的阈值链接值。

18.根据权利要求14所述的一个或更多个非暂时性计算机存储介质，其中，所述操作还包括：

19.根据权利要求14所述的一个或更多个非暂时性计算机存储介质，其中，确定用于所述集群对的成对相似性值的集合，其中每个成对相似性值定义以下两者之间的相似性度量：(i)来自所述集群对的第一集群的具体数据元素、与(ii)来自所述集群对的第二集群的给定数据元素，包括：