CN107430625B

CN107430625B - 通过集群对文档进行分类

Info

Publication number: CN107430625B
Application number: CN201680019081.7A
Authority: CN
Inventors: 麦克·本德斯基; 杨杰; 阿米塔巴·赛基亚; 马克-艾伦·卡尔特莱特; 苏吉特·拉维; 巴林特·米克洛什; 伊沃·克尔卡; 瓦尼亚·约西福夫斯基; 詹姆斯·文特; 路易斯·加西亚·普埃约
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-04-27
Filing date: 2016-04-26
Publication date: 2020-10-27
Anticipated expiration: 2036-04-26
Also published as: WO2016176197A1; CN107430625A; US20160314184A1; EP3289543A1

Abstract

提供了用于基于与集群/模板的关联性对电子文档(诸如，电子邮件)进行集体分类或者“标记”的方法、设备、系统、和计算机可读介质。在各种实施方式中，可以基于一个或者多个共享内容属性将文档的语料库聚组成多个不相交的文档集群。可以基于分配给第一集群的单独的文档的分类来确定与所述多个集群中的所述第一集群相关联的分类分布。然后可以至少部分地基于与所述第一集群相关联的所述分类分布以及在所述第一集群与第二集群之间的关系来确定与所述多个集群中的第二集群相关联的分类分布。

Description

通过集群对文档进行分类

背景技术

自动生成的文档(诸如，企业对消费者(“B2C”)电子邮件、发票、收据、行程单等)可能会比，例如，主要包含个性化散文(诸如，个人对个人电子邮件或者报告)的文档，更强烈地遵循结构化模式。可以基于相似性将自动生成的文档聚组成文档集群，并且可以为每个集群反向设计模板。还可以对各种文档(诸如，电子邮件)进行分类，例如，通过向各种文档分配“标记”，诸如，“行程”、“财务”、“收据”等。由于涉及潜在大量的数据，因此以个体为基础对文档进行分类可能会消耗大量的资源，即使是使该操作自动化也如此。另外，基于其内容对单独的文档进行分类可能会引起隐私问题。

发明内容

本公开大体上涉及用于基于电子文档(诸如，电子邮件)与电子文档的特定集群的关联性来对该电子文档(诸如，电子邮件)进行分类的方法、设备、和计算机可读介质(暂时性和非暂时性)。首先可以基于一个或者多个共享内容属性将文档聚组成集群。在一些实施方式中，可以为每个集群生成所谓的“模板”。同时，可以基于分配给这些集群中的单独的文档的分类或者“标记”来确定与集群相关联的分类分布。例如，一个集群的分类可以是20％的“行程”、40％的“收据”、和40％的“财务”。基于在集群之间(并且更具体地，在表示集群的模板之间)的各种类型的关系，可以计算具有未分类的文档的集群的分类分布。在某些情况下，可以重新计算所有文档被分类的集群的分类分布。在一些实施方式中，针对集群计算得到的分类分布可以用于集体地对集群中的所有文档进行分类。

基于文档与特定集群和/或模板的关联性对该文档进行分类可以产生各种技术优点。例如，从存储器和/或处理周期方面讲，基于单独的文档的特定内容对该单独的文档进行分类可能会消耗大量的资源。相反，本文所描述的技术有助于集体地对文档集群进行分类，从而为其它应用节省了计算资源。另外，基于文档与集群的关联性以及在集群(或者表示该集群的模板)与另一集群(或者表示另一集群的模板)之间的相似性(而不是基于其单独的内容)对该集群中的文档进行分类可以避免访问潜在敏感和/或机密的数据。

在一些实施方式中，可以提供一种计算机实现的方法，其包括以下步骤：基于一个或者多个共享内容属性将文档的语料库聚组成多个不相交的文档集群；确定与多个集群中的第一集群相关联的分类分布，与第一集群相关联的该分类分布基于分配给第一集群的单独的文档的分类；以及至少部分地基于与第一集群相关联的分类分布以及在第一集群与第二集群之间的关系来计算与多个集群中的第二集群相关联的分类分布。

可选地，本文所公开的技术的该方法和其它实施方式分别可以包括以下特征中的一个或者多个特征。

在一些实施方式中，该方法可以包括：基于与第二集群相关联的分类分布对第二集群的文档进行分类。在一些实施方式中，该方法可以包括：生成节点图，每个节点经由一条或者多条相应边连接至一个或者多个其它节点，每个节点表示集群并且包括对由集群的文档共享的一个或者多个内容属性的一些指示。在一些实施方式中，可以基于由两个节点表示的集群之间的关系来对连接这两个节点的每条边进行加权。在一些实施方式中，该方法可以进一步包括：使用余弦相似性或者Kullback-Leibler散度来确定由两个节点表示的集群之间的关系。在一些实施方式中，该方法可以进一步包括：使用k条边将每个节点连接至k个最近邻节点。在各种实施方式中，该k个最近邻节点可以与该节点具有k个最强关系，并且k可以是正整数。

在各种实施方式中，每个节点可以包括对由该节点表示的集群相关联的分类分布的指示。在各种实施方式中，该方法可以进一步包括：基于与连接至表示特定集群的特定节点的m个节点相关联的m个分类分布来更改与特定集群相关联的分类分布，其中，m是小于或者等于k的正整数。在各种实施方式中，更改可以进一步基于分配给将m个节点连接至特定节点的m条边的m个权重。

在各种实施方式中，该方法可以进一步包括：计算与第一集群相关联的至少分类分布的可用分类的质心向量。在各种实施方式中，该方法可以进一步包括：基于在第二集群与至少一个质心向量之间的关系来计算与第二集群相关联的分类分布。

在各种实施方式中，该方法可以进一步包括：基于在第一集群的文档之间共享的一个或者多个内容属性来生成与第一集群相关联的第一模板，以及基于在第二集群的文档之间共享的一个或者多个内容属性来生成与第二集群相关联的第二模板。在各种实施方式中，可以至少部分地基于在第一模板与第二模板之间的相似性进一步计算与第二集群相关联的分类分布。在各种实施方式中，该方法可以进一步包括：使用余弦相似性或者Kullback-Leibler散度来确定在第一模板与第二模板之间的相似性。

在各种实施方式中，生成第一模板可以包括：生成在第一集群的至少阈值分数的文档中找到的第一固定文本部分集合，以及生成第二模板可以包括：生成在第二集群的至少阈值分数的文档中找到的第二固定文本部分集合。在各种实施方式中，生成第一模板可以包括：基于第一集群的文档的内容来计算第一主题集合，以及生成第二模板可以包括：基于第二集群的文档的内容来计算第二主题集合。在一些实施方式中，可以通过使用潜在狄利克雷分配来计算第一主题集合和第二主题集合。

其它实施方式可以包括存储指令的非暂时性计算机可读存储介质，该指令可由处理器执行以进行方法，诸如，上述方法中的一种或者多种方法。再一实施方式可以包括系统，该系统包括存储器和一个或者多个处理器，该一个或者多个处理器可操作以执行存储在存储器中的指令以实施单独地或者共同地进行方法(诸如，上述方法中的一种或者多种方法)的一个或者多个模块或者引擎。

应该了解，本文更详细地描述的前述概念和附加概念的所有组合都被视作本文所公开的主题的一部分。例如，出现在本公开结束处的所要求的主题的所有组合都被视作本文所公开的主题的一部分。

附图说明

图1图示了可以通过本公开的各种部件对文档(例如，电子邮件)的语料库进行集体分类或者“标记”的环境。

图2描绘了根据各种实施方式的如何计算质心模板节点的示例。

图3描绘了根据各种实施方式的可以通过使用表示文档集群的模板节点来构建的示例图表。

图4图示了根据各种实施方式的基于(除其它事物之外)与其它节点相关联的分类分布可以如何更改与一个模板节点相关联的分类分布的示例。

图5描绘了根据各种实施方式的图示了文档进行集体分类的示例方法的流程图。

图6和图7描绘了根据各种实施方式的图示了基于与其它模板节点相关联的分类分布来计算与模板节点相关联的分类分布的流程图。

图8示意性地描绘了计算机系统的示例架构。

具体实施方式

图1图示了可以基于与特定的文档集群的关联性来对语料库的文档进行集体分类或者“标记”的示例环境。虽然按照特定顺序描绘了这些过程，但是这并不旨在进行限制。可以按照不同的顺序执行一个或者多个过程，而不影响整体方法如何操作。可以通过使用硬件和软件的任何组合来实施本文所描述的引擎。在各种实施方式中，由本文所描述的集群引擎124、分类分布识别引擎128、模板生成引擎132、分类引擎134、和/或其它引擎或者模块执行的操作可以在单独的计算机系统上执行、分布在多个计算机系统中、或者上述两种情况的任何组合。这些一个或者多个计算机系统可以通过一个或者多个网络(未描绘)与彼此以及与其它计算机系统进行通信。

如本文所使用的，“文档”或者“电子文档”可以是指通信，诸如，电子邮件、文本消息(例如，SMS、MMS)、即时消息、转录的语音邮件、或者存储在任何类型的计算机存储器中的任何其它文本文档，特别是自动生成的文本文档(例如，B2C电子邮件、发票、报告、收据等)。在各种实施方式中，文档100可以包括各种元数据。例如，电子通信(诸如，电子邮件)可以包括电子通信地址，诸如，一个或者多个发送方标识符(例如，发送方电子邮件地址)、一个或者多个接收方标识符(例如，接收方电子邮件地址，包括：cc'd和bcc'd接收方)、发送日期、一个或者多个附件、主题等。

可以通过集群引擎124将文档100的语料库聚组成集群152a-n。然后可以由模板生成引擎132对这些集群进行分析以生成集群的表示，在本文中可以将这些表示称为“模板”154a-n。在一些实施方式中，集群引擎124可以配置为基于在语料库内的一个或者多个文档100的内容之间共享的一个或者多个属性将文档100的语料库聚组成多个集群152a-n。在一些实施方式中，该多个集群152a-n可以是不相交的，从而使得文档不在该多个集群之间共享。在一些实施方式中，集群引擎124可以具有一个或者多个初步筛选机制，以丢弃不适合于模板生成的通信。例如，如果处在分析中的文档100的语料库包括个人电子邮件和B2C电子邮件，则可以丢弃个人电子邮件(该个人电子邮件可能会具有不可预知的不同结构)。

集群引擎124可以通过使用各种技术将文档聚组成集群。在一些实施方式中，可以基于发送方身份和主题对文档(诸如，电子邮件)进行聚类。例如，可以开发与电子邮件主题的非个性化部分相匹配的模式，诸如，正则表达式。可以将与这种模式相匹配并且来自一个或者多个发送方电子邮件地址(或者来自与一个或者多个模式相匹配的发送方电子邮件地址)的电子邮件(例如，语料库的电子邮件)聚组成电子邮件集群。

在一些实施方式中，可以基于底层结构相似性对文档进行聚类。例如，电子邮件的xPath集合(例如，到达电子邮件的HTML节点树中的每个节点的地址集合)可以独立于电子邮件的文本内容。因此，可以基于共享xPath的数量来确定在两个或者更多个这种电子邮件之间的相似性。可以基于电子邮件与该集群的电子邮件共享的xPath数量比与任何其它集群的电子邮件共享的xPath数量更多，来将该电子邮件分配给特定集群。另外或者可替选地，可以基于将两个电子邮件共享的xPath的数量与这两个电子邮件中的xPath的总数量进行比较，来将这两个电子邮件聚类在一起。

在一些实施方式中，另外或者可替选地，可以基于文本相似性将文档聚组成集群。例如，可以对电子邮件进行分析以确定共享项、短语、ngram、ngram加上频率等。例如，可以将共享特定数量的共享短语和ngram的电子邮件聚类在一起。在一些实施方式中，另外或者可替选地，可以基于字节相似性将文档聚组成集群。例如，可以将电子邮件视为可以包括结构(例如，元数据、xPath)和文本内容中的一种或者二种的字节串。在一些实施方式中，也可以使用上述技术中的两种或者更多种技术的加权组合。例如，可以考虑结构相似性和文本相似性二者，着重强调其中一种或者另一种。

一旦将文档的语料库聚组成集群152a-n，则分类分布识别引擎128可以确定与每个集群相关联的分类分布。例如，分类分布识别引擎128可以对集群中的被分类(或者“标记”)为“财务”、“收据”、“行程”等的电子邮件进行计数，并且可以提供对这种分布的指示，例如，作为纯计数或者作为整个集群的文档的百分比。

模板生成引擎132可以配置用于为多个集群152a-n生成模板154a-n。如上文提到的，“模板”154可以是指在集群的文档之间共享的内容属性156的各种表示形式。在一些实施方式中，可以将共享内容属性156表示成“词袋”。例如，为集群生成的模板154可以包括在集群中的至少阈值分数的文档中找到的固定文本部分集合(例如，样板、用于格式化的文本等)作为共享内容属性156。在一些实例中，该固定文本部分集合还可以包括权重，例如，基于该固定文本部分集合的频率。

在一些实施方式中，可以将模板T定义为与所谓的“模板标识符”相匹配的文档集合D^T＝{D₁,…D_n}。在一些实施方式中，如上所述，模板标识符可以是用于将文档聚组成特定集群的<sender,subject-regexp>元组。可以将该文档集合D^T令牌化为每个模板的唯一项的集合，例如，该唯一项的集合可以与词袋对应。在模板项x给定的情况下，可以将该项的“支持”S_x定义为D^T中的包含该项的多个文档，或者在形式上定义为：

(1)

可以将模板的“固定文本”或者F^T定义为支持S_x大于多个文档中与该模板相关联的某些分数的项集合，或者在形式上定义为：

(2)

其中，可以将0<τ<1设置为特定分数，以从生成的模板固定文本表示中去除个人信息。固定文本F^T然后可以用于表示模板，例如，作为(下文讨论的)模板节点图中的节点。

在一些实施方式中，可以将模板生成为基于主题的表示，而不是生成为词袋。可以将各种主题建模技术应用于集群中的文档，以生成主题集合。例如，在一些实施方式中，可以将潜在狄利克雷分配主题建模应用于模板的固定文本{例如，由等式2表示的固定文本}。在某些情况下，可以确定权重，并且可以将权重与这些主题相关联。

在一些实施方式中，每个模板154可以包括其分类分布158的指示，如上文提到的，例如，该指示可以由分类分布识别引擎128确定。例如，模板154可以包括集群内的按照特定方式进行分类的文档的百分比。在一些实施方式中，模板T的分类(或者“标记”)分布可以在形式上由以下等式定义：

(3)L^T＝{p(L₁|T)，...，p(L_m|T)}

并非所有文件都需要进行分类，并且在一些集群中，可以不对任何文档进行分类。如将在下文进一步解释的，在一些实施方式中，可以存储包括其相应内容属性156和分类分布158的模板154作为图或者树的节点。这些节点以及在这些节点之间的关系(即，边)可以用于确定具有未分类的文档的集群的分类分布。

在各种实施方式中，分类引擎134可以配置为对与每个模板(因此，每个集群)相关联的文档进行分类。分类引擎134可以通过使用各种技术来执行这些计算。例如，在一些实施方式中，分类引擎134可以使用所谓的“多数”分类技术来对集群的文档进行分类。利用该技术，分类引擎134可以根据对应模板的现有分类分布158利用集群中具有最高分布的分类来对与该集群相关联的所有文档进行分类。例如，如果将给定集群的文档分类成60％“财务”、20％“行程”、和20％“收据”，则分类引擎134可以将与该集群相关联的所有文档重新分类为“财务”。

多数分类技术对于没有明显的多数分类的集群的适用性可能是有限的。因此，在一些实施方式中，分类引擎134可以利用更复杂的技术来对集群152的文档进行分类和/或重新分类。例如，分类引擎134可以至少部分地基于与多个集群152中的其它集群相关联的分类分布和/或基于在一个或者多个集群与多个集群152中的其它集群之间的一种或者多种关系来计算(如果尚不是已知的)或者重新计算与多个集群152中的一个或者多个集群相关联的分类分布。

在一些实施方式中，分类引擎134可以将多个模板154组织成图，其中，每个模板154由图中的节点(在本文中还称为“模板节点”)表示。在一些实施方式中，该图的两个或者更多个节点可以利用边彼此连接。每条边可以表示两个节点之间的“关系”。在一些实施方式中，可以对边进行加权，例如，以反映节点之间的关系的强度。在一些实施方式中，可以基于由节点表示的模板之间的相似性来确定两个节点之间的关系的强度(因此，分配给这两个节点之间的边的权重)。

可以通过使用下文更详细地描述的各种技术(诸如，余弦相似性或者Kullback-Leibler("KL")散度)来计算模板之间的“相似性”(即，边权重)。假设用w(x,T)来表示模板T中的项x的权重。对于词袋模板中的项，这可以是二进制权重，例如，以避免对模板中的重复固定项(例如，在收据中重复词语“价格”)进行过度加权。对于主题表示，这可以是主题权重分配。假设项概率p(x|T)如下定义：

(4)

假设平滑版本的项概率

如下定义：

(5)

其中，ε是用于Laplacian平滑的最小常数。

可以通过使用等式(诸如，以下等式)来计算在两个模板T_i与T_j(这两个模板T_i和T_j可以在其对应节点之间产生加权的无向边)之间的余弦相似性：

(6)

可以通过使用等式(诸如，以下等式)来计算在两个模板T_i与T_j(这两个模板T_i和T_j可以在其对应节点之间产生加权的有向边)之间的Kullback-Leibler散度：

(7)

在各种实施方式中，这些加权边(如上文提到的，其表示模板之间的关系)可以用于计算和/或重新计算与模板相关联的分类分布(最终，文档集群)。换言之，模板间关系(与纯模板内关系相反)可以用于计算文档集群的分类分布。一旦计算了模板的分类分布，则在各种实施方式中，可以基于计算得到的分类分布来对由模板表示的文档集群中的每个文档进行分类(或者重新分类)。可以按照各种方式使用模板间关系来计算或者重新计算与集群相关联的分类分布。

在一些实施方式中，可以采用所谓的“质心相似性”来计算和/或重新计算集群的分类分布。如上文所讨论的，假设通过使用模板的固定文本F^T来表示该模板。可以为每个分类或者“标记”L_i导出种子模板集合

使得

(8)

换言之，种子模板是已经利用100％置信度对对应文档进行分类的模板。对于每个种子模板集合

可以通过对其模板的固定文本向量F^T进行平均来计算质心向量(其本身可以表示成模板节点)。然后，对于具有标记分布L^T的每个非种子模板T，可以计算其与和L^T中的分类(或者“标记”)对应的质心的相似性(例如，边“距离”)。然后，可以将与非种子模板T最相似(例如，“最接近”)的质心模板节点的分类(或者“标记”)分配给非种子模板T中的所有文档。

图2描绘了可以如何计算质心模板节点154e的非限制性示例。已经选择了四个模板节点154a-d作为种子模板，因为这四个模板节点154a-d的100％的对应文档都被分类为“收据”。然而，在其它实施方式中，即使模板的不足100％的对应文档被按照特定方式进行了分类，也可以选择这些模板作为种子，只要能利用满足给定阈值(例如，100％、90％等)的置信度量对文档进行分类即可。与这四个种子模板154a-d中的每一个种子模板相关联的内容属性156包括项和对应权重的列表。例如，给定项的权重可以表示与发现该项的模板154相关联的文档数量，或者甚至表示在与模板154相关联的文档中该项的原始计数。

在该示例中，已经通过对分配给这四个种子模板154a-d中的项的权重进行平均来计算第五质心模板154e。虽然在本示例中将质心模板154e的项权重示出为两个小数点，但是这并不旨在作为限制，并且在一些实施方式中，可以对平均项权重进行向上或者向下舍入。可以为其它分类/标记(诸如，为“行程”和“财务”)计算相似的质心模板。一旦为每个可用分类/标记计算了质心模板，可以计算这些质心模板与其它非种子模板154(例如，具有数量不足的分类文档或者不同分类(heterogeneously-classified)的文档的模板)之间的相似性(即，边权重)。可以向非种子模板154分配与其“最接近”(例如，最相似)的质心模板对应的分类分布158。在一些实施方式中，然后可以根据新分配的分类对与该非种子模板154相关联的文档进行统一地分类。

假设非种子模板154包括分类为“收据”的二十个电子邮件、分类为“财务”的二十个电子邮件、和二十个未分类的电子邮件。可以计算在非种子模板154与“收据”和“财务”质心之间的距离(例如，相似性)。如果收据质心与非种子模板154最接近(例如，最相似)，则可以将由模板154表示的集群中的所有60个电子邮件重新分类为“收据”。通过使用这种方法，可以有效地对与具有统一分类分布的模板相关联的文档进行标记。该方法还可以用于将标记分配给未对多数文档进行标记的集群中的文档。

在一些实施方式中，与基于多数或者基于质心的方法相反，可以采用所谓的“分层传播”来计算和/或重新计算模板节点的分类分布。现在参照图3，分类引擎134可以配置为首先构建图300，在该图300中，经由边350将每个模板节点154连接至其k个最近的(例如，k个最相似、k个最强关系)邻模板节点。(k可以是正整数)。在一些实施方式中，可以将k设置为各种值，诸如，10。在该限制性示例中，k＝3。然后，例如，分类引擎134可以通过使用上文的等式(8)来识别所谓的“种子”节点，并且可以将这些节点用作分层传播算法的初始输入。可以使凸目标函数(诸如，以下的凸目标函数)最小化以确定所谓的“已学习的”标记分布

(9)

其中，N(T)是节点T的相邻节点集合，w_T，T’表示在图300中的模板节点对之间的边权重，U是所有标记上的先前分类分布，并且μ_i表示这些分量中的每一个分量的正则化参数。在一些实施方式中，μ₁＝1.0、μ₂＝0.1、以及μ₃＝0.01。

可以是模板节点T的已学习的标记分配，而L^T表示种子节点的真实分类分布。等式(9)可以捕获以下特性：(a)标记分布应该接近于所有种子模板的可接受标记分配；(b)类似地，应该通过边相似性对相邻节点对的标记分布进行相似性加权；(c)标记分布应该接近先前的U，该先前的U可以是统一的或者可以作为输入而提供。

在模板传播的第一次迭代中，种子节点可以将其分类分布广播至其k个最近邻节点。从至少一个相邻模板节点接收分类分布的每个节点可以基于(i)分配给传入边350(通过其接收到分类分布)的权重以及(ii)传入分类分布本身来更新其现有的分类分布。在随后的迭代中，已经确定和/或计算了至少一些分类分布的所有节点可以将这些分类分布广播和/或重新广播至相邻节点。该过程可以重复，直到传播的分类分布收敛。在一个实验中，观察到分类分布在大约十次迭代内收敛。

图4描绘了可以如何使用节点/模板的已知的分类分布来计算和/或重新计算其它节点/模板的分类分布的一个示例。第一模板节点154a包括40％的“收据”、30％的“财务”、和30％的“行程”的分类分布158a。第二模板节点154b包括分类分布158b，但是实际分布尚不可知。第三模板节点154c包括50％的“收据”、30％的“财务”、和20％的“行程”的分类分布158c。通过权重为0.6(如上文提到的，例如，其可以指示在内容属性156a与156b之间的相似性)的边350a将第一模板节点154a连接至第二模板节点154b。通过权重为0.4的边350b将第三模板节点154c连接至第二模板节点154b。在各种实施方式中，可以将至/来自特定模板节点154的边权重归一化，总计达1。此处，只描绘了两条边，但是在其它实施方式中，可以使用更多条边。例如，如上文提到的，在一些实施方式中，模板节点154可以连接至k＝10个最近邻。

如箭头指示的，可以将第一模板节点154a和第三模板节点154c的分类分布传播至第二模板节点154b。可以将相应分类分布158a的每个分类概率(p)与所示的相应边权重相乘。如下面所示，可以将每个分类概率的传入结果之和用作第二模板节点154b的分类概率。例如，将与第一模板节点154a相关联的文档的40％分类为“收据”，并且在第一模板节点154a与第二模板节点154b之间的边350a的权重为0.6，因此，在第二模板154b处的针对来自第一模板154a的“收据”的最终传入分类概率是24％(40％×0.6＝24％)。在第二模板节点154b处的针对来自第三模板节点154c的“收据”的最终传入分类概率是20％。如果边350a和350b是第二模板节点154b的唯一边，则第二模板154b的针对“收据”的分类分布158b总计达44％。按照相似的方式计算“财务”和“行程”的传入分类概率。其结果是第二模板节点154b分配有44％的“收据”、30％的“财务”、以及26％的“行程”的分类分布158b。

一旦计算了每个节点/模板的分类分布，无论是使用质心方法还是使用分层传播方法，计算得到的分类分布都可以用于对与每个节点/模板相关联的文档进行分类。在一些实施方式中，例如，根据以下等式可以将模板的最有可能的分类(例如，分配给与模板最为相关联的文档的分类)分配给与模板相关联的所有文档：

(10)

其中，在模板传播阶段之后，，则

表示如果标记/分类L_i符合分布

的概率。

在一些实施方式中，本文所公开的技术可以用于识别新潜在分类/标记。例如，假设表示文档集群的特定模板是基于主题的模板。进一步假设未对与该特定模板相关联的大多数或者所有文档进行分类/标记，和/或假设该模板与具有已知的分类分布的任何模板之间的相似性(例如，表示为边权重)尚不明确或者相对较弱。在一些实施方式中，可以选择具有最高相关联的权重的该模板的一个或者多个主题作为新发现的分类/标记。新发现的分类/标记可以进一步应用于(例如，如上所述，传播至)与具有先前已知的分类/标记的模板的连接尚不明确和/或相对较弱的其它相似的模板。

现在参照图5，描述了基于文档与集群的关联性对文档进行集体分类的示例方法500。为了方便起见，参照执行操作的系统来描述流程图的操作。该系统可以包括各种计算机系统的各种部件，包括，本文所描述的各种引擎。而且，虽然按照特定顺序示出了方法500的操作，但是这并不旨在作为限制。可以重新排序、省略、或者添加一个或者多个操作。

在框502中，系统可以基于一个或者多个共享内容属性将文档的语料库聚组成多个不相交的集群。上文针对集群引擎124描述了用于将文档聚组成集群的示例技术。在框504中，系统可以确定至少与在框502中形成的多个集群中的第一集群相关联的分类分布。可以基于分配给集群的单独的文档的分类(或者“标记”)来确定该分类分布。在一些实施方式中，可以对这些单独的文档进行手动分类。在一些实施方式中，可以例如通过使用各种文档分类技术自动地对这些单独的文档进行分类。

在框506中，系统可以至少部分地基于与第一集群相关联的分类分布以及基于在第一集群与第二集群之间的关系来计算与多个集群中的第二集群相关联的分类分布。上文针对质心和分层传播方法讨论了可以如何执行该操作的示例，还分别在图6和图7中描绘了所述示例。在框508中，系统可以基于与第二集群相关联的(即，在框506中确定的)分类分布对与第二集群相关联的文档进行分类。例如，在一些实施方式中，可以将分类分布的“最可能的”分类(例如，分配给大多数文档的分类)分配给与第二集群相关联的所有文档。

现在参照图6，描述通过使用质心方法来计算文档集群的分类分布(即，图5的框506)的一种示例方法600。为了方便起见，参照执行操作的系统来描述流程图的操作。该系统可以包括各种计算机系统的各种部件，包括，本文所描述的各种引擎。而且，虽然按照特定顺序示出了方法600的操作，但是这并不旨在作为限制。可以重新排序、省略、或者添加一个或者多个操作。

在框602中，系统可以生成表示多个不相交的文档集群的多个节点。如上文提到的，在一些实施方式中，每个节点可以包括对特定的文档集群的模板表示，该模板表示可以是词袋表示、主题表示、或者一些其它类型的表示。在框604中，例如，系统可以通过使用上文的等式(8)从多个节点识别表示特定的文档集群的种子节点。在一些实施方式中，可以选择表示以100％置信度对文档集群进行分类的节点作为种子节点。另外或者可替选地，在一些实施方式中，可以选择表示100％分类的文档集群的节点作为种子节点。

在框606中，系统可以为每个可用分类(例如，在文档的语料库中的所有识别到的分类)计算质心节点。上文针对图2描述了可以如何计算质心节点的示例。在框608中，系统可以基于在集群的代表性节点与一个或者多个质心节点之间的相对距离来确定与特定集群相关联的分类分布—或者在某些情况下，仅仅是待分配给特定集群的所有文档的分类。例如，如果特定集群的代表性模板节点与“财务”质心最相似(即，最接近)，则可以将该集群的分类分布更改为100％的“财务”。

现在参照图7，描述通过使用分层传播方法来计算文档集群的分类分布(即，图5的框506)的一种示例方法700。为了方便起见，参照执行操作的系统来描述流程图的操作。该系统可以包括各种计算机系统的各种部件，包括，本文所描述的各种引擎。而且，虽然按照特定顺序示出了方法700的操作，但是这并不旨在作为限制。可以重新排序、省略、或者添加一个或者多个操作。

在框702中，该系统可以生成节点图(诸如，图3中描绘的图300)，其中，每个节点经由k个相应边连接至其k个最近(即，最相似)邻节点。在框704中，该系统可以基于由这两个节点表示的集群(和/或模板)之间的关系来确定与这两个节点之间的每条边相关联的权重。例如，如果表示两个集群的模板节点非常相似，可以向所述模板节点之间的边分配比在两个不太相似的模板节点之间的边更大的权重。如上文提到的，在一些实施方式中，可以将边权重归一化，使得每个节点的边权重之和为1。

在框706中，该系统可以基于(i)与特定集群的代表性节点模板的k个最近邻相关联的k个分类分布以及(ii)与将k个最近邻节点连接至该特定集群的节点的k条边相关联的k个权重来确定与该特定集群相关联的分类分布。图4及其相关讨论描述了可以如何实施与框706相关联的操作的一个示例。

图8是示例计算机系统810的框图。计算机系统810通常包括至少一个处理器814，该至少一个处理器814经由总线子系统812与多个外围装置通信。这些外围装置可以包括存储子系统824，包括：例如，存储器子系统825和文件存储子系统826、用户接口输出装置820、用户接口输入装置822、和网络接口子系统816。输入和输出装置允许用户与计算系统810交互。网络接口子系统816提供外部网络的接口，并且耦合至其它计算机系统中的对应接口装置。

用户接口输入装置822可以包括键盘、指示装置(诸如，鼠标、轨迹球、触摸板、或者绘图板)、扫描仪、包含在显示器中的触摸屏、音频输入装置(诸如，语音识别系统、麦克风)、和/或其它类型的输入装置。一般而言，术语“输入装置”的使用旨在包括用于将信息输入计算机系统810中或者输入通信网络上的所有可能类型的装置和方式。

用户接口输出装置820可以包括显示子系统、打印机、传真机、或者非视觉显示器，诸如，音频输出装置。显示子系统可以包括阴极射线管(CRT)、平板装置(诸如，液晶显示器(LCD))、投影仪装置、或者用于创建可视图像的一些其它机构。显示子系统还可以提供非可视显示，诸如，经由音频输出装置。一般而言，术语“输出装置”的使用旨在包括用于将来自计算机系统810的信息输出至用户或者输出至另一机器或者计算机系统的所有可能类型的装置和方式。

存储子系统824存储提供本文所描述的一些或者所有模块的功能的编程和数据构造。例如，存储子系统824可以包括逻辑，以执行方法500、600、和/或700的所选择的方面，和/或实施集群引擎124、分类分布识别引擎128、模板生成引擎132、和/或分类引擎440中的一个或者多个。

这些软件模块通常由处理器814单独执行或者由处理器814与其它处理器结合来执行。在存储子系统824中使用的存储器825可以包括多个存储器，包括：用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)830和存储固定指令的只读存储器(ROM)832。文件存储子系统826可以为程序和数据文件提供永久性存储，并且可以包括硬盘驱动器、带有相关联的可移动介质的软盘驱动器、CD-ROM驱动器、光学驱动器、或者可移动介质盒。可以由文件存储子系统826将实施特定实施方式的功能的模块存储在存储子系统824中，或者存储在可由处理器814访问的其它机器中。

总线子系统812提供了用于允许计算系统810的各种部件和子系统按照既定目的来与彼此进行通信的机构。尽管将总线子系统812示意性地示出为单条总线，但是总线子系统的可替选实施方式可以使用多条总线。

计算机系统810可以是不同类型的计算机系统，包括：工作站、服务器、计算集群、刀片式服务器、服务器场、或者任何其它数据处理系统或者计算装置。由于计算机和网络的不断变化的性质，出于图示一些实施方式之目的，对图8中描绘的计算机系统810的描述仅仅旨在作为特定示例。与图8中描绘的计算机系统相比，计算机系统810的许多其它配置可以具有更多或者更少的部件。

在本文所讨论的系统采集有关用户的个人信息或者可以利用个人信息的情况下，可以为用户提供如下机会：控制程序或者特征是否采集用户信息(例如，有关用户的社交网络、社交动作或者活动、职业、用户的偏好、或者用户的当前地理位置的信息)或者控制是否和/或如何从内容服务器接收可能与用户更有关的内容。此外，在存储或者使用特定数据之前，可以按照一种或者多种方式来处理该特定数据，从而使得可以去除个人身份信息。例如，可以处理用户的身份，从而使得无法确定用户的个人身份信息，或者可以将用户的可以从中获得地理位置信息(诸如，城市、邮政编码、或者州县等级)的地理位置一般化，从而使得无法确定用户的特定地理位置。由此，用户可以对采集和/或使用有关用户的信息的方式进行控制。

虽然本文已经描述并且图示了若干实施方式，但是可以利用用于执行功能和/或获得结果和/或本文所描述的优点中的一个或者多个优点的各种其它手段和/或结构，并且这些变型和/或修改中的每一个都被视为在本文所描述的实施方式的范围内。更普遍地，本文所描述的所有参数、尺寸、材料、和配置旨在作为示例，并且实际参数、尺寸、材料、和/或配置将取决于使用本教导的特定应用。本领域的技术人员要认识到或者仅仅通过使用常规实验就能够确定与本文所描述的特定实施方式等效的许多实施方式。因此，要理解，前述实施方式仅仅是示例性的，并且在随附权利要求书及其等效物的范围内，可以按照不同于特定描述并且要求的方式来实践实施方式。本公开的实施方式涉及本文所描述的每一个单独的特征、系统、物品、材料、工具箱、和/或方法。另外，如果这种特征、系统、物品、材料、工具箱、和/或方法不互相矛盾，那么两个或者更多个这种特征、系统、物品、材料、工具箱、和/或方法的任何组合都包括在本公开的范围内。

Claims

1.一种计算机实现的方法，所述方法包括：

通过计算系统，基于一个或者多个共享内容属性将存储在计算机存储器中的电子文档的语料库聚组成多个不相交的电子文档集群；

通过所述计算系统，确定与所述多个集群中的第一集群相关联的分类分布，与所述第一集群相关联的所述分类分布基于分配给所述第一集群中的单独的电子文档的分类；

通过所述计算系统，至少部分地基于与所述第一集群相关联的所述分类分布以及在所述第一集群与第二集群之间的关系来计算与所述多个集群中的所述第二集群相关联的分类分布；

基于在所述第一集群中的电子文档之中共享的一个或者多个内容属性来生成与所述第一集群相关联的第一模板；以及

基于在所述第二集群中的电子文档之中共享的一个或者多个内容属性来生成与所述第二集群相关联的第二模板。

2.根据权利要求1所述的计算机实现的方法，所述方法进一步包括：通过所述计算系统，在计算机存储器中，基于与所述第二集群相关联的所述分类分布对所述第二集群中的电子文档进行分类。

3.根据权利要求1所述的计算机实现的方法，所述方法进一步包括：通过所述计算系统生成节点图，每个节点经由一条或者多条相应边连接至一个或者多个其它节点，每个节点表示集群并且包括对由所述集群中的电子文档共享的一个或者多个内容属性的一些指示。

4.根据权利要求3所述的计算机实现的方法，其中，连接两个节点的每条边基于由所述两个节点表示的集群之间的关系来进行加权。

5.根据权利要求4所述的计算机实现的方法，所述方法进一步包括：使用余弦相似性或者Kullback-Leibler散度来确定由所述两个节点表示的集群之间的所述关系。

6.根据权利要求4所述的计算机实现的方法，所述方法进一步包括：使用k条边将每个节点连接至k个最近邻节点，其中，所述k个最近邻节点与所述节点具有所述k个最强关系，并且k是正整数。

7.根据权利要求6所述的计算机实现的方法，其中，每个节点包括对与由该节点表示的集群相关联的分类分布的指示。

8.根据权利要求7所述的计算机实现的方法，所述方法进一步包括：基于与连接至表示特定集群的特定节点的m个节点相关联的m个分类分布来更改与所述特定集群相关联的分类分布，其中，m是小于或等于k的正整数。

9.根据权利要求8所述的计算机实现的方法，其中，所述更改进一步基于分配给将所述m个节点连接至所述特定节点的m条边的m个权重。

10.根据权利要求1所述的计算机实现的方法，所述方法进一步包括：计算与所述第一集群相关联的至少所述分类分布的可用分类的质心向量。

11.根据权利要求10所述的计算机实现的方法，所述方法进一步包括：基于在所述第二集群与至少一个质心向量之间的关系来计算与所述第二集群相关联的所述分类分布。

12.根据权利要求1所述的计算机实现的方法，其中，与所述第二集群相关联的所述分类分布至少部分地基于在所述第一模板与所述第二模板之间的相似性进一步计算。

13.根据权利要求12所述的计算机实现的方法，所述方法进一步包括：使用余弦相似性或者Kullback-Leibler散度来确定在所述第一模板与所述第二模板之间的所述相似性。

14.根据权利要求1所述的计算机实现的方法，其中：

生成所述第一模板包括：生成在所述第一集群中的至少阈值分数的电子文档中找到的第一固定文本部分集合；以及

生成所述第二模板包括：生成在所述第二集群中的至少阈值分数的电子文档中找到的第二固定文本部分集合。

15.根据权利要求1所述的计算机实现的方法，其中：

生成所述第一模板包括：基于所述第一集群中的电子文档的内容来计算第一主题集合；以及

生成所述第二模板包括：基于所述第二集群中的电子文档的内容来计算第二主题集合；

其中，所述第一主题集合和所述第二主题集合使用潜在狄利克雷分配来计算。

16.一种包括存储器和一个或者多个处理器的系统，所述一个或者多个处理器能够操作以执行存储在所述存储器中的指令，所述系统包括指令以：

基于一个或者多个共享内容属性将文档的语料库聚组成多个不相交的文档集群；

确定与所述多个不相交的集群中的第一集群相关联的分类分布，与所述第一集群相关联的所述分类分布基于分配给所述第一集群中的单独的文档的分类；

至少部分地基于与所述第一集群相关联的所述分类分布以及在所述第一集群与第二集群之间的关系来计算与所述多个不相交的集群中的所述第二集群相关联的分类分布；

基于与所述第二集群相关联的所述分类分布对所述第二集群中的文档进行分类；

17.根据权利要求16所述的系统，所述系统进一步包括指令以：

生成节点图，每个节点经由一条或者多条相应边连接至一个或者多个其它节点，其中，每个节点表示集群，并且连接两个节点的每条边基于由所述两个节点表示的集群之间的关系来进行加权；以及

基于以下来更改与特定集群相关联的分类分布：

与连接至表示所述特定集群的特定节点的一个或者多个节点相关联的一个或者多个分类分布；以及

分配给将所述一个或者多个节点连接至所述特定节点的一条或者多条边的一个或者多个权重。

18.根据权利要求16所述的系统，所述系统进一步包括指令以：

计算与所述第一集群相关联的至少所述分类分布的一个或者多个可用分类的一个或者多个质心向量；以及

基于在所述第二集群与所述一个或者多个质心向量中的至少一个质心向量之间的关系来计算与所述第二集群相关联的所述分类分布。

19.包括指令的至少一个非暂时性计算机可读介质，所述指令响应于由计算系统执行，使得所述计算系统执行操作，所述操作包括：

确定与所述多个不相交的集群中的第一集群相关联的分类分布，与所述第一集群相关联的所述分类分布基于分配给所述第一集群的单独的文档的分类；