CN104102654B

CN104102654B - 一种词汇聚类的方法及装置

Info

Publication number: CN104102654B
Application number: CN201310120245.3A
Authority: CN
Inventors: 周美玲; 黄云平
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2013-04-08
Filing date: 2013-04-08
Publication date: 2017-12-22
Anticipated expiration: 2033-04-08
Also published as: CN104102654A

Abstract

本申请提供了本申请提供了一种词汇聚类的方法及装置，以解决目前聚类结果不准确的问题。一种词汇聚类的方法包括：获取多个对象及该对象关联的词汇；以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类，得到各潜在主题类；其中每个潜在主题类中包含所述潜在主题下的词汇及与该词汇关联的对象；通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂，得到各中间类；将关联内聚度大于阈值的任意两中间类进行合并，并根据合并后的中间类生成最终主题类。通过本申请得到的聚类结果更加准确，进而在利用聚类结果进行统计分析的各种应用中可以提高分析结果的准确度。

Description

一种词汇聚类的方法及装置

技术领域

本申请涉及网络技术领域，特别是涉及一种词汇聚类的方法及装置。

背景技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

很多实际应用中都会使用到聚类，例如，在广告应用中，大多数情况下，投放广告的用户购买的是同一类或者相关联的关键词，而投放了广告的应用系统对这些广告进行统计分析时，需要将购买了相关联的关键词的用户和相关联的关键词进行聚类，以形成独立的主题类，以便对这些独立的主题类进行分析，分析这些独立主题类的流量和所消耗的数据。

例如，用户A购买了空顶帽、女装帽、儿童草帽、流行帽和时装帽等各种帽子的关键词，用户B购买了帽子、太阳帽、纯棉帽等帽子相关的关键词，则用户A和用户B应该聚为一类M，用户A和用户B所购买的关键词也聚为相同的类M。

目前通常利用概率潜在语义分析模型(Probabilistic Latent SemanticAnalysis，PLSA)进行主题聚类，PLSA是基于双模式和共现的数据分析方法延伸的统计学方法，利用了强化的期望最大化算法来训练潜在类。

但是，单纯的PLSA聚类效果不是很理想，只能达到粗粒度的聚类效果。而且，在PLSA聚类中需要预先指定主题数目，而这些预先指定的主题数目不能很好的表示实际的主题数。因此，PLSA聚类存在聚类结果不准确，进而导致应用聚类结果进行统计分析造成分析结果不准确的问题。

发明内容

本申请提供了一种词汇聚类的方法及装置，以解决目前聚类结果不准确的问题。

为了解决上述问题，本申请公开了一种词汇聚类的方法，包括：

获取多个对象及该对象关联的词汇；

以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类，得到各潜在主题类；其中每个潜在主题类中包含所述潜在主题下的词汇及与该词汇关联的对象；

通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂，得到各中间类；

将关联内聚度大于阈值的任意两中间类进行合并，并根据合并后的中间类生成最终主题类。

可选地，所述通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂，包括：

步骤一，查找所述潜在主题类中关联对象最多的词汇，并将所述词汇加入到新建的中间类中，将所述词汇从所述潜在主题类中删除；

步骤二，查找与所述词汇的关联权重达到阈值的对象，并将所述对象加入到所述中间类中，将所述对象从所述潜在主题类中删除；

步骤三，查找与所述对象的关联权重达到阈值的词汇，并将所述与所述对象的关联权重达到阈值的词汇加入到所述中间类中，将所述与所述对象的关联权重达到阈值的词汇从所述潜在主题类中删除；

重复步骤二和步骤三直至没有对象或词汇再加入到所述中间类中；

重复步骤一、步骤二和步骤三至所述潜在主题类的所有对象及对象关联的词汇分别加入到新建的各中间类中。

可选地，所述阈值的确定方法包括：

计算所述中间类之间的关联内聚度；

依据所述关联内聚度计算中间类的平均内聚度，并将所述平均内聚度作为所述阈值。

可选地，所述根据合并后的中间类生成最终主题类，包括：

为每一合并后的中间类建立与其一一对应的最终主题类；

对应每个对象计算所述对象属于各合并后的中间类的概率，找出所述概率最大的合并后的中间类，并将所述对象加入到所述概率最大的合并后的中间类对应的最终主题类中；

对应每个词汇计算各合并后的中间类出现所述词汇的概率，找出所述概率最大的合并后的中间类，并将所述词汇加入到所述概率最大的合并后的中间类对应的最终主题类中。

可选地，所述根据合并后的中间类生成最终主题类，还包括：

对于分裂步骤中没有加入到任何中间类中的对象，查找所述各对象关联的词汇的集合中与所述对象的关联权重最大的词汇，并将所述对象加入到所述词汇所属的最终主题类中；

对于分裂步骤中没有加入到任何中间类中的词汇，查找所述各对象关联的词汇的集合中与所述词汇的关联权重最大的对象，并将所述词汇加入到所述对象所属的最终主题类中。

可选地，所述以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类之前，还包括：

利用词汇的类目信息过滤各对象关联的词汇的集合；

从过滤后的集合中查找只有一个关联对象的词汇，并将所述词汇从过滤后的集合中去除。

可选地，所述利用词汇的类目信息过滤各对象关联的词汇的集合，包括:

根据类目信息统计各对象关联的词汇的集合中每个词汇所属的类目个数；

将类目个数大于阈值的词汇作为宽泛词并从所述各对象关联的词汇的集合中去除。

可选地，所述根据合并后的中间类生成最终主题类，包括：

对于所述只有一个关联对象的词汇，将所述词汇加入到该词汇的关联对象所属的最终主题类中。

可选地，所述以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类，包括：

步骤一，指定潜在主题个数；

步骤二，初始化各潜在主题下出现各词汇的概率和每一对象属于各潜在主题的概率；步骤三，根据各潜在主题下出现各词汇的概率和对象属于各潜在主题的概率，在迭代模型中计算对象关联的词汇属于各潜在主题的概率；步骤四，根据对象关联的词汇属于各潜在主题的概率，重新计算在各潜在主题下出现所述各词汇的概率和对象属于各潜在主题的概率；步骤五，判断重新计算的潜在主题下出现词汇的概率和对象属于各潜在主题的概率的变化率是否小于阈值或达到最大迭代次数；

当所述变化率大于或等于阈值或未达到最大迭代次数时，重复步骤三、步骤四和步骤五；

当所述变化率小于阈值或达到最大迭代次数时，执行步骤六；

步骤六，将每一词汇在各潜在主题下出现的概率和每一对象属于各潜在主题的概率逆序排序，并输出所述逆序排序的结果。

本申请还公开了一种词汇聚类的装置，包括：

获取模块，用于获取多个对象及该对象关联的词汇；

聚类模块，用于以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类，得到各潜在主题类；其中每个潜在主题类中包含所述潜在主题下的词汇及与该词汇关联的对象；

分裂模块，用于通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂，得到各中间类；

合并模块，用于将关联内聚度大于阈值的任意两中间类进行合并；

生成模块，用于根据合并后的中间类生成最终主题类。

可选地，所述分裂模块包括：

词汇查找子模块，用于查找所述潜在主题类中关联对象最多的词汇，并将所述词汇加入到新建的中间类中，将所述词汇从所述潜在主题类中删除；

对象查找子模块，用于查找与所述词汇的关联权重达到阈值的对象，并将所述对象加入到所述中间类中，将所述对象从所述潜在主题类中删除；

阈值查找子模块，用于查找与所述对象的关联权重达到阈值的词汇，并将所述与所述对象的关联权重达到阈值的词汇加入到所述中间类中，将所述与所述对象的关联权重达到阈值的词汇从所述潜在主题类中删除。

可选地，所述合并模块包括：

关联计算子模块，用于计算所述中间类之间的关联内聚度；

平均计算子模块，用于依据所述关联内聚度计算中间类的平均内聚度，并将所述平均内聚度作为所述阈值；

合并子模块，用于将所述关联内聚度大于所述阈值的任意两中间类进行合并。

可选地，所述生成模块包括：

最终主题类子模块，用于为每一合并后的中间类建立与其一一对应的最终主题类；第一对象子模块，用于对应每个对象计算所述对象属于各合并后的中间类的概率，找出所述概率最大的合并后的中间类，并将所述对象加入到所述概率最大的合并后的中间类对应的最终主题类中；

第一词汇子模块，用于对应每个词汇计算各合并后的中间类出现所述词汇的概率，找出所述概率最大的合并后的中间类，并将所述词汇加入到所述概率最大的合并后的中间类对应的最终主题类中。

可选地，所述生成模块还包括：

第二对象子模块，用于对于分裂模块中没有加入到任何中间类中的对象，查找所述各对象关联的词汇的集合中与所述对象的关联权重最大的词汇，并将所述对象加入到所述词汇所属的最终主题类中；

第二词汇子模块，用于对于分裂模块中没有加入到任何中间类中的词汇，查找所述各对象关联的词汇的集合中与所述词汇的关联权重最大的对象，并将所述词汇加入到所述对象所属的最终主题类中。

与现有技术相比，本申请包括以下优点：

本申请提供的词汇聚类方法，在以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类，得到各潜在主题类之后，接着进行了拆分与合并：先通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂，得到各中间类，即对粗粒度的聚类结果(潜在主题类)进行了再次分裂；然后将关联内聚度大于阈值的任意两中间类进行合并，并根据合并后的中间类生成最终主题类，即对任意两个比较相似的中间类进行合并，最终得到的主题类均匀自然，不限于预先指定的主题数目，能够反映出与实际相符的聚类效果。因此，通过本申请得到的聚类结果更加准确，进而在利用聚类结果进行统计分析的各种应用中可以提高分析结果的准确度。

附图说明

图1是本申请实施例所述一种词汇聚类的方法流程图；

图2是本申请实施例所述一种词汇聚类的装置的结构框图；

图3是本申请实施例所述分裂模块的结构框图；

图4是本申请实施例所述合并模块的结构框图；

图5是本申请实施例所述生成模块的结构框图；

图6是本申请另一实施例所述生成模块的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

下面通过实施例对本申请所述方法的实现流程进行详细说明。

参照图1，其示出了本申请实施例所述一种词汇聚类的方法流程图。本实施例具体可以包括以下步骤：

步骤100，获取多个对象及该对象关联的词汇；

本实施中，以用户为对象，在线上广告推广交易活动中用户购买的关键词为对象关联的词汇作为示例，其中用户在本申请实施例中表现为用户信息、用户账号或其他任何形式的用户标识。

需要说明的是，本申请所述的对象并不限于本实施例中的用户，还可以为商品、网页等，本申请所述的词汇同样不限于关键词，还可以为商品对应的商品描述词、网页对应的关键词等。

需要说明的是，用户购买的关键词记载于关键词表中，所述的关键词表可以是“用户-关键词表”这样的形式，包含多个用户和每个用户购买的关键词，以及每个用户和其购买的各关键词的关联权重。当然，关键词表也可以采取其他的表示方式，包含用户和用户购买的关键词，以及用户和各关键词的关联权重即可。需要说明的是，用户和关键词的关联权重，表征关键词对于用户的重要程度，所述关联权重越大，说明该关键词对于该用户越重要。用户和关键词的关联权重可以根据用户对该关键词的历史行为日志确定。

其中，用户和关键词的关联权重可以通过以下方式计算得出：

例如，第i个关键词与第j个用户的关联权重w_ij通过下列公式一计算得到，

w_ij＝log(c(j)+α*A+β*B+γ*C+1) (公式一)

其中，c(j)＝1时，第j个用户为有效用户，c(j)＝0时第j个用户不是有效用户；如果用户j为有效用户，说明用户j购买的关键词有效，例如，用户j购买了关键词i，有效期限是一年，那么从购买日起一年内，用户j对于关键词i来说都是有效用户。如果用户j在第二年的时候不再续费，那么此时用户j就不是有效用户了。

其中，imp_ij为第j个用户在第i个关键词对应的搜索结果中进行广告展示的次数，Num_imp为在第i个关键词对应的搜素结果中有进行广告展示的用户数，Sum_imp为在任一关键词对应的搜索结果中有进行广告展示的总用户数。

其中，clk_ij为第j个用户在第i个关键词对应的搜索结果中展示的广告的点击数，Sum_clk为在任一关键词对应的搜索结果中其展示的广告中有被点击的用户的总数，Num_clk为在第i个关键词对应的搜索结果中其展示的广告中有被点击的用户数。

其中，cost_ij为第j个用户在第i个关键词对应的搜索结果中展示的广告支付的成本，Num_cost为在第i个关键词对应的搜索结果中展示的广告有产生成本消耗的用户数，Sum_cost为在其展示的广告有产生成本消耗的总用户数。

公式一中的参数α、β、γ的可以定义为：α为常数，可预先设定，

其中，n为所有关键词的数目，m为所有用户的数目。

优选地，在步骤102以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类之前，还可以包括以下处理步骤：

利用词汇的类目信息过滤各对象关联的词汇的集合；

其中，所述利用词汇的类目信息过滤各对象关联的词汇的集合，可以包括:

基于以上步骤，在以用户为对象、用户购买的关键词为对象关联的词汇的示例中，可以进一步利用关键词的类目信息过滤所述的关键词表，具体可以采用以下方式实现：

首先，统计关键词表中每个关键词所属的类目个数；

关键词所属的类目即与该关键词匹配的业务对象所属的类目。根据关键词所对应的业务领域(比如商品类目，如女装类、男装类、童装类等类目)，为关键词建立关键词-类目表，关键词-类目表记载多个关键词和各关键词对应的类目，比如该关键词用于表述某一商品类目中的商品信息，则该关键词可以与该商品类目对应。遍历关键词-类目表可以统计得到每个关键词所属的类目的个数。

其次，将类目个数大于阈值的关键词作为宽泛词并从所述关键词表中去除。

对于关键词来说，所属的类目个数越多，说明该关键词越宽泛，没有特定的主题含义，而且这些宽泛的关键词会影响聚类的结果，会将本来没有关联的关键词聚合在同一个主题类中，因此需要将这些宽泛的关键词去掉。本实施例中将宽泛的关键词称为“宽泛词”，例如，加工、环保、加盟、服务、合作和工业等词，都属于宽泛词。将宽泛词从关键词表中去掉，可以优化后续的聚类结果，提高聚类结果的准确性。

本实施例中具体可以将类目个数大于阈值的关键词作为宽泛词，并从所述关键词表中去除这些宽泛词。例如，可以设置阈值为500，如果一个关键词的类目个数为800，大于设置的阈值500，则将该关键词作为宽泛词从关键词表中去除。

在另一实施例中，优选地，为了得到聚类效果更好的用户及用户关联的关键词，还可以进一步对所述过滤后的关键词表进行修正。比如，从所述关键词表中查找只被一个用户购买的关键词，并在所述关键词表中去除所述只被一个用户购买的关键词关键词。

由于只被一个用户购买的关键词对聚类没有帮助，反而会增加聚类的计算量，因此本实施例在进行聚类之前，去除这些只被一个用户购买的关键词。

上述步骤100中，所述对象关联的词汇也可以是用户在搜索页面中(比如商品搜索)使用的查询词。用户及用户购买的关键词或使用的查询词可以从用户历史行为日志中获取。这里的用户具体表现为用户账号或其他标识用户的信息。

所述的对象也可以是商品，所述对象关联的词汇可以是用来描述商品信息的商品分词或标签，所述对象关联的词汇可以对商品信息进行分词得到。对象与对象公式一的相关描述。

步骤102，以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类，得到各潜在主题类。

每个潜在主题类中包含所述潜在主题下的词汇及与该词汇关联的对象。

步骤102具体可以包括：

步骤一，指定潜在主题个数；

步骤二，初始化各潜在主题下出现各词汇的概率和每一对象属于各潜在主题的概率；

步骤三，根据各潜在主题下出现各词汇的概率和对象属于各潜在主题的概率，在迭代模型中计算对象关联的词汇属于各潜在主题的概率；

步骤四，根据对象关联的词汇属于各潜在主题的概率，重新计算在各潜在主题下出现所述各词汇的概率和对象属于各潜在主题的概率；

步骤五，判断重新计算的潜在主题下出现词汇的概率和对象属于各潜在主题的概率的变化率是否小于阈值或达到最大迭代次数；

本实施中，仍以用户为对象，在线上广告推广交易活动中用户购买的关键词为对象关联的词汇作为例对本步骤进行说明。

对关键词表中的关键词进行聚类时，需要生成关键词在各潜在主题下出现的概率和用户属于某个潜在主题的概率。本实施例以概率潜在语义分析模型(PLSA)为例进行聚类说明，当然也可以采用其他聚类方法，本实施例对此不做限制。

本实施例中可以采用以下子步骤对所述关键词表中的关键词进行聚类：

子步骤1，指定潜在主题个数；

可以将用户看成文档d，用户购买的关键词看成文档中的词w，用z表示潜在主题，假设关键词表中有n个关键词w，m个用户d，本实施例中可以指定潜在主题个数为k。潜在主题可以表示为潜在主题1、潜在主题2、潜在主题3……潜在主题k。

子步骤2，初始化各潜在主题下出现各关键词的概率和每一用户属于各潜在主题的概率；

本实施例中可以依据随机函数生成随机数对在各潜在主题下出现各关键词的概率和每一用户属于各潜在主题的概率进行初始值的设置。

例如，为潜在主题j下出现某一关键词w_m这一可能性生成对应的随机数，即关键词w_m在潜在主题j下对应的随机数，然后将关键词w_m在潜在主题j下对应的随机数，与各关键词在潜在主题j下对应的各随机数之和相除，相除的商作为潜在主题j下出现关键词w_m的概率的初始设置值，如下列公式二所示：

其中，n为大于1的自然数，1≤m≤n；rand(w_m|θ_j)表示依据随机函数生成的关键词w_m在潜在主题j下对应的随机数，表示各关键词在潜在主题j下对应的随机数之和。例如，依据随机函数生成的关键词w₁在潜在主题j下对应的随机数为a₁，即rand(w₁|θ_j)＝a₁；依据随机函数生成的关键词w₂在潜在主题j下出现对应的随机数为a₂，依据随机函数生成的关键词w₃在潜在主题j下对应的随机数为a₃，依据随机函数生成的关键词w_n在潜在主题j下对应的随机数为a_n，将nadr(w₁|θ_j)与相除，相除的商作为潜在主题j下出现关键词w₁的概率p(w₁|θ_j)。

对于关键词表中用户属于潜在主题j的概率p(θ_j|d)，本实施例可以依据随机函数生成用户在各潜在主题下对应的随机数，即对应于该用户属于各潜在主题的可能性的随机数，将该用户在潜在主题j下对应的随机数与该用户在各潜在主题下对应的随机数之和相除，相除的商作为该用户属于潜在主题j的概率的初始设置值，如下列公式三所示：

其中，rand(θ_j|d)表示依据随机函数生成的用户d属于潜在主题j的随机数，表示用户d在指定个数k个潜在主题下对应的随机数之和。

子步骤3，根据各潜在主题下出现各关键词的概率和用户属于各潜在主题的概率，在迭代模型中计算用户购买的关键词属于各潜在主题的概率；

可以利用下列公式四计算用户d购买的关键词w属于潜在主题j的概率p(z_d,w＝j)：

其中，n表示迭代的次数。

子步骤4，根据用户购买的关键词属于各潜在主题的概率，重新计算在各潜在主题下出现所述关键词的概率和用户属于各潜在主题的概率；

可以根据子步骤3中计算得到的用户购买的关键词属于各潜在主题的概率p(z_d,w＝j)利用下列公式五重新计算所述各潜在主题下出现所述关键词的概率p(w|θ_j)，可以利用下列公式六重新计算用户属于各潜在主题的概率p(θ_j|d)。

其中，C(w,d)表示用户d购买关键词w的频率，可以根据用户购买关键词的历史记录得到，n表示迭代的次数。

子步骤5，判断重新计算的潜在主题下出现关键词的概率和用户属于各潜在主题的概率的变化率是否小于阈值或达到最大迭代次数；

本实施例可以利用下列公式七计算所述变化率：

其中，p(z_j|d)表示用户d属于潜在主题j的概率，p(w|z_j)表示关键词w在潜在主题j下出现的概率。

当上述变化率小于设定的阈值时，执行子步骤6；当上述变化率大于或等于设定的阈值时，重复子步骤3、子步骤4和子步骤5。

本实施例也可以判断子公式四中的迭代次数n是否达到预设的最大迭代次数，如果达到最大迭代次数，则执行子步骤6；如果未达到最大迭代次数，则重复子步骤3、子步骤4和子步骤5。

当然，也可以采用其他方式判断是执行步骤6，还是重复子步骤3、子步骤4和子步骤5。

步骤6，将每一关键词在各潜在主题下出现的概率和每一用户属于各潜在主题的概率逆序排序，并输出所述逆序排序的结果。

逆序排序，是指按照概率递减的顺序排序，即将概率大的排在前面，概率小的排在后面。需要说明的是，本步骤6是将重复子步骤3、子步骤4和子步骤5得到的关键词在各潜在主题下出现的概率和用户属于各潜在主题的概率进行逆序排序。

对于每一主题，输出在该主题下出现的概率排在前N的关键词作为包含于该主题内的关键词，输出属于该主题的概率排在前N的用户作为包含于该主题内的用户。

例如，对于某一主题，输出逆序排序后的排序在前1000的关键词，即对于指定个数k个主题，每个主题下输出在该主题下出现概率较大的前1000个关键词作为该主题所包含的关键词。对于某一主题，输出逆序排序后的排序在前500的用户作为属该潜在主题所包含的用户。

以上通过聚类得到各潜在主题类之后，本申请实施例还继续对所述潜在主题类进行后聚类，并生成最终主题类。

步骤102中PLSA聚类的粒度比较粗，并且PLSA聚类需要指定潜在主题的个数，而根据经验指定的潜在主题的个数并不一定能满足实际的对聚类粒度的需求。因此，本申请实施例可以将聚类结果进一步进行分裂与合并。

本实施例中所述对所述潜在主题类进行后聚类，具体可以包括以下步骤104和步骤106：

步骤104，通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂，得到各中间类。

步骤104是分裂子步骤，即利用星形聚类对所述潜在主题类进行分裂，得到各中间类；

星形聚类是指根据文档和词之间的相关性将文档和词进行聚类，聚类的过程最后形成一个网状图，由此得名星形聚类。在分裂子步骤中，通过选取部分词汇及与该词汇关联的对象形成新的主题类对每一潜在主题类进行分裂。在所述网状图中，文档和词以文档和词之间的相关性(即关联权重)作为纽带进行连接，网状图上的点可以为文档，也可以为词，文档与其关联的词相连，词与其关联的文档相连。对应到用户-关键词的例子中，即用户与关键词之间通过用户对该关键词的历史行为信息建立关联。

其中，所述通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂，可以包括：

步骤A，查找所述潜在主题类中关联对象最多的词汇，并将所述词汇加入到新建的中间类中，将所述词汇从所述潜在主题类中删除；

步骤B，查找与所述词汇的关联权重达到阈值的对象，并将所述对象加入到所述中间类中，将所述对象从所述潜在主题类中删除；

步骤C，查找与所述对象的关联权重达到阈值的词汇，并将所述与所述对象的关联权重达到阈值的词汇加入到所述中间类中，将所述与所述对象的关联权重达到阈值的词汇从所述潜在主题类中删除；

重复步骤B和步骤C直至没有对象或词汇再加入到所述中间类中；

重复步骤A、步骤B和步骤C至所述潜在主题类的所有对象及对象关联的词汇分别加入到新建的各中间类中。

基于以上内容，在用户-关键词的实施例中利用星形聚类对各潜在主题类进行分裂，具体可以通过以下方式实现：

1)查找所述潜在主题类中购买用户最多的关键词，并将所述关键词加入到新建的中间类中，将所述关键词从所述潜在主题类中删除；

每个潜在主题类中包含所述主题下的关键词和购买所述关键词的用户，可以通过遍历潜在主题类，找到潜在主题类中购买用户最多的关键词，然后新建一个中间类，将购买用户最多的关键词加入到这个新建的中间类中。

例如，潜在主题类H中包含10个关键词和购买这些关键词的用户，遍历潜在主题类H，确定购买关键词w的用户数量最多，新建一个中间类R，将关键词w加入到中间类R中，此时潜在主题类H中包含剩余的9个关键词和购买这些关键词的用户。

2)查找与所述的购买用户最多的关键词的关联权重达到阈值的用户，并将所述用户加入到所述中间类中，将所述用户从所述潜在主题类中删除；

潜在主题类中不仅包含所述主题下的关键词和购买所述关键词的用户，还包含关键词和用户之间的关联权重，关联权重可以从用户购买的原始关键词表中获得，之前在解释关键词表时进行了相关描述。

将关联权重达预设的阈值的用户d，加入到上述中间类R中。

3)查找与所述用户的关联权重达到阈值的关键词，并将所述与所述用户的关联权重达到阈值的关键词加入到所述中间类中，将所述与所述用户的关联权重达到阈值的关键词从所述潜在主题类中删除；

采用同样的方式可以查找到与用户d的关联权重达到阈值的关键词，加入到上述中间类R中。

重复2)和3)直至没有用户或关键词再加入到所述中间类中；

重复1)、2)和3)至所述潜在主题类为空，即所述潜在主题类的所有对象及对象关联的词汇分别加入到新建的各中间类中。

对于每一个潜在主题类，都采用上述方式进行分裂。

例如，PLSA聚类后的结果会把睡袋，帐篷，户外矿灯，野餐垫放到同一个潜在主题中。通过步骤104的分裂过程，会将这个潜在主题类分裂成更细的中间类，第一个中间类是关于睡袋的，第二个中间类是关于帐篷，第三个中间类是关于户外矿灯，第四个中间类是关于野餐垫。

步骤106，将关联内聚度大于阈值的任意两中间类进行合并，并根据合并后的中间类生成最终主题类。

步骤106是合并子步骤，将关联内聚度大于阈值的任意两个中间类进行合并。对于分裂潜在主题类后得到的各中间类，可以计算所有中间类的平均内聚度作为阈值，再计算任意两个中间类之间的关联内聚度，如果关联内聚度大于阈值，则将这两个中间类进行合并。具体可以通过以下方式实现：

I)计算各中间类之间的关联内聚度；

两个中间类之间的关联内聚度也可以称为两个中间类之间的相似度，可以将两个中间类看成一个中间类对，计算中间类对的关联内聚度。具体地，可以利用下列公式八计算任意两个中间类之间的关联内聚度：

其中，p(w₁|c₁)表示主题c1中出现关键词w1的概率，p(c₂|d₂)表示用户d2属于主题c1的概率，p(w₁|d₂)表示用户d2购买关键词w1的概率。

II)将所述关联内聚度大于所述阈值的任意两个中间类进行合并。

如果两个中间类的关联内聚度大于阈值，则将这两个中间类进行合并；如果两个中间类的关联内聚度小于或等于阈值，则不对这两个中间类进行合并处理，仍然是两个独立的中间类。

例如，第一个潜在主题中分裂出关于野餐垫的中间类，另一个潜在主题中分裂出关于野餐垫、野餐毯之类的中间类，由于分裂出来的两个中间类的关联内聚度(相似度)很高，会将这两个关于野餐垫、野餐毯的中间类进行合并。

上述合并步骤中所述的阈值可以通过多种方式确定，本申请实施例中可以依据所述关联内聚度计算中间类的平均内聚度，并将所述平均内聚度作为合并步骤中的阈值。

具体地，将所有中间类对的关联内聚度之和除以所有的中间类对的数目即为平均内聚度，将平均内聚度作为合并子步骤中的阈值。

本实施例中可以依据合并后的中间类生成最终主题类，具体可以包括：

为每一合并后的中间类建立与其一一对应的最终主题类；对应每个对象计算所述对象属于各合并后的中间类的概率，找出所述概率最大的合并后的中间类，并将所述对象加入到所述概率最大的合并后的中间类对应的最终主题类中；

在用户-关键词的实施例中，所述依据合并后的中间类生成最终主题类具体可以包括：

1)为每一合并后的中间类建立与其一一对应的最终主题类；

例如，合并后的中间类A对应一个最终主题类a，合并后的中间类X对应一个最终主题类x。各最终主题类包含的关键词及用户根据其对应的中间类确定。

2)对应每个用户计算所述用户属于各合并后的中间类的概率，找出所述概率最大的合并后的中间类，并将所述用户加入到所述概率最大的合并后的中间类对应的最终主题类中；

对于每个用户，可以计算所述用户属于各合并后的中间类的概率，找到所述概率最大的合并后的中间类X，将该用户加入到该合并后的中间类对应的最终主题类x中。

3)对应每个关键词计算各合并后的中间类出现所述关键词的概率，找出所述概率最大的合并后的中间类，并将所述关键词加入到所述概率最大的合并后的中间类对应的最终主题类中；

对于每个关键词，计算各合并后的中间类出现所述关键词的概率，找到所述概率最大的中间类X，将这个关键词加入到该合并后的中间类X对应的最终主题类x中。

如此，根据以上步骤可以得到每一最终主题类包含的关键词及用户。

在本申请的一种优选实施例中，还对步骤104的分裂子步骤中没有加入到任何中间类中的对象和词汇进行了处理，具体如下：

在用户-关键词的例子中，上述处理具体为：

对于分裂子步骤中没有加入到任何中间类中的用户，查找与所述用户的关联权重最大的关键词，并将所述用户加入到所述关键词所属的最终主题类中；

对于分裂子步骤中没有加入到任何中间类中的关键词，查找与所述关键词的关联权重最大的用户，并将所述关键词加入到所述用户所属的最终主题类中。

在本申请的另一种优选实施例中，还对步骤100中查找到的只与一个对象关联的词汇进行了处理，具体如下：

在用户-关键词的例子中，对于只被一个用户购买的关键词，将所述关键词加入到购买该关键词的用户所属的最终主题类中。

经过上述步骤，可以得到最终主题类，最终主题类可以包括用户和用户购买的关键词，以及用户和关键词的关联权重。

例如，对于阳春面这个关键词由于没有关于阳春面的主题类，但由于购买这个关键词的用户购买的关键词都是与面食相关的，所以阳春面会被加入到面食这个主题类中。相同的，可能有的用户买的关键词比较泛，这个用户根据以上的分拆和合并两个步骤也可能找不到主题，则根据这个用户购买的最相关的关键词将这个用户归到最相关的关键词的主题中。这个过程还会将只被一个用户购买的关键词聚到主题类中。另一些用户购买的关键词比较生僻，与其他的用户都不相同或者类似，比如网衣，这个关键词和用户就被认为孤立点。

需要说明的是，本申请实施例是以用户及其购买的关键词为例进行说明的，本申请也可以用于用户及用户使用的查询词、商品及商品使用的描述词等其他情形的主题聚类，本申请实施例对此不作限制。

综上所述，本申请提供的词汇聚类方法在PLSA聚类的基础上，再对PLSA的聚类结果进行拆分与合并，对粗粒度的聚类结果进行再次分裂，对两个比较相似的类进行合并，最终得到的主题类均匀自然，能够反映出与实际相符的聚类效果。由于本申请在PLSA聚类之后还进行了后聚类，对PLSA聚类的结果进行了再次分裂和合并处理，对PLSA聚类的结果进行了修正，避免了PLSA聚类指定的主题数与实际的主题数不符而导致的聚类结果不准确的问题。

而且，本申请在PLSA聚类之前还对数据进行预处理，过滤宽泛词，提高了PLSA聚类的效果。

需要说明的是，对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请所必需的。

需要说明的是，本申请的上述实施例通过对用户关键词进行聚类得到客户群，然后将同行业的用户聚为一个类中，可以作为客户分析和优化的工具，帮助用户选择关键词，也可以为用户推荐合适的关键词，例如哪些客户缺词，可以将同行业的其他用户购买的关键词推荐给这个用户。

需要进一步说明的是，本申请上述实施例仅是以对象为用户，对象关联的词汇为用户使用或购买的关键词为例进行的说明，本申请所述的对象并不限于用户，还可以为商品、网页等，本申请所述的词汇同样不限于关键词，还可以为商品对应的商品描述词、网页对应的关键词等。本申请不仅仅可以用于用户和关键词的聚类，还可以用于对用户及用户使用的查询词的聚类，通过用户使用的查询词间的相似性将不同聚类到一个主题中；还可以用于对用户查询词及在该查询词下的搜素结果中用户点击的对象的分词信息进行聚类，通过用户点击对象的分词信息的相似性将不同查询词聚为一个主题，从而可以实现主题层面的匹配。例如，“疯狂老鼠”可以表示一种大型游乐设备，当使用“疯狂老鼠”作为查询词进行搜索的时候，出现多个搜索结果，记录用户对所述搜索结果的点击行为，对用户点击的搜索结果的信息(比如搜索结果的标题或摘要)进行分词处理得到多个分词，例如：老鼠、设备、过山车、游艺机、游乐、疯狂、机械、飞鼠、丛林、设施等，该例子中，所述的对象为查询词“疯狂老鼠”，与所述的对象关联的词汇为各个分词，通过对“疯狂老鼠”和所述分词类，从而将“疯狂老鼠”与其他的游乐设备聚为同一个主题，从而可以解决字面匹配(“疯狂老鼠”可能匹配的是老鼠夹)不准确的一些问题。

基于上述图1方法实施例的说明，本申请还提供了相应的词汇聚类的装置实施例，来实现上述图1方法实施例所述的内容。

参照图2，其示出了本申请实施例所述一种词汇聚类的装置的结构框图。本实施例具体可以包括：获取模块20、聚类模块22、分裂模块24、合并模块26和生成模块28，其中：

获取模块20，用于获取多个对象及该对象关联的词汇；

聚类模块22，用于以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类，得到各潜在主题类；其中每个潜在主题类中包含所述潜在主题下的词汇及与该词汇关联的对象；

分裂模块24，用于通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂，得到各中间类；

本实施例中图3所示的分裂模块24具体可以包括以下子模块：

词汇查找子模块241，用于查找所述潜在主题类中关联对象最多的词汇，并将所述词汇加入到新建的中间类中，将所述词汇从所述潜在主题类中删除；

对象查找子模块242，用于查找与所述词汇的关联权重达到阈值的对象，并将所述对象加入到所述中间类中，将所述对象从所述潜在主题类中删除；

阈值查找子模块243，用于查找与所述对象的关联权重达到阈值的词汇，并将所述与所述对象的关联权重达到阈值的词汇加入到所述中间类中，将所述与所述对象的关联权重达到阈值的词汇从所述潜在主题类中删除。

合并模块26，用于将关联内聚度大于阈值的任意两中间类进行合并。

本实施例中图4所示的合并模块26具体可以包括以下子模块：

关联计算子模块261，用于计算所述中间类之间的关联内聚度；

平均计算子模块262，用于依据所述关联内聚度计算中间类的平均内聚度，并将所述平均内聚度作为所述阈值；合并子模块263，用于将所述关联内聚度大于所述阈值的任意两中间类进行合并。

生成模块28，用于根据合并后的中间类生成最终主题类。如图5所示的生成模块28具体包括以下子模块：

最终主题类子模块281，用于为每一合并后的中间类建立与其一一对应的最终主题类；

第一对象子模块282，用于对应每个对象计算所述对象属于各合并后的中间类的概率，找出所述概率最大的合并后的中间类，并将所述对象加入到所述概率最大的合并后的中间类对应的最终主题类中；

第一词汇子模块283，用于对应每个词汇计算各合并后的中间类出现所述词汇的概率，找出所述概率最大的合并后的中间类，并将所述词汇加入到所述概率最大的合并后的中间类对应的最终主题类中。

在本申请的另一装置实施例中，如图6所示，所述生成模块28还可以包括：

第二对象子模块284，用于对于分裂模块中没有加入到任何中间类中的对象，查找所述各对象关联的词汇的集合中与所述对象的关联权重最大的词汇，并将所述对象加入到所述词汇所属的最终主题类中；

第二词汇子模块285，用于对于分裂模块中没有加入到任何中间类中的词汇，查找所述各对象关联的词汇的集合中与所述词汇的关联权重最大的对象，并将所述词汇加入到所述对象所属的最终主题类中。

对于上述词汇聚类的装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见图1所示方法实施例的部分说明即可。

需要说明的是，本申请的上述各个实施例中提到了多个阈值，这些阈值的含义是不同的。例如，在PLAS聚类过程中，判断重新计算的潜在主题下出现词汇的概率和对象属于各潜在主题的概率的变化率是否小于阈值或达到最大迭代次数时，所述阈值是针对概率的变化率设定的；在合并中间类时使用的阈值是通过关联内聚度的计算得出的；在对潜在主题类进行分裂时，将达到阈值的对象和达到阈值的词汇加入新建的中间类中，这两个阈值的取值可以相同也可以不同；在利用词汇的类目信息过滤各对象关联的词汇的集合时，将类目个数大于阈值的词汇作为宽泛词过滤，这个阈值是针对类目个数设定的，不同于以上任何一个阈值的含义。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本申请的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

以上对本申请所提供的一种词汇聚类的方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种词汇聚类的方法，其特征在于，包括：

获取多个对象及该对象关联的词汇；其中，对象及对象关联的各个词汇之间具有关联权重；

通过选取部分词汇及与该词汇关联的对象，依据对象及对象关联的各个词汇之间的关联权重，对每一潜在主题类进行分裂，得到各中间类；

2.根据权利要求1所述的方法，其特征在于，所述通过选取部分词汇及与该词汇关联的对象对每一潜在主题类进行分裂，包括：

3.根据权利要求1所述的方法，其特征在于，所述阈值的确定方法包括：

计算所述中间类之间的关联内聚度；

4.根据权利要求2所述的方法，其特征在于，所述根据合并后的中间类生成最终主题类，包括：

为每一合并后的中间类建立与其一一对应的最终主题类；

5.根据权利要求4所述的方法，其特征在于，所述根据合并后的中间类生成最终主题类，还包括：

6.根据权利要求1所述的方法，其特征在于，所述以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类之前，还包括：

利用词汇的类目信息过滤各对象关联的词汇的集合；

7.根据权利要求6所述的方法，其特征在于，所述利用词汇的类目信息过滤各对象关联的词汇的集合，包括:

8.根据权利要求6所述的方法，其特征在于，所述根据合并后的中间类生成最终主题类，包括：

9.根据权利要求1所述的方法，其特征在于，所述以各对象关联的词汇的集合分别作为文本进行潜在主题的聚类，包括：

步骤一，指定潜在主题个数；

10.一种词汇聚类的装置，其特征在于，包括：

获取模块，用于获取多个对象及该对象关联的词汇；其中，对象及对象关联的各个词汇之间具有关联权重；

分裂模块，用于通过选取部分词汇及与该词汇关联的对象，依据对象及对象关联的各个词汇之间的关联权重，对每一潜在主题类进行分裂，得到各中间类；

生成模块，用于根据合并后的中间类生成最终主题类。

11.根据权利要求10所述的装置，其特征在于，所述分裂模块包括：

12.根据权利要求10所述的装置，其特征在于，所述合并模块包括：

关联计算子模块，用于计算所述中间类之间的关联内聚度；

13.根据权利要求11所述的装置，其特征在于，

所述生成模块包括：

14.根据权利要求13所述的装置，其特征在于，所述生成模块还包括：