CN104573070A

CN104573070A - 一种针对混合长度文本集的文本聚类方法

Info

Publication number: CN104573070A
Application number: CN201510037543.5A
Authority: CN
Inventors: 张勇; 陈信欢; 李超; 邢春晓
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2015-01-26
Filing date: 2015-01-26
Publication date: 2015-04-29
Anticipated expiration: 2035-01-26
Also published as: CN104573070B

Abstract

本发明公开了一种针对混合长度文集的文聚类方法，所述方法包括以下步骤：划分长/短文步骤，将待聚类文集划分为长文集和短文集；建模步骤，按照特定的规则分别针对所述长文集和所述短文集中的文进行建模从而获取所述文对应的文模型；生成特征向量步骤，基于所述文模型生成主题参数从而基于所述主题参数获取相应文的特征向量；文聚类步骤，基于所述特征向量进行所述文的聚类。发明的聚类方法充分考虑了同时包含长文以及短文的混合长度文集的特点，在平衡混合长度文集稀疏性以及维度的前提下进行文聚类，相较于现有技术，获得的聚类结果更加理想。

Description

一种针对混合长度文本集的文本聚类方法

技术领域

本发明涉及信息技术领域，具体说涉及一种针对混合长度文本集的文本聚类方法。

背景技术

随着互联网的发展，网上的文本越来越多，在这些巨量的文本中进行知识发现变得越来越困难。

为了便于在大量的文本中查询检索用户所需的的内容，通常对文本集中的文本进行聚类操作。聚类是一个把数据对象集划分为多个组或簇的过程，使得组内的对象具有很高的相似性，但与其他组中的对象很不相似，相异性和相似性根据描述对象的属性值进行评估。聚类一直以来作为知识发现和数据挖掘的强有力工具已经植根于许多应用领域，如生物学、安全、商务智能和Web搜索。文本聚类更是近年来的一个研究热点，例如，由于Web页面的数目巨大，关键词搜索常常会返回大量命中的网页，可以用文本聚类将搜索结果分组，以简明、容易访问的方式提交这些结果。

近年来，人们已经提出了很多优秀的文本聚类算法，但它们大多数是为新闻、博客之类的传统长文本而设计的。长文本通常包含多个主题并且具有高维度的特征表示，一般的文档相似性测量无法考虑这种情况。最近，随着社交网络(如新浪微博)的广泛出现，短文本扮演了非常重要的角色。短文本包含很少的词汇，特征表示的时候是非常稀疏的。有人直接对短文本运用长文本的聚类方法，聚类的效果非常差。因此，很多研究就提出了针对短文本的文本聚类算法，实现了很好的聚类效果。

然而，很多实际的数据集不仅包含长文本，也包含很多短文本，即混合长度的文本集。由于短文本的存在，直接对混合长度文本集用基于词袋的聚类方法，也很难达到理想的聚类效果。另一方面，如果直接对混合长度文本集用近来提出的短文本聚类算法，很多长文本由于降维操作会有信息损失，也达不到好的聚类效果。

因此，针对同时包含长文本以及短文本的混合长度文本集，需要一种新的文本聚类方法以获取更为理想的聚类结果。

发明内容

针对同时包含长文本以及短文本的混合长度文本集，本发明提供了一种针对混合长度文本集的文本聚类方法，所述方法包括以下步骤：

划分长短文本步骤，将待聚类文本集划分为长文本集和短文本集；

建模步骤，按照特定的规则分别针对所述长文本集和所述短文本集中的文本进行建模从而获取所述文本对应的文本模型；

生成特征向量步骤，基于所述文本模型生成主题参数从而基于所述主题参数获取相应文本的特征向量；

文本聚类步骤，基于所述特征向量进行所述文本的聚类。

在一实施例中，在所述划分长短文步骤中，基于所述文本中字符个数将所述文本划分到所述长文本集或所述短文本集。

在一实施例中，将所述字符个数多于140个字符的文本划分到所述长文本集，将所述字符个数少于或等于140个字符的文本划分到所述短文本集。

在一实施例中，在所述划分长短文步骤中，基于所述文本对应的文档主题生成模型中特定隐藏主题的个数将所述文本划分到所述长文本集或所述短文本集。

在一实施例中，将所述文本对应的文档主题生成模型中概率大于特定阈值的隐藏主题定义为所述特定隐藏主题。

在一实施例中，在所述建模步骤中，基于双主题文档主题生成模型对所述文本进行建模。

在一实施例中，在所述建模步骤中：

在针对所述短文本集中的文本进行建模时利用所述长文本集中的文本进行辅助建模，从而减缓所述文本模型的稀疏程度；

在针对所述长文本集中的文本进行建模时利用所述短文本集中的文本进行辅助建模，从而降低所述文本模型的特征维度。

在一实施例中，在所述建模步骤中，在利用所述长/短文本集中的文本进行辅助建模时，基于所述长文本集的文本个数与所述短文本集的文本个数之间的比例关系调整所述长/短文本集中的文本的辅助程度。

在一实施例中，在所述建模步骤中，在利用所述长/短文本集中的文本进行辅助建模时，基于所述长文本集中文本个数与所述短文本集中文本个数的比值采用相应比例的所述长/短文本集中的文本信息。

在一实施例中，在所述生成特征向量步骤中，首先通过对所述待聚类文本集的训练，估算出所述文本模型的参数；然后对所述参数中关于文本主题的参数进行归一化，从而得到以主题数为维度的所述特征向量。

与现有技术相比，本发明具有如下优点：

本发明的聚类方法充分考虑了同时包含长文本以及短文本的混合长度文本集的特点，在平衡混合长度文本集稀疏性以及维度的前提下进行文本聚类，相较于现有技术，获得的聚类结果更加理想。

本发明的其它特征或优点将在随后的说明书中阐述。并且，本发明的部分特征或优点将通过说明书而变得显而易见，或者通过实施本发明而被了解。本发明的目的和部分优点可通过在说明书、权利要求书以及附图中所特别指出的步骤来实现或获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一实施例执行流程图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

文本依据其长度大小可以分为短文本以及长文本两类。短文本在聚类的过程中具有高度稀疏的特性，长文本在聚类过程中具有维度特别高的特性。现有的文本聚类方法通常是单独针对长/短文本的高稀疏或高维度来进行文本聚类。由于混合长度文本集同时包含较多的长文本以及短文本，其同时具有高稀疏以及高维度的特点。因此利用现有的文本聚类方法对混合长度文本集进行聚类往往无法获得理想的聚类结果。

本发明针对同时包含长文本以及短文本的混合长度文本集提供了一种新的文本聚类方法。接下来基于流程图详细描述本发明的方法的实施过程，附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出了各步骤的逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

执行本发明的方法，首先执行步骤S100，获取待聚类文本集。

本发明的文本聚类方法是通过对待聚类文本集中的文本建模从而基于文本模型获取相应的特征向量，进而利用特征向量执行文本聚类。由于待聚类文本集为混合长度文本集，其同时包含较多的长文本以及短文本。为了降低稀疏性和维度对文本模型的影响，本发明的方法通过利用长短文本相互辅助的方式来减缓短文本造成的稀疏性和降低长文本的维度，从而最终实现文本模型的稀疏性和维度的平衡。进而最大限度的降低稀疏性和维度对文本聚类的影响，优化文本聚类结果。

为了实现长短文本相互辅助，在本实施例中需要先执行步骤S110，划分长/短文本步骤，将待聚类文本集中的文本划分为长文本和短文本两类。

在本实施例中，步骤S110是基于文本中字符个数将文本划分为长文本和短文本两类。其中，定义字符个数多于140个字符的文本为长文本，字符个数少于或等于140个字符的文本为短文本。

这里需要指出的是，长/短文本的划分方法并不限于上述的基于字符个数的方法。在本发明的另一实施例中，步骤S110将文本对应的文档主题生成模型(LatentDirichlet Allocation，LDA)中文本主题参数的概率大于特定阈值的隐藏主题定义为特定隐藏主题，然后基于特定隐藏主题的个数将文本划分为长文本和短文本两类。例如，定义特定隐藏主题个数多于K(K根据经验选取，一般选择2或3)的文本为长文本，特定隐藏主题个数少于或等于K的文本为短文本。

长文本以及短文本被划分完毕后，就可以执行步骤S120，建模步骤，按照特定的规则利用长短文本相互辅助的方式分别针对长文本和短文本中的文本进行建模从而获取文本对应的文本模型。

在步骤S120中，在针对短文本中的文本进行建模时利用长文本中的文本进行辅助建模，从而减缓短文本中的文本对应的模型的稀疏程度；在针对长文本中的文本进行建模时利用短文本中的文本进行辅助建模，从而降低长文本中的文本对应的模型的特征维度。

由于考虑到不同占有比例的长/短文本对待聚类文本集整体的维度/稀疏度影响是不同的，因此本实施的方法在利用长/短文本进行辅助建模时引入了对待聚类文本集中长文本与短文本数量比例的影响考虑。在步骤S120中，在利用长/短文本中的文本进行辅助建模时，基于长文本中文本个数与短文本中文本个数的比例关系调整长/短文本中的文本的辅助程度。

具体即是，在利用长/短文本中的文本进行辅助建模时，基于长文本中文本个数与短文本中文本个数的比值采用相应比例的所述长/短文本中的文本信息。如果待聚类文本集中短文本的比例很小，则生成短文本的文本模型时使用更多来自辅助长文本的信息，同时生成长文本的文本模型时使用更少来自辅助短文本的信息。

接下来基于详细的公式来具体说明步骤S120。由于考虑到了长文本以及短文本的不同特征，并需要基于长短文本相互辅助的方式进行建模，因此在本实施例中，基于通常的LDA模型构建了双主题文档主题生成模型(ADLDA)。从而在步骤S120中基于双主题文档主题生成模型对文本进行建模。

在构建双主题文档主题生成模型前，首先定义变量，本实施例的主要的符号变量定义如表1所示。

表1

表1中：

r表示文本集中长文本数目所占的比例，表示如下：

r＝M^long/(M^long+M^short) (1)

混合长度文本集可以表示为：

W = {w_{m}^{long}}_{m = 1}^{M^{long}} \cup {w_{m}^{short}}_{m = 1}^{M^{short}} - - - (2)

为了实现双主题，将文本集划分为长文本集和短文本集的同时主题也被划分为两组，得到短文本集中按参数φ^s分布的K^s个主题和长文本集中按参数φ^l分布的K^l个主题。为了实现长度自适应，本实施例使用超参数γ，它能决定长短文本集相互辅助的程度，表示为：

K^l＝K*r，K^s＝K-K^l，γ^s＝γ*r，γ^l＝γ-γ^s (3)

下面说明本实施例的ADLDA模型的生成过程：

1)对于每一个长文本主题，得到关于词语的狄利克雷分布

Φ_{z}^{l} ~ Dirichlet (β); - - - (4)

2)对于每一个短文本主题，也得到关于词语的狄利克雷分布

Φ_{z}^{s} ~ Dirichlet (β); - - - (5)

3)对于每个文本集c∈{long(l),short(s)}中的文本，从关于主题的分布中选择一个主题，并且获取关于长文本主题和短文本主题的二项式分布

对于文本d中的每一个词语得到二元开关

x_{d}^{n} ~ Binomial (π_{d}^{c}), - - - (6)

如果

x_{d}^{n} = long,

从多项式分布中选择长文本主题

如果

x_{d}^{n} = short,

选择短文本主题

最终得到每个词关于主题的分布

w_{d}^{n} ~ Multinomial (Φ_{z_{d}^{n}}^{x_{d}^{n}}) . - - - (7)

建模完成后，就可以执行步骤S130，生成特征向量步骤，基于文本模型生成主题参数并将主题参数作为相应文本的特征向量。在本实施例中获得特征向量首先要执行步骤S131，估算参数步骤。首先通过对待聚类文本集的训练，估算出文本模型的参数。

在步骤S131中，本实施例通过吉布斯(Gibbs)采样进行模型参数估计，其具体过程如下：

首先通过超参数，能够得到所以可见变量和隐藏变量的联合分布：

每个词的概率可以通过积分获得：

\begin{matrix} p (w | α, β, γ) \\ = &Integral; &Integral; &Integral; p (Φ | β) p (θ_{m} | α) p (π_{m} | γ^{c}) p (w_{m, n}^{c} | {Φ, θ}_{m}, π_{m}) d {Φdθ}_{m} {dπ}_{m} \end{matrix} - - - (9)

整个数据集的似然函数为：

\begin{matrix} p (W | α, β, γ) \\ = Π_{m = 1}^{Ml} Π_{n = 1}^{Nl} p (w_{m, n}^{l} | α, β, γ^{l}) Π_{m = 1}^{Ms} Π_{n = 1}^{Ns} p (w_{m, n}^{s} | α, β, γ^{s}) \end{matrix} - - - (10)

通过吉布斯采样，得到以下的更新规则：

1)关于长文本主题z^l∈{1,…,K^l},

2)关于短文本主题z^s∈{1,…,K^s}

3)对于任意主题，它的概率可以如下计算：

在参数估计结束后就可以执行步骤S132，参数归一化步骤，对参数中关于文本-主题的参数进行归一化。通过归一化θ_d得到每个文本的特征向量：

f_{d} = [\frac{θ_{d, 1}^{l}}{Σ_{i} θ_{i, 1}^{l}}, . . ., \frac{θ_{d {, K}^{l}}^{l}}{Σ_{i} θ_{i, K^{l}}^{l}}, \frac{θ_{d, 1}^{s}}{Σ_{i} θ_{i, 1}^{s}}, . . ., \frac{θ_{{d, K}^{s}}^{s}}{Σ_{i} θ_{i {, K}^{s}}^{s}}] - - - (14)

最后就可以执行步骤S140，文本聚类步骤，基于特征向量进行文本的聚类。在步骤S140中，可以采用传统的聚类方法，如基于距离的聚类算法(K-means)，得到聚类结果。本发明的聚类方法充分考虑了同时包含长文本以及短文本的混合长度文本集的特点，在平衡混合长度文本集稀疏性以及维度的前提下进行文本聚类，相较于现有技术，获得的聚类结果更加理想。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。本发明所述的方法还可有其他多种实施例。在不背离本发明实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变或变形，但这些相应的改变或变形都应属于本发明的权利要求的保护范围。

Claims

1.一种针对混合长度文本集的文本聚类方法，其特征在于，所述方法包括以下步骤：

文本聚类步骤，基于所述特征向量进行所述文本的聚类。

2.根据权利要求1所述的方法，其特征在于，在所述划分长短文步骤中，基于所述文本中字符个数将所述文本划分到所述长文本集或所述短文本集。

3.根据权利要求2所述的方法，其特征在于，将所述字符个数多于140个字符的文本划分到所述长文本集，将所述字符个数少于或等于140个字符的文本划分到所述短文本集。

4.根据权利要求1所述的方法，其特征在于，在所述划分长短文步骤中，基于所述文本对应的文档主题生成模型中特定隐藏主题的个数将所述文本划分到所述长文本集或所述短文本集。

5.根据权利要求4所述的方法，其特征在于，将所述文本对应的文档主题生成模型中概率大于特定阈值的隐藏主题定义为所述特定隐藏主题。

6.根据权利要求1所述的方法，其特征在于，在所述建模步骤中，基于双主题文档主题生成模型对所述文本进行建模。

7.根据权利要求1所述的方法，其特征在于，在所述建模步骤中：

8.根据权利要求7所述的方法，其特征在于，在所述建模步骤中，在利用所述长/短文本集中的文本进行辅助建模时，基于所述长文本集的文本个数与所述短文本集的文本个数之间的比例关系调整所述长/短文本集中的文本的辅助程度。

9.根据权利要求7所述的方法，其特征在于，在所述建模步骤中，在利用所述长/短文本集中的文本进行辅助建模时，基于所述长文本集中文本个数与所述短文本集中文本个数的比值采用相应比例的所述长/短文本集中的文本信息。

10.根据权利要求7所述的方法，其特征在于，在所述生成特征向量步骤中，首先通过对所述待聚类文本集的训练，估算出所述文本模型的参数；然后对所述参数中关于文本主题的参数进行归一化，从而得到以主题数为维度的所述特征向量。