CN111611389B

CN111611389B - 基于非参数vmf混合模型的文本数据聚类方法、装置及设备

Info

Publication number: CN111611389B
Application number: CN202010499191.6A
Authority: CN
Inventors: 范文涛; 侯文娟
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2022-05-27
Anticipated expiration: 2040-06-04
Also published as: CN111611389A

Abstract

本发明公开了一种基于非参数VMF混合模型的文本数据聚类方法、装置及设备，方法包括：S101，获取待聚类的文本数据集；其中，所述文本数据集包括多个文本，每个文本用词频‑逆文本频率指数标准化方法表示为D维的文本向量特征；S102，使用基于Pitman‑Yor过程的非参数VMF混合模型对每个文本进行建模；S103，通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数；S104，根据推断的所述模型参数，判断所述非参数VMF混合模型是否收敛；若否，则返回步骤S103，若是，则执行步骤S105；S105，根据指示因子的后验概率判断每个文本的所属类别，从而根据所属类别对所述文本进行聚类。本发明能够确保算法收敛并且可以有效地检测收敛状态。

Description

基于非参数VMF混合模型的文本数据聚类方法、装置及设备

技术领域

本发明涉及文本挖掘领域，尤其涉及一种基于非参数VMF混合模型的文本数据聚类方法、装置及设备。

背景技术

随着互联网的快速发展和新闻文档的广泛使用，文本数据聚类作为文本挖掘中最有用的任务之一，近年来受到越来越多的关注。

现有技术一中，钟文良等提出了一种基于Pitman-Yor过程的不平衡文本数据聚类方法。在该方法中，每一个文本用TF(词频，term frequency)向量表示，向量的每个属性代表一个特定的词项(术语)在文档中出现的频率，每个类别中的所有词项都服从同一个多项分布(Multinomial Distribution)。该方法采用Polya罐子模型(Polya urn model)来构建基于多项分布的Pitman-Yor过程模型，并利用Gibbs采样算法进行模型参数的求解。其存在的缺陷是：

1、每个文本用TF向量来表示。然而在本文数据分析领域中，许多研究工作已经显示使用TF-IDF向量表示方法总是比使用TF会得到更好的性能。此外，由于基于TF-IDF的向量可以表示为单位球面(unit-sphere)上的一个点，所以本发明使用基于VMF概率分布的混合模型是一个恰当地选择。

2、Pitman-Yor过程模型使用Polya罐子模型来进行构建。不能直观地表示Pitman-Yor过程模型的离散性质。

3.采用的Gibbs采样算法进行模型参数的求解无法得到解析解，并且不容易收敛且很难确定收敛状态。

现有技术二中，Nguyen Kim Anh等提出了基于狄利克雷过程(DirichletProcess，DP)的VMF混合模型的文档聚类方法。在该方法中每一个文本用TF-IDF向量表示，并假设每个文本都服从基于DP的VMF混合模型。该方法分别采用了渐进逼近(AsymptoticApproximation)以及变分贝叶斯推断方法来估算VMF的浓度参数和其余模型参数。

其存在缺陷是：

1.文本聚类方法基于狄利克雷过程(DP)框架所构建的VMF混合模型。由于DP混合模型通常无法识别出仅含有少量数据样本的类别，所以不能有效地对不平衡数据进行聚类分析。

2、VMF概率分布中的浓度参数在基于VMF的建模应用中起到至关重要的作用。现有技术二中浓度参数使用渐进逼近的方法来得到估计值，然而该估算方法无法有效应对高维数据。

发明内容

有鉴于此，本发明的目的在于提供一种基于非参数VMF混合模型的文本数据聚类方法、装置及设备，能够确保算法收敛并且可以有效地检测收敛状态。

本发明实施例提供了一种基于非参数VMF混合模型的文本数据聚类方法，包括：

S101，获取待聚类的文本数据集；其中，所述文本数据集包括多个文本，每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征；

S102，使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模；

S103，通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数；

S104，根据推断的所述模型参数，判断所述非参数VMF混合模型是否收敛；若否，则返回步骤S103，若是，则执行步骤S105；

S105，根据指示因子的后验概率判断每个文本的所属类别，从而根据所属类别对所述文本进行聚类。

优选地，所述使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模，具体包括：

获取VMF概率分布的概率密度函数；

其中，

为位置参数并满足条件

||·||为L2范数的计算；λ为刻度参数并满足条件λ≥0，维度D≥2，I_D/2(λ)为修正的第一类D/2阶Bessel函数；

对服从非参数VMF混合模型的每个文本，获取其概率密度函数表达式；

其中，

表示所收集到的含有N个文本的数据集；该非参数VMF混合模型共由无穷多个混合组件组成，每个混合组件对应一个VMF概率分布

其中

是第k个混合组件的参数，而π_k>0为相应的混合系数，并满足条件

为每个文本向量

指派一个二元隐变量

做为指示因子；其中，当Z_nk＝1时，表明文本向量

属于第k个类别；否则，Z_nk＝0；隐变量

的概率分布为：

对所述非参数VMF混合模型中的参数

和

指派先验概率分布；其中，采用VMF-Gamma分布作为参数

的联合先验分布，其表达式如下式所示

其中p_g(·)为Gamma分布；

获得基于Pitman-Yor过程模型的非参数VMF混合模型的全概率表达式为：

优选地，非参数VMF混合模型基于采用Stick-Breaking表示方法的Pitman-Yor过程模型构建而成；在基于Stick-Breaking表示方法的Pitman-Yor过程模型中，混合系数π_k的表示如下：

服从Beta分布，表达形式如下

其中p_b(·)为Beta分布，α为Pitman-Yor过程模型中的折扣参数并满足条件0≤α≤1，β为密度参数满足条件β>-α。

优选地，所述通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数，以及

根据推断的所述模型参数，判断所述非参数VMF混合模型是否收敛；

具体包括：

初始化模型参数；其中，包括初始化截断层数K＝15，初始化超参数0<u_k<1，

α_k＝0.5，β_k＝0.5使用K-Means算法初始化r_nk；初始化

利用当前的模型参数更新变分后验以及期望值；

根据更新的期望值获取更新后的

获得当前迭代所产生的变分下界；

将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数VMF混合模型是否收敛。

优选地，利用当前的模型参数更新变分后验以及期望值具体为：

定义变分下界为：

L(q)＝<ln p(Θ|X)>-<ln q(Θ)>

其中，<·>为期望值的计算，

为所有随机变量和隐藏变量的集合。q(Θ)为真实后验分布p(Θ|X)的近似分布，即变分后验；变分后验q(Θ)的表达式如下：

使用截断技术把混合组件从无穷维度空间截断到K维空间：

π′_K＝1，

当k>K时π_k＝0；

其中，K为截断层数，即类别的个数，K值可以初始化为任意值，并将于收敛时达到最优值；

通过最大化变分下界L(q)来优化所有的变分后验：

上式中的超参数可以由如下公式计算得出：

上式中的期望值的计算由下面公式计算得出：

<Z_nk>＝r_nk (14)

<lnπ′_k>＝Ψ(g_k)-Ψ(g_k+h_k) (16)

<ln(1-π′_k)>＝Ψ(h_k)-Ψ(g_k+h_k) (17)

其中，Ψ(·)为Digamma函数。

优选地，将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数VMF混合模型是否收敛具体为：

当前迭代产生的变分下界与上一次迭代产生的变分下界的差是否小于预设阈值；

若是，则判定所述非参数VMF混合模型收敛；

若否，则判定所述非参数VMF混合模型不收敛。

优选地，所述预设阈值为0.0001。

优选地，根据指示因子的后验概率判断每个文本的所属类别，从而根据所属类别对所述文本进行聚类，具体为：

获取指示因子的后验概率r_nk，r_nk表示第n个文本

属于第k个类别的概率；

选取概率最大的类别作为文本

的类别。

本发明实施例还提供了一种基于非参数VMF混合模型的文本数据聚类装置，包括：

文本数据集获取单元，用于获取待聚类的文本数据集；其中，所述文本数据集包括多个文本，每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征；

建模单元，用于使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模；

模型参数估算单元，用于通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数；

收敛判断单元，用于根据推断的所述模型参数，判断所述非参数VMF混合模型是否收敛；若否，则通知模型参数估算单元，若是，则通知分类单元；

分类单元，用于根据指示因子的后验概率判断每个文本的所属类别，从而根据所属类别对所述文本进行聚类。

本发明实施例还提供了一种基于非参数VMF混合模型的文本数据聚类设备，包括存储器以及处理器，所述存储器内存储有待聚类的文本数据集以及计算机程序，所述计算机程序能够被所述处理器执行，以实现如上述的基于非参数VMF混合模型的文本数据聚类方法。

上述一个实施例中，通过采用基于Pitman-Yor过程的非参数VMF来构建基于VMF概率分布的非参数VMF混合模型，并使用该模型对文本数据集进行聚类分析。本实施例所构建的VMF混合模型是指由含若干个VMF概率分布通过加权组合的方式所形成的概率分布。在本实施例中，每一个文本用TF-IDF向量表示，并且每个文本都服从VMF混合模型。为了能够灵活地根据数据的大小从而自动调节文本类别的个数，本实施例使用名为Pitman-Yor过程的非参数模型框架来构建基于VMF分布的非参数混合模型。所提出的非参数VMF混合模型的参数通过变分贝叶斯推断(Variational Bayes Inference)算法进行估算。与现有技术相比，本实施例具有如下优点：

1、本实施例中的Pitman-Yor过程模型基于Stick-Breaking表示方法，该构建方法可以更直观地表示Pitman-Yor过程模型的离散性质，并更容易将其应用在混合模型上从而实现聚类分析。

2、本实施例所提出的变分推断方法可以得到解析解，从而使得参数估算速度更快。此外，本实施例所提出的变分推断方法可以确保算法收敛并且可以通过计算变分下界(Variational Lower Bound)从而有效地检测收敛状态。

3、本实施例所提出的方法基于Pitman-Yor过程模型由于具有可以用来控制产生新类别数量的折扣参数，所以在处理不平衡数据时比基于DP混合模型的方法更具优势。

4、本实施例中，浓度参数将被看作为一个随机参数并赋予其一个先验概率分布，并通过变分贝叶斯推断效计算高维空间中的参数值。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的基于非参数VMF混合模型的文本数据聚类方法的一种流程示意图。

图2为本发明第一实施例提供的基于非参数VMF混合模型的文本数据聚类方法的另一种流程示意图。

图3为本发明第二实施例提供的基于非参数VMF混合模型的文本数据聚类装置的程序模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明第一实施例提供了一种基于非参数VMF混合模型的文本数据聚类方法，其可由基于非参数VMF混合模型的文本数据聚类设备(以下简称聚类设备)来执行，并至少包括：

S101，获取待聚类的文本数据集；其中，所述文本数据集包括多个文本，每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征。

在本实施例中，所述聚类设备可为笔记本电脑、台式电脑或者服务器等具有数据处理功能的计算机设备，所述计算机设备可通过执行预定的程序来实现基于非参数VMF混合模型的文本数据聚类方法。

在本实施例中，词频-逆文本频率指数(Term Frequency-Inverse DocumentFrequency，TF-IDF)是一种用于资讯检索与文本挖掘的常用加权技术，可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

S102，使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模。

在本实施例中，步骤S102具体包括：

S1021，获取VMF概率分布的概率密度函数；

其中，

为位置参数并满足条件

S1022，对服从非参数VMF混合模型的每个文本，获取其概率密度函数表达式：

其中，

表示所收集到的含有N个文本的数据集；此式中，该混合模型共由无穷多个混合组件(也称为混合成分)组成，每个混合组件对应一个VMF概率分布

其中

是第k个混合组件的参数，而π_k>0为相应的“混合系数”(mixingcoefficient)，并满足条件

在本实施例中，非参数VMF混合模型基于采用Stick-Breaking表示方法的Pitman-Yor过程模型构建而成。在基于Stick-Breaking表示方法的Pitman-Yor过程模型中，混合系数π_k的表示如下：

服从Beta分布，表达形式如下

其中p_b(·)为Beta分布，α为Pitman-Yor过程模型中的折扣(Discount)参数并满足条件0≤α≤1，β为密度参数满足条件β>-α。

S1023，为每个文本向量

指派一个二元隐变量

做为指示因子；其中，当Z_nk＝1时，表明文本向量

属于第k个类别；否则，Z_nk＝0；隐变量

的概率分布为：

S1024，对所述非参数VMF混合模型中的参数

和

指派先验概率分布；其中，采用VMF-Gamma分布作为参数

的联合先验分布，其表达式如下式所示

其中p_g(·)为Gamma分布；

S1025，获得基于Pitman-Yor过程模型的非参数VMF混合模型的全概率表达式为：

如此，即获得了基于Pitman-Yor过程模型的非参数VMF混合模型。

S103，通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数。

S104，根据推断的所述模型参数，判断所述非参数VMF混合模型是否收敛；若否，则返回步骤S103，若是，则执行步骤S105。

具体地，包括：

首先，初始化模型参数；其中，包括初始化截断层数K＝15，初始化超参数0<u_k<1，0<v_k<1,

α_k＝0.5，β_k＝0.5使用K-Means算法初始化r_nk；初始化

然后，利用当前的模型参数更新变分后验以及期望值。

其中，先定义变分下界为：

L(q)＝<ln p(Θ|X)>-<ln q(Θ)>

这里，<·>为期望值的计算，

使用截断技术把混合组件从无穷维度空间截断到K维空间：

π′_K＝1，

当k>K时π_k＝0；

通过最大化变分下界L(q)来优化所有的变分后验：

式(1)-(3)中的超参数可以由如下公式计算得出：

式(4)-(11)中的期望值的计算由下面公式计算得出：

<Z_nk>＝r_nk (14)

<lnπ′_k>＝Ψ(g_k)-Ψ(g_k+h_k) (16)

<ln(1-π′_k)>＝Ψ(h_k)-Ψ(g_k+h_k) (17)

其中，Ψ(·)为Digamma函数。

接着，根据更新的期望值获取更新后的

由式(12)-(17)，在获取更新后的期望值获取更新后的

再接着，获得当前迭代所产生的变分下界。

由式(1)-(17)，在获取更新后的模型参数以及期望值后，可以获得当前迭代所产生的变分下界。

最后，将当前迭代产生的变分下界与上一次迭代产生的变分下界进行对比以判断所述非参数VMF混合模型是否收敛。

具体地，判断当前迭代产生的变分下界与上一次迭代产生的变分下界的差是否小于预设阈值；若是，则判定所述非参数VMF混合模型已经收敛，此时的截断层数达到最优值；若否，则判定所述非参数VMF混合模型不收敛，此时需要再进行下一步的迭代。

在本发明的较佳实施例中，所述预设阈值可为0.0001，但需要说明的是，还可以是其他数值，预设阈值越小则迭代的精度越高。

在本实施例中，在模型收敛后，获得收敛后的模型参数中的指示因子的后验概率r_nk，该指示因子的后验概率r_nk表示第n个文本

属于第k个类别的概率，此时根据r_nk选取概率最大的类别作为文本

的类别，再根据文本的类别就可以实现对文本数据集中的不同文本的聚类了。

为便于对本发明的理解，下面将以一实际的例子来说明本实施例的应用。

本例子通过有效性在两个公开文本数据集(CNAE-9数据集和20-Newsgroups数据集)上进行了验证。

本例子以Windows10系统为实验平台，以Matlab为程序语言，参数设置参见第一实施例中。聚类结果以标准化互信息(Normalized Mutual Information，NMI)来进行度量。此外，本例子所提出的PYP-VMF文本聚类方法和两种相接近技术进行了实验对比。接近技术1为基于Pitman-Yor过程与多项分布，简称为PYP-Mul；接近技术2基于Dirichlet过程和VMF分布，简称为DP-VMF。各方法重复10次实验，取平均NMI值作为对比指标。实验结果如表1所示。从对比结果上可以看出，与现有相近技术相比，本实施例能够得到更好的文本聚类结果(更高的NMI值)。

表1

综上所述，本实施例提供的基于非参数VMF混合模型的文本数据聚类方法，通过采用基于Pitman-Yor过程的非参数VMF来构建基于VMF概率分布的非参数VMF混合模型，并使用该模型对文本数据集进行聚类分析。本实施例所构建的VMF混合模型是指由含若干个VMF概率分布通过加权组合的方式所形成的概率分布。在本实施例中，每一个文本用TF-IDF向量表示，并且每个文本都服从VMF混合模型。为了能够灵活地根据数据的大小从而自动调节文本类别的个数，本实施例使用名为Pitman-Yor过程的非参数模型框架来构建基于VMF分布的非参数混合模型。所提出的非参数VMF混合模型的参数通过变分贝叶斯推断(Variational Bayes Inference)算法进行估算。与现有技术相比，本实施例具有如下优点：

(1)、本实施例中的Pitman-Yor过程模型基于Stick-Breaking表示方法，该构建方法可以更直观地表示Pitman-Yor过程模型的离散性质，并更容易将其应用在混合模型上从而实现聚类分析。

(2)、本实施例所提出的变分推断方法可以得到解析解，从而使得参数估算速度更快。此外，本实施例所提出的变分推断方法可以确保算法收敛并且可以通过计算变分下界(Variational Lower Bound)从而有效地检测收敛状态。

(3)、本实施例所提出的方法基于Pitman-Yor过程模型由于具有可以用来控制产生新类别数量的折扣参数，所以在处理不平衡数据时比基于DP混合模型的方法更具优势。

(4)、本实施例中，浓度参数将被看作为一个随机参数并赋予其一个先验概率分布，并通过变分贝叶斯推断效计算高维空间中的参数值。

请参阅图3，本发明第二实施例还提供了一种基于非参数VMF混合模型的文本数据聚类装置，包括：

文本数据集获取单元210，用于获取待聚类的文本数据集；其中，所述文本数据集包括多个文本，每个文本用词频-逆文本频率指数标准化方法表示为D维的文本向量特征；

建模单元220，用于使用基于Pitman-Yor过程的非参数VMF混合模型对每个文本进行建模；

模型参数估算单元230，用于通过变分贝叶斯推断算法估算所述非参数VMF混合模型的模型参数；

收敛判断单元240，用于根据推断的所述模型参数，判断所述非参数VMF混合模型是否收敛；若否，则通知模型参数估算单元230，若是，则通知分类单元250；

分类单元250，用于根据指示因子的后验概率判断每个文本的所属类别，从而根据所属类别对所述文本进行聚类。

本发明第三实施例还提供了一种基于非参数VMF混合模型的文本数据聚类设备，包括存储器以及处理器，所述存储器内存储有待聚类的文本数据集以及计算机程序，所述计算机程序能够被所述处理器执行，以实现如上述的基于非参数VMF混合模型的文本数据聚类方法。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。