CN111191036A

CN111191036A - 短文本主题聚类方法、装置、设备及介质

Info

Publication number: CN111191036A
Application number: CN201911401384.7A
Authority: CN
Inventors: 朱鹏飞; 王伟凯; 钱艳; 安毫亿
Original assignee: Hangzhou Yuanchuan New Technology Co ltd
Current assignee: Hangzhou Yuanchuan New Technology Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-22

Abstract

本发明公开了一种短文本主题聚类方法，涉及自然语言处理技术领域，旨在实现短文本文档的主题聚类，该方法包含以下步骤：获取短文本文档数据；对所述短文本文档数据进行分词、去停用词和去无意义词处理，形成训练语料；将所述训练语料输入BTM模型进行训练，通过最大期望算法计算所述BTM模型的参数；根据所述参数对所述BTM模型进行建模，生成主题模型。通过所述主题模型对所述训练语料进行主题聚类，输出主题聚类结果。本发明还公开了一种短文本主题聚类装置、电子设备和计算机存储介质。

Description

短文本主题聚类方法、装置、设备及介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种短文本主题聚类方法、装置、设备及介质。

背景技术

快餐信息时代，每天产生的数据量是TB级别的，数据更是来自各个不同的领域或者应用场景。人们为了追求高效率、更便捷的信息获取方式，所以绝大部分数据是以短文本形式存在的，所以寻求一种能有效实现短文本数据挖掘和分析的方法已经成为亟待解决的问题，而通过主题聚类能实现短文本的有效挖掘和分析。

在现有技术中，LDA作为最经典的主题聚类算法，却不适用短文本的主题聚类，原因是短文本文档数据不利于训练LDA模型。除此之外，LDA因容易出现过拟合，同样不适合对非高斯分布样本进行降维处理，所以LDA具有较大的应用局限性，还会受样本种类限制。

因此针对短文本的主题聚类，亟需提出一种适用于短文本处理的主题聚类方法。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种短文本主题聚类方法，旨在降低短文本主题聚类的复杂度，并同时提高处理效率。

本发明的目的之一采用以下技术方案实现：

一种短文本主题聚类方法，包括以下步骤：

获取短文本文档数据；

对所述短文本文档数据进行分词、去停用词和去无意义词处理，形成训练语料；

将所述训练语料输入BTM模型进行训练，通过最大期望算法计算所述BTM模型的参数；

根据所述参数对所述BTM模型进行建模，生成主题模型；

通过所述主题模型对所述训练语料进行主题聚类，输出主题聚类结果。

进一步地，采用jieba分词工具、LTP分词工具、THULCA分词工具中的任意一种对所述短文本文档数据进行分词，得到分词结果；采用停用词表对所述分词结果进行去停用词处理。

进一步地，所述去无意义词处理包括：对经去停用词处理的分词结果进行词性标注，存储特定词性的分词；所述特征词性的分词形成训练语料。

进一步地，所述最大期望算法为EM采样算法或BFGS采样算法，通过EM采样算法和/或BFGS采样算法迭代计算所述BTM模型的参数。

进一步地，将所述训练语料输入BTM模型进行训练，通过最大期望算法计算所述BTM模型的参数，具体包括如下步骤：

将所述训练语料中的分词进行标号，按标号顺序形成Biterm，将所述Biterm输入BTM模型；

采用EM采样算法对所述BTM模型进行迭代训练，当所述EM算法的步长小于等于预设阈值时，采用BFGS算法继续迭代计算所述BTM模型，得到所述BTM模型的参数。

进一步地，所述主题聚类结果包括各个主题的分布概率、主题特征词分布概率和文档-主题分布矩阵，以及每个主题的最高级别分词和相应概率。

本发明的目的之二在于提供一种短文本主题聚类装置，其通过对数据进行预处理，去掉无意的分词，再通过训练BTM模型以输出主题聚类结果，从而实现对短文本的主题聚类。

本发明的目的之二采用以下技术方案实现：

数据获取模块，用于获取短文本文档数据；

预处理模块，用于对所述短文本文档数据进行分词、去停用词和去无意义词处理，形成训练语料；

模型训练模块，用于将所述训练语料输入BTM模型进行训练，通过最大期望算法计算所述BTM模型的参数；

建模模块，用于根据所述参数对所述BTM模型进行建模，生成主题模型；

主题聚类模块，用于通过所述主题模型对所述训练语料进行主题聚类，输出主题聚类结果。

本发明的目的之三在于提供执行发明目的之一的电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时实现上述的短文本主题聚类方法。

本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的短文本主题聚类方法。

相比现有技术，本发明的有益效果在于：

本发明通过对短文本文档数据进行预处理，去除了大量无意义的分词，减小了训练语料对于模型的影响程度，且使用了更适合短文本主题聚类的BTM模型，并使用BFGS算法，降低了算法的时间复杂度，加快了模型的收敛速度，有助于快速获得主题模型，减少了短文本主题聚类的处理时间。

附图说明

图1是本发明短文本主题聚类方法的流程图；

图2是实施例2的短文本主题聚类装置的结构框图；

图3是实施例3的电子设备的结构框图。

具体实施方式

以下将结合附图，对本发明进行更为详细的描述，需要说明的是，以下参照附图对本发明进行的描述仅是示意性的，而非限制性的。各个不同实施例之间可以进行相互组合，以构成未在以下描述中示出的其他实施例。

实施例1

本实施例提供了一种短文本主题聚类方法，如图1所示，具体包括以下步骤：

一种短文本主题聚类方法，包括以下步骤：

获取短文本文档数据；

根据所述参数对所述BTM模型进行建模，生成主题模型；

上述短文本文档数据可以是任何领域的数据。

优选地，所述主题聚类结果包括各个主题的分布概率、主题特征词分布概率和文档-主题分布矩阵，以及每个主题的最高级别分词和相应概率。

优选地，采用jieba分词工具、LTP分词工具、THULCA分词工具、PyLTP分词工具、stanford分词工具中的任意一种对所述短文本文档数据进行分词，得到分词结果；采用停用词表对所述分词结果进行去停用词处理。在本实施例中，采用jieba分词工具对所述短文本文档数据进行分词，得到分词结果，再使用停用词表去掉分词结果中的停用词，具体采用哈工大停用词表或百度停用词表。该分词结果去停用词后，会进行无意义词处理，以去掉分词结果中的无意义词，降低无意义词对模型训练结果的影响。

优选地，所述去无意义词处理包括：对经去停用词处理的分词结果进行词性标注，存储特定词性的分词；所述特征词性的分词形成训练语料。其中特定词性的分词具体为：形容词、成语、简称略语、数词、名词、人名、地名、机构团体名、专用字母名、其他专用名和动词。

经上述分词、去停用词、去无意义词处理后的分词结果形成词对集合，即为所述训练语料。

优选地，所述最大期望算法为EM采样算法或BFGS采样算法，通过EM采样算法和/或BFGS采样算法迭代计算所述BTM模型的参数，需要注意的是，BFGS采样算法为EM采样算法的改进算法，BFGS采样算法能加速BTM模型的参数求解过程。

在本实施例中，通过EM采样算法和BFGS采样算法计算所述BTM模型的参数。因此，将所述训练语料输入BTM模型进行训练，通过最大期望算法计算所述BTM模型的参数，具体包括如下步骤：

采用EM采样算法对所述BTM模型进行迭代训练，当所述EM算法的步长小于等于预设阈值时，采用BFGS采样算法继续迭代计算所述BTM模型，得到所述BTM模型的参数。

使用上述BTM模型输出主题聚类结果的过程如下：

设w表示分词，b表示词对，B表示词对集合，d表示输入文档，Z表示主题；则绘制主题Z的主题分布为φ(Z)～Dir(β)，绘制词对集合B的主题分布为θ～Dir(α)；对于词对集合B中的每个词对b而言，分别绘制单个主题分布为Z～Multi(θ)和单个词对的主题分布为w_i…w_j～Multi(φ_Z)，由上可知词对b＝(w_i…w_j)的概率分布为：

其中P(Z)＝θ_Z，P(w_ι|Z)＝φ_i|Z，P(w_j|Z)＝φ_j|Z；

因此整个词对集合B的联合概率分布为：

得到整个词对集合B的概率分布以后，我们需要计算文档d中的主题，即计算估计BTM模型的中的参数θ和φ，得到BTM模型的参数后，就可以将所述参数带入所述BTM模型进行建模，生成主题模型，然后通过主题模型输出主题聚类结果。

计算估计BTM模型的中的参数θ和φ时，首先我们通过下述计算公式计算文档d的词对-主题比例期望值：

假设文档d的主题比例等于文档d的词对-主题比例期望值，则

上述P(Z|b)可以根据BTM模型中计算估计的参数，用下述贝叶斯公式计算得到：

其中P(Z)＝θ_Z，P(w_ι|Z)＝φ_i|Z，P(w_j|Z)＝φ_j|Z。

则词对b在文档d中的概率分布为：

其中n_d(d)表示词对b在文档d中的频率，在短文本文档中，n_d(d)一般是均匀分布的。

在本实施例中，Biterm将作为上述词对集合B进行计算，以求得到上述短文本文档数据中的主题聚类结果。

上述提及的EM采样算法是基于极大似然估计理论的算法，接下来使用EM采样算法完成BTM模型的参数估计计算，其具体计算过程为：给定相互独立的观测数据B＝{b₁,…,b_N}、包含隐变量Z、参数θ的概率模型f(B,Z,θ)，当该概率模型取得极大似然值时，θ实现最优单点估计：

考虑概率模型中含有隐变量，所述概率模型的似然可以按以下方式展开：

利用极大似然估计理论的算法，对上式取自然对数可得：

上述公式展开，引入隐变量Z有关的概率分布φ，可得：

EM采样算法对所述BTM模型进行迭代训练的计算过程如下：

EM步：第一次迭代，随机初始化θ。第一次迭代后，固定前一次迭代的θ^(t-1)，求解φ^(t)，使得：

L(θ，φ)，取最大值；其中t表示迭代次数，N表示独立观测数据的总数，K表示主题总数。

由于存在不对等关系，首先需要对log(X|θ)-L(θ,φ)进行展开，使得：

利用

的原理，根据贝叶斯定理简化上式：

其中，式中KL为Kullback-Leibler散度，ξ(θ,φ)表示吉布斯自由能，求解L(θ,φ)的极大值等同于求解隐分布吉布斯自由能ξ(θ,φ)的极大值，即隐分布对隐变量后验概率P(B|Z,θ)求解得到的KL散度极小值。由KL散度的性质可知，其极小值在两个概率分布相等时取得，因此当φ_wi|Z(Z)＝P(B|Z,θ)时，L(θ,φ)取极大值，对EM算法的第t次迭代，E步有如下计算过程和计算结果：

φ^(t)＝P(Z|B,θ^(t-1)),θ^(o)＝θ(0)。

M步：在E步的计算基础上，M步求解BTM模型参数，使L(θ,φ)取极大值，该极大值的必要条件为

因此通过下式求L(θ,φ)最大值：

其中，Ε_q表示联合似然P(B,Z|θ)对隐分布φ(Z)的期望，由此得到M步的计算结果如下：

当所述EM算法的步长小于等于预设阈值时，BTM模型接近最优解，此时采用BFGS采样算法继续迭代计算BTM模型的参数，以加速BTM模型的参数推导，所述参数为对数似然最大值。需要注意的是，上述预设阈值在本实施例的取值为1e^-3，具体为：当步长小于等于1e^-3之前，使用EM算法迭代训练BTM模型，当步长在1e^-3到1e^-6之间时，BTM模型接近最优解，此时步长变化极为缓慢，因此使用BFGS算法加速BTM模型的参数计算，步长到达1e^-6时，停止迭代训练，得到BTM模型的参数。

上述BFGS算法对EM算法的M步求解过程进行了改进，所述BFGS采样算法的迭代计算过程如下：

设

步骤一：取迭代初期的最新参数设定为φ₀和θ₀，取常数α∈(0，1)，k＝1，r₀＝||g(θ₀)||；

步骤二：若||g(θ₀)||＝0，则停止计算，否则进行步骤三；

步骤三：若||g(θ_k)||<αr_k，则取r_k+1满足||g(θ_k)||≤r_k+1<αr_k，置

进行步骤五，否则进行步骤四；

步骤四：置r_k+1＝r_k，一维搜索取EM步长Δωθ_k，置θ_k+1＝θ_k+Δθ_k；

步骤五：对φ_k使用BFGS校正公式，置

其中Δ_k＝g(θ_k+1)-g(θ_k)，δ_k＝θ_k+1-θ_k；

步骤六：置K＝K+1，转步骤二。

经上述迭代计算过程，可以得到所述接近最优解的BTM模型的参数的取值，即上述参数θ和参数φ。

将所述参数θ和参数φ取值带入所述BTM模型，得到主题聚类模型。通过所述主题聚类模型，可以对短文本文档数据的主题聚类，得到主题聚类结果，即输出各个主题的分布概率、主题特征词分布概率和文档-主题分布矩阵，以及每个主题的最高级别分词和相应概率。

实施例2

本实施例公开了一种对应实施例1的短文本主题聚类方法的短文本主题聚类装置，为虚拟结构装置，如图2所示，包括：

数据获取模块210，用于获取短文本文档数据；

预处理模块220，用于对所述短文本文档数据进行分词、去停用词和去无意义词处理，形成训练语料；

模型训练模块230，用于将所述训练语料输入BTM模型进行训练，通过最大期望算法计算所述BTM模型的参数；

建模模块240，用于根据所述参数对所述BTM模型进行建模，生成主题模型；

主题聚类模块250，用于通过所述主题模型对所述训练语料进行主题聚类，输出主题聚类结果。

在上述预处理模块220中，采用jieba分词工具对所述短文本文档数据进行分词，采用百度停用词表对分词后的所述短文本文档数据进行停用词处理，然后进行词性标注，存储特定词性的分词，以完成去无意义词处理；所述特征词性的分词形成训练语料。其中特定词性的分词具体为：形容词、成语、简称略语、数词、名词、人名、地名、机构团体名、专用字母名、其他专用名和动词。

在本实施例中，上述模型训练模块230中提及的最大期望算法为EM采样算法和BFGS采样算法，首先采用EM采样算法进行迭代训练，当所述BTM模型接近最优解时，采用BFGS采样算法加速推导得到所述BTM模型的参数。

在主题聚类模块250中，输出的主题聚类结果包括：

各个主题的分布概率、主题特征词分布概率和文档-主题分布矩阵，以及每个主题的最高级别分词和相应概率。

实施例3

图3为本发明实施例3提供的一种电子设备的结构示意图，如图3所示，该电子设备包括处理器310、存储器320、输入装置330和输出装置340；计算机设备中处理器310的数量可以是一个或多个，图3中以一个处理器310为例；电子设备中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器320作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的短文本主题聚类方法对应的程序指令/模块(例如，短文本主题聚类装置中的数据获取模块210、预处理模块220、模型训练模块230、建模模块240和主题聚类模块250)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现实施例1的短文本主题聚类方法。

存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器320可进一步包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可用于接收短文本文档数据等。输出装置340用于输出和显示主题聚类结果。

实施例4

本发明实施例4还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于实现短文本主题聚类方法，该方法包括：

获取短文本文档数据；

根据所述参数对所述BTM模型进行建模，生成主题模型；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的短文本主题聚类方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述短文本主题聚类方法或装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种短文本主题聚类方法，其特征在于，包括以下步骤：

获取短文本文档数据；

根据所述参数对所述BTM模型进行建模，生成主题模型；

2.如权利要求1所述的短文本主题聚类方法，其特征在于，采用jieba分词工具、LTP分词工具、THULCA分词工具中的任意一种对所述短文本文档数据进行分词，得到分词结果；采用停用词表对所述分词结果进行去停用词处理。

3.如权利要求2所述的短文本主题聚类方法，其特征在于，所述去无意义词处理包括：对经去停用词处理的分词结果进行词性标注，存储特定词性的分词；所述特征词性的分词形成训练语料。

4.如权利要求3所述的短文本主题聚类方法，其特征在于，所述最大期望算法为EM采样算法或BFGS采样算法，通过EM采样算法和/或BFGS采样算法迭代计算所述BTM模型的参数。

5.如权利要求4所述的短文本主题聚类方法，其特征在于，将所述训练语料输入BTM模型进行训练，通过最大期望算法计算所述BTM模型的参数，具体包括如下步骤：

6.如权利要求1所述的短文本主题聚类方法，其特征在于，所述主题聚类结果包括各个主题的分布概率、主题特征词分布概率和文档-主题分布矩阵，以及每个主题的最高级别分词和相应概率。

7.一种短文本主题聚类装置，其特征在于，包括：

数据获取模块，用于获取短文本文档数据；

8.一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的短文本主题聚类方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的短文本主题聚类方法。