CN113935321A

CN113935321A - 一种适用于LDA主题模型的自适应迭代Gibbs采样方法

Info

Publication number: CN113935321A
Application number: CN202111213584.7A
Authority: CN
Inventors: 邵党国; 李承瑶
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-01-14
Anticipated expiration: 2041-10-19
Also published as: CN113935321B

Abstract

本发明涉及一种适用于LDA主题模型的自适应迭代Gibbs采样方法，属于计算机与改进算法优化技术领域。本发明首先对输入的文本数据集进行分词和去停用词处理；将经过预处理的文本数据集转换为词袋模型；将词袋输入到LDA主题模型中，并使用自适应迭代的Gibbs采样算法进行参数估计；当Gibbs采样迭代自动结束时，从而输出文本数据集潜在的主题特征。这种自适应迭代的Gibbs采样算法在进行LDA主题模型的参数估计时不需要进行人为的迭代次数设置，大幅度降低了迭代的次数，提升了LDA主题模型生成主题特征的效率。

Description

一种适用于LDA主题模型的自适应迭代Gibbs采样方法

技术领域

本发明涉及一种适用于LDA主题模型的自适应迭代Gibbs采样方法，属于计算机与改进算法优化技术领域。

背景技术

LDA主题模型作为最流行的主题模型之一，它可以将文本数据集中每篇文本的主题以概率分布的形式给出，从而抽取出它们的主题分布后，便可以根据主题分布进行主题聚类或文本分类。LDA主题模型通常使用Gibbs采样算法来进行主题参数的近似计算，然而Gibbs采样算法需要提前设定迭代次数，在实际应用中，如果迭代次数不够，估计的参数会很差。但在实际应用中，进行多少次迭代可以收敛？没有好办法。在通常情况下Gibbs采样算法的迭代次数通常设置为1000次以上。但是，将迭代次数设置为1000或2000次是否合理？因此合理的设定Gibbs采样算法的迭代次数是一个需要解决的问题。

发明内容

本发明要解决的技术问题是一种适用于LDA主题模型的自适应迭代Gibbs采样方法，从而弥补现有LDA主题模型使用Gibbs采样进行训练时需要提前设定迭代次数以及迭代次数设定不准确的缺陷。

本发明的技术方案是：一种适用于LDA主题模型的自适应迭代Gibbs采样方法，具体步骤为：

Step1：使用分词工具和停用词表对输入的文本数据集进行分词和去停用词处理。

Step2：将经过分词和去停用词处理后的文本数据集转换为词袋模型。

Step3：将词袋模型输入到LDA主题模型中，并使用自适应迭代的Gibbs采样算法对词袋模型进行采样，并对LDA主题模型生成的主题参数进行估计，直到主题参数收敛，迭代自动停止。

所述Step3中，LDA主题模型实现输入文本主题特征的生成过程为：

首先从超参数为α的狄利克雷分布中采样生成文本d_m的主题分布θ_m，接着从生成主题的多项式分布θ_m中采样生成文本d_m中第n个词语的主题z_m,n，然后从超参数为β的狄利克雷分布中采样生成主题z_m,n对应的词语分布

k表示主题数，最后从词语分布

中采样生成词语t。

在LDA的实际训练过程中使用Gibbs采样近似求解主题参数，其过程为：首先为文本中的所有词语随机分配主题z⁽⁰⁾，随后，计算出现在每个主题z下的词语t的数量和出现在每个文本m下的主题z中的数量，接着排除当前词语的主题分配，并且根据所有其他词语的主题分配来估计当前单词分配给所有主题的概率。在获得当前词语属于所有主题z的概率分布之后，根据该概率分布为该词语取一个新的主题z⁽¹⁾，最终不断更新每个词语的主题，直到所有文本的主题分布θ和所有主题的词语分布

收敛。

采用自适应迭代的Gibbs采样算法后，迭代次数不需要提前设定，迭代将会在主题参数收敛后自动停止。

所述Step3具体步骤为：

Step3.1：在使用Gibbs采样对LDA主题模型进行训练时，每迭代十次将生成的文本-主题分布θ和主题-词语分布

通过下式生成文本-词语分布C_new：

Step3.2：由于LDA主题模型是由输入的词袋生成的，词袋可以看作一个文本-词语分布，记为C。

Step3.3：在Gibbs采样每迭代十次生成的C_new同输入的词袋C通过下式进行相关系数r_CCnew计算：

式中，C_i表示词袋模型中第i个词的特征值，

表示词袋模型中所有特征值的平均值，

表示词袋模型中第i个词的特征值。

Step3.4：当Gibbs采样每十次迭代生成的C_new和输入词袋C相关系数

精确到小数点后五位连续三次保持不变时，即表明

趋于稳定，此时Gibbs采样停止，从而实现适用于LDA主题模型的自适应迭代Gibbs采样算法。

将Gibbs采样迭代停止时的迭代数作为输入数据集经过LDA主题模型训练后主题参数收敛的标志。

Step4：当自适应迭代的Gibbs采样自动结束时，从而输出文本数据集潜在的主题特征即所有文本的主题分布θ和所有主题的单词分布

所述Step4中，LDA主题模型在自适应迭代的Gibbs采样停止后，生成的文本-主题分布θ和主题-词语分布

中的主题参数已经收敛，此时生成的文本-主题分布θ可以作为文本分类等下游任务的特征矩阵。

本发明的有益效果是：有效降低了LDA主题模型通过Gibbs采样算法进行训练时的时间，不需要人为的提前设定Gibbs采样的迭代次数，并很好的在主题参数收敛时迭代停止，提高了LDA主题模型提取文本数据主题特征的效率。

附图说明

图1是本发明的步骤流程示意图；

图2是本发明自适应迭代Gibbs采样算法的流程图；

图3是本发明在训练冶金新闻数据集时不同主题数下的Gibbs采样迭代次数示意图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：本实例采用2016年11月1日至2016年11月30日冶金信息网站下载的322篇新闻文本，按照技术方案中的数据处理步骤，将其输入到采用自适应迭代Gibbs采样算法的LDA主题模型中进行特征提取。

如图1所示，

Step1：对输入文本数据集进行预处理。

采用python开源的分词软件jieba0.42版本对冶金新闻数据集进行分词。并使用哈工大停用词表对冶金新闻数据集中的低频词和不重要的词进行剔除，例如“的”，“地”，“得”这样的词语，以及“？”，“！”这样的标点符号。

Step2：生成词袋模型。

将经过Step1预处理过的冶金新闻数据集通过python开源的Gensim工具包转换为词袋模型，即特征词的词频矩阵，该词频矩阵的行为经过预处理后的特征词数，列为文档数，最终生成了一个13190×322的词频矩阵。

Step3：将词袋输入LDA主题模型，并采用自适应迭代的Gibbs采样算法完成LDA主题模型的参数估计。

LDA是一个概率生成模型，冶金新闻数据集D中有322篇文档，N_d表示322篇文档中某一篇文档d_m中所含的词语数量，LDA首先从超参数为α的狄利克雷分布中采样生成文本d_m的主题分布θ_m；接着从生成主题的多项式分布θ_m中采样生成文本d_m中第n个词语的主题z_m,n；然后从超参数为β的狄利克雷分布中采样生成主题z_m,n对应的词语分布

k表示主题数；最后从词语分布

中采样生成词语t。

设定LDA主题模型的超参数α为50k，超参数β为0.01。

LDA主题模型重点是对文本数据集中每一篇文本d_m的每一个词语t的隐变量主题参数z_m,n的求解，Gibbs采样可以近似求解其主题参数，其过程为：首先为文档中的所有词语随机分配主题z⁽⁰⁾；随后，计算出现在每个主题z下的词语t的数量和出现在每个文本m下的主题z中的数量；接着排除当前词语的主题分配，并且根据所有其他词语的主题分配来估计当前单词分配给所有主题的概率。在获得当前词语属于所有主题z的概率分布之后，根据该概率分布为该词语取一个新的主题z⁽¹⁾；最终不断更新每个词语的主题，直到所有文档的主题分布θ和所有主题的词语分布

收敛。

采用自适应迭代的Gibbs采样算法后，迭代次数不需要提前设定，迭代将会在冶金新闻数据集中所有文档的主题分布θ和所有主题的词语分布

收敛后自动停止。

将LDA主题模型的主题数设为k时，最终生成大小为322×k的文档-主题分布矩阵θ，以及大小为k×13190的主题-词语分布矩阵

Step4：生成主题特征。

当自适应迭代的Gibbs采样自动结束时，将此时输出的冶金新闻数据集潜在的主题特征即所有文档的主题分布θ和所有主题的词语分布

作为后续文本处理任务的特征使用，例如文本分类。

如图2所示，Step3中所述的自适应迭代Gibbs采样算法具体步骤为：

Step3.1：使用Gibbs采样对LDA主题模型在冶金新闻数据集上进行训练时，将Gibbs采样每迭代十次生成的文档-主题分布θ和主题-词语分布

通过公式1生成一种新的词语-文档分布C_new，C_new是一个大小为13190×322的分布矩阵：

Step3.2：由于LDA主题模型是由输入的词袋生成的，词袋同样作为词频矩阵，同样是一个大小为13190×322的分布矩阵，将其记为C。

Step3.3：将Gibbs采样每迭代十次生成的C_new同输入的词袋C通过公式2进行相关系数

计算：

式中，C_i表示词袋模型中第i个词的特征值，

表示词袋模型中所有特征值的平均值，

表示词袋模型中第i个词的特征值。

当LDA主题经过Gibbs采样算法训练得到的C_new同输入的词袋C的相关系数趋于稳定时，则表明C_new矩阵中的主题特征与之前迭代生成的主题特征基本一致，从而表明了构成C_new矩阵的文档-主题分布θ以及主题-词语分布

中的主题参数趋于收敛。

Step3.4：Gibbs采样每十次迭代生成的C_new和输入词袋C相关系数

精确到小数点后五位连续三次保持不变时，表明

趋于稳定，即LDA主题模型生成的主题特征中的参数已经收敛，此时Gibbs采样迭代则会自动停止，从而实现适用于LDA主题模型的自适应迭代Gibbs采样算法。

将Gibbs采样迭代停止时的迭代数作为冶金新闻数据集经过LDA主题模型训练后主题参数收敛的标志。

在对冶金新闻数据集的实验中，将LDA主题模型的主题数从2设置到50，其中主题2到主题10是连续的，主题10到主题75是以5为间隔进行设置的。为了直观的实验效果，将LDA主题模型的Gibbs采样的迭代上限设置为2000次。

采用自适应迭代Gibbs采样算法后，在不同主题数下Gibbs采样的迭代数如图3所示。其中在主题数为2时的迭代次数为320次，主题数为3时的迭代次数为1210次，主题数为4时的迭代次数为880次，主题数为5时的迭代次数为730次，主题数为6时的迭代次数为1280次，主题数为7时的迭代次数为570次，主题数为8时的迭代次数为1770次，主题数为9时的迭代次数为1230次，主题数为10时的迭代次数为2000次，主题数为15时的迭代次数为1320次，主题数为20时的迭代次数为2000次，主题数为25时的迭代次数为1800次，主题数为30时的迭代次数为1840次，主题数为35时的迭代次数为1160次，主题数为40时的迭代次数为1720次，主题数为45时的迭代次数为1590次，主题数为50时的迭代次数为2000次，主题数为55时的迭代次数为1190次，主题数为60时的迭代次数为1340次，主题数为65时的迭代次数为1890次，主题数为70时的迭代次数为1040次，主题数为75时的迭代次数为1710次。

从上述实验结果可以看出，采用自适应迭代Gibbs采样算法训练LDA主题模型后，在不同主题数下Gibbs采样的迭代次数基本上都小于设置的迭代上限次数，完全实现了适用于LDA主题模型的自适应迭代Gibbs采样，从而证明了本发明的有效性。

Step3.5：最后将自适应迭代Gibbs采样结束时生成的文档-主题分布θ和主题-词语分布

作为LDA主题模型的最终输出，从而进行进一步的处理。

同样可以将生成的C_new作为特征矩阵进行进一步处理。

C_new作为特征矩阵蕴涵更加丰富的文本特征信息，用于后续文本处理时相比文档-主题分布矩阵θ会更有优势。

所述Step4中，LDA主题模型在自适应迭代的Gibbs采样停止后，生成的文档-主题分布θ和主题-词语分布

中的主题特征参数已经收敛，可将文档-主题分布θ以及文档-主题分布θ和主题-词语分布

生成的C_new作为文本分类等文本处理下游任务的特征矩阵。

与现有技术相比，本发明具有以下特点：

1、通过实现适用于LDA主题模型的自适应迭代Gibbs采样算法，有效降低了LDA主题模型通过Gibbs采样算法进行训练时的时间，不需要人为的提前设定Gibbs采样的迭代次数，从而使LDA主题模型的训练变得更加方便。

2、提高了LDA主题模型提取文本数据主题特征的效率，使得LDA主题模型在完成进一步的文本处理任务时相比传统的主题模型更有优势。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。