CN108763207A

CN108763207A - 一种lda主题模型优化采样方法

Info

Publication number: CN108763207A
Application number: CN201810493178.2A
Authority: CN
Inventors: 黄宜华; 袁春风; 周锐; 赵博
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2018-11-06

Abstract

本发明公开了一种LDA主题模型优化采样方法，包括以下步骤：第一步，确定主题数目，并随机初始化每个单词的主题；第二步，对所有文档构建“词项‑文档”倒排索引；第三步，对吉布斯采样公式进行分解；第四步，确定迭代轮数，分轮迭代。每一轮迭代可分为以下四步：第一步，对采样公式第一部分构建AliasTable；第二步，对采样公式第二部分构建SparseAliasTable；第三步，对采样公式第三部分构建累积分布；第四步，根据采样公式对词项进行采样，得到新的主题并更新主题参数。本发明可以显著降低LDA主题模型采样方法的计算复杂度和采样复杂度，解决了现有采样方法模型学习质量低、模型收敛速度慢等问题。

Description

一种LDA主题模型优化采样方法

技术领域

本发明涉及文本语义分析与主题模型领域，尤其涉及一种LDA主题模型优化采样方法。

背景技术

主题模型(Topic Models)是一种可以从大规模语料中自动提取出隐含语义主题的生成概率模型。主题模型因为其优秀的可解释性，逐渐成为机器学习、自然语言处理、计算机视觉的重要课题，并在文本聚类、热点挖掘、情感分析、信息检索、推荐系统等领域取得了广泛的应用。隐含狄利克雷分配模型(latent Dirchlet allocation,LDA)，作为主题模型中应用最广泛的一种模型，最早是由Blei、Ng 和Jordan于2003年提出的。然而，随着待分析语料库规模越来越大，主题模型需要分析的主题数目也越来越大，模型收敛质量和模型收敛速度收到了严重的挑战。因此，如何设计计算复杂度和采样复杂度的LDA主题模型优化采样算法成为困扰学术界和业界的一大难题。

随着LDA主题模型的广泛应用，对吉布斯采样算法的优化算法层出不穷。由于吉布斯采样算法对每一个单词w采样时都要遍历全部K个主题，所以计算复杂度和采样复杂度均为O(K)，当主题数目变得非常大时，如此高的计算复杂度会导致高昂的计算开销，大大延长了每一轮的采样时间，从而降低了模型的收敛速度。

为此，越来越多的学者提出了对标准吉布斯采样(Collapsed Gibbs Sampling)的优化。研究工作者观察到随着LDA主题模型的训练迭代，文档主题分布和词项主题分布会变得越来越稀疏。最早的SparseLDA就是利用文档主题分布和主题单词分布的稀疏性来降低其计算和采样复杂度。SparseLDA可以将计算复杂度降低到O(K_w)，将采样复杂度降低到min(O(K_w),O(K_d))。虽然SparseLDA计算复杂度较标准吉布斯采样有了明显的降低，但是当词项数目非常大时， SparseLDA的计算和采样复杂度依然很大。

AliasLDA引入AliasTable采样法来降低计算和采样复杂度，在一定程度上解决了SparseLDA的瓶颈，将计算复杂度降为O(K_d)。尽管如此，AliasLDA依然不擅长处理大规模短文本(如twiter微博论坛信息时)，计算复杂度完全取决于文档的规模，而在采样迭代初期文档主题分布会很稠密度，这样会严重拖慢 LDA主题模型的收敛速度。

LightLDA在AliasLDA采样算法的基础上继续改进，引入了Metropolis-Hastings算法，在很大程度上降低了标准吉布斯采样的计算和采样复杂度，计算和采样复杂度分别降为O(1)和O(#MH)。LightLDA相较于AliasLDA 和SparseLDA在计算复杂度上提升了一个数量级，但是由于在采样复杂度上受到Metropolis-Hastings算法拒绝率影响，LightLDA的采样复杂度依然比较高。

其中K表示LDA主题模型的主题数，K_d代表和文档d相关的主题个数，K_w表示和单词w相关的主题个数，MH表示利用Metropolis-Hastings采样方法。 O(#MH)表示Metropolis-Hasting算法的计算复杂度。

发明内容

发明目的：针对上述现有技术存在的问题与不足，本发明的目的是提供一种 LDA主题模型优化采样方法，解决了现有方法计算复杂度和采样复杂度低的问题，以及在主题数目和文本规模不断扩大的情况下现有方法无法同时保证模型学习质量和模型收敛速度等问题。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种LDA主题模型优化采样方法，包括以下步骤：

(1)输入文档集合，确定主题数目，并随机初始化每个单词的主题；

(2)顺序扫描每篇文档，对所有文档构建“词项-文档”倒排索引；

(3)将标准吉布斯采样公式分解成三部分；

(4)遍历倒排索引中所有词项，对于文档中出现的每一个词项执行步骤(5) 到步骤(8)，每次采样完后更新主题参数，直至模型达到收敛条件；

(5)对采样公式第一部分构建全局AliasTable；

(6)对采样公式第二部分构建SparseAliasTable；

(7)对采样公式第三部分构建累积分布；

(8)根据(5)至(7)构建的主题概率分布，采样得出词项的主题并更新主题参数。

进一步地，所述步骤(1)中，并统计两个频率计数矩阵分别为：文档主题计数矩阵N_kd，描述每个文档中的主题频率分布；词项主题计数矩阵N_kw，表示每个主题下词项的主题分布。

进一步地，所述步骤(2)中，利用所有词项构建的“词项-主题”倒排索引，一次性对这个词在所有文档中的出现的所有位置进行采样。

进一步地，在所述步骤(3)中，在采样过程中保持不变，而N_k|d*N_k|w变化很大，分解部分随着迭代的加深是否变得越来越稀疏，稀疏性有助于降低计算复杂度同时减少内存开销。

进一步地，所述步骤(5)中，一旦全局AliasTable构建完毕，计算和采样复杂度降为O(1)。虽然在采样过程中每采样完一个单词都会产生变化，但是这种变化微乎其微，可以采用近似计算。

进一步地，所述步骤(6)中，随着采样迭代的加深，N_k|w会呈现出稀疏性，所以对构建的是一个SparseAliasTable，当开始对下一个词项采样时，重复上述步骤，即重新构建一个SparseAliasTable。AliasTable使得该部分的计算和采样复杂度降为O(1)。

进一步地，在所述步骤(7)中，由于在每采样一个单词后都会及时更新，所以对于每一个单词采样之前都需要计算一次进而在此基础上构建累积分布。

进一步地，在所述步骤(8)中，利用(5)至(7)中构建的AliasTable和累计分布，两次采样即可得出词项的新的主题，并更新主题参数。

有益效果：本发明能够在快速高效地实现LDA主题模型的训练学习。第一，本发明将LDA主题模型中的标准吉布斯采样公式分解为三个部分，针对三个部分的特点分别构建AliasTable和累积分布，大大降低了每一部分的计算复杂度和采样复杂度；第二，不同于以往的方法需要通过牺牲模型学习质量来提高模型收敛速度，本发明可以在保证模型学习质量的情况下有效提高模型的收敛速度；第三，本发明不同于以往按照文档顺序采样，而是采用按照单词顺序进行采样，这样只需对每个词项构建一次AliasTable和累积分布就可以对这个词项在语料库中出现的所有位置进行采样，极大提升采样速度从而有效提升模型收敛速度。

附图说明

图1为本发明的方法总体流程示意图；

图2为本发明中每轮迭代的采样流程示意图；

图3为模型学习质量对比(nytimes1k，主题模型数目1000)示意图；

图4为模型学习质量对比(nytimes10k，主题模型数目10000)示意图；

图5为模型收敛速度对比(nytimes1k，主题模型数目1000)示意图；

图6为模型收敛速度对比(nytimes10k，主题模型数目10000)示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提出了一种LDA主题模型的优化采样方法，利用分解吉布斯采样公式、构建AliasTable和累积分布的方法解决了LDA主题模型的训练学习问题。本发明利用了LDA模型的稀疏性，设计了适合本发明的词项存储和模型存储方案。本发明采用按照词项顺序对文档实现采样，可以高效地对每个词项构建AliasTable和累积分布，实现一次构建多次采样，有效提升了模型的收敛速度。本发明采用精确采样，既解决了模型学习质量问题也解决了模型收敛速度问题。

如图1所示，本发明的完整流程包括初始化文档主题阶段、构建倒排索引阶段、分解采样公式阶段、构建全局AliasTable阶段、构建SparseAliasTable阶段、构建累积分布阶段和采样更新主题阶段7个部分。具体的实施方式分别说明如下：

初始化文档主题阶段对应技术方案步骤(1)。具体实施方式为：设定主题数目为5个，用z1-z5表示，文档数目为5，用doc1-doc5表示，词表数目为5，用 w1-w5表示，两个超参数均设置初值为1，每个文档的词项分布如下： doc1{w1,w1,w2,w3,w5,w5},doc2{w1,w2,w2,w2,w2,w3,w3,w3,w4,w4,w5},doc3{w 2,w4,w4,w5,w5},doc4{w2,w2,w2,w4,w4,w5},doc5{w1,w1,w3,w4,w4,w5,w5}。根据已确定的主题数目，随机给每篇文档中的每个单词分配一个主题z，如下： doc1{w1z2,w1z2,w2z5,w3z5,w5z2,w5z3},doc2{w1z2,w2z2,w2z1,w2z1,w2z2,w3z 4,w3z2,w3z5,w4z1,w4z1,w5z2},doc3{w2z3,w4z1,w4z3,w5z2,w5z2},doc4{w2z4, w2z3,w2z4,w4z2,w4z5,w5z4},doc5{w1z2,w1z5,w3z2,w4z2,w4z2,w5z3,w5z4}，进而统计出文档主题和词项主题两个频率计数矩阵。

构建倒排索引阶段对应技术方案步骤(2)。具体实施方式为：首先顺序扫描每篇文档，对文档中出现过的所有词项构建“词项-主题”倒排索引。记录下每个词项出现的文档编号，以及词项的主题。

w1→{d1z2,d1z2,d2z2,d5z2,d5z5},

w2→{d1z5,d2z2,d2z1,d2z1,d2z2,d3z3,d4z4,d4z3,d4z4},

w3→{d1z5,d2z4,d2z2,d2z5,d5z2},

w4→{d2z1,d2z1,d3z1,d4z1,d4z5,d4z2,d4z2},

w5→{d1z2,d1z3,d2z2,d3z2,d3z2,d4z4,d5z3,d5z4}

利用这个倒排索引按照词项顺序进行采样，一次性对这个词在所有文档中的出现的所有位置进行采样。

分解吉布斯采样公式阶段对应技术方案步骤(3)。具体实施方式为：将吉布斯采样分解成以下三个部分

技术方案步骤(4)是重复迭代采样流程，对应流程中的构建全局AliasTable 阶段、构建SparseAliasTable阶段、构建累积分布阶段以及采样更新主题阶段。

构建全局AliasTable阶段对应技术方案步骤(5)。具体实施方式为：对吉布斯采样公式第一部分构建全局AliasTable，并且在每轮迭代中只计算一次并且重复使用。根据上一轮迭代后的文档主题计数矩阵N_kd和词项主题计数矩阵N_kw计算得出的概率分布为构建全局 AliasTable每个主题上对应的概率乘以20，概率分布变为{2，1，2，2，2}，得到AliasTable后，一旦采样落入该桶中，即可利用AliasTable采样得出新的主题。

构建SparseAliasTable阶段对应技术方案步骤(6)。具体实施方式为：对吉布斯采样公式第二部分构建一个SparseAliasTable。首根据上一轮迭代后的文档主题计数矩阵N_kd和词项主题计数矩阵N_kw计算得出的概率分布为每个主题上对应的概率乘以5，概率分布变为{0， 1，1，1，0}，经过上述变换可以得出公式第二部分SparseAliasTable，一旦采样落入该桶中，即可利用SparseAliasTable采样得出新的主题。

构建累积分布阶段对应技术方案步骤(7)。具体实施方式为：对吉布斯采样公式第三部分构建累积分布，首先根据上一轮迭代后的文档主题计数矩阵N_kd和词项主题计数矩阵N_kw计算得出的概率分布为此概率分布即为公式第三部分的累积分布。一旦采样落入该桶中，即可利用累积分布采样得出新的主题。

采样更新主题阶段对应技术方案步骤(8)。具体实施方式为：将吉布斯采样公式的三个部分看成三个桶r,s,t，首先(5)至(7)中的三个主题概率分布求和得到三个桶的概率总和Q＝R+S+T，其中根据均匀分布U＝Uniform(0,Q)随机产生一个数U，如果U落在r桶内，则对r桶进行采样，如果U落在s桶内，则对s桶进行采样，如果U落在t桶内，则对t 桶进行采样。采样结束后得到新的主题并更新主题参数。

本发明现有开源软件实现了完整的算法程序ZenLDA，并将AliasLDA， LightLDA和ZenLDA在nytimes语料库上进行实验，并在模型学习质量、模型收敛速度上进行性能比较。

实验采用nytimes语料库作为训练集。nytimes语料库是Google公布了一个《纽约时报》标注数据集。训练集包括100834文件，19261118标注实体。测试集合包括9706文件，187080标注实体。实验环境为单台机器，机器的配置为内存64G，CPU核数为12核。实验分别AliasLDA，LightLDA和ZenLDA做了对比。SparseLDA由于性能太差没有出现在比较中。

首先进行模型学习质量的对比。实验分为两组，分别设置主题数目为1000 和10000。如图3所示，当主题数目为1000时，ZenLDA与AliasLDA具有相同的模型学习质量，LightLDA每轮迭代的模型学习质量均不及ZenLDA和 AliasLDA。

当主题数目为10000时，如图4所示ZenLDA和AliasLDA都依然保持良好的收敛效果，而LightLDA由于主题数目的增大，模型学习质量明显降低。实验表明ZenLDA的模型学习质量不受主题规模的影响，尤其在训练大规模的主题模型仍能保持良好的模型学习质量。在图3和图4中，ZenLDA和AliasLDA模型学习质量非常接近，所以ZenLDA和AliasLDA的模型学习质量几乎重合。

然后进行模型收敛速度的对比。实验同样分为两组，分别设置主题数目为 1000和10000。如图5所示，当主题数目为1000时，ZenLDA与LightLDA的每轮迭代耗时几乎相同，ZenLDA明显优于LightLDA。

当主题数目增大十倍时，如图6所示，AliasLDA的每轮迭代耗时增加了一倍，而ZenLDA和LightLDA的每轮迭代耗时几乎没有增长，这表明随着模型的增大ZenLDA和LightLDA依然可以保持良好的收敛速度，ZenLDA和LightLDA 在训练大规模的模型时优势更明显。

Claims

1.一种LDA主题模型优化采样方法，包括以下步骤：

(3)将标准吉布斯采样公式分解成三部分；

(4)遍历倒排索引中所有词项，对于文档中出现的每一个词项执行步骤(5)到步骤(8)，每次采样完后更新主题参数，直至模型达到收敛条件；

(5)对采样公式第一部分构建全局AliasTable；

(6)对采样公式第二部分构建SparseAliasTable；

(7)对采样公式第三部分构建累积分布；

2.根据权利要求1所述LDA主题模型优化采样方法，其特征在于：所述步骤(1)中，根据已确定的主题数目，随机给每篇文档中的每个单词分配一个主题z，并统计两个频率计数矩阵。

3.根据权利要求1所述LDA主题模型优化采样方法，其特征在于：所述步骤(2)中，顺序扫描每个文档，对文档中出现过的所有词项构建“词项-主题”倒排索引，记录下每个词项出现的文档编号，以及词项的主题。

4.根据权利要求1所述LDA主题模型优化采样方法，其特征在于：所述步骤(3)中，将吉布斯采样分解成以下三个部分

5.根据权利要求1所述LDA主题模型优化采样方法，其特征在于：所述步骤(4)中，每一轮模型学习过程由步骤(5)至步骤(8)四步完成一轮迭代。

6.根据权利要求1所述LDA主题模型优化采样方法，其特征在于：所述步骤(5)中，对吉布斯采样公式第一部分构建全局AliasTable，在每轮迭代中只计算一次并且重复使用。

7.根据权利要求1所述LDA主题模型优化采样方法，其特征在于：所述步骤(6)中，对吉布斯采样公式第二部分构建一个SparseAliasTable，在对每个词项采样过程中只计算一次，并且在对这个词项出现的所有文档中的所有单词采样过程中重复使用，随着这个词项包含的所有单词采样完毕，SparseAliasTable的生命周期也随之结束。

8.根据权利要求1所述LDA主题模型优化采样方法，其特征在于：所述步骤(7)中，对吉布斯采样公式第三部分构建累积分布，在对每一个单词(每一个词项在所有文档中的出现)采样的时候都需要重新计算，首先对该单词构建累积分布，构建累积分布的计算复杂度为O(K_d)，构建完毕后即可对该单词进行采样，采样复杂度为O(logK_d)。

9.根据权利要求1所述LDA主题模型优化采样方法，其特征在于：所述步骤(8)中，利用以上三个部分的概率分布，即可采样得出该词项新的主题，并更新文档主题计数矩阵N_kd，和词项主题计数矩阵N_kw。