CN109597875A

CN109597875A - 一种基于词嵌入的高斯lda的优化求解方式

Info

Publication number: CN109597875A
Application number: CN201811301465.5A
Authority: CN
Inventors: 许振豪; 谭北海
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2019-04-09
Anticipated expiration: 2038-11-02
Also published as: CN109597875B

Abstract

本发明公开了一种基于词嵌入的高斯LDA的优化求解方法，该方法如下：输入文档集D，设置迭代次数T、模型超参数α，γ，初始化n_v,k，n_k，n_d,k，n_d；用逆沙威特分布W^‑1(Ψ,γ)求主题‑词嵌入分布的方差Σ_k、用多元高斯分布N(μ＝0,Σ_k)求主题‑词嵌入分布的均值μ_k，用狄利克雷分布Dir(α)求出文档‑主题分布θ_d，对该文档下的每个词嵌入分配一个主题，用多元高斯分布抽取该位置的词嵌入，得到当前词嵌入的主编号；更新μ_k，γ_k，k_k，利用Cholesky矩阵分解计算矩阵Ψ_k，根据矩阵Ψ_k和方差Σ_k计算后验预测概率分布；采用Alias采样进行迭代采样，直到迭代结束，输出文档‑主题概率分布和主题‑词嵌入概率分布。本发明能在不失精确度的情况下，提高计算速度和采样速度，进而提高自然语言处理效率。

Description

一种基于词嵌入的高斯LDA的优化求解方式

技术领域

本发明涉及自然语言领域，更具体地，涉及一种基于词嵌入的高斯LDA的优化求解方式。

背景技术

随着互联网技术的普及，社交媒体、门户网站和单位机关每天都有海量的文本数据产生。这些未经处理的文本数据中存在许多有益、重要的信息，却也存在大量的干扰信息，使得用户难以从中得到自己想要的信息。如果能够对文本进行更高级的抽象化，用户就能更高效的获取所需的文本信息。对文本数据进行抽象化处理的过程可以描述为自然语言处理中的语义分析，其中常用的语义分析手段是文本聚类。文本聚类是文本分析十分重要的技术，其能够将数量巨大的非机构化文本数据进行总结和一定程度地归类，从而帮助用户更便捷地获取主要信息。文本聚类在语义分析，情感分析，文本分类、舆情分析和个性化推荐等领域有广泛应用。

在文本分析过程中，传统的特征提取方法主要有文档词频、卡方、互信息、信息增益等。这些方法的一个共同特点是基于词频，并且采用的是一元语法模型，即假设词之间是独立同分布的，通过计算词项与类型之间存在的关系，对特征词进行提取，达到对文本进行总结的目的。

主题模型也是文本聚类的一种，经常用于自动抽象化海量文本的特征，发掘文本中潜在的语义，将文本语料从词空间映射到主题空间，得到每个文本的主题概率分布，使文本具有更好的解释性。LDA模型的优点是能够很好的处理传统方法无法解决的多义词和同义词等问题。虽然LDA主题模型有很好的解释性，但是其模型基础依旧是词袋模型，即分析过程中，词与词之间是独立存在的。

词嵌入是近年用来做文本分析比较常用的表示方法，通过神经网络训练，将每个是离散变量的词训练成连续变量，即每个词都由一个向量表示，称之为词嵌入。由于词嵌入的每个维度都刻画了词本身的特征属性，于是词嵌入能够很好地表达词语的语义。因为使用的模型本身对词频的敏感度较低，因此也具有较好的泛化能力。但现有技术采用LDA+W2V技术，使用LDA来解释词嵌入等式的每一个偏移权加项，让词嵌入有了更好的解释性。LDA+W2V存在的变化主要是，原本在离散空间的主题-词嵌入的多项式分布，变为连续空间的多元高斯分布。导致其在海量文本数据下，其存在计算时间长，处理效率低下。且传统Gibbs采样处理方法存在在采样初始阶段，更新速度慢的问题。每次更新都需要重新计算参数，或者新的采样接收旧样本，使得全局参数的更新速度缓慢。虽然在迭代一定量次数之后更新速度会有所改善，但是实验证明，采样初期的上千次采样结果，因为效率低下，通常被实验者弃用。

发明内容

本发明为了解决传统的自然语言处理计算时间长，处理效率低下的问题，提供了一种基于词嵌入的高斯LDA的优化求解方法，其能在采样初始阶段样本的加快更新速度、提高计算速度。

为实现上述本发明目的，采用的技术方案如下：一种基于词嵌入的高斯LDA的优化求解方法，所述该优化求解方法的步骤如下：

S1：输入文档集D，设置迭代次数T、模型超参数α，γ，同时初始化n_v，k，n_k，n_d，k，n_d；

S2：采用逆沙威特分布W^-1(Ψ，γ)求主题-词嵌入分布的方差Σ_k、采用多元高斯分布N(μ＝0，Σ_k)求主题-词嵌入分布的均值μ_k，采用狄利克雷分布Dir(α)求出文档-主题分布θ_d，对该文档下的每个词嵌入分配一个主题，采用多元高斯分布抽取该位置的词嵌入，得到当前词嵌入的主编号；

S3：更新μ_k，γ_k，k_k，计算逆沙威特分布的方差矩阵Ψ_k，计算主题-词嵌入分布的方差Σ_k，利用Cholesky矩阵分解计算矩阵Ψ_k，根据矩阵Ψ_k和方差Σ_k计算后验预测概率分布；

S4：采用Alias采样进行迭代采样，直到迭代结束，输出参数：文档-主题概率分布和主题-词嵌入概率分布。

优选地，所述S1的具体步骤如下：

S11：输入文档集D、通过分词且训练成词嵌入序列V_d；

S12：根据文档集D，设置迭代次数T、模型超参数α，γ；

S13：初始化统计量，为文档集D中每个词嵌入v随机赋予一个主题编号，即z＝random topic indexk，k∈[1，…K]，每个文档d∈[1，…，D]，并将n_v，k，n_k，n_d，k，n_d初始化；

其中：n_v，k表示词嵌入v被赋予主题k的数量；n_k表示被赋予主题k的所有词嵌入数量；n_d，k表示文档d中被赋予主题k的词嵌入数量；n_d表示文档d的词嵌入数量、α表示狄利克雷分布的超参数、γ表示(逆沙威特分布的伪计数)。

优选地，所述S2的具体步骤如下：

S21：采用逆沙威特分布W^-1(Ψ，γ)抽取主题-词嵌入分布的方差Σ_k，并根据Σ_k，采用多元高斯分布N(μ＝0，Σ_k)中抽取主题-词嵌入分布的均值μ_k；

S22：对每个文档d＝[1，…，D]，采用狄利克雷分布Dir(α)分布中抽取文档-主题分布θ_d，在该文档下，每个词嵌入i∈[1，…，N_d]；

S23：对于文档d的每个位置的词嵌入i∈[1，…，N_d]分配一个主题z_d，i～Mult(θ_d)，采用多元高斯分布N(μ_k，Σ_k)为该文档抽取词嵌入v_d，i；

S24：对文档中的每个词嵌入v_d，i，v_d，i∈[1，…，V]，得到当前词嵌入的主题编号，t＝z_d，i；

其中：v_d，i表示文档d中第i个词嵌入。

优选地，所述S3的具体步骤如下：

S31：令n_k＝t，n_d，k＝t三个统计量均减1；

S32：更新μ_k，γ_k，k_k，计算逆沙威特分布的方差矩阵

S33：计算主题-词嵌入分布的方差利用Cholesky矩阵分解的方法，求解矩阵Ψ_k和方差Σ_k；

S34：根据求解出来的矩阵Ψ_k和方差Σ_k，计算后验预测概率分布p(z_d，i＝k|z_-(d，i)，V_d，ζ，α)；

其中：k_k＝k+n_k表示逆沙威特分布的伪计数1；γ_k＝γ+n_k表示逆沙威特分布的伪计数2；t是以(μ_k，Σ_k) 为参数的多项式t分布；ζ表示是后验预测概率分布的参数。

进一步地，所述Cholesky矩阵求后验预测概率分布的具体步骤如下：

步骤1：z^TΣ_kz＞0，对于任意M×M的实数矩阵∑_k是正定矩阵；

步骤2：Σ_k＝LL^T，将Σ_k分解为两个下三角矩阵的乘积；

步骤3：Σ_k的行列式通过下三角矩阵L的对角线计算；

步骤4：令b＝(v_d，i-u_k)，则b^TΣ^-1b＝b^T(LL^T)^-1b＝b^T(L^-1)^TL^-1b＝(L^-1b)^T(L^-1b)；

步骤5：令Lx＝b，得其解为x＝L^-1b；

步骤6：因采用前向替代法求解x，对x做内积，即可求出

步骤7：将|Σ_k|和代入后验预测概率分布，计算得出新的后验预测概率p(z_d，i＝k|z_-(d，i)，V_d，ζ，α)。

进一步地，所述后验预测概率分布的表达式如下：

其中： t是以(μ_k，Σ_k)为参数的多项式t分布。

优选地，所述S4中Alias采样的具体步骤如下：

S41：构建主题概率表U＝[U_k＝p(z_d，i＝k|z_-(d，i)，V_d，ζ，α)]和Alias表A＝[A_k]，其中1≤k≤K；

S42：从均匀分布中生成随机数x∈[0，1]，令y＝nx+1-k，其中k∈{1，K}，y∈[0，1)；

S43：如果y<U_k，返回k；否则返回Alias表中的A_k。即令t’＝[kify<U_kelseA_k]；

S44：为该词嵌入抽取新的主题编号z_d，i＝t’；令n_k＝t‘，n_d，k＝t’三个统计量均加1；

S45：直到迭代结束，输出参数：文档-主题概率分布和主题-词嵌入概率分布；

其中：U_k表示主题概率表中的元素，A_k表示Alias表中的元素。

本发明的有益效果如下：本发明提出了一种Cholesky+Alias方法的优化方法，其中Cholesky分解法比传统的LU分解快两倍，以此减少计算时间，采用Alias采样方法，来加快在采样初始阶段样本的更新速度，从而提高了在海量数据集下，文本聚类的效率，提高自然语言处理效率。

附图说明

图1是一种基于词嵌入的高斯LDA的优化求解方法。

图2是Cholesky+Alias优化方法和传统方法的计算时间比较。

图3是Cholesky+Alias优化方法和传统方法在不同主题的PIM比较。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

一种基于词嵌入的高斯LDA的优化求解方法，所述该优化求解方法的步骤如下：

S2：采用逆沙威特分布W^-1(Ψ，γ)求主题-词嵌入分布的方差Σ_k、采用多元高斯分布N(μ＝0，Σ_k)求主题-词嵌入分布的均值μ_k，采用狄利克雷分布Dir(α)求出文档-主题分布θ_d，对该文档下的每个词嵌入分配一个主题，采用多元高斯分布N(μ_k，Σ_k)抽取该位置的词嵌入，得到当前词嵌入的主编号；

S3：更新μ_k，γ_k，k_k，利用Cholesky矩阵分解计算矩阵Ψ_k，根据矩阵Ψ_k和方差Σ_k计算后验预测概率分布；

本实施例所述步骤S1的具体步骤如下：

S11：输入文档集D、通过分词且训练成词嵌入序列V_d；

S12：根据文档集D，设置迭代次数T、模型超参数α，γ；

其中：n_v，k表示词嵌入v被赋予主题k的数量；n_k表示被赋予主题k的所有词嵌入数量；n_d，k表示文档d中被赋予主题k的词嵌入数量；n_d表示文档d的词嵌入数量，α表示狄利克雷分布的超参数、γ表示(逆沙威特分布的伪计数)。

本实施例所述步骤S2的具体步骤如下：

S22：采用狄利克雷分布Dir(α)分布中抽取文档-主题分布θ_d，在该文档下，每个词嵌入i∈[1，…，N_d]；

其中：v_d，i表示文档d中第i个词嵌入；表示主题-词嵌入分布的均值；表示主题-词嵌入分布的方差；k_k＝k+n_k表示逆沙威特分布的伪计数1；γ_k＝γ+n_k表示逆沙威特分布的伪计数2；n_k表示新分配给主题k的词嵌入数量；表示属于文档d-主题k的词嵌入的样本均值；属于主题k的词嵌入的样本方差。

本实施例所述步骤S3的具体步骤如下：

S31：令n_k＝t，n_d，k＝t三个统计量均减1；

S32：更新μ_k，γ_k，k_k，计算逆沙威特分布的方差矩阵

S33：计算主题-词嵌入分布的方差利用Cholesky矩阵分解的方法，求解矩阵Ψ_k、方差Σ_k；

S34：根据求解出来的矩阵Ψ_k、方差Σ_k，计算后验预测概率分布p(z_d，i＝k|z_-(d，i)，V_d，ζ，α)；

其中：k_k＝k+n_k表示逆沙威特分布的伪计数1；γ_k＝γ+n_k表示逆沙威特分布的伪计数2；t是以(μ_k，Σ_k)为参数的多项式t分布；ζ表示是后验预测概率分布的参数。

其中所述Cholesky矩阵分解求后验预测概率分布的具体步骤如下：

步骤1：z^TΣ_kz＞0，对于任意M×M的实数矩阵∑_k是正定矩阵；

步骤2：Σ_k＝LL^T，将Σ_k分解为两个下三角矩阵的乘积；

步骤3：Σ_k的行列式通过下三角矩阵L的对角线计算；

步骤5：令Lx＝b，得其解为x＝L^-1b；

步骤6：因采用前向替代法求解x，对x做内积，即可求出

本实施例所述后验预测概率分布的表达式如下：

其中： t是以(μ_k，Σ_k)为参数的多项式t分布。

本实施例所述步骤S4中Alias采样的具体步骤如下：

t是以(μ_k，Σ_k)为参数的多项式t分布，

其中：U_k表示主题概率表U中的元素，A_k表示Alias表A中的元素。

本发明的优化求解方法，算法的初始化阶段，首先为文档中的每个词嵌入v_d，i随机分配一个主题号k。在所有词嵌入都分配好主题之后，然后统计n_v，k，n_k，n_d，k，n_d的计数。

步骤S2～S4是Cholesky+Alias优化方法的核心过程。首先将当前词嵌入的主题编号赋值给t，将对应的n_k＝_t，n_d，k＝t三个统计量均减1。然后更新μ_kγ_kk_k，根据公式1计算方差矩阵Ψ_k，并同时计算主题-词嵌入分布的方差Σ_k，利用Cholesky对Σ_k进行矩阵运算，将运算结果带入求出后验预测概率分布p(z_d，i＝k|z_-(d，i)，V_d，ζ，α)。接着，生成主题概率表U_k和Alias表A_k，利用Alias采样方法为当前词嵌入抽取新的主题编号t'。最后在模型达到收敛或者执行到最大迭代次数时，输出模型参数，文档-主题分布θ_d和主题-词嵌入分布(μ_k，Σ_k)。

而现有技术采用LDA+W2V算法流程大致如下：

1.采用逆沙威特分布W^-1(Ψ，γ)抽取主题-词嵌入分布的方差Σ_k，然后根据Σ_k，从多元高斯分布N(μ＝0，Σ_k)中抽取主题-词嵌入分布的均值μ_k；

2.采用狄利克雷分布Dir(α)分布中抽取文档-主题分布θ_d；

3：初始化的文档-主题分布θ_d和主题-词嵌入分布(μ_k，Σ_k)，词嵌入序列v；

4.经过初始化和采样两个步骤之后，计算的后验预测概率分布。

这样每次更新采样都需要计算后验概率，即需要计算后验方差矩阵的行列式和转置，如果直接计算的话，需要花费的时间复杂度为O(M³)。也就是说，每一次为一个词嵌入更新分配一个新的主题时，每个主题-词嵌入分布对应的参数μ_k，k_kγ_k，Ψ_k，Σ_k都需要改变，其中的Σ_k行列式和转置需要重新计算。

同时传统LDA的Gibbs采样的存在隐藏缺陷，即采样初期因为每次只更新一个位置。每次更新都需要重新计算参数，或者新的采样接收旧样本，使得全局参数的更新速度缓慢。

本实施例为了更好的凸显出本发明的有益效果，将其与现有技术做如下对比：对比方法如下：

使用的实验语料集Newsgroups(第三版)，数据集收集了18828个不重复的文档，均匀分为20个不同主题的新闻组集合。采用逐点互信息法PMI进行度量，比较两种方法达到收敛的运行时间。其中PMI的公式如下：

结果及分析

对传统方法和优化方法的参数赋予统一的默认值。其中模型中的α＝50，K＝20，μ＝0，迭代次数设置为10000。

Cholesky+Alias方法和传统方法的对比结果分别如图2和表1所示。

由实验结果可知，Cholesky+Alias方法和传统方法在相同主题下的PMI得分相差不大，说明本发明提出的Cholesky+Alias方法和传统方法的精度几乎一直，但是Cholesky+Alias方法的计算时间要由于传统方法，其中Cholesky+Alias的迭代速率是只用Cholesky的9.93倍，是传统方法的53.1倍。并且可以明显地看出，Cholesky+Alias收敛的速度更快。可见，Cholesky+Alias方法在不失精度的前提下，有效的提高了模型的求解效率，减少了模型的计算时间。通过实验证明了Cholesky+Alias方法的效果较好。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于词嵌入的高斯LDA的优化求解方法，其特征在于：所述该优化求解方法的步骤如下：

S1：输入文档集D，设置迭代次数T、模型超参数α，γ，同时初始化n_v,k，n_k，n_d,k，n_d；

S2：采用逆沙威特分布W^-1(Ψ,γ)求主题-词嵌入分布的方差Σ_k、采用多元高斯分布N(μ＝0,Σ_k)求主题-词嵌入分布的均值μ_k，采用狄利克雷分布Dir(α)求出文档-主题分布θ_d，对该文档下的每个词嵌入分配一个主题，采用多元高斯分布抽取该位置的词嵌入，得到当前词嵌入的主编号；

2.根据权利要求1所述的基于词嵌入的高斯LDA的优化求解方法，其特征在于：所述S1的具体步骤如下：

S11：输入文档集D，通过分词且训练成词嵌入序列V_d；

S12：根据文档集D，设置迭代次数T、模型超参数α，γ；

S13：初始化统计量，为文档集D中每个词嵌入v随机赋予一个主题编号，即z＝randomtopic index k,k∈[1,…K]，每个文档d∈[1,…,D]，并将n_v,k，n_k，n_d,k，n_d初始化；

其中：n_v,k表示词嵌入v被赋予主题k的数量；n_k表示被赋予主题k的所有词嵌入数量；n_d,k表示文档d中被赋予主题k的词嵌入数量；n_d表示文档d的词嵌入数量、α表示狄利克雷分布的超参数、γ表示(逆沙威特分布的伪计数)。

3.根据权利要求1所述的基于词嵌入的高斯LDA的优化求解方法，其特征在于：所述S2的具体步骤如下：

S21：采用逆沙威特分布W^-1(Ψ,γ)抽取主题-词嵌入分布的方差Σ_k，并根据Σ_k，采用多元高斯分布N(μ＝0,Σ_k)中抽取主题-词嵌入分布的均值μ_k；

S22：对每个文档d＝[1,…,D]，采用狄利克雷分布Dir(α)分布中抽取文档-主题分布θ_d，在该文档下，每个词嵌入i∈[1,…,N_d]；

S23：对于文档d的每个位置的词嵌入i∈[1,…,N_d]分配一个主题z_d,i～Mult(θ_d)，采用多元高斯分布N(μ_k,Σ_k)为该文档抽取词嵌入v_d,i；

S24：对文档中的每个词嵌入v_d,i,v_d,i∈[1,…,V]，得到当前词嵌入的主题编号，t＝z_d,i；

其中：v_d,i表示文档d中第i个词嵌入。

4.根据权利要求1所述的基于词嵌入的高斯LDA的优化求解方法，其特征在于：所述S3的具体步骤如下：

S31：令n_k＝t，n_d,k＝t三个统计量均减1；

S32：更新μ_k，γ_k，k_k，计算逆沙威特分布的方差矩阵

S34：根据求解出来的矩阵Ψ_k和方差Σ_k，计算后验预测概率分布p(z_d,i＝k|z_-(d,i),V_d,ζ,α)；

其中：k_k＝k+n_k表示逆沙威特分布的伪计数1；γ_k＝γ+n_k表示逆沙威特分布的伪计数2；t是以(μ_k,Σ_k)为参数的多项式t分布；ζ表示是后验预测概率分布的参数。

5.根据权利要求4所述的基于词嵌入的高斯LDA的优化求解方法，其特征在于：所述Cholesky矩阵求后验预测概率分布的具体步骤如下：

步骤1：z^TΣ_kz＞0，对于任意M×M的实数矩阵∑_k是正定矩阵；

步骤2：Σ_k＝LL^T，将Σ_k分解为两个下三角矩阵的乘积；

步骤3：Σ_k的行列式通过下三角矩阵L的对角线计算；

步骤4：令b＝(v_d,i-u_k)，则b^TΣ^-1b＝b^T(LL^T)^-1b＝b^T(L^-1)^TL^-1b＝(L^-1b)^T(L^-1b)；

步骤5：令Lx＝b，得其解为x＝L^-1b；

步骤6：因采用前向替代法求解x，对x做内积，即可求出

步骤7：将|Σ_k|和代入后验预测概率分布，计算得出新的后验预测概率p(z_d,i＝k|z_-(d,i),V_d,ζ,α)。

6.根据权利要求5所述的基于词嵌入的高斯LDA的优化求解方法，其特征在于：所述后验预测概率分布的表达式如下：

其中： t是以(μ_k,Σ_k)为参数的多项式t分布。

7.根据权利要求1所述的基于词嵌入的高斯LDA的优化求解方法，其特征在于：所述S4中Alias采样的具体步骤如下：

S41：构建主题概率表U＝[U_k＝p(z_d,i＝k|z_-(d,i),V_d,ζ,α)]和Alias表A＝[A_k]，其中1≤k≤K；

S42：从均匀分布中生成随机数x∈[0,1]，令y＝nx+1-k，其中k∈{1，K}，y∈[0,1)；

S43：如果y<U_k，返回k；否则返回Alias表中的A_k。即令t’＝[k if y<U_k else A_k]；

S44：为该词嵌入抽取新的主题编号z_d,i＝t’；令n_k＝t‘，n_d,k＝t’三个统计量均加1；

其中：U_k表示主题概率表U中的元素；A_k表示Alias表A中的元素。