CN109597875B - 一种基于词嵌入的高斯lda的优化求解方式 - Google Patents

一种基于词嵌入的高斯lda的优化求解方式 Download PDF

Info

Publication number
CN109597875B
CN109597875B CN201811301465.5A CN201811301465A CN109597875B CN 109597875 B CN109597875 B CN 109597875B CN 201811301465 A CN201811301465 A CN 201811301465A CN 109597875 B CN109597875 B CN 109597875B
Authority
CN
China
Prior art keywords
distribution
topic
document
word
word embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811301465.5A
Other languages
English (en)
Other versions
CN109597875A (zh
Inventor
许振豪
谭北海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201811301465.5A priority Critical patent/CN109597875B/zh
Publication of CN109597875A publication Critical patent/CN109597875A/zh
Application granted granted Critical
Publication of CN109597875B publication Critical patent/CN109597875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于词嵌入的高斯LDA的优化求解方法,该方法如下:输入文档集D,设置迭代次数T、模型超参数α,γ,初始化nv,k,nk,nd,k,nd;用逆沙威特分布W‑1(Ψ,γ)求主题‑词嵌入分布的方差Σk、用多元高斯分布N(μ=0,Σk)求主题‑词嵌入分布的均值μk,用狄利克雷分布Dir(α)求出文档‑主题分布θd,对该文档下的每个词嵌入分配一个主题,用多元高斯分布抽取该位置的词嵌入,得到当前词嵌入的主编号;更新μk,γk,kk,利用Cholesky矩阵分解计算矩阵Ψk,根据矩阵Ψk和方差Σk计算后验预测概率分布;采用Alias采样进行迭代采样,直到迭代结束,输出文档‑主题概率分布和主题‑词嵌入概率分布。本发明能在不失精确度的情况下,提高计算速度和采样速度,进而提高自然语言处理效率。

Description

一种基于词嵌入的高斯LDA的优化求解方式
技术领域
本发明涉及自然语言领域,更具体地,涉及一种基于词嵌入的高斯LDA的优化求解方式。
背景技术
随着互联网技术的普及,社交媒体、门户网站和单位机关每天都有海量的文本数据产生。这些未经处理的文本数据中存在许多有益、重要的信息,却也存在大量的干扰信息,使得用户难以从中得到自己想要的信息。如果能够对文本进行更高级的抽象化,用户就能更高效的获取所需的文本信息。对文本数据进行抽象化处理的过程可以描述为自然语言处理中的语义分析,其中常用的语义分析手段是文本聚类。文本聚类是文本分析十分重要的技术,其能够将数量巨大的非机构化文本数据进行总结和一定程度地归类,从而帮助用户更便捷地获取主要信息。文本聚类在语义分析,情感分析,文本分类、舆情分析和个性化推荐等领域有广泛应用。
在文本分析过程中,传统的特征提取方法主要有文档词频、卡方、互信息、信息增益等。这些方法的一个共同特点是基于词频,并且采用的是一元语法模型,即假设词之间是独立同分布的,通过计算词项与类型之间存在的关系,对特征词进行提取,达到对文本进行总结的目的。
主题模型也是文本聚类的一种,经常用于自动抽象化海量文本的特征,发掘文本中潜在的语义,将文本语料从词空间映射到主题空间,得到每个文本的主题概率分布,使文本具有更好的解释性。LDA模型的优点是能够很好的处理传统方法无法解决的多义词和同义词等问题。虽然LDA主题模型有很好的解释性,但是其模型基础依旧是词袋模型,即分析过程中,词与词之间是独立存在的。
词嵌入是近年用来做文本分析比较常用的表示方法,通过神经网络训练,将每个是离散变量的词训练成连续变量,即每个词都由一个向量表示,称之为词嵌入。由于词嵌入的每个维度都刻画了词本身的特征属性,于是词嵌入能够很好地表达词语的语义。因为使用的模型本身对词频的敏感度较低,因此也具有较好的泛化能力。但现有技术采用LDA+W2V技术,使用LDA来解释词嵌入等式的每一个偏移权加项,让词嵌入有了更好的解释性。LDA+W2V存在的变化主要是,原本在离散空间的主题-词嵌入的多项式分布,变为连续空间的多元高斯分布。导致其在海量文本数据下,其存在计算时间长,处理效率低下。且传统Gibbs采样处理方法存在在采样初始阶段,更新速度慢的问题。每次更新都需要重新计算参数,或者新的采样接收旧样本,使得全局参数的更新速度缓慢。虽然在迭代一定量次数之后更新速度会有所改善,但是实验证明,采样初期的上千次采样结果,因为效率低下,通常被实验者弃用。
发明内容
本发明为了解决传统的自然语言处理计算时间长,处理效率低下的问题,提供了一种基于词嵌入的高斯LDA的优化求解方法,其能在采样初始阶段样本的加快更新速度、提高计算速度。
为实现上述本发明目的,采用的技术方案如下:一种基于词嵌入的高斯LDA的优化求解方法,所述该优化求解方法的步骤如下:
S1:输入文档集D,设置迭代次数T、模型超参数α,γ,同时初始化nv,k,nk,nd,k,nd
S2:采用逆沙威特分布W-1(Ψ,γ)求主题-词嵌入分布的方差Σk、采用多元高斯分布N(μ=0,Σk)求主题-词嵌入分布的均值μk,采用狄利克雷分布Dir(α)求出文档-主题分布θd,对该文档下的每个词嵌入分配一个主题,采用多元高斯分布抽取该位置的词嵌入,得到当前词嵌入的主编号;
S3:更新μk,γk,kk,计算逆沙威特分布的方差矩阵Ψk,计算主题-词嵌入分布的方差Σk,利用Cholesky矩阵分解计算矩阵Ψk,根据矩阵Ψk和方差Σk计算后验预测概率分布;
S4:采用Alias采样进行迭代采样,直到迭代结束,输出参数:文档-主题概率分布和主题-词嵌入概率分布。
优选地,所述S1的具体步骤如下:
S11:输入文档集D、通过分词且训练成词嵌入序列Vd
S12:根据文档集D,设置迭代次数T、模型超参数α,γ;
S13:初始化统计量,为文档集D中每个词嵌入v随机赋予一个主题编号,即z=random topic indexk,k∈[1,…K],每个文档d∈[1,…,D],并将nv,k,nk,nd,k,nd初始化;
其中:nv,k表示词嵌入v被赋予主题k的数量;nk表示被赋予主题k的所有词嵌入数量;nd,k表示文档d中被赋予主题k的词嵌入数量;nd表示文档d的词嵌入数量、α表示狄利克雷分布的超参数、γ表示(逆沙威特分布的伪计数)。
优选地,所述S2的具体步骤如下:
S21:采用逆沙威特分布W-1(Ψ,γ)抽取主题-词嵌入分布的方差Σk,并根据Σk,采用多元高斯分布N(μ=0,Σk)中抽取主题-词嵌入分布的均值μk
S22:对每个文档d=[1,…,D],采用狄利克雷分布Dir(α)分布中抽取文档-主题分布θd,在该文档下,每个词嵌入i∈[1,…,Nd];
S23:对于文档d的每个位置的词嵌入i∈[1,…,Nd]分配一个主题zd,i~Mult(θd),采用多元高斯分布N(μk,Σk)为该文档抽取词嵌入vd,i
S24:对文档中的每个词嵌入vd,i,vd,i∈[1,…,V],得到当前词嵌入的主题编号,t=zd,i
其中:vd,i表示文档d中第i个词嵌入。
优选地,所述S3的具体步骤如下:
S31:令
Figure BDA0001852506750000035
nk=t,nd,k=t三个统计量均减1;
S32:更新μk,γk,kk,计算逆沙威特分布的方差矩阵
Figure BDA0001852506750000031
Figure BDA0001852506750000032
S33:计算主题-词嵌入分布的方差
Figure BDA0001852506750000033
利用Cholesky矩阵分解的方法,求解矩阵Ψk和方差Σk
S34:根据求解出来的矩阵Ψk和方差Σk,计算后验预测概率分布p(zd,i=k|z-(d,i),Vd,ζ,α);
其中:kk=k+nk表示逆沙威特分布的伪计数1;γk=γ+nk表示逆沙威特分布的伪计数2;t是以(μk,Σk) 为参数的多项式t分布;ζ表示是后验预测概率分布的参数。
进一步地,所述Cholesky矩阵求后验预测概率分布的具体步骤如下:
步骤1:
Figure BDA0001852506750000036
zTΣkz>0,对于任意M×M的实数矩阵∑k是正定矩阵;
步骤2:Σk=LLT,将Σk分解为两个下三角矩阵的乘积;
步骤3:
Figure BDA0001852506750000034
Σk的行列式通过下三角矩阵L的对角线计算;
步骤4:令b=(vd,i-uk),则bTΣ-1b=bT(LLT)-1b=bT(L-1)TL-1b=(L-1b)T(L-1b);
步骤5:令Lx=b,得其解为x=L-1b;
步骤6:因采用前向替代法求解x,对x做内积,即可求出
Figure BDA0001852506750000041
Figure BDA0001852506750000042
步骤7:将|Σk|和
Figure BDA0001852506750000043
代入后验预测概率分布,计算得出新的后验预测概率p(zd,i=k|z-(d,i),Vd,ζ,α)。
进一步地,所述后验预测概率分布的表达式如下:
Figure BDA0001852506750000044
其中:
Figure BDA0001852506750000045
Figure BDA0001852506750000046
t是以(μk,Σk)为参数的多项式t分布。
优选地,所述S4中Alias采样的具体步骤如下:
S41:构建主题概率表U=[Uk=p(zd,i=k|z-(d,i),Vd,ζ,α)]和Alias表A=[Ak],其中1≤k≤K;
S42:从均匀分布中生成随机数x∈[0,1],令
Figure BDA0001852506750000047
y=nx+1-k,其中k∈{1,K},y∈[0,1);
S43:如果y<Uk,返回k;否则返回Alias表中的Ak。即令t’=[kify<UkelseAk];
S44:为该词嵌入抽取新的主题编号zd,i=t’;令
Figure BDA0001852506750000048
nk=t‘,nd,k=t’三个统计量均加1;
S45:直到迭代结束,输出参数:文档-主题概率分布和主题-词嵌入概率分布;
其中:Uk表示主题概率表中的元素,Ak表示Alias表中的元素。
本发明的有益效果如下:本发明提出了一种Cholesky+Alias方法的优化方法,其中Cholesky分解法比传统的LU分解快两倍,以此减少计算时间,采用Alias采样方法,来加快在采样初始阶段样本的更新速度,从而提高了在海量数据集下,文本聚类的效率,提高自然语言处理效率。
附图说明
图1是一种基于词嵌入的高斯LDA的优化求解方法。
图2是Cholesky+Alias优化方法和传统方法的计算时间比较。
图3是Cholesky+Alias优化方法和传统方法在不同主题的PIM比较。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
一种基于词嵌入的高斯LDA的优化求解方法,所述该优化求解方法的步骤如下:
S1:输入文档集D,设置迭代次数T、模型超参数α,γ,同时初始化nv,k,nk,nd,k,nd
S2:采用逆沙威特分布W-1(Ψ,γ)求主题-词嵌入分布的方差Σk、采用多元高斯分布N(μ=0,Σk)求主题-词嵌入分布的均值μk,采用狄利克雷分布Dir(α)求出文档-主题分布θd,对该文档下的每个词嵌入分配一个主题,采用多元高斯分布N(μk,Σk)抽取该位置的词嵌入,得到当前词嵌入的主编号;
S3:更新μk,γk,kk,利用Cholesky矩阵分解计算矩阵Ψk,根据矩阵Ψk和方差Σk计算后验预测概率分布;
S4:采用Alias采样进行迭代采样,直到迭代结束,输出参数:文档-主题概率分布和主题-词嵌入概率分布。
本实施例所述步骤S1的具体步骤如下:
S11:输入文档集D、通过分词且训练成词嵌入序列Vd
S12:根据文档集D,设置迭代次数T、模型超参数α,γ;
S13:初始化统计量,为文档集D中每个词嵌入v随机赋予一个主题编号,即z=random topic indexk,k∈[1,…K],每个文档d∈[1,…,D],并将nv,k,nk,nd,k,nd初始化;
其中:nv,k表示词嵌入v被赋予主题k的数量;nk表示被赋予主题k的所有词嵌入数量;nd,k表示文档d中被赋予主题k的词嵌入数量;nd表示文档d的词嵌入数量,α表示狄利克雷分布的超参数、γ表示(逆沙威特分布的伪计数)。
本实施例所述步骤S2的具体步骤如下:
S21:采用逆沙威特分布W-1(Ψ,γ)抽取主题-词嵌入分布的方差Σk,并根据Σk,采用多元高斯分布N(μ=0,Σk)中抽取主题-词嵌入分布的均值μk
S22:采用狄利克雷分布Dir(α)分布中抽取文档-主题分布θd,在该文档下,每个词嵌入i∈[1,…,Nd];
S23:对于文档d的每个位置的词嵌入i∈[1,…,Nd]分配一个主题zd,i~Mult(θd),采用多元高斯分布N(μk,Σk)为该文档抽取词嵌入vd,i
S24:对文档中的每个词嵌入vd,i,vd,i∈[1,…,V],得到当前词嵌入的主题编号,t=zd,i
其中:vd,i表示文档d中第i个词嵌入;
Figure BDA0001852506750000061
表示主题-词嵌入分布的均值;
Figure BDA0001852506750000062
表示主题-词嵌入分布的方差;kk=k+nk表示逆沙威特分布的伪计数1;γk=γ+nk表示逆沙威特分布的伪计数2;nk表示新分配给主题k的词嵌入数量;
Figure BDA0001852506750000063
表示属于文档d-主题k的词嵌入的样本均值;
Figure BDA0001852506750000064
属于主题k的词嵌入的样本方差。
本实施例所述步骤S3的具体步骤如下:
S31:令
Figure BDA0001852506750000069
nk=t,nd,k=t三个统计量均减1;
S32:更新μk,γk,kk,计算逆沙威特分布的方差矩阵
Figure BDA0001852506750000065
Figure BDA0001852506750000066
S33:计算主题-词嵌入分布的方差
Figure BDA0001852506750000067
利用Cholesky矩阵分解的方法,求解矩阵Ψk、方差Σk
S34:根据求解出来的矩阵Ψk、方差Σk,计算后验预测概率分布p(zd,i=k|z-(d,i),Vd,ζ,α);
其中:kk=k+nk表示逆沙威特分布的伪计数1;γk=γ+nk表示逆沙威特分布的伪计数2;t是以(μk,Σk)为参数的多项式t分布;ζ表示是后验预测概率分布的参数。
其中所述Cholesky矩阵分解求后验预测概率分布的具体步骤如下:
步骤1:
Figure BDA00018525067500000610
zTΣkz>0,对于任意M×M的实数矩阵∑k是正定矩阵;
步骤2:Σk=LLT,将Σk分解为两个下三角矩阵的乘积;
步骤3:
Figure BDA0001852506750000068
Σk的行列式通过下三角矩阵L的对角线计算;
步骤4:令b=(vd,i-uk),则bTΣ-1b=bT(LLT)-1b=bT(L-1)TL-1b=(L-1b)T(L-1b);
步骤5:令Lx=b,得其解为x=L-1b;
步骤6:因采用前向替代法求解x,对x做内积,即可求出
Figure BDA0001852506750000071
Figure BDA0001852506750000072
步骤7:将|Σk|和
Figure BDA0001852506750000073
代入后验预测概率分布,计算得出新的后验预测概率p(zd,i=k|z-(d,i),Vd,ζ,α)。
本实施例所述后验预测概率分布的表达式如下:
Figure BDA0001852506750000074
其中:
Figure BDA0001852506750000075
Figure BDA0001852506750000076
t是以(μk,Σk)为参数的多项式t分布。
本实施例所述步骤S4中Alias采样的具体步骤如下:
S41:构建主题概率表U=[Uk=p(zd,i=k|z-(d,i),Vd,ζ,α)]和Alias表A=[Ak],其中1≤k≤K;
S42:从均匀分布中生成随机数x∈[0,1],令
Figure BDA0001852506750000077
y=nx+1-k,其中k∈{1,K},y∈[0,1);
S43:如果y<Uk,返回k;否则返回Alias表中的Ak。即令t’=[kify<UkelseAk];
S44:为该词嵌入抽取新的主题编号zd,i=t’;令
Figure BDA0001852506750000078
nk=t‘,nd,k=t’三个统计量均加1;
S45:直到迭代结束,输出参数:文档-主题概率分布和主题-词嵌入概率分布;
t是以(μk,Σk)为参数的多项式t分布,
其中:Uk表示主题概率表U中的元素,Ak表示Alias表A中的元素。
本发明的优化求解方法,算法的初始化阶段,首先为文档中的每个词嵌入vd,i随机分配一个主题号k。在所有词嵌入都分配好主题之后,然后统计nv,k,nk,nd,k,nd的计数。
步骤S2~S4是Cholesky+Alias优化方法的核心过程。首先将当前词嵌入的主题编号赋值给t,将对应的
Figure BDA0001852506750000079
nkt,nd,k=t三个统计量均减1。然后更新μkγkkk,根据公式1计算方差矩阵Ψk,并同时计算主题-词嵌入分布的方差Σk,利用Cholesky对Σk进行矩阵运算,将运算结果带入求出后验预测概率分布p(zd,i=k|z-(d,i),Vd,ζ,α)。接着,生成主题概率表Uk和Alias表Ak,利用Alias采样方法为当前词嵌入抽取新的主题编号t'。最后在模型达到收敛或者执行到最大迭代次数时,输出模型参数,文档-主题分布θd和主题-词嵌入分布(μk,Σk)。
而现有技术采用LDA+W2V算法流程大致如下:
1.采用逆沙威特分布W-1(Ψ,γ)抽取主题-词嵌入分布的方差Σk,然后根据Σk,从多元高斯分布N(μ=0,Σk)中抽取主题-词嵌入分布的均值μk
2.采用狄利克雷分布Dir(α)分布中抽取文档-主题分布θd
3:初始化的文档-主题分布θd和主题-词嵌入分布(μk,Σk),词嵌入序列v;
4.经过初始化和采样两个步骤之后,计算的后验预测概率分布。
这样每次更新采样都需要计算后验概率,即需要计算后验方差矩阵的行列式和转置,如果直接计算的话,需要花费的时间复杂度为O(M3)。也就是说,每一次为一个词嵌入更新分配一个新的主题时,每个主题-词嵌入分布对应的参数μk,kkγk,Ψk,Σk都需要改变,其中的Σk行列式和转置需要重新计算。
同时传统LDA的Gibbs采样的存在隐藏缺陷,即采样初期因为每次只更新一个位置。每次更新都需要重新计算参数,或者新的采样接收旧样本,使得全局参数的更新速度缓慢。
本实施例为了更好的凸显出本发明的有益效果,将其与现有技术做如下对比:对比方法如下:
使用的实验语料集Newsgroups(第三版),数据集收集了18828个不重复的文档,均匀分为20个不同主题的新闻组集合。采用逐点互信息法PMI进行度量,比较两种方法达到收敛的运行时间。其中PMI的公式如下:
Figure BDA0001852506750000081
结果及分析
对传统方法和优化方法的参数赋予统一的默认值。其中模型中的α=50,K=20,μ=0,迭代次数设置为10000。
Cholesky+Alias方法和传统方法的对比结果分别如图2和表1所示。
由实验结果可知,Cholesky+Alias方法和传统方法在相同主题下的PMI得分相差不大,说明本发明提出的Cholesky+Alias方法和传统方法的精度几乎一直,但是Cholesky+Alias方法的计算时间要由于传统方法,其中Cholesky+Alias的迭代速率是只用Cholesky的9.93倍,是传统方法的53.1倍。并且可以明显地看出,Cholesky+Alias收敛的速度更快。可见,Cholesky+Alias方法在不失精度的前提下,有效的提高了模型的求解效率,减少了模型的计算时间。通过实验证明了Cholesky+Alias方法的效果较好。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于词嵌入的高斯LDA的优化求解方法,其特征在于:所述优化求解方法的步骤如下:
S1:输入文档集D,设置迭代次数T、模型超参数α,γ,同时初始化nv,k,nk,nd,k,nd;α表示狄利克雷分布的超参数;γ表示逆威沙特分布的伪计数;nv,k表示词嵌入v被赋予主题k的数量;nk表示被赋予主题k的所有词嵌入数量;nd,k表示文档d中被赋予主题k的词嵌入数量;nd表示文档d的词嵌入数量;
S2:采用逆威沙特分布W-1(Ψ,γ)求主题-词嵌入分布的方差∑k、采用多元高斯分布N(μ=0,∑k)求主题-词嵌入分布的均值μk,采用狄利克雷分布Dir(α)求出文档-主题分布θd,对该文档下的每个词嵌入分配一个主题,采用多元高斯分布抽取文档d的每个位置的词嵌入,得到当前词嵌入的主编号;Ψ表示正定的比例矩阵;
S3:更新μk,γk,kk,利用Cholesky矩阵分解计算矩阵Ψk,根据矩阵Ψk和方差∑k计算后验预测概率分布;kk表示逆威沙特分布的伪计数1;γk表示逆威沙特分布的伪计数2;
S4:采用Alias采样进行迭代采样,直到迭代结束,输出参数:文档-主题概率分布和主题-词嵌入概率分布。
2.根据权利要求1所述的基于词嵌入的高斯LDA的优化求解方法,其特征在于:所述S1的具体步骤如下:
S11:输入文档集D,通过分词且训练成词嵌入序列Vd
S12:根据文档集D,设置迭代次数T、模型超参数α,γ;
S13:初始化统计量,为文档集D中每个词嵌入v随机赋予一个主题编号,即z=randomtopic index k,k∈[1,...K],每个文档d∈[1,...,D],并将nv,k,nk,nd,k,nd初始化;k表示主题编号变量、K表示主题边界值;
其中:nv,k表示词嵌入v被赋予主题k的数量;nk表示被赋予主题k的所有词嵌入数量;nd,k表示文档d中被赋予主题k的词嵌入数量;nd表示文档d的词嵌入数量、α表示狄利克雷分布的超参数、γ表示逆威沙特分布的伪计数。
3.根据权利要求2所述的基于词嵌入的高斯LDA的优化求解方法,其特征在于:所述S2的具体步骤如下:
S21:采用逆威沙特分布W-1(Ψ,γ)抽取主题-词嵌入分布的方差∑k,并根据∑k,采用多元高斯分布N(μ=0,∑k)中抽取主题-词嵌入分布的均值μk
S22:对每个文档d=[1,...,D],采用狄利克雷分布Dir(α)分布中抽取文档-主题分布θd,在该文档下,每个词嵌入i∈[1,...,Nd];Nd表示文档d的第N个词;
S23:对于文档d的每个位置的词嵌入i∈[1,...,Nd]分配一个主题zd,i~Mult(θd),采用多元高斯分布N(μk,∑k)为该文档抽取词嵌入vd,i
S24:对文档中的每个词嵌入vd,i,得到当前词嵌入的主题编号,t=zd,i;t表示词嵌入vd,i的主题;Mult(θd)表示文档d的主题分布;
其中:vd,i表示文档d中第i个词嵌入。
4.根据权利要求3所述的基于词嵌入的高斯LDA的优化求解方法,其特征在于:所述S3的具体步骤如下:
S31:令
Figure FDA0003738989000000021
nk=t,nd,k=t三个统计量均减1;
S32:更新μk,γk,kk,计算逆威沙特分布的方差矩阵
Figure FDA0003738989000000022
Figure FDA0003738989000000023
S33:计算主题-词嵌入分布的方差
Figure FDA0003738989000000024
利用Cholesky矩阵分解的方法,求解矩阵Ψk和方差∑k;M′表示词嵌入的向量维度;
S34:根据求解出来的矩阵Ψk和方差∑k,计算后验预测概率分布p(zd,i=k|z-(d,i),Vd,ζ,α);z-(d,i)表示与zd,i互斥的主题、Vd表示文档d中的词嵌入集合;
其中:kk=k+nk表示逆威沙特分布的伪计数1;γk=γ+nk表示逆威沙特分布的伪计数2;t是以(μk,∑k)为参数的多项式t分布;ζ表示是后验预测概率分布的参数。
5.根据权利要求4所述的基于词嵌入的高斯LDA的优化求解方法,其特征在于:所述Cholesky矩阵求后验预测概率分布的具体步骤如下:
步骤1:
Figure FDA0003738989000000025
zTkz>0,对于任意M×M的实数矩阵∑k是正定矩阵;
Figure FDA0003738989000000026
表示任意的主题向量z,
Figure FDA0003738989000000028
是数学里任意的意思;RM表示为M维实数向量;zT表示向量z的转置;zTkz>0是一个整体;
步骤2:∑k=LLT,将∑k分解为两个下三角矩阵的乘积;L表示三角矩阵;LT表示三角矩阵L的共轭转置矩阵;
步骤3:
Figure FDA0003738989000000027
k的行列式通过下三角矩阵L的对角线计算;Li,i表示矩阵L对角线上的元素;
步骤4:令b=(vd,i-uk),则bT-1b=bT(LLT)-1b=bT(L-1)TL-1b=(L-1b)T(L-1b);b表示词嵌入与均值的差向量、bT表示词嵌入与均值的差向量的转置;
步骤5:令Lx=b,得其解为x=L-1b;Lx表示为L的线性等式,x为等式的解;
步骤6:因采用前向替代法求解x,对x做内积,即可求出
Figure FDA0003738989000000031
Figure FDA0003738989000000032
步骤7:将|∑k|和
Figure FDA0003738989000000033
代入后验预测概率分布,计算得出新的后验预测概率p(zd,i=k|z_(d,i),Vd,ζ,α)。
6.根据权利要求5所述的基于词嵌入的高斯LDA的优化求解方法,其特征在于:所述后验预测概率分布的表达式如下:
Figure FDA0003738989000000034
其中:
Figure FDA0003738989000000035
Figure FDA0003738989000000036
t是以(μk,∑k)为参数的多项式t分布;zd,i表示词嵌入的主题编号、ζ=(μk,kk,∑k,γk)表示是后验预测概率分布的参数、∝表示数学中的符号正比于、nd,k表示文档d中被赋予主题k的词嵌入数量、αk表示主题分布的超参数、
Figure FDA0003738989000000039
表示贡献函数、dim(vd,i)表示向量vd,i的维度、γk表示逆威沙特分布的伪计数。
7.根据权利要求6所述的基于词嵌入的高斯LDA的优化求解方法,其特征在于:所述S4中Alias采样的具体步骤如下:
S41:构建主题概率表U=[Uk=p(zd,i=k|z-(d,i),Vd,ζ,α)]和Alias表A=[Ak],其中1≤k≤K;A表示Alias表;
S42:从均匀分布中生成随机数x∈[0,1],令
Figure FDA0003738989000000038
y=nx+1-k,其中k∈{1,K},y∈[0,1);nx表示整数n倍的x;
S43:如果y<Uk,返回k;否则返回Alias表中的Ak;即令t′=[k if y<Uk else Ak];t′表示Alias采样得到的值;
S44:为词嵌入抽取新的主题编号zd,i=t′;令
Figure FDA0003738989000000037
nk=t′,nd,k=t′三个统计量均加1;
S45:直到迭代结束,输出参数:文档-主题概率分布和主题-词嵌入概率分布;
其中:Uk表示主题概率表U中的元素;Ak表示Alias表A中的元素。
CN201811301465.5A 2018-11-02 2018-11-02 一种基于词嵌入的高斯lda的优化求解方式 Active CN109597875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811301465.5A CN109597875B (zh) 2018-11-02 2018-11-02 一种基于词嵌入的高斯lda的优化求解方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811301465.5A CN109597875B (zh) 2018-11-02 2018-11-02 一种基于词嵌入的高斯lda的优化求解方式

Publications (2)

Publication Number Publication Date
CN109597875A CN109597875A (zh) 2019-04-09
CN109597875B true CN109597875B (zh) 2022-08-23

Family

ID=65957142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811301465.5A Active CN109597875B (zh) 2018-11-02 2018-11-02 一种基于词嵌入的高斯lda的优化求解方式

Country Status (1)

Country Link
CN (1) CN109597875B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439597B (zh) * 2011-07-13 2014-12-24 华为技术有限公司 基于潜在狄利克雷模型的参数推断方法、计算装置及系统
US9280545B2 (en) * 2011-11-09 2016-03-08 Microsoft Technology Licensing, Llc Generating and updating event-based playback experiences
US9171072B2 (en) * 2013-03-13 2015-10-27 Msc Intellectual Properties B.V. System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data
US9177262B2 (en) * 2013-12-02 2015-11-03 Qbase, LLC Method of automated discovery of new topics
CN105975499B (zh) * 2016-04-27 2019-06-25 深圳大学 一种文本主题检测方法及系统
CN106649659B (zh) * 2016-12-13 2020-09-29 重庆邮电大学 一种面向社交网络的链接预测系统及方法
CN107168944A (zh) * 2017-04-13 2017-09-15 哈尔滨工程大学 一种lda并行优化方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法

Also Published As

Publication number Publication date
CN109597875A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN108595706B (zh) 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN109858028B (zh) 一种基于概率模型的短文本相似度计算方法
Luo et al. Online learning of interpretable word embeddings
CN110413986A (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN108475262A (zh) 用于文本处理的电子设备和方法
CN110390017B (zh) 基于注意力门控卷积网络的目标情感分析方法及系统
CN109858034B (zh) 一种基于注意力模型和情感词典的文本情感分类方法
CN111813895B (zh) 一种基于层次注意力机制和门机制的属性级别情感分析方法
Peng et al. Incremental term representation learning for social network analysis
King et al. Evaluating approaches to personalizing language models
CN116521882A (zh) 基于知识图谱的领域长文本分类方法及系统
CN112949713A (zh) 一种基于复杂网络的集成学习的文本情感分类方法
CN116595975A (zh) 一种基于句信息进行词信息增强的方面级情感分析方法
CN106681986A (zh) 一种多维度情感分析系统
Noaman et al. Enhancing recurrent neural network-based language models by word tokenization
WO2023134075A1 (zh) 基于人工智能的文本主题生成方法、装置、设备及介质
WO2023134074A1 (zh) 文本主题的生成方法、装置、设备及存储介质
Kumar et al. Text summarization based on classification using ANFIS
CN109597875B (zh) 一种基于词嵌入的高斯lda的优化求解方式
CN111581984A (zh) 一种基于任务贡献度的语句表示方法
Fan et al. Large margin nearest neighbor embedding for knowledge representation
CN113326347B (zh) 一种句法信息感知的作者归属方法
CN110347824B (zh) 一种基于词汇相似性的lda主题模型最优主题数确定方法
CN109902169B (zh) 基于电影字幕信息提升电影推荐系统性能的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant