CN109597875A - 一种基于词嵌入的高斯lda的优化求解方式 - Google Patents

一种基于词嵌入的高斯lda的优化求解方式 Download PDF

Info

Publication number
CN109597875A
CN109597875A CN201811301465.5A CN201811301465A CN109597875A CN 109597875 A CN109597875 A CN 109597875A CN 201811301465 A CN201811301465 A CN 201811301465A CN 109597875 A CN109597875 A CN 109597875A
Authority
CN
China
Prior art keywords
word
distribution
theme
document
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811301465.5A
Other languages
English (en)
Other versions
CN109597875B (zh
Inventor
许振豪
谭北海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201811301465.5A priority Critical patent/CN109597875B/zh
Publication of CN109597875A publication Critical patent/CN109597875A/zh
Application granted granted Critical
Publication of CN109597875B publication Critical patent/CN109597875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于词嵌入的高斯LDA的优化求解方法,该方法如下:输入文档集D,设置迭代次数T、模型超参数α,γ,初始化nv,k,nk,nd,k,nd;用逆沙威特分布W‑1(Ψ,γ)求主题‑词嵌入分布的方差Σk、用多元高斯分布N(μ=0,Σk)求主题‑词嵌入分布的均值μk,用狄利克雷分布Dir(α)求出文档‑主题分布θd,对该文档下的每个词嵌入分配一个主题,用多元高斯分布抽取该位置的词嵌入,得到当前词嵌入的主编号;更新μk,γk,kk,利用Cholesky矩阵分解计算矩阵Ψk,根据矩阵Ψk和方差Σk计算后验预测概率分布;采用Alias采样进行迭代采样,直到迭代结束,输出文档‑主题概率分布和主题‑词嵌入概率分布。本发明能在不失精确度的情况下,提高计算速度和采样速度,进而提高自然语言处理效率。

Description

一种基于词嵌入的高斯LDA的优化求解方式
技术领域
本发明涉及自然语言领域,更具体地,涉及一种基于词嵌入的高斯LDA的优化求解方式。
背景技术
随着互联网技术的普及,社交媒体、门户网站和单位机关每天都有海量的文本数据产生。这些未经处理的文本数据中存在许多有益、重要的信息,却也存在大量的干扰信息,使得用户难以从中得到自己想要的信息。如果能够对文本进行更高级的抽象化,用户就能更高效的获取所需的文本信息。对文本数据进行抽象化处理的过程可以描述为自然语言处理中的语义分析,其中常用的语义分析手段是文本聚类。文本聚类是文本分析十分重要的技术,其能够将数量巨大的非机构化文本数据进行总结和一定程度地归类,从而帮助用户更便捷地获取主要信息。文本聚类在语义分析,情感分析,文本分类、舆情分析和个性化推荐等领域有广泛应用。
在文本分析过程中,传统的特征提取方法主要有文档词频、卡方、互信息、信息增益等。这些方法的一个共同特点是基于词频,并且采用的是一元语法模型,即假设词之间是独立同分布的,通过计算词项与类型之间存在的关系,对特征词进行提取,达到对文本进行总结的目的。
主题模型也是文本聚类的一种,经常用于自动抽象化海量文本的特征,发掘文本中潜在的语义,将文本语料从词空间映射到主题空间,得到每个文本的主题概率分布,使文本具有更好的解释性。LDA模型的优点是能够很好的处理传统方法无法解决的多义词和同义词等问题。虽然LDA主题模型有很好的解释性,但是其模型基础依旧是词袋模型,即分析过程中,词与词之间是独立存在的。
词嵌入是近年用来做文本分析比较常用的表示方法,通过神经网络训练,将每个是离散变量的词训练成连续变量,即每个词都由一个向量表示,称之为词嵌入。由于词嵌入的每个维度都刻画了词本身的特征属性,于是词嵌入能够很好地表达词语的语义。因为使用的模型本身对词频的敏感度较低,因此也具有较好的泛化能力。但现有技术采用LDA+W2V技术,使用LDA来解释词嵌入等式的每一个偏移权加项,让词嵌入有了更好的解释性。LDA+W2V存在的变化主要是,原本在离散空间的主题-词嵌入的多项式分布,变为连续空间的多元高斯分布。导致其在海量文本数据下,其存在计算时间长,处理效率低下。且传统Gibbs采样处理方法存在在采样初始阶段,更新速度慢的问题。每次更新都需要重新计算参数,或者新的采样接收旧样本,使得全局参数的更新速度缓慢。虽然在迭代一定量次数之后更新速度会有所改善,但是实验证明,采样初期的上千次采样结果,因为效率低下,通常被实验者弃用。
发明内容
本发明为了解决传统的自然语言处理计算时间长,处理效率低下的问题,提供了一种基于词嵌入的高斯LDA的优化求解方法,其能在采样初始阶段样本的加快更新速度、提高计算速度。
为实现上述本发明目的,采用的技术方案如下:一种基于词嵌入的高斯LDA的优化求解方法,所述该优化求解方法的步骤如下:
S1:输入文档集D,设置迭代次数T、模型超参数α,γ,同时初始化nv,k,nk,nd,k,nd
S2:采用逆沙威特分布W-1(Ψ,γ)求主题-词嵌入分布的方差Σk、采用多元高斯分布N(μ=0,Σk)求主题-词嵌入分布的均值μk,采用狄利克雷分布Dir(α)求出文档-主题分布θd,对该文档下的每个词嵌入分配一个主题,采用多元高斯分布抽取该位置的词嵌入,得到当前词嵌入的主编号;
S3:更新μk,γk,kk,计算逆沙威特分布的方差矩阵Ψk,计算主题-词嵌入分布的方差Σk,利用Cholesky矩阵分解计算矩阵Ψk,根据矩阵Ψk和方差Σk计算后验预测概率分布;
S4:采用Alias采样进行迭代采样,直到迭代结束,输出参数:文档-主题概率分布和主题-词嵌入概率分布。
优选地,所述S1的具体步骤如下:
S11:输入文档集D、通过分词且训练成词嵌入序列Vd
S12:根据文档集D,设置迭代次数T、模型超参数α,γ;
S13:初始化统计量,为文档集D中每个词嵌入v随机赋予一个主题编号,即z=random topic indexk,k∈[1,…K],每个文档d∈[1,…,D],并将nv,k,nk,nd,k,nd初始化;
其中:nv,k表示词嵌入v被赋予主题k的数量;nk表示被赋予主题k的所有词嵌入数量;nd,k表示文档d中被赋予主题k的词嵌入数量;nd表示文档d的词嵌入数量、α表示狄利克雷分布的超参数、γ表示(逆沙威特分布的伪计数)。
优选地,所述S2的具体步骤如下:
S21:采用逆沙威特分布W-1(Ψ,γ)抽取主题-词嵌入分布的方差Σk,并根据Σk,采用多元高斯分布N(μ=0,Σk)中抽取主题-词嵌入分布的均值μk
S22:对每个文档d=[1,…,D],采用狄利克雷分布Dir(α)分布中抽取文档-主题分布θd,在该文档下,每个词嵌入i∈[1,…,Nd];
S23:对于文档d的每个位置的词嵌入i∈[1,…,Nd]分配一个主题zd,i~Mult(θd),采用多元高斯分布N(μk,Σk)为该文档抽取词嵌入vd,i
S24:对文档中的每个词嵌入vd,i,vd,i∈[1,…,V],得到当前词嵌入的主题编号,t=zd,i
其中:vd,i表示文档d中第i个词嵌入。
优选地,所述S3的具体步骤如下:
S31:令nk=t,nd,k=t三个统计量均减1;
S32:更新μk,γk,kk,计算逆沙威特分布的方差矩阵
S33:计算主题-词嵌入分布的方差利用Cholesky矩阵分解的方法,求解矩阵Ψk和方差Σk
S34:根据求解出来的矩阵Ψk和方差Σk,计算后验预测概率分布p(zd,i=k|z-(d,i),Vd,ζ,α);
其中:kk=k+nk表示逆沙威特分布的伪计数1;γk=γ+nk表示逆沙威特分布的伪计数2;t是以(μk,Σk) 为参数的多项式t分布;ζ表示是后验预测概率分布的参数。
进一步地,所述Cholesky矩阵求后验预测概率分布的具体步骤如下:
步骤1:zTΣkz>0,对于任意M×M的实数矩阵∑k是正定矩阵;
步骤2:Σk=LLT,将Σk分解为两个下三角矩阵的乘积;
步骤3:Σk的行列式通过下三角矩阵L的对角线计算;
步骤4:令b=(vd,i-uk),则bTΣ-1b=bT(LLT)-1b=bT(L-1)TL-1b=(L-1b)T(L-1b);
步骤5:令Lx=b,得其解为x=L-1b;
步骤6:因采用前向替代法求解x,对x做内积,即可求出
步骤7:将|Σk|和代入后验预测概率分布,计算得出新的后验预测概率p(zd,i=k|z-(d,i),Vd,ζ,α)。
进一步地,所述后验预测概率分布的表达式如下:
其中: t是以(μk,Σk)为参数的多项式t分布。
优选地,所述S4中Alias采样的具体步骤如下:
S41:构建主题概率表U=[Uk=p(zd,i=k|z-(d,i),Vd,ζ,α)]和Alias表A=[Ak],其中1≤k≤K;
S42:从均匀分布中生成随机数x∈[0,1],令y=nx+1-k,其中k∈{1,K},y∈[0,1);
S43:如果y<Uk,返回k;否则返回Alias表中的Ak。即令t’=[kify<UkelseAk];
S44:为该词嵌入抽取新的主题编号zd,i=t’;令nk=t‘,nd,k=t’三个统计量均加1;
S45:直到迭代结束,输出参数:文档-主题概率分布和主题-词嵌入概率分布;
其中:Uk表示主题概率表中的元素,Ak表示Alias表中的元素。
本发明的有益效果如下:本发明提出了一种Cholesky+Alias方法的优化方法,其中Cholesky分解法比传统的LU分解快两倍,以此减少计算时间,采用Alias采样方法,来加快在采样初始阶段样本的更新速度,从而提高了在海量数据集下,文本聚类的效率,提高自然语言处理效率。
附图说明
图1是一种基于词嵌入的高斯LDA的优化求解方法。
图2是Cholesky+Alias优化方法和传统方法的计算时间比较。
图3是Cholesky+Alias优化方法和传统方法在不同主题的PIM比较。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
一种基于词嵌入的高斯LDA的优化求解方法,所述该优化求解方法的步骤如下:
S1:输入文档集D,设置迭代次数T、模型超参数α,γ,同时初始化nv,k,nk,nd,k,nd
S2:采用逆沙威特分布W-1(Ψ,γ)求主题-词嵌入分布的方差Σk、采用多元高斯分布N(μ=0,Σk)求主题-词嵌入分布的均值μk,采用狄利克雷分布Dir(α)求出文档-主题分布θd,对该文档下的每个词嵌入分配一个主题,采用多元高斯分布N(μk,Σk)抽取该位置的词嵌入,得到当前词嵌入的主编号;
S3:更新μk,γk,kk,利用Cholesky矩阵分解计算矩阵Ψk,根据矩阵Ψk和方差Σk计算后验预测概率分布;
S4:采用Alias采样进行迭代采样,直到迭代结束,输出参数:文档-主题概率分布和主题-词嵌入概率分布。
本实施例所述步骤S1的具体步骤如下:
S11:输入文档集D、通过分词且训练成词嵌入序列Vd
S12:根据文档集D,设置迭代次数T、模型超参数α,γ;
S13:初始化统计量,为文档集D中每个词嵌入v随机赋予一个主题编号,即z=random topic indexk,k∈[1,…K],每个文档d∈[1,…,D],并将nv,k,nk,nd,k,nd初始化;
其中:nv,k表示词嵌入v被赋予主题k的数量;nk表示被赋予主题k的所有词嵌入数量;nd,k表示文档d中被赋予主题k的词嵌入数量;nd表示文档d的词嵌入数量,α表示狄利克雷分布的超参数、γ表示(逆沙威特分布的伪计数)。
本实施例所述步骤S2的具体步骤如下:
S21:采用逆沙威特分布W-1(Ψ,γ)抽取主题-词嵌入分布的方差Σk,并根据Σk,采用多元高斯分布N(μ=0,Σk)中抽取主题-词嵌入分布的均值μk
S22:采用狄利克雷分布Dir(α)分布中抽取文档-主题分布θd,在该文档下,每个词嵌入i∈[1,…,Nd];
S23:对于文档d的每个位置的词嵌入i∈[1,…,Nd]分配一个主题zd,i~Mult(θd),采用多元高斯分布N(μk,Σk)为该文档抽取词嵌入vd,i
S24:对文档中的每个词嵌入vd,i,vd,i∈[1,…,V],得到当前词嵌入的主题编号,t=zd,i
其中:vd,i表示文档d中第i个词嵌入;表示主题-词嵌入分布的均值;表示主题-词嵌入分布的方差;kk=k+nk表示逆沙威特分布的伪计数1;γk=γ+nk表示逆沙威特分布的伪计数2;nk表示新分配给主题k的词嵌入数量;表示属于文档d-主题k的词嵌入的样本均值;属于主题k的词嵌入的样本方差。
本实施例所述步骤S3的具体步骤如下:
S31:令nk=t,nd,k=t三个统计量均减1;
S32:更新μk,γk,kk,计算逆沙威特分布的方差矩阵
S33:计算主题-词嵌入分布的方差利用Cholesky矩阵分解的方法,求解矩阵Ψk、方差Σk
S34:根据求解出来的矩阵Ψk、方差Σk,计算后验预测概率分布p(zd,i=k|z-(d,i),Vd,ζ,α);
其中:kk=k+nk表示逆沙威特分布的伪计数1;γk=γ+nk表示逆沙威特分布的伪计数2;t是以(μk,Σk)为参数的多项式t分布;ζ表示是后验预测概率分布的参数。
其中所述Cholesky矩阵分解求后验预测概率分布的具体步骤如下:
步骤1:zTΣkz>0,对于任意M×M的实数矩阵∑k是正定矩阵;
步骤2:Σk=LLT,将Σk分解为两个下三角矩阵的乘积;
步骤3:Σk的行列式通过下三角矩阵L的对角线计算;
步骤4:令b=(vd,i-uk),则bTΣ-1b=bT(LLT)-1b=bT(L-1)TL-1b=(L-1b)T(L-1b);
步骤5:令Lx=b,得其解为x=L-1b;
步骤6:因采用前向替代法求解x,对x做内积,即可求出
步骤7:将|Σk|和代入后验预测概率分布,计算得出新的后验预测概率p(zd,i=k|z-(d,i),Vd,ζ,α)。
本实施例所述后验预测概率分布的表达式如下:
其中: t是以(μk,Σk)为参数的多项式t分布。
本实施例所述步骤S4中Alias采样的具体步骤如下:
S41:构建主题概率表U=[Uk=p(zd,i=k|z-(d,i),Vd,ζ,α)]和Alias表A=[Ak],其中1≤k≤K;
S42:从均匀分布中生成随机数x∈[0,1],令y=nx+1-k,其中k∈{1,K},y∈[0,1);
S43:如果y<Uk,返回k;否则返回Alias表中的Ak。即令t’=[kify<UkelseAk];
S44:为该词嵌入抽取新的主题编号zd,i=t’;令nk=t‘,nd,k=t’三个统计量均加1;
S45:直到迭代结束,输出参数:文档-主题概率分布和主题-词嵌入概率分布;
t是以(μk,Σk)为参数的多项式t分布,
其中:Uk表示主题概率表U中的元素,Ak表示Alias表A中的元素。
本发明的优化求解方法,算法的初始化阶段,首先为文档中的每个词嵌入vd,i随机分配一个主题号k。在所有词嵌入都分配好主题之后,然后统计nv,k,nk,nd,k,nd的计数。
步骤S2~S4是Cholesky+Alias优化方法的核心过程。首先将当前词嵌入的主题编号赋值给t,将对应的nkt,nd,k=t三个统计量均减1。然后更新μkγkkk,根据公式1计算方差矩阵Ψk,并同时计算主题-词嵌入分布的方差Σk,利用Cholesky对Σk进行矩阵运算,将运算结果带入求出后验预测概率分布p(zd,i=k|z-(d,i),Vd,ζ,α)。接着,生成主题概率表Uk和Alias表Ak,利用Alias采样方法为当前词嵌入抽取新的主题编号t'。最后在模型达到收敛或者执行到最大迭代次数时,输出模型参数,文档-主题分布θd和主题-词嵌入分布(μk,Σk)。
而现有技术采用LDA+W2V算法流程大致如下:
1.采用逆沙威特分布W-1(Ψ,γ)抽取主题-词嵌入分布的方差Σk,然后根据Σk,从多元高斯分布N(μ=0,Σk)中抽取主题-词嵌入分布的均值μk
2.采用狄利克雷分布Dir(α)分布中抽取文档-主题分布θd
3:初始化的文档-主题分布θd和主题-词嵌入分布(μk,Σk),词嵌入序列v;
4.经过初始化和采样两个步骤之后,计算的后验预测概率分布。
这样每次更新采样都需要计算后验概率,即需要计算后验方差矩阵的行列式和转置,如果直接计算的话,需要花费的时间复杂度为O(M3)。也就是说,每一次为一个词嵌入更新分配一个新的主题时,每个主题-词嵌入分布对应的参数μk,kkγk,Ψk,Σk都需要改变,其中的Σk行列式和转置需要重新计算。
同时传统LDA的Gibbs采样的存在隐藏缺陷,即采样初期因为每次只更新一个位置。每次更新都需要重新计算参数,或者新的采样接收旧样本,使得全局参数的更新速度缓慢。
本实施例为了更好的凸显出本发明的有益效果,将其与现有技术做如下对比:对比方法如下:
使用的实验语料集Newsgroups(第三版),数据集收集了18828个不重复的文档,均匀分为20个不同主题的新闻组集合。采用逐点互信息法PMI进行度量,比较两种方法达到收敛的运行时间。其中PMI的公式如下:
结果及分析
对传统方法和优化方法的参数赋予统一的默认值。其中模型中的α=50,K=20,μ=0,迭代次数设置为10000。
Cholesky+Alias方法和传统方法的对比结果分别如图2和表1所示。
由实验结果可知,Cholesky+Alias方法和传统方法在相同主题下的PMI得分相差不大,说明本发明提出的Cholesky+Alias方法和传统方法的精度几乎一直,但是Cholesky+Alias方法的计算时间要由于传统方法,其中Cholesky+Alias的迭代速率是只用Cholesky的9.93倍,是传统方法的53.1倍。并且可以明显地看出,Cholesky+Alias收敛的速度更快。可见,Cholesky+Alias方法在不失精度的前提下,有效的提高了模型的求解效率,减少了模型的计算时间。通过实验证明了Cholesky+Alias方法的效果较好。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于词嵌入的高斯LDA的优化求解方法,其特征在于:所述该优化求解方法的步骤如下:
S1:输入文档集D,设置迭代次数T、模型超参数α,γ,同时初始化nv,k,nk,nd,k,nd
S2:采用逆沙威特分布W-1(Ψ,γ)求主题-词嵌入分布的方差Σk、采用多元高斯分布N(μ=0,Σk)求主题-词嵌入分布的均值μk,采用狄利克雷分布Dir(α)求出文档-主题分布θd,对该文档下的每个词嵌入分配一个主题,采用多元高斯分布抽取该位置的词嵌入,得到当前词嵌入的主编号;
S3:更新μk,γk,kk,利用Cholesky矩阵分解计算矩阵Ψk,根据矩阵Ψk和方差Σk计算后验预测概率分布;
S4:采用Alias采样进行迭代采样,直到迭代结束,输出参数:文档-主题概率分布和主题-词嵌入概率分布。
2.根据权利要求1所述的基于词嵌入的高斯LDA的优化求解方法,其特征在于:所述S1的具体步骤如下:
S11:输入文档集D,通过分词且训练成词嵌入序列Vd
S12:根据文档集D,设置迭代次数T、模型超参数α,γ;
S13:初始化统计量,为文档集D中每个词嵌入v随机赋予一个主题编号,即z=randomtopic index k,k∈[1,…K],每个文档d∈[1,…,D],并将nv,k,nk,nd,k,nd初始化;
其中:nv,k表示词嵌入v被赋予主题k的数量;nk表示被赋予主题k的所有词嵌入数量;nd,k表示文档d中被赋予主题k的词嵌入数量;nd表示文档d的词嵌入数量、α表示狄利克雷分布的超参数、γ表示(逆沙威特分布的伪计数)。
3.根据权利要求1所述的基于词嵌入的高斯LDA的优化求解方法,其特征在于:所述S2的具体步骤如下:
S21:采用逆沙威特分布W-1(Ψ,γ)抽取主题-词嵌入分布的方差Σk,并根据Σk,采用多元高斯分布N(μ=0,Σk)中抽取主题-词嵌入分布的均值μk
S22:对每个文档d=[1,…,D],采用狄利克雷分布Dir(α)分布中抽取文档-主题分布θd,在该文档下,每个词嵌入i∈[1,…,Nd];
S23:对于文档d的每个位置的词嵌入i∈[1,…,Nd]分配一个主题zd,i~Mult(θd),采用多元高斯分布N(μkk)为该文档抽取词嵌入vd,i
S24:对文档中的每个词嵌入vd,i,vd,i∈[1,…,V],得到当前词嵌入的主题编号,t=zd,i
其中:vd,i表示文档d中第i个词嵌入。
4.根据权利要求1所述的基于词嵌入的高斯LDA的优化求解方法,其特征在于:所述S3的具体步骤如下:
S31:令nk=t,nd,k=t三个统计量均减1;
S32:更新μk,γk,kk,计算逆沙威特分布的方差矩阵
S33:计算主题-词嵌入分布的方差利用Cholesky矩阵分解的方法,求解矩阵Ψk和方差Σk
S34:根据求解出来的矩阵Ψk和方差Σk,计算后验预测概率分布p(zd,i=k|z-(d,i),Vd,ζ,α);
其中:kk=k+nk表示逆沙威特分布的伪计数1;γk=γ+nk表示逆沙威特分布的伪计数2;t是以(μkk)为参数的多项式t分布;ζ表示是后验预测概率分布的参数。
5.根据权利要求4所述的基于词嵌入的高斯LDA的优化求解方法,其特征在于:所述Cholesky矩阵求后验预测概率分布的具体步骤如下:
步骤1:zTΣkz>0,对于任意M×M的实数矩阵∑k是正定矩阵;
步骤2:Σk=LLT,将Σk分解为两个下三角矩阵的乘积;
步骤3:Σk的行列式通过下三角矩阵L的对角线计算;
步骤4:令b=(vd,i-uk),则bTΣ-1b=bT(LLT)-1b=bT(L-1)TL-1b=(L-1b)T(L-1b);
步骤5:令Lx=b,得其解为x=L-1b;
步骤6:因采用前向替代法求解x,对x做内积,即可求出
步骤7:将|Σk|和代入后验预测概率分布,计算得出新的后验预测概率p(zd,i=k|z-(d,i),Vd,ζ,α)。
6.根据权利要求5所述的基于词嵌入的高斯LDA的优化求解方法,其特征在于:所述后验预测概率分布的表达式如下:
其中: t是以(μkk)为参数的多项式t分布。
7.根据权利要求1所述的基于词嵌入的高斯LDA的优化求解方法,其特征在于:所述S4中Alias采样的具体步骤如下:
S41:构建主题概率表U=[Uk=p(zd,i=k|z-(d,i),Vd,ζ,α)]和Alias表A=[Ak],其中1≤k≤K;
S42:从均匀分布中生成随机数x∈[0,1],令y=nx+1-k,其中k∈{1,K},y∈[0,1);
S43:如果y<Uk,返回k;否则返回Alias表中的Ak。即令t’=[k if y<Uk else Ak];
S44:为该词嵌入抽取新的主题编号zd,i=t’;令nk=t‘,nd,k=t’三个统计量均加1;
S45:直到迭代结束,输出参数:文档-主题概率分布和主题-词嵌入概率分布;
其中:Uk表示主题概率表U中的元素;Ak表示Alias表A中的元素。
CN201811301465.5A 2018-11-02 2018-11-02 一种基于词嵌入的高斯lda的优化求解方式 Active CN109597875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811301465.5A CN109597875B (zh) 2018-11-02 2018-11-02 一种基于词嵌入的高斯lda的优化求解方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811301465.5A CN109597875B (zh) 2018-11-02 2018-11-02 一种基于词嵌入的高斯lda的优化求解方式

Publications (2)

Publication Number Publication Date
CN109597875A true CN109597875A (zh) 2019-04-09
CN109597875B CN109597875B (zh) 2022-08-23

Family

ID=65957142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811301465.5A Active CN109597875B (zh) 2018-11-02 2018-11-02 一种基于词嵌入的高斯lda的优化求解方式

Country Status (1)

Country Link
CN (1) CN109597875B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417852A (zh) * 2021-12-06 2022-04-29 重庆邮电大学 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439597A (zh) * 2011-07-13 2012-05-02 华为技术有限公司 基于潜在狄利克雷模型的参数推断方法、计算装置及系统
US20130117692A1 (en) * 2011-11-09 2013-05-09 Microsoft Corporation Generating and updating event-based playback experiences
US20140280173A1 (en) * 2013-03-13 2014-09-18 Msc Intellectual Properties B.V. System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data
US20150154148A1 (en) * 2013-12-02 2015-06-04 Qbase, LLC Method of automated discovery of new topics
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统
CN106649659A (zh) * 2016-12-13 2017-05-10 重庆邮电大学 一种面向社交网络的链接预测系统及方法
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN107168944A (zh) * 2017-04-13 2017-09-15 哈尔滨工程大学 一种lda并行优化方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439597A (zh) * 2011-07-13 2012-05-02 华为技术有限公司 基于潜在狄利克雷模型的参数推断方法、计算装置及系统
US20130117692A1 (en) * 2011-11-09 2013-05-09 Microsoft Corporation Generating and updating event-based playback experiences
US20140280173A1 (en) * 2013-03-13 2014-09-18 Msc Intellectual Properties B.V. System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data
US20150154148A1 (en) * 2013-12-02 2015-06-04 Qbase, LLC Method of automated discovery of new topics
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN106649659A (zh) * 2016-12-13 2017-05-10 重庆邮电大学 一种面向社交网络的链接预测系统及方法
CN107168944A (zh) * 2017-04-13 2017-09-15 哈尔滨工程大学 一种lda并行优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王宇: "基于统计学习方法的高斯 LDA 模型的文本聚类研究", 《中国优秀硕士论文库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114417852A (zh) * 2021-12-06 2022-04-29 重庆邮电大学 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法

Also Published As

Publication number Publication date
CN109597875B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
Qaisar Sentiment analysis of IMDb movie reviews using long short-term memory
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
He et al. Time-evolving Text Classification with Deep Neural Networks.
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN112069826B (zh) 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN107145523B (zh) 基于迭代匹配的大型异构知识库对齐方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN103034726B (zh) 文本过滤系统及方法
CN105740236A (zh) 结合写作特征和序列特征的中文情感新词识别方法和系统
CN109299270A (zh) 一种基于卷积神经网络的文本数据无监督聚类方法
CN108108482B (zh) 一种文景转换中实现场景真实性增强的方法
CN107273348A (zh) 一种文本的话题和情感联合检测方法及装置
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN110188359B (zh) 一种文本实体抽取方法
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
Qi et al. Patent analytic citation-based vsm: Challenges and applications
CN106681986A (zh) 一种多维度情感分析系统
CN109388749A (zh) 基于多层级地理的精准高效网络舆情检测及预警方法
CN109597875A (zh) 一种基于词嵌入的高斯lda的优化求解方式
CN109002561A (zh) 基于样本关键词学习的文本自动分类方法、系统及介质
Wang Research on the art value and application of art creation based on the emotion analysis of art
Ai et al. An entity event deduplication method based on connected subgraph
CN115034229A (zh) 一种基于信息抽取和图模型的法律长文本相似度计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant