CN113935321A - 一种适用于LDA主题模型的自适应迭代Gibbs采样方法 - Google Patents
一种适用于LDA主题模型的自适应迭代Gibbs采样方法 Download PDFInfo
- Publication number
- CN113935321A CN113935321A CN202111213584.7A CN202111213584A CN113935321A CN 113935321 A CN113935321 A CN 113935321A CN 202111213584 A CN202111213584 A CN 202111213584A CN 113935321 A CN113935321 A CN 113935321A
- Authority
- CN
- China
- Prior art keywords
- model
- word
- gibbs sampling
- topic
- bag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000003044 adaptive effect Effects 0.000 title claims description 13
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 230000009849 deactivation Effects 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 17
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005272 metallurgy Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种适用于LDA主题模型的自适应迭代Gibbs采样方法,属于计算机与改进算法优化技术领域。本发明首先对输入的文本数据集进行分词和去停用词处理;将经过预处理的文本数据集转换为词袋模型;将词袋输入到LDA主题模型中,并使用自适应迭代的Gibbs采样算法进行参数估计;当Gibbs采样迭代自动结束时,从而输出文本数据集潜在的主题特征。这种自适应迭代的Gibbs采样算法在进行LDA主题模型的参数估计时不需要进行人为的迭代次数设置,大幅度降低了迭代的次数,提升了LDA主题模型生成主题特征的效率。
Description
技术领域
本发明涉及一种适用于LDA主题模型的自适应迭代Gibbs采样方法,属于计算机与改进算法优化技术领域。
背景技术
LDA主题模型作为最流行的主题模型之一,它可以将文本数据集中每篇文本的主题以概率分布的形式给出,从而抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。LDA主题模型通常使用Gibbs采样算法来进行主题参数的近似计算,然而Gibbs采样算法需要提前设定迭代次数,在实际应用中,如果迭代次数不够,估计的参数会很差。但在实际应用中,进行多少次迭代可以收敛?没有好办法。在通常情况下Gibbs采样算法的迭代次数通常设置为1000次以上。但是,将迭代次数设置为1000或2000次是否合理?因此合理的设定Gibbs采样算法的迭代次数是一个需要解决的问题。
发明内容
本发明要解决的技术问题是一种适用于LDA主题模型的自适应迭代Gibbs采样方法,从而弥补现有LDA主题模型使用Gibbs采样进行训练时需要提前设定迭代次数以及迭代次数设定不准确的缺陷。
本发明的技术方案是:一种适用于LDA主题模型的自适应迭代Gibbs采样方法,具体步骤为:
Step1:使用分词工具和停用词表对输入的文本数据集进行分词和去停用词处理。
Step2:将经过分词和去停用词处理后的文本数据集转换为词袋模型。
Step3:将词袋模型输入到LDA主题模型中,并使用自适应迭代的Gibbs采样算法对词袋模型进行采样,并对LDA主题模型生成的主题参数进行估计,直到主题参数收敛,迭代自动停止。
所述Step3中,LDA主题模型实现输入文本主题特征的生成过程为:
首先从超参数为α的狄利克雷分布中采样生成文本dm的主题分布θm,接着从生成主题的多项式分布θm中采样生成文本dm中第n个词语的主题zm,n,然后从超参数为β的狄利克雷分布中采样生成主题zm,n对应的词语分布k表示主题数,最后从词语分布中采样生成词语t。
在LDA的实际训练过程中使用Gibbs采样近似求解主题参数,其过程为:首先为文本中的所有词语随机分配主题z(0),随后,计算出现在每个主题z下的词语t的数量和出现在每个文本m下的主题z中的数量,接着排除当前词语的主题分配,并且根据所有其他词语的主题分配来估计当前单词分配给所有主题的概率。在获得当前词语属于所有主题z的概率分布之后,根据该概率分布为该词语取一个新的主题z(1),最终不断更新每个词语的主题,直到所有文本的主题分布θ和所有主题的词语分布收敛。
采用自适应迭代的Gibbs采样算法后,迭代次数不需要提前设定,迭代将会在主题参数收敛后自动停止。
所述Step3具体步骤为:
Step3.2:由于LDA主题模型是由输入的词袋生成的,词袋可以看作一个文本-词语分布,记为C。
Step3.3:在Gibbs采样每迭代十次生成的Cnew同输入的词袋C通过下式进行相关系数rCCnew计算:
Step3.4:当Gibbs采样每十次迭代生成的Cnew和输入词袋C相关系数精确到小数点后五位连续三次保持不变时,即表明趋于稳定,此时Gibbs采样停止,从而实现适用于LDA主题模型的自适应迭代Gibbs采样算法。
将Gibbs采样迭代停止时的迭代数作为输入数据集经过LDA主题模型训练后主题参数收敛的标志。
本发明的有益效果是:有效降低了LDA主题模型通过Gibbs采样算法进行训练时的时间,不需要人为的提前设定Gibbs采样的迭代次数,并很好的在主题参数收敛时迭代停止,提高了LDA主题模型提取文本数据主题特征的效率。
附图说明
图1是本发明的步骤流程示意图;
图2是本发明自适应迭代Gibbs采样算法的流程图;
图3是本发明在训练冶金新闻数据集时不同主题数下的Gibbs采样迭代次数示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:本实例采用2016年11月1日至2016年11月30日冶金信息网站下载的322篇新闻文本,按照技术方案中的数据处理步骤,将其输入到采用自适应迭代Gibbs采样算法的LDA主题模型中进行特征提取。
如图1所示,
Step1:对输入文本数据集进行预处理。
采用python开源的分词软件jieba0.42版本对冶金新闻数据集进行分词。并使用哈工大停用词表对冶金新闻数据集中的低频词和不重要的词进行剔除,例如“的”,“地”,“得”这样的词语,以及“?”,“!”这样的标点符号。
Step2:生成词袋模型。
将经过Step1预处理过的冶金新闻数据集通过python开源的Gensim工具包转换为词袋模型,即特征词的词频矩阵,该词频矩阵的行为经过预处理后的特征词数,列为文档数,最终生成了一个13190×322的词频矩阵。
Step3:将词袋输入LDA主题模型,并采用自适应迭代的Gibbs采样算法完成LDA主题模型的参数估计。
LDA是一个概率生成模型,冶金新闻数据集D中有322篇文档,Nd表示322篇文档中某一篇文档dm中所含的词语数量,LDA首先从超参数为α的狄利克雷分布中采样生成文本dm的主题分布θm;接着从生成主题的多项式分布θm中采样生成文本dm中第n个词语的主题zm,n;然后从超参数为β的狄利克雷分布中采样生成主题zm,n对应的词语分布k表示主题数;最后从词语分布中采样生成词语t。
设定LDA主题模型的超参数α为50k,超参数β为0.01。
LDA主题模型重点是对文本数据集中每一篇文本dm的每一个词语t的隐变量主题参数zm,n的求解,Gibbs采样可以近似求解其主题参数,其过程为:首先为文档中的所有词语随机分配主题z(0);随后,计算出现在每个主题z下的词语t的数量和出现在每个文本m下的主题z中的数量;接着排除当前词语的主题分配,并且根据所有其他词语的主题分配来估计当前单词分配给所有主题的概率。在获得当前词语属于所有主题z的概率分布之后,根据该概率分布为该词语取一个新的主题z(1);最终不断更新每个词语的主题,直到所有文档的主题分布θ和所有主题的词语分布收敛。
Step4:生成主题特征。
如图2所示,Step3中所述的自适应迭代Gibbs采样算法具体步骤为:
Step3.1:使用Gibbs采样对LDA主题模型在冶金新闻数据集上进行训练时,将Gibbs采样每迭代十次生成的文档-主题分布θ和主题-词语分布通过公式1生成一种新的词语-文档分布Cnew,Cnew是一个大小为13190×322的分布矩阵:
Step3.2:由于LDA主题模型是由输入的词袋生成的,词袋同样作为词频矩阵,同样是一个大小为13190×322的分布矩阵,将其记为C。
当LDA主题经过Gibbs采样算法训练得到的Cnew同输入的词袋C的相关系数趋于稳定时,则表明Cnew矩阵中的主题特征与之前迭代生成的主题特征基本一致,从而表明了构成Cnew矩阵的文档-主题分布θ以及主题-词语分布中的主题参数趋于收敛。
Step3.4:Gibbs采样每十次迭代生成的Cnew和输入词袋C相关系数精确到小数点后五位连续三次保持不变时,表明趋于稳定,即LDA主题模型生成的主题特征中的参数已经收敛,此时Gibbs采样迭代则会自动停止,从而实现适用于LDA主题模型的自适应迭代Gibbs采样算法。
将Gibbs采样迭代停止时的迭代数作为冶金新闻数据集经过LDA主题模型训练后主题参数收敛的标志。
在对冶金新闻数据集的实验中,将LDA主题模型的主题数从2设置到50,其中主题2到主题10是连续的,主题10到主题75是以5为间隔进行设置的。为了直观的实验效果,将LDA主题模型的Gibbs采样的迭代上限设置为2000次。
采用自适应迭代Gibbs采样算法后,在不同主题数下Gibbs采样的迭代数如图3所示。其中在主题数为2时的迭代次数为320次,主题数为3时的迭代次数为1210次,主题数为4时的迭代次数为880次,主题数为5时的迭代次数为730次,主题数为6时的迭代次数为1280次,主题数为7时的迭代次数为570次,主题数为8时的迭代次数为1770次,主题数为9时的迭代次数为1230次,主题数为10时的迭代次数为2000次,主题数为15时的迭代次数为1320次,主题数为20时的迭代次数为2000次,主题数为25时的迭代次数为1800次,主题数为30时的迭代次数为1840次,主题数为35时的迭代次数为1160次,主题数为40时的迭代次数为1720次,主题数为45时的迭代次数为1590次,主题数为50时的迭代次数为2000次,主题数为55时的迭代次数为1190次,主题数为60时的迭代次数为1340次,主题数为65时的迭代次数为1890次,主题数为70时的迭代次数为1040次,主题数为75时的迭代次数为1710次。
从上述实验结果可以看出,采用自适应迭代Gibbs采样算法训练LDA主题模型后,在不同主题数下Gibbs采样的迭代次数基本上都小于设置的迭代上限次数,完全实现了适用于LDA主题模型的自适应迭代Gibbs采样,从而证明了本发明的有效性。
同样可以将生成的Cnew作为特征矩阵进行进一步处理。
Cnew作为特征矩阵蕴涵更加丰富的文本特征信息,用于后续文本处理时相比文档-主题分布矩阵θ会更有优势。
所述Step4中,LDA主题模型在自适应迭代的Gibbs采样停止后,生成的文档-主题分布θ和主题-词语分布中的主题特征参数已经收敛,可将文档-主题分布θ以及文档-主题分布θ和主题-词语分布生成的Cnew作为文本分类等文本处理下游任务的特征矩阵。
与现有技术相比,本发明具有以下特点:
1、通过实现适用于LDA主题模型的自适应迭代Gibbs采样算法,有效降低了LDA主题模型通过Gibbs采样算法进行训练时的时间,不需要人为的提前设定Gibbs采样的迭代次数,从而使LDA主题模型的训练变得更加方便。
2、提高了LDA主题模型提取文本数据主题特征的效率,使得LDA主题模型在完成进一步的文本处理任务时相比传统的主题模型更有优势。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (2)
2.根据权利要求1所述的适用于LDA主题模型的自适应迭代Gibbs采样方法,其特征在于所述Step3具体步骤为:
Step3.2:将词袋模型作为一个文本-词语分布,记为C;
将Gibbs采样迭代停止时的迭代数作为输入数据集经过LDA主题模型训练后主题参数收敛的标志。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111213584.7A CN113935321B (zh) | 2021-10-19 | 2021-10-19 | 一种适用于LDA主题模型的自适应迭代Gibbs采样方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111213584.7A CN113935321B (zh) | 2021-10-19 | 2021-10-19 | 一种适用于LDA主题模型的自适应迭代Gibbs采样方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113935321A true CN113935321A (zh) | 2022-01-14 |
CN113935321B CN113935321B (zh) | 2024-03-26 |
Family
ID=79280436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111213584.7A Active CN113935321B (zh) | 2021-10-19 | 2021-10-19 | 一种适用于LDA主题模型的自适应迭代Gibbs采样方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113935321B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120095952A1 (en) * | 2010-10-19 | 2012-04-19 | Xerox Corporation | Collapsed gibbs sampler for sparse topic models and discrete matrix factorization |
CN105740354A (zh) * | 2016-01-26 | 2016-07-06 | 中国人民解放军国防科学技术大学 | 自适应潜在狄利克雷模型选择的方法及装置 |
CN108920454A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种主题短语抽取方法 |
CN109933657A (zh) * | 2019-03-21 | 2019-06-25 | 中山大学 | 一种基于用户特征优化的主题挖掘情感分析方法 |
CN110134951A (zh) * | 2019-04-29 | 2019-08-16 | 淮阴工学院 | 一种分析文本数据潜在主题短语的方法及系统 |
CN111209402A (zh) * | 2020-01-13 | 2020-05-29 | 山东工商学院 | 一种融合迁移学习与主题模型的文本分类方法及系统 |
CN111832289A (zh) * | 2020-07-13 | 2020-10-27 | 重庆大学 | 一种基于聚类和高斯lda的服务发现方法 |
CN111898041A (zh) * | 2020-07-20 | 2020-11-06 | 电子科技大学 | 一种结合社交网络的圈层用户综合影响力评估及伪造判别方法 |
-
2021
- 2021-10-19 CN CN202111213584.7A patent/CN113935321B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120095952A1 (en) * | 2010-10-19 | 2012-04-19 | Xerox Corporation | Collapsed gibbs sampler for sparse topic models and discrete matrix factorization |
CN105740354A (zh) * | 2016-01-26 | 2016-07-06 | 中国人民解放军国防科学技术大学 | 自适应潜在狄利克雷模型选择的方法及装置 |
CN108920454A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种主题短语抽取方法 |
CN109933657A (zh) * | 2019-03-21 | 2019-06-25 | 中山大学 | 一种基于用户特征优化的主题挖掘情感分析方法 |
CN110134951A (zh) * | 2019-04-29 | 2019-08-16 | 淮阴工学院 | 一种分析文本数据潜在主题短语的方法及系统 |
CN111209402A (zh) * | 2020-01-13 | 2020-05-29 | 山东工商学院 | 一种融合迁移学习与主题模型的文本分类方法及系统 |
CN111832289A (zh) * | 2020-07-13 | 2020-10-27 | 重庆大学 | 一种基于聚类和高斯lda的服务发现方法 |
CN111898041A (zh) * | 2020-07-20 | 2020-11-06 | 电子科技大学 | 一种结合社交网络的圈层用户综合影响力评估及伪造判别方法 |
Non-Patent Citations (2)
Title |
---|
CHAN WANG等: "adaptive topic tracking based on dirichlet process mixture model", CCF INTERNATIONAL CONFERENCE ON NATURAL LANGUAGE PROCESSING AND CHINESE COMPUTING, 31 December 2012 (2012-12-31), pages 237 - 248 * |
孙红; 俞卫国: "改进LDA模型的短文本聚类方法", 软件导刊, vol. 20, no. 9, 15 September 2021 (2021-09-15), pages 1 - 6 * |
Also Published As
Publication number | Publication date |
---|---|
CN113935321B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388651B (zh) | 一种基于图核和卷积神经网络的文本分类方法 | |
CN109271521B (zh) | 一种文本分类方法及装置 | |
CN112070139B (zh) | 基于bert与改进lstm的文本分类方法 | |
CN113378940B (zh) | 神经网络训练方法、装置、计算机设备及存储介质 | |
CN106445915A (zh) | 一种新词发现方法及装置 | |
CN112052687B (zh) | 基于深度可分离卷积的语义特征处理方法、装置及介质 | |
CN112418320B (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
CN113378563B (zh) | 一种基于遗传变异和半监督的案件特征提取方法及装置 | |
CN111539444A (zh) | 一种修正式模式识别及统计建模的高斯混合模型方法 | |
CN113935321A (zh) | 一种适用于LDA主题模型的自适应迭代Gibbs采样方法 | |
CN114926322B (zh) | 图像生成方法、装置、电子设备和存储介质 | |
CN114241411B (zh) | 基于目标检测的计数模型处理方法、装置及计算机设备 | |
CN113139368B (zh) | 一种文本编辑方法及系统 | |
CN115148292A (zh) | 基于人工智能的dna模体预测方法、装置、设备及介质 | |
CN109902169B (zh) | 基于电影字幕信息提升电影推荐系统性能的方法 | |
CN111552963B (zh) | 一种基于结构熵序列的恶意软件分类方法 | |
CN111428510B (zh) | 一种基于口碑的p2p平台风险分析方法 | |
CN112328784B (zh) | 数据信息分类方法及装置 | |
CN114492174A (zh) | 一种全生命周期盾构掘进参数预测方法及装置 | |
CN110162629B (zh) | 一种基于多基模型框架的文本分类方法 | |
CN115700615A (zh) | 计算机实现的方法、设备和计算机程序产品 | |
CN115796266A (zh) | 一种邮件识别及模型训练方法、装置和设备 | |
CN115481285B (zh) | 跨模态的视频文本匹配方法、装置、电子设备及存储介质 | |
CN112256832B (zh) | 一种标签的提取方法、装置、设备及可读存储介质 | |
CN112084944B (zh) | 一种动态演化表情的识别方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |