CN111241846A - 一种主题挖掘模型中主题维度自适应确定方法 - Google Patents
一种主题挖掘模型中主题维度自适应确定方法 Download PDFInfo
- Publication number
- CN111241846A CN111241846A CN202010040487.1A CN202010040487A CN111241846A CN 111241846 A CN111241846 A CN 111241846A CN 202010040487 A CN202010040487 A CN 202010040487A CN 111241846 A CN111241846 A CN 111241846A
- Authority
- CN
- China
- Prior art keywords
- dimension
- topic
- theme
- value
- confusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及主题挖掘模型方法,特别是涉及一种主题挖掘模型中主题维度自适应确定的方法。该方法先获取文档,分词;然后基于潜在语义分析模型,进行主题信息挖掘;主题信息挖掘的具体步骤包括:预设参数,通过吉布斯采样更新参数,获取当前参数下待分析文档的主题分布信息;通过计算困惑度,判断主题信息获取的准确性,然后根据加速递增,缓步搜索,单步徘徊原则自适应确定主题维度,从而获得最准确的主题分布信息。本发明为解决采用主题挖掘模型进行文本主题信息挖掘过程中,对挖掘效果影响较大的主题维度目前主要靠经验确定的问题,本发明能够在较短时间内完成主题维度的确定,获得更快更好的主题信息挖掘效果。
Description
技术领域:
本发明涉及主题挖掘模型方法,特别是涉及一种主题挖掘模型中主题维度自适应确定的方法。
背景技术:
文本分析领域中主题信息挖掘技术受到国内外研究者的广泛关注,文本主题是指文本消息中所涉及到的话题,是对文本消息的高度抽象,是离散的,无序的数据。主题信息挖掘从最初基于用户、标题等显式特征的方法,发展到基于概率的方法,以及目前的基于潜在语意的方法,研究不断深入,现阶段文本主题挖掘技术已然己经成为自然语言处理(Natural Language Processing,NLP)领域最重要最受研究者关注的技术之一,被广泛应用于智能问答、电子商务、知识库构建、邮件方面。然而,由于自然语言本身的复杂性,如何从丰富的非结构化文本数据中提取出精简且有价值的关键主题信息仍然是目前研究的一个难点。
传统主题挖掘算法立足于文本的显式特征,如采用词空间上的相似性度量指标等,基于显式特征的主题挖掘算法中使用最为广泛的是TF-IDF算法(TermFrequency–Inverse Document Frequency,词频-逆向文件频率)以词语的出现次数和词频权重来计算其排名,并选取最靠前的几个词语作为关键字,即只考虑了主题字面上的相似性,因此无法找到与当前话题最相似的其他话题。因此,基于潜在语意的文本信息挖掘技术逐渐受到重视。
首个基于潜在语意分析的方法是LSA(latent semantic analysis),这是由DeerWester等人提出的,在此基础上,Hofman提出了PLSA(probabilistic latent semanticanalysis)方法。
目前,Blei等提出的LDA(Latent Dirichlet Allocation)模型是最重要的基于潜在语义的主题分析挖掘模型,基于该模型很多学者根据应用场景的不同做出不同改变。Griffiths使用LDA模型来分析《美国科学院院报》科技论文的摘要,挖掘出其中隐含的科学主题,并且进一步分析研究出其中"热主题"和"冷主题"随时间变化的演化情况,在LDA的基础上提出使用基于马尔科夫链的蒙特卡洛方法来近似逼近,后得到广泛使用。MichalRose-Zvi等提出作者主题模型(Author-Topic Model,ATM),从作者产生文档的角度来考虑文档的生成,并且提出一个名为CiteSeerX的系统,用以研究科学主题与科技论文作者之间的关系。后续有大量研究者提出对不同情境之下的主题模型,如动态主题模型,高阶主题模型,多通路主题模型,分布式主题模型。随后,以微博中短文本为实验,陈等提出基于情感分类的主题模型SC-LDA。在各类主题模型中,准确、快速、高效的抽取主题成为新的研究方向。
大量研究证实主题挖掘模型中主题抽取效果与潜在主题维度K值有直接关系,主题抽取的结果对K值非常敏感。基于此,国内外不少学者对LDA模型展开了相关研究,比较常用方法有以下三种:
(1)Blei等采用困惑度(Perplexity)作为评价LDA模型好坏的标准,通过选取困惑度最小的LDA模型参数确定最优的主题。但是无法自动适应确定主题维度,仍需要通过人为的不断实验来确定主题维度。
(2)将主题维度进行非参数化处理,典型代表是层次狄利克雷过程(HierarchicalDirichlet Processes,HDP)。HDP与LDA主题模型不同的是:HDP是一种非参数贝叶斯模型,能够从文档集中自动训练最合适的主题维度K。HDP通过狄利克雷过程的非参数特性解决了LDA中主题维度选择问题,实验证实HDP所选的最优主题维度与基于困惑度选取的最优主题维度一致。但这种方法需要为同一个集合分别建立一个HDP模型和一个LDA模型,且算法时间复杂性较高。
(3)Griffiths等提出应用贝叶斯模型确定最优主题维度的方法。该方法计算复杂度较高,且只能用来确定主题维度,无法刻画模型的泛化能力。
主题信息准确、高效的挖掘可应用在多种场景,包括检测热点话题、捕捉网络舆情、或进行有针对性的商业营销。主题维度在主题挖掘中有很重要的作用,准确的主题维度可以提升主题挖掘的准确率,目前在主题挖掘过程中主要通过经验值来确定主题维度。因此设计一种基于主题挖掘的主题维度自适应的方法具有非常重要的现实意义。
发明内容:
发明目的:
本发明涉及一种主题信息挖掘中主题维度的自适应确定方法,其目的是设计出一种可以针对不同内容和数量的文档,应用主题挖掘模型来进行主题挖掘,在挖掘过程中自动快速确定主题维度的方法。通过对不同文本文档进行实验,采用困惑度验证主题信息挖掘的准确性,最终实现准确挖掘主题信息、避免过多的计算、减少训练时间的目的。
技术方案:
一种主题挖掘模型中主题维度自适应确定方法,该方法包括:
(1)获取文档,分词;
(2)基于潜在语义分析模型,进行主题信息挖掘;
主题信息挖掘的具体步骤包括:
预设参数,通过吉布斯采样更新参数,获取当前参数下待分析文档的主题分布信息;通过计算困惑度,判断主题信息获取的准确性,然后根据加速递增、缓步搜索、单步徘徊原则自适应确定主题维度,从而获得最准确的主题分布信息。
进一步的,获取文档是利用爬虫软件得到多类文档,将文档切分成用一系列词来表示的文档;然后使用停用词表,对分词后的文档对照停用词表进行去停用词。
进一步的,潜在语义分析模型为LDA模型,具体步骤包括:
通过Dirichlet先验分布来获取主题Z和文档中语意W的概率分布;
对任意文档d,得出其主题分布θd;拟定主题维度K,对其中任意一维主题k,得出其词分布βk,然后获得文档d中的每个词Wd的主题分布的编号Zdn,以及在该主题下的其他的词的分布编号Wdn;其联合概率如公式(1)所示;
P(w,Z,θ,d,φ|α,β)=P(w|Z,φ)*P(Z|θd)*P(θd|α)*P(φk|β) (1)
其中α、β为狄利克雷分布的超参数,Z表示主题,其拟定主题维度为K,w表示单词,d表示文档,其维度为D,文档d的主题分布和主题k的词分布分别为θd和φk;
之后进行Gibbs采样,采用公式(2)确定对应文档的文档-主题及主题-词的具体分布:
其中,αk是计算第d个文档的主题k的条件分布的超参数;αs是计算第d个文档的主题从s到k的条件分布的超参数;βt是计算第k个主题的词t的条件分布的超参数;βf是计算第k个主题的词从f到v的条件分布的超参数。
进一步的,困惑度的具体步骤包括:
困惑度根据公式(3)计算;
其中分母是测试集中所有单词之和,即测试集的总长度;p(w)指的是测试集中每个单词出现的概率,计算公式如下p(w)=p(z|d)*p(w|z);p(z|d)表示的是一个文档中每个主题出现的概率,p(w|z)表示的是词典中的每一个单词在某个主题下出现的概率。
进一步的,关于自适应确定主题维度的具体步骤包括:
步骤一:加速递增;
首先设起始主题维度K1=1,根据公式(4)迭代更新主题维度值;
Kn+1=|e2×Kn|+1 (4)
其中Kn为当前主题维度值,Kn+1为下一次迭代主题维度值,当主题维度设置不恰当时,困惑度值高;
步骤二:计算并记录当前主题维度值Kn下困惑度和下一迭代主题维度值Kn+1下的困惑度,Kn+1主题维度下的困惑度小于当前值,迭代继续;Kn+1主题维度下的困惑度大于当前值,则计算Kn+2主题维度值下的困惑度;Kn+2主题维度值下的困惑度最小,迭代继续,否则选取前述过程中困惑度最小值对应的K值,进入下一步;
步骤三:缓步递减搜索;
以步骤二中确定的困惑度最小值对应的K值作为公式(5)的迭代起始值;
Kn+1=|e-1×Kn|+1 (5)
通过公式(5)递减主题维度值搜索范围,计算并记录当前主题维度值Kn下困惑度和下一迭代主题维度值Kn+1下的困惑度,当Kn+1主题维度下的困惑度小于当前值,迭代继续,否则选取缓步搜索递减过程中的最小困惑度对应的K值,进入下一步;
步骤四:缓步递增搜索;
以步骤二中确定的困惑度最小值对应的K值作为公式(6)的迭代起始值;
Kn+1=|e×Kn|+1 (6)
通过公式(6)递增主题维度值搜索范围,计算并记录当前主题维度值Kn下困惑度和下一迭代主题维度值Kn+1下的困惑度,当Kn+1主题维度下的困惑度小于当前值,迭代继续,否则选取缓步搜索递增过程中的最小困惑度对应的K'值,进入下一步;
步骤五:单步徘徊;
对比步骤三中最后选取的K值和步骤四中最后选取的K'值对应的困惑度,选取其中最小困惑度对应的K值作为公式(7)的迭代起始值;
Kn+1=Kn+1 (7)
当Kn+1主题维度下的困惑度小于当前值,迭代继续;Kn+1主题维度下的困惑度大于当前值,则计算Kn+2主题维度值下的困惑度;Kn+2主题维度值下的困惑度最小,迭代继续,否则选取步骤五过程中困惑度最小值对应的K值,作为公式(8)的迭代起始值;
Kn+1=Kn-1 (8)
当Kn+1主题维度下的困惑度小于当前值,迭代继续;当Kn+1主题维度下的困惑度大于当前值,则保存当前值作为最终确定的主题维度值;
步骤六:根据确定的主题维度进行主题挖掘,获得主题信息。
优点及效果:
本发明具有以下优点和有益效果:
本发明为解决采用主题挖掘模型进行文本主题信息挖掘过程中,对挖掘效果影响较大的主题维度目前主要靠经验确定的问题,提出了一种主题维度自适应确定方法,本发明提出“加速递增,缓步搜索,单步徘徊”的主题维度自适应策略,能够在较短时间内完成主题维度的确定,获得更快更好的主题信息挖掘效果。
附图说明:
图1文档A困惑度随主题维度变化曲线;
图2文档B困惑度随主题维度变化曲线;
图3文档C困惑度随主题维度变化曲线;
图4文档D困惑度随主题维度变化曲线;
图5文档E困惑度随主题维度变化曲线。
具体实施方式:
本发明提出了一种主题挖掘中主题维度自适应确定的方法,本发明的方法可以避免过多的计算,减少大量的训练时间,快速获得更高的主题挖掘准确性。该方法不仅可以应用于LDA主题模型,也可以有效应用于其他需要预先确定主题维度的主题挖掘模型,有较广泛的应用价值。
一种主题挖掘模型中主题维度自适应确定方法,该方法包括:
(1)获取文档,进行分词、去停用词。
关于获取文档。获取文档是利用爬虫软件得到多类文档,将文档切分成用一系列词来表示的文档;然后使用停用词表,对分词后的文档对照停用词表进行去停用词。
使用爬虫软件得到多类文档,包括:交通、教育、军事、体育、艺术、政治、经济、编程等,共49486篇文章。对文档进行分词,即将文档切分成用一系列词来表示的文档。然后使用停用词表,对分词后的文档对照停用词表进行去停用词。
(2)基于潜在语义分析模型,进行主题信息挖掘。
本发明是基于语义分析模型LDA进行的研究。
主题信息挖掘的具体步骤包括:
预设参数,通过吉布斯采样更新参数,获取当前参数下待分析文档的主题分布信息;通过计算困惑度,判断主题信息获取的准确性,然后根据加速递增,缓步搜索,单步徘徊原则自适应确定主题维度,从而获得困惑度最小值为最准确的主题分布信息。
关于主题信息挖掘的详细步骤包括:
一、潜在语义分析模型。
目前,Blei等提出的LDA(Latent Dirichlet Allocation)模型是最重要的基于潜在语义的主题分析挖掘模型。LDA是通过引入超参数,形成了一个“文档-主题-单词”三层的贝叶斯模型,然后通过运用概率方法对模型进行推导,来寻找文档的语义结构,挖掘文档的主题。LDA主题模型中文档主题的分布是多项分布,主题中词的分布也是多项分布,所以可以通过Dirichlet先验分布来获取主题Z和文档中语意W的概率分布。对任意文档d,得出其主题分布θd;拟定主题维度K,对其中任意一维主题k,得出其词分布βk,然后获得文档d中的每个词Wd的主题分布的编号Zdn,以及在该主题下的其他的词的分布编号Wdn,这样所有主题Z和文档中所有词语W的整体概率分布就被建立起来了。其联合概率如公式(1)所示。其中α、β为狄利克雷分布的超参数,Z表示主题,其维度为K,w表示单词,d表示文档,其维度为D,文档d的主题分布和主题k的词分布分别为θd和φk。
P(w,Z,θ,d,φ|α,β)=P(w|Z,φ)*P(Z|θd)*P(θd|α)*P(φk|β) (1)
之后进行Gibbs采样,采用公式(2)确定对应文档的文档-主题及主题-词的具体分布。
其中,αk是计算第d个文档的主题k的条件分布的超参数;αs是计算第d个文档的主题从s到k的条件分布的超参数;βt是计算第k个主题的词t的条件分布的超参数;βf是计算第k个主题的词从f到v的条件分布的超参数。
上述基于语义的主题挖掘过程中,超参数α、β和主题维度K为预设的参数。不同的文档主题维度不同,基于潜在语义分析进行主题挖掘处理的对象包括长文档和文档集,其主题维度变化极大,而主题维度值对最终的挖掘效果有重要影响,目前该参数一般采用经验值。
二、主题维度K自适应确定依据。
目前,衡量主题挖掘效果的主要指标之一是困惑度,困惑度越小,说明挖掘效果越好。
设定α、β为狄利克雷分布的超参数,起始主题维度K1为1,获取当前分布下的主题信息,计算困惑度。对任意文档d,对其进行分词,并获得其词向量表示得出其主题分布;由主题维度K,对其中任意一维主题k,得出其词分布,然后获得文档d中的每个词的主题分布的编号,以及在该主题下的其他的词的分布编号,这样所有主题Z和文档中所有词语W的整体概率分布就被建立起来了。之后迭代进行Gibbs采样,确定当前主题维度下对应文档的文档-主题及主题-词的具体分布,计算当前主题维度及分布下的困惑度。
困惑度可以理解为对于一篇文档d,所训练出来的模型对文档d属于哪个主题的不确定性,这个不确定程度就是困惑度。困惑度越低,说明聚类的效果越好,困惑度根据公式(3)计算。
其中分母是测试集中所有单词之和,即测试集的总长度。p(w)指的是测试集中每个单词出现的概率,计算公式如下p(w)=p(z|d)*p(w|z)。p(z|d)表示的是一个文档中每个主题出现的概率,p(w|z)表示的是词典中的每一个单词在某个主题下出现的概率。
为了更快更准确地自适应确定主题维度,设计下述方法,快速自适应确定主题维度,以挖掘效果评价指标——困惑度作为维度确定是否合理的判别依据。
三、“加速递增,缓步搜索,单步徘徊”的主题维度自适应确定方法。
在主题维度自适应确定过程中,通过“加速递增,缓步搜索,单步徘徊”的思路,设计了几组主题维度自适应迭代公式。
步骤一:加速递增;首先设起始主题维度K1=1,根据公式(4)迭代更新主题维度值。
Kn+1=|e2×Kn|+1 (4)
其中Kn为当前主题维度值,Kn+1为下一次迭代主题维度值,当主题维度设置不恰当时,困惑度值较高。
步骤二:计算并记录当前主题维度值Kn下困惑度和下一迭代主题维度值Kn+1下的困惑度,如果Kn+1维度下的困惑度小于当前值,迭代继续;如果Kn+1主题维度下的困惑度大于当前值,则计算Kn+2主题维度值下的困惑度;如果Kn+2主题维度值下的困惑度最小,迭代继续,否则选取前述过程中困惑度最小值对应的K值,进入下一步。
步骤三:缓步递减搜索;以步骤二中确定的困惑度最小值对应的K值作为公式(5)的迭代起始值。
Kn+1=|e-1×Kn|+1 (5)
通过公式(5)递减主题维度值搜索范围,计算并记录当前主题维度值Kn下困惑度和下一迭代主题维度值Kn+1下的困惑度,若Kn+1主题维度下的困惑度小于当前值,迭代继续,否则选取缓步搜索递减过程中的最小困惑度对应的K值,进入下一步。
步骤四:缓步递增搜索;以步骤二中确定的困惑度最小值对应的K值作为公式(6)的迭代起始值。
Kn+1=|e×Kn|+1 (6)
通过公式(6)递增主题维度值搜索范围,计算并记录当前主题维度值Kn下困惑度和下一迭代主题维度值Kn+1下的困惑度,若Kn+1主题维度下的困惑度小于当前值,迭代继续,否则选取缓步搜索递增过程中的最小困惑度对应的K'值,进入下一步;
步骤五:单步徘徊;对比步骤三中最后选取的K值和步骤四中最后选取的K'值对应的困惑度,选取其中最小困惑度对应的K值作为公式(7)的迭代起始值。
Kn+1=Kn+1 (7)
如果Kn+1主题维度下的困惑度小于当前值,迭代继续;如果Kn+1主题维度下的困惑度大于当前值,则计算Kn+2主题维度值下的困惑度;如果Kn+2主题维度值下的困惑度最小,迭代继续,否则选取步骤五过程中困惑度最小值对应的K值,作为公式(8)的迭代起始值;
Kn+1=Kn-1 (8)
如果Kn+1主题维度下的困惑度小于当前值,迭代继续,如果Kn+1维度下的困惑度大于当前值,则保存当前值作为最终确定的主题维度值。
步骤六:根据确定的主题维度进行主题挖掘,获得主题信息。
根据上述方案,即使主题维度需在较大范围内搜索,也能较快确定合适的主题维度。
下面通过具体的实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
如图1~图5所示,一种主题挖掘模型中主题维度自适应确定方法,步骤如下:
(1)获取文档,建立词集。使用爬虫软件得到不同内容类型文档,包括:交通、教育、军事、体育、艺术、政治、经济、编程等,共49486篇文章。对文档进行分词,分词后的词集大小为6597796个词。
(2)选取7类不同内容文献各1篇,构成长文本A,基于于潜在语义分析模型LDA进行主题信息挖掘。
1)设定狄利克雷分布的超参数α=5、β=0.01,起始主题维度K1为1,进行Gibbs采样,确定当前主题维度下对应文档的文档-主题及主题-词的具体分布,计算当前主题维度及分布下的困惑度。
2)根据上述“加速递增,缓步搜索,单步徘徊”原则自适应确定主题维度。迭代结果及对应的主题维度-困惑度变化如图1和表1所示。其中,主题维度运行顺序为:1、8、60、444、4、22、9、10、11。,选择最优的主题维度为9。
表1文本A主题维度确定过程
主题维度 | 困惑度 |
1 | 1403.36 |
8 | 684.97 |
60 | 832.41 |
444 | 1282.26 |
4 | 729.63 |
23 | 705.41 |
9 | 661.83 |
10 | 689.09 |
11 | 725.75 |
(3)选取长文本B,基于于潜在语义分析模型LDA进行主题信息挖掘。
1)设定狄利克雷分布的超参数α=5、β=0.01,起始主题维度K1为1,进行Gibbs采样,确定当前主题维度下对应文档的文档-主题及主题-词的具体分布,计算当前主题维度及分布下的困惑度。
2)根据上述“加速递增,缓步搜索,单步徘徊”原则自适应确定主题维度。迭代结果及对应的主题维度-困惑度变化如图2和表2所示。其中,主题维度运行顺序:1、8、60、444、4、23、64、24、25、22,选择最优的主题维度为23。
表2文本B主题维度确定过程
(4)选取不同内容文献70篇,构成长文本C,基于于潜在语义分析模型LDA进行主题信息挖掘。
1)设定狄利克雷分布的超参数α=5、β=0.01,起始主题维度K1为1,进行Gibbs采样,确定当前主题维度下对应文档的文档-主题及主题-词的具体分布,计算当前主题维度及分布下的困惑度。
2)根据上述“加速递增,缓步搜索,单步徘徊”原则自适应确定主题维度。迭代结果及对应的主题维度-困惑度变化如图3和表3所示。其中,主题维度顺序为:1、8、60、444、3282、23、9、164、24、25、26。最优主题维度为24。
表3文本C主题维度确定过程
主题维度 | 困惑度 |
1 | 3556.92 |
8 | 1589.12 |
60 | 1552.65 |
444 | 2869.92 |
3282 | 5235.26 |
23 | 1286.46 |
9 | 1565.73 |
164 | 1939.15 |
24 | 1234.94 |
25 | 1243.78 |
26 | 1267.43 |
(5)选取不同内容文献25篇,构成长文本D,基于于潜在语义分析模型LDA进行主题信息挖掘。
1)设定狄利克雷分布的超参数α=5、β=0.01,起始主题维度K1为1,进行Gibbs采样,确定当前主题维度下对应文档的文档-主题及主题-词的具体分布,计算当前主题维度及分布下的困惑度。
2)根据上述“加速递增,缓步搜索,单步徘徊”原则自适应确定主题维度。迭代结果及对应的主题维度-困惑度变化如图4和表4所示。其中,主题维度顺序为:1、8、60、444、4、23、64、24、25、26。最优主题维度为24。
表4文本D主题维度确定过程
主题维度 | 困惑度 |
1 | 2004.67 |
8 | 879.22 |
60 | 942.13 |
444 | 1725.29 |
4 | 972.58 |
23 | 789.59 |
64 | 960.90 |
24 | 771.07 |
25 | 780.94 |
26 | 797.22 |
(6)选取长文本E,基于于潜在语义分析模型LDA进行主题信息挖掘。
1)设定狄利克雷分布的超参数α=5、β=0.01,起始主题维度K1为1,进行Gibbs采样,确定当前主题维度下对应文档的文档-主题及主题-词的具体分布,计算当前主题维度及分布下的困惑度。
2)根据上述“加速递增,缓步搜索,单步徘徊”原则自适应确定主题维度。迭代结果及对应的主题维度-困惑度变化如图5和表5所示。其中,主题维度顺序为:1、8、60、444、4、23、9、10、7、6。最优主题维度为7。
表5文本E主题维度确定过程
主题维度 | 困惑度 |
1 | 573.27 |
8 | 371.16 |
60 | 470.14 |
444 | 655.35 |
4 | 424.56 |
23 | 408.65 |
9 | 378.10 |
10 | 392.23 |
7 | 363.72 |
6 | 398.56 |
可见,根据上述方案,即使主题维度需在较大范围内搜索,也能较快确定合适的主题维度。
本发明涉及一种主题挖掘模型中主题维度自适应确定方法,以网络上获取的不同内容文本为分析对象,通过分词及向量化表示,采用潜在语义分析模型LDA进行主题信息挖掘,通过“加速递增,缓步搜索,单步徘徊”原则迭代变化主题维度,并计算当前模型参数下的困惑度作为主题挖掘效果的客观评价标准,从而根据文档自身特点自适应确定最佳的主题维度,从而快速、准确地获得文档主题信息。可见,根据上述方案,即使主题维度需在较大范围内搜索,也能较快确定合适的主题维度。
Claims (5)
1.一种主题挖掘模型中主题维度自适应确定方法,其特征在于:该方法包括:
(1)获取文档,分词;
(2)基于潜在语义分析模型,进行主题信息挖掘;
主题信息挖掘的具体步骤包括:
预设参数,通过吉布斯采样更新参数,获取当前参数下待分析文档的主题分布信息;通过计算困惑度,判断主题信息获取的准确性,然后根据加速递增、缓步搜索、单步徘徊原则自适应确定主题维度,从而获得最准确的主题分布信息。
2.根据权利要求1所述的一种主题挖掘模型中主题维度自适应确定方法,其特征在于:获取文档是利用爬虫软件得到多类文档,将文档切分成用一系列词来表示的文档;然后使用停用词表,对分词后的文档对照停用词表进行去停用词。
3.根据权利要求1所述的一种主题挖掘模型中主题维度自适应确定方法,其特征在于:潜在语义分析模型为LDA模型,具体步骤包括:
通过Dirichlet先验分布来获取主题Z和文档中语意W的概率分布;
对任意文档d,得出其主题分布θd;拟定主题维度K,对其中任意一维主题k,得出其词分布βk,然后获得文档d中的每个词Wd的主题分布的编号Zdn,以及在该主题下的其他的词的分布编号Wdn;其联合概率如公式(1)所示;
P(w,Z,θ,d,φ|α,β)=P(w|Z,φ)*P(Z|θd)*P(θd|α)*P(φk|β) (1)
其中α、β为狄利克雷分布的超参数,Z表示主题,其拟定主题维度为K,w表示单词,d表示文档,其维度为D,文档d的主题分布和主题k的词分布分别为θd和φk;
之后进行Gibbs采样,采用公式(2)确定对应文档的文档-主题及主题-词的具体分布:
其中,αk是计算第d个文档的主题k的条件分布的超参数;αs是计算第d个文档的主题从s到k的条件分布的超参数;βt是计算第k个主题的词t的条件分布的超参数;βf是计算第k个主题的词从f到v的条件分布的超参数。
5.根据权利要求1所述的一种主题挖掘模型中主题维度自适应确定方法,其特征在于:关于自适应确定主题维度的具体步骤包括:
步骤一:加速递增;
首先设起始主题维度K1=1,根据公式(4)迭代更新主题维度值;
Kn+1=|e2×Kn|+1 (4)
其中Kn为当前主题维度值,Kn+1为下一次迭代主题维度值,当主题维度设置不恰当时,困惑度值高;
步骤二:计算并记录当前主题维度值Kn下困惑度和下一迭代主题维度值Kn+1下的困惑度,Kn+1主题维度下的困惑度小于当前值,迭代继续;Kn+1主题维度下的困惑度大于当前值,则计算Kn+2主题维度值下的困惑度;Kn+2主题维度值下的困惑度最小,迭代继续,否则选取前述过程中困惑度最小值对应的K值,进入下一步;
步骤三:缓步递减搜索;
以步骤二中确定的困惑度最小值对应的K值作为公式(5)的迭代起始值;
Kn+1=|e-1×Kn|+1 (5)
通过公式(5)递减主题维度值搜索范围,计算并记录当前主题维度值Kn下困惑度和下一迭代主题维度值Kn+1下的困惑度,当Kn+1主题维度下的困惑度小于当前值,迭代继续,否则选取缓步搜索递减过程中的最小困惑度对应的K值,进入下一步;
步骤四:缓步递增搜索;
以步骤二中确定的困惑度最小值对应的K值作为公式(6)的迭代起始值;
Kn+1=|e×Kn|+1 (6)
通过公式(6)递增主题维度值搜索范围,计算并记录当前主题维度值Kn下困惑度和下一迭代主题维度值Kn+1下的困惑度,当Kn+1主题维度下的困惑度小于当前值,迭代继续,否则选取缓步搜索递增过程中的最小困惑度对应的K'值,进入下一步;
步骤五:单步徘徊;
对比步骤三中最后选取的K值和步骤四中最后选取的K'值对应的困惑度,选取其中最小困惑度对应的K值作为公式(7)的迭代起始值;
Kn+1=Kn+1 (7)
当Kn+1主题维度下的困惑度小于当前值,迭代继续;Kn+1主题维度下的困惑度大于当前值,则计算Kn+2主题维度值下的困惑度;Kn+2主题维度值下的困惑度最小,迭代继续,否则选取步骤五过程中困惑度最小值对应的K值,作为公式(8)的迭代起始值;
Kn+1=Kn-1 (8)
当Kn+1主题维度下的困惑度小于当前值,迭代继续;当Kn+1主题维度下的困惑度大于当前值,则保存当前值作为最终确定的主题维度值;
步骤六:根据确定的主题维度进行主题挖掘,获得主题信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040487.1A CN111241846B (zh) | 2020-01-15 | 2020-01-15 | 一种主题挖掘模型中主题维度自适应确定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040487.1A CN111241846B (zh) | 2020-01-15 | 2020-01-15 | 一种主题挖掘模型中主题维度自适应确定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241846A true CN111241846A (zh) | 2020-06-05 |
CN111241846B CN111241846B (zh) | 2023-05-26 |
Family
ID=70876514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010040487.1A Active CN111241846B (zh) | 2020-01-15 | 2020-01-15 | 一种主题挖掘模型中主题维度自适应确定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241846B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520529A (zh) * | 2023-12-04 | 2024-02-06 | 四川三江数智科技有限公司 | 一种动力电池文本主题挖掘方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365978A (zh) * | 2013-07-01 | 2013-10-23 | 浙江大学 | 基于lda主题模型的中医药数据挖掘方法 |
CN106055604A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
WO2017035922A1 (zh) * | 2015-09-02 | 2017-03-09 | 杨鹏 | 一种基于改进lda模型的互联网话题在线挖掘方法 |
US20170097962A1 (en) * | 2014-06-20 | 2017-04-06 | Huawei Technologies Co., Ltd. | Topic mining method and apparatus |
CN107239509A (zh) * | 2017-05-15 | 2017-10-10 | 清华大学 | 面向短文本的单主题挖掘方法及系统 |
CN108009187A (zh) * | 2017-02-20 | 2018-05-08 | 南京航空航天大学 | 一种增强文本特征表示的短文本主题挖掘方法 |
CN109446320A (zh) * | 2018-09-29 | 2019-03-08 | 昆明理工大学 | 一种基于lda的生物医药技术主题挖掘方法 |
-
2020
- 2020-01-15 CN CN202010040487.1A patent/CN111241846B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365978A (zh) * | 2013-07-01 | 2013-10-23 | 浙江大学 | 基于lda主题模型的中医药数据挖掘方法 |
US20170097962A1 (en) * | 2014-06-20 | 2017-04-06 | Huawei Technologies Co., Ltd. | Topic mining method and apparatus |
WO2017035922A1 (zh) * | 2015-09-02 | 2017-03-09 | 杨鹏 | 一种基于改进lda模型的互联网话题在线挖掘方法 |
CN106055604A (zh) * | 2016-05-25 | 2016-10-26 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
CN108009187A (zh) * | 2017-02-20 | 2018-05-08 | 南京航空航天大学 | 一种增强文本特征表示的短文本主题挖掘方法 |
CN107239509A (zh) * | 2017-05-15 | 2017-10-10 | 清华大学 | 面向短文本的单主题挖掘方法及系统 |
CN109446320A (zh) * | 2018-09-29 | 2019-03-08 | 昆明理工大学 | 一种基于lda的生物医药技术主题挖掘方法 |
Non-Patent Citations (1)
Title |
---|
李敬;印鉴;刘少鹏;潘雅丽;: "基于话题标签的微博主题挖掘" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117520529A (zh) * | 2023-12-04 | 2024-02-06 | 四川三江数智科技有限公司 | 一种动力电池文本主题挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111241846B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abbas et al. | Multinomial Naive Bayes classification model for sentiment analysis | |
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN109858028B (zh) | 一种基于概率模型的短文本相似度计算方法 | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
Bergsma et al. | Using conceptual class attributes to characterize social media users | |
Pilz et al. | From names to entities using thematic context distance | |
Fatima et al. | Text Document categorization using support vector machine | |
Raut et al. | Survey on opinion mining and summarization of user reviews on web | |
Gudivada et al. | Information retrieval: concepts, models, and systems | |
Hidayat et al. | Automatic text summarization using latent Drichlet allocation (LDA) for document clustering | |
Aggarwal et al. | Wikipedia-based distributional semantics for entity relatedness | |
CN113962293A (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
CN114706972A (zh) | 一种基于多句压缩的无监督科技情报摘要自动生成方法 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
Adhitama et al. | Topic labeling towards news document collection based on Latent Dirichlet Allocation and ontology | |
Madsen et al. | Pruning the vocabulary for better context recognition | |
Zehtab-Salmasi et al. | FRAKE: fusional real-time automatic keyword extraction | |
CN111259156A (zh) | 一种面向时间序列的热点聚类方法 | |
CN113032573A (zh) | 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统 | |
Villegas et al. | Vector-based word representations for sentiment analysis: a comparative study | |
Zu et al. | Graph-based keyphrase extraction using word and document em beddings | |
CN112417082A (zh) | 一种科研成果数据消歧归档存储方法 | |
CN111241846A (zh) | 一种主题挖掘模型中主题维度自适应确定方法 | |
CN114298020A (zh) | 一种基于主题语义信息的关键词向量化方法及其应用 | |
Sharma et al. | Review of features and machine learning techniques for web searching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |