CN113344107B - 一种基于核主成分分析和lda的主题分析方法及系统 - Google Patents

一种基于核主成分分析和lda的主题分析方法及系统 Download PDF

Info

Publication number
CN113344107B
CN113344107B CN202110709322.3A CN202110709322A CN113344107B CN 113344107 B CN113344107 B CN 113344107B CN 202110709322 A CN202110709322 A CN 202110709322A CN 113344107 B CN113344107 B CN 113344107B
Authority
CN
China
Prior art keywords
topic
word
document
lda
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110709322.3A
Other languages
English (en)
Other versions
CN113344107A (zh
Inventor
李秀
许菁
王梦凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202110709322.3A priority Critical patent/CN113344107B/zh
Publication of CN113344107A publication Critical patent/CN113344107A/zh
Application granted granted Critical
Publication of CN113344107B publication Critical patent/CN113344107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于核主成分分析和LDA的主题分析方法及系统,其特征在于,包括以下内容:1)获取文献语料库,并对文献语料库中的各文章进行预处理;2)根据预处理后的文献语料库,建立KPCA‑LDA主题模型;3)采用建立的KPCA‑LDA主题模型,对文献语料库中的文章进行主题分析,确定文献语料库中文章的文本表示;4)采用吉布斯抽样算法,对KPCA‑LDA主题模型进行训练和参数估计,求解KPCA‑LDA主题模型的参数,生成若干个由词语表示的主题,本发明可以广泛应用于文本挖掘领域中。

Description

一种基于核主成分分析和LDA的主题分析方法及系统
技术领域
本发明是关于一种基于核主成分分析和LDA的主题分析方法及系统,属于文本挖掘领域。
背景技术
目前,从科学文献中挖掘研究主题及演化发展已形成了较为成熟的方法体系,主要的研究方法大致可以分为词频分析法、共词分析法、引文分析法和文本挖掘方法四 类。随着自然语言的飞速发展以及文本数据量的飞速增长,主题模型作为高效的文本 数据分析工具,逐渐成为文本挖掘领域的核心方式之一。研究人员通过对科学文献语料库的主题抽取,得到两个概率分布-主题-词多项式分布φ和文档-主题多项式分布θ, 并提出生成式概率主题模型,即LDA(隐含狄利克雷分布,Latent Dirichlet Allocation)主题模型。LDA模型弥补了传统文本挖掘模型不能很好地反映词汇间语 义关系的缺陷,因此,被大量应用于科学情报分析研究中。Griffiths等研究人员首 先将LDA模型用于提取美国国家科学院期刊文献的摘要分析,研究其主题及主题变化 趋势,并采用Gibbs抽样算法推断LDA模型。Fuchs等研究人员提出半监督方法从微 博中抽取主题,通过可视化分析方法探索文本语料中出现的主题,并提出利用交互迭代来精炼描述微博的全局主题。王曰芬等研究人员以中国知识流领域为研究对象,运 用LDA模型研究学科分类视角下的主题提取和分布状态,并分析不同主题下各学科知 识结构和研究热点。另外,LDA模型还大量应用于文本聚类、个性化推荐、生物医学、 计算机科学以及文献计量学等多个领域的科学文献主题挖掘,进行特定领域的研究发展热点和趋势分析。
为优化LDA模型的建模效果,提升LDA模型主题识别的精确性以及主体演化路径的完整性,学者从模型算法、模型属性和理论基础等多方面对LDA模型相继进行了改 进完善。Li等研究人员从模型算法方面出发,提出了一个基于模糊C-Means算法的微 博主题抽取方法,使用模糊集表示类团和主题,可以得到更加合理和集中的主题结果。 Liu等研究人员从模型属性切入,提出一种多属性LDA模型(MA-LDA),该主题分析模 型将微博的时间和标签属性合并到LDA模型中。王少鹏等研究人员在文档聚类分析的 理论基础上,运用LDA模型进行高校论坛网络舆情分析,并在文本隐含语义方面进行 了更为深入的分析。另外,针对文本数据对象的差异,一些学者也对传统LDA模型进 行了改进。Yan等研究人员为了解决词在文档层面共现的稀疏性问题,建立了BTM主 题模型来对短文本进行处理,从而实现对短语建模进行数据分析。钟庆虹等研究人员 通过LDA2Vec和ResNet V2模型优化了文本和图片的特征提取,解决了异构数据之间的语义鸿沟问题。杨玲等研究人员利用主成分分析PCA和主题模型结合的方法发现波 动位置及其主题,用PCA对特征矩阵降维,可以得到特征矩阵的主成分,从而使原本 分散在多个位置上的数量实现了统一集中。
随着LDA模型的不断改进优化,文本挖掘已经表现出良好的主题发现、趋势分析、主题演化等功能适应性。然而,目前的主题分析方法主要针对例如微博评论一类的短 文本,缺乏处理较长文本性能优良的算法;且现有的定量研究多利用发文量、引用率 等文献计量方法从单一学科领域、学科交叉领域等特定视角下进行文献梳理,缺乏全局视角的分析以及主题趋势演化研究。
发明内容
针对上述问题,本发明的目的是提供一种能够处理较长文本且具有全局视角的基于核主成分分析和LDA的主题分析方法及系统。
为实现上述目的,本发明采取以下技术方案:一种基于核主成分分析和LDA的主题分析方法,包括以下内容:
1)获取文献语料库,并对文献语料库中的各文章进行预处理;
2)根据预处理后的文献语料库,建立KPCA-LDA主题模型;
3)采用建立的KPCA-LDA主题模型,对文献语料库中的文章进行主题分析,确定 文献语料库中文章的文本表示;
4)采用吉布斯抽样算法,对KPCA-LDA主题模型进行训练和参数估计,求解 KPCA-LDA主题模型的参数,生成若干个由词语表示的主题。
进一步地,所述步骤2)的具体过程为:
2.1)提取预处理后的文献语料库D中各文章的词汇表wL=(w1,wj,…,wW),其中, W为词汇表长度;wj为词汇表wL中的第j个词语;
2.2)生成文献语料库D的文档-词语矩阵;
2.3)采用P阶多项式核函数,通过非线性映射,将生成的文档-词语矩阵从二维映射到高维希尔伯特空间,降维得到低维n行n列的主题-词语矩阵R,并将该主题- 词语矩阵R作为KPCA-LDA主题模型的输入文档。
进一步地,所述步骤2.2)的具体过程为:
2.2.1)设定文献语料库D中共有M篇文章D=(D1,D2…,DM)T,Di为文献语料库D 中的第i篇文章,且Di=[di1di2…diW],其中,dij为dij表示词语wj在Di的权重,表 示词汇表第j个词语wj在语料库中第i篇文章中出现的次数;
2.2.2)依次计算文章集的词汇表wL中的每一词语在每一文章中的权重,得到文献语料库D的文档-词语矩阵。
进一步地,所述步骤3)的具体过程为:
3.1)基于主题的定义,计算文章d中词语w的生成概率p(w|d):
Figure SMS_1
其中,z表示词语w出自的潜在主题;p(w|z=q)表示词语w出自潜在主题z的概率;p(z=j|d)表示潜在主题z出自文章d的概率;K表示主题数目;q表示主题;
3.2)根据KPCA-LDA主题模型建立过程中的参数设置,得到文章d中包含词语w的概率p(w|d):
Figure SMS_2
其中,
Figure SMS_3
为主题-词语的概率分布;/>
Figure SMS_4
为文档-主题的概率分布;
3.3)根据文章d中包含词语w的概率p(w|d),得到文章d生成的条件概率分布 p(d|α,β):
Figure SMS_5
其中,αi为文档i的主题分布超参数;αh为文档h的主题分布超参数;Nd为文章d的词语总数;θi为文档i-主题的概率分布;θh为文档h-主题的概率分布;βh,j为主题的 词语分布超参数;wj n为词语。
进一步地,所述步骤4)的具体过程为:
4.1)输入提取的词汇表、文献语料库D的文档-词语矩阵、文档的主题分布超参数α和主题的词语分布超参数β后,采用吉布斯抽样算法迭代计算,进行未知参数变量 的估计,求解并输出文档-主题矩阵θ和主题-词语矩阵
Figure SMS_6
其中,文档-词语矩阵θ为:
Figure SMS_7
其中,
Figure SMS_8
为主题zK的W文章D;
主题-词语矩阵
Figure SMS_9
为:
Figure SMS_10
其中,
Figure SMS_11
为词语wW的K主题Z;
4.2)生成K个由t个词语表示的主题。
进一步地,所述步骤4.2)中采用主题一致性确定最优的主题数目:
Figure SMS_12
Figure SMS_13
其中,D(x,y)计算包含单词x和y的文档的数量,D(x)计算包含单词x的文档的数量,表示保证分数返回实数的平滑因子;V为描述主题的一组单词;∈为一个平滑因子, 保证评分返回实数。Coherence(V)最大时单词V的数量即为最优的主题数目。
一种基于核主成分分析和LDA的主题分析系统,包括:
数据获取模块,用于获取文献语料库,并对文献语料库中的各文章进行预处理;
模型构建模块,用于根据预处理后的文献语料库,建立KPCA-LDA主题模型;
文本表示确定模块,用于采用建立的KPCA-LDA主题模型,对文献语料库中的文章进行主题分析,确定文献语料库中文章的文本表示;
主题生成模块,用于采用吉布斯抽样算法,对KPCA-LDA主题模型进行训练和参数估计,求解KPCA-LDA主题模型的参数,生成若干个由词语表示的主题。
进一步地,所述模型构建模块包括:
词汇表提取单元,用于提取预处理后的文献语料库中各文章的词汇表;
矩阵生成单元,用于生成文献语料库的文档-词语矩阵;
降维单元,用于采用P阶多项式核函数,通过非线性映射,将生成的文档-词语 矩阵从二维映射到高维希尔伯特空间,降维得到低维n行n列的主题-词语矩阵R,并 将该主题-词语矩阵R作为KPCA-LDA主题模型的输入文档。
一种处理器,包括计算机程序指令,其中,所述计算机程序指令被处理器执行时用于实现上述基于核主成分分析和LDA的主题分析方法对应的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时用于实现上述基于核主成分分析和LDA的 主题分析方法对应的步骤。
本发明由于采取以上技术方案,其具有以下优点:
1、在主题挖掘中,由于许多领域的文献具有宽泛、研究主题分散、文本较长的特点,因此得到的文档-词语矩阵维度较高且稀疏,不利于生成高质量的主题,本发明采 用核主成分分析选择合适的核函数从高维特征空间中提取文本向量的主成分,能够实现文本输入空间的降维和语义特征空间的抽取,降低文档-词语矩阵的维度,也从一定 程度上降低主题模型的空间复杂度,从而提高模型生成主题的质量。
2、本发明针对文献宽泛、研究主题分散和文本较长等特征的文献,采用主题一致性,确定最优主题数目,对于文献主题演化的分析更为全面准确,可以广泛应用于文 本挖掘领域中。
附图说明
图1是本发明一实施例提供的方法流程图;
图2是本发明一实施例提供的KPCA-LDA主题模型示意图;
图3是本发明一实施例提供的文献主题演化示意图;
图4是本发明一实施例提供的文献主题强度演化趋势图,其中,横坐标为年份, 纵坐标为文献主题强度。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施方式。虽然附图中显示了本发明的示例性实施方式,然而应当理解,可以以各种形式实现本发明而不应被这里阐述 的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本发明,并且 能够将本发明的范围完整的传达给本领域的技术人员。
应理解的是,文中使用的术语仅出于描述特定示例实施方式的目的,而无意于进行限制。除非上下文另外明确地指出,否则如文中使用的单数形式“一”、“一个” 以及“所述”也可以表示包括复数形式。术语“包括”、“包含”、“含有”以及“具 有”是包含性的,并且因此指明所陈述的特征、步骤、操作、元件和/或部件的存在, 但并不排除存在或者添加一个或多个其它特征、步骤、操作、元件、部件、和/或它们的组合。文中描述的方法步骤、过程、以及操作不解释为必须要求它们以所描述或说 明的特定顺序执行,除非明确指出执行顺序。还应当理解,可以使用另外或者替代的 步骤。
术语解释:
1、LDA:Latent Dirichlet Allocation,隐含狄利克雷分布;
2、BTM:Biterm Topic Model,双词语义增强主题模型;
3、LDA2Vec:LDA+word2vec,主题模型中的词嵌入;
4、ResNet V2:Residual Network V2残差网络二代;
5、PCA:Principal Component Analysis,主成分分析;
6、KPCA:Kernel Principal Component Analysis,核主成分分析;
7、Gibbs Sampling:吉布斯抽样。
本发明实施例提供的基于核主成分分析和LDA的主题分析方法及系统针对文献为长文本、宽泛、主题分散较多的特点,在KPCA-LDA主题模型中,KPCA是一种改进的 PCA,是一种基于核的非线性降维方法,利用非线性映射将原始空间中的数据映射到高 维希尔伯特空间,然后对高维空间中的映射数据进行主成分分析。
实施例1
如图1所示,本实施例提供一种基于核主成分分析和LDA的主题分析方法,包括 以下步骤:
1)获取文献语料库D,并对文献语料库D中的各文章进行预处理,包括删除标点 符号、删除英文字符、分词和去停用词等。
2)根据预处理后的文献语料库D,建立KPCA-LDA主题模型,具体为:
2.1)提取预处理后的文献语料库D中各文章的词汇表:
通过扫描文献语料库D,将文章中互斥的词语依次加入词汇表,得到文章集的词汇表wL=(w1,wj,…,wW),其中,W为词汇表长度;wj为词汇表wL中的第j个词语。
2.2)生成文献语料库D的文档-词语矩阵:
2.2.1)假设文献语料库D中共有M篇文章,即D=(D1,D2…,DM)T,Di为文献语料 库D中的第i篇文章,且Di=[di1 di2 … diW],其中,dij为词语wj在Di的权重,此处权 重采用词频(term frequency,TF)值,即dij表示词汇表第j个词语wj在语料库中第i篇 文章中出现的次数。
2.2.2)依次计算文章集的词汇表wL中的每一词语在每一文章中的权重,得到文献语料库D的文档-词语矩阵。
2.3)采用P阶多项式核函数,通过非线性映射,将生成的文档-词语矩阵从二维映射到高维希尔伯特空间(H空间),降维得到低维n行n列的对称矩阵R,即主题-词 语矩阵,并将该主题-词语矩阵作为KPCA-LDA主题模型的输入文档。
3)采用建立的KPCA-LDA主题模型,对文献语料库D中的文章进行主题分析,确 定文献语料库中文章的文本表示,具体为:
基于词共现矩阵的KPCA-LDA主题模型如图2所示,图1中各参数的说明如下表1 所示:
表1:参数说明表
Figure SMS_14
3.1)基于主题的定义,计算文章d中词语w的生成概率p(w|d)为:
Figure SMS_15
其中,z表示词语w出自的潜在主题;p(w|z=q)表示词语w出自潜在主题z的概率;p(z=j|d)表示潜在主题z出自文章d的概率;K表示主题数目;q表示主题。
3.2)根据KPCA-LDA主题模型建立过程中的参数设置,得到文章d中包含词语w的概率p(w|d)为:
Figure SMS_16
其中,
Figure SMS_17
为主题-词语的概率分布;/>
Figure SMS_18
为文档-主题的概率分布。
3.3)根据文章d中包含词语w的概率p(w|d),得到文章d生成的条件概率分布 p(d|α,β)为:
Figure SMS_19
其中,αi为文章I的主题分布超参数;αh为文章h的主题分布超参数;Nd为文章d的词语总数(d为LDA模型公式的通用字符,文章i为选取的第i篇文章的意思);θi为文 章i-主题的概率分布;θ为文章θ-主题的概率分布;βh,j为主题的词语分布超参数; wj n为词语。
即KPCA-LDA主题模型生成一篇文章的过程为:从概率模型θ中选择一个潜在主题z,在潜在主题z对应的概率模型
Figure SMS_20
中选择词语w,不断重复Nd次,直至生成一条包含 Nd词语的文章,KPCA-LDA主题模型最优的目标是使条件概率分布p(d|α,β)最大。
4)采用吉布斯抽样算法,对KPCA-LDA主题模型进行训练和参数估计,求解 KPCA-LDA主题模型的参数,生成K个由t个词语表示的主题,具体为:
4.1)输入提取的词汇表、文献语料库D的文档-词语矩阵和相关参数值(即文档的主题分布超参数α和主题的词语分布超参数β)后,采用吉布斯抽样算法迭代计算, 进行未知参数变量的估计,求解并输出文档-主题矩阵θ和主题-词语矩阵
Figure SMS_21
其中, 文档-主题矩阵θ为:
Figure SMS_22
其中,
Figure SMS_23
为主题zK的W文章D。
主题-词语矩阵
Figure SMS_24
为:
Figure SMS_25
其中,
Figure SMS_26
为词语wW的K主题Z。
4.2)选取使主题的可读性最好的t个词语表达主题,生成K个由t个词语表示的主题,具体为:
采用主题一致性(Topic Coherence)确定最优的主题数目,它具有更高的可解释性保证,UMass指标将分数定义为基于文档共现:
Figure SMS_27
Figure SMS_28
其中,D(x,y)计算包含单词x和y的文档的数量,D(x)计算包含单词x的文档的数量,表示保证分数返回实数的平滑因子;V为描述主题的一组单词;∈为一个平滑因子, 保证评分返回实数。Coherence(V)最大时单词V的数量即为最优的主题数目。
下面以高等教育研究领域文献主题分析与演化为具体实施例详细说明本发明的基于核主成分分析和LDA的主题分析方法:
1、主题分析
1)建立KPCA-LDA主题模型:
1.1)获取高等教育研究领域文献,收集文献摘要,构建文献语料库,对文献语料库中的各文章进行分词和去停用词等预处理,形成较为规范的文献语料库。
1.2)通过扫描规范的文献语料库,得到词汇表和文档-词语矩阵。
1.3)对文本-词语矩阵进行KPCA降维,得到低维的对称矩阵R,采用降维后的矩 阵表示文献语料。
2)采用建立的KPCA-LDA主题模型,对文献语料库中的各文章进行主题分析,确 定文献语料库中文章的文本表示,其中,模型的先验参数α和β根据已有文献的经验值 确定,主题数目K采用主题一致性确定。
3)采用吉布斯抽样算法,对KPCA-LDA主题模型进行训练和参数估计,求解 KPCA-LDA主题模型的参数,得到文档-主题分布矩阵和主题-词语分布矩阵,确定最 优的KPCA-LDA主题模型。
2、主题演化:
1)研究框架
采用建立的KPCA-LDA模型对文本集合进行主题演化研究,如图3所示。在主题 演化中首先进行主题提取,然后从以下两个方面开展研究:①主题强度的演化,通过 不同时间窗口内文本集合的文档-主题分布解释;②主题内容的演化,通过不同时间 窗口内主题分布的相似度和相似主题下主题-词汇的分布度量。
2)基于KPCA-LDA主题模型的主题演化研究
从以下方面进行KPCA-LDA主题模型的演化研究:①运用主题一致性确定最优主题数;②使用编辑距离法将主题对齐。在此基础上,先按照年份进行文本聚类,再分别 采用公式进行主题强度和相似度计算,分析主题强度演化以及内容的演化,具体为:
2.1)最优主题数确定方面
采用主题一致性(Topic Coherence)确定主题演化研究中的最优主题数目。
2.2)主题对齐方面
采用编辑距离(Edit Distance)将主题对齐:
Levenshtein.distance(str1,str2) (8)
其中,str1为初始字符;str2为要转换的字符。
在主题强度演化的过程中,假设文档d中主题z所占的比例为时间窗口t上的文本集 合,则时间窗口t上主题z的强度
Figure SMS_29
为:
Figure SMS_30
其中,Dt为时间窗口t下的文献语料库;
Figure SMS_31
为主题z文档d下的文档-主题矩阵。
计算出不同时间窗口t内主题z的强度,并按照时间顺序作出其强度变化图,用于研究分析主题强度演化的趋势。
3、结果分析
采用建立的KPCA-LDA主题模型对全部的文本集合进行训练,并计算得出文本集合中文档-主题概率分布,将文本集合离散到2014—2018年的5个时间窗口,分别计算 5个时间窗口内的主题强度,本实施例选取其中较靠前的10个热点主题,并列出热点 主题下的关键词,得到的主题识别结果如下表2所示:
表2:文献主题及其关键词
Figure SMS_32
Figure SMS_33
从表2可以看出,主题11是关于国际化教育的,主题25是关于沿边国际化教育 的,主题38是关于留学和中外合作办学的,通过主题在不同时间窗口文本集合上的概 率分布,可以得出主题强度的演化趋势,如图4所示。
在主题内容演化中,下表3给出了各个时间窗口中高等教育相关主题及其关键词:
表3:各个时间窗口主题及其关键词
Figure SMS_34
综上所述,与实际情况相比,所识别的主题质量及其演化趋势相似,因此可以得出本发明的方法在跟踪特定领域的研究发展趋势和研究热点方面具有较好的应用效果。
实施例2
本实施例提供一种基于核主成分分析和LDA的主题分析系统,包括:
数据获取模块,用于获取文献语料库,并对文献语料库中的各文章进行预处理。
模型构建模块,用于根据预处理后的文献语料库,建立KPCA-LDA主题模型。
文本表示确定模块,用于采用建立的KPCA-LDA主题模型,对文献语料库中的文章进行主题分析,确定文献语料库中文章的文本表示。
主题生成模块,用于采用吉布斯抽样算法,对KPCA-LDA主题模型进行训练和参数估计,求解KPCA-LDA主题模型的参数,生成若干个由词语表示的主题。
在一个优选的实施例中,模型构建模块包括:
词汇表提取单元,用于提取预处理后的文献语料库中各文章的词汇表;
矩阵生成单元,用于生成文献语料库的文档-词语矩阵;
降维单元,用于采用P阶多项式核函数,通过非线性映射,将生成的文档-词语 矩阵从二维映射到高维希尔伯特空间,降维得到低维n行n列的主题-词语矩阵R,并 将该主题-词语矩阵R作为KPCA-LDA主题模型的输入文档。
实施例3
本实施例提供一种与本实施例1所提供的基于核主成分分析和LDA的主题分析方法对应的处理设备,处理设备可以是用于客户端的处理设备,例如手机、笔记本电脑、 平板电脑、台式机电脑等,以执行实施例1的方法。
所述处理设备包括处理器、存储器、通信接口和总线,处理器、存储器和通信接 口通过总线连接,以完成相互间的通信。存储器中存储有可在处理器上运行的计算机 程序,处理器运行计算机程序时执行本实施例1所提供的基于核主成分分析和LDA的 主题分析方法。
在一些实现中,存储器可以是高速随机存取存储器(RAM:Random AccessMemory), 也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
在另一些实现中,处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各 种类型通用处理器,在此不做限定。
实施例4
本实施例1的基于核主成分分析和LDA的主题分析方法可被具体实现为一种计算机程序产品,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本实 施例1所述的基于核主成分分析和LDA的主题分析方法的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电 磁存储设备、半导体存储设备或者上述的任意组合。
上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应 排除在本发明的保护范围之外。

Claims (6)

1.一种基于核主成分分析和LDA的主题分析方法,其特征在于,包括以下内容:
1)获取文献语料库,并对文献语料库中的各文章进行预处理;
2)根据预处理后的文献语料库,建立KPCA-LDA主题模型,具体过程为:
2.1)提取预处理后的文献语料库D中各文章的词汇表wL=(w1,wj,…,wW),其中,W为词汇表长度;wj为词汇表wL中的第j个词语;
2.2)生成文献语料库D的文档-词语矩阵,具体过程为:
2.2.1)设定文献语料库D中共有M篇文章D=(D1,D2…,DM)T,Di为文献语料库D中的第i篇文章,且Di=[di1 di2 … diW],其中,dij为dij表示词语wj在Di的权重,表示词汇表第j个词语wj在语料库中第i篇文章中出现的次数;
2.2.2)依次计算文章集的词汇表wL中的每一词语在每一文章中的权重,得到文献语料库D的文档-词语矩阵;
2.3)采用P阶多项式核函数,通过非线性映射,将生成的文档-词语矩阵从二维映射到高维希尔伯特空间,降维得到低维n行n列的主题-词语矩阵R,并将该主题-词语矩阵R作为KPCA-LDA主题模型的输入文档;
3)采用建立的KPCA-LDA主题模型,对文献语料库中的文章进行主题分析,确定文献语料库中文章的文本表示,具体过程为:
3.1)基于主题的定义,计算文章d中词语w的生成概率p(w|d):
Figure FDA0004271785160000011
其中,z表示词语w出自的潜在主题;p(w|z=q)表示词语w出自潜在主题z的概率;p(z=j|d)表示潜在主题z出自文章d的概率;K表示主题数目;q表示主题;
3.2)根据KPCA-LDA主题模型建立过程中的参数设置,得到文章d中包含词语w的概率p(w|d):
Figure FDA0004271785160000012
其中,
Figure FDA0004271785160000013
为主题-词语的概率分布;/>
Figure FDA0004271785160000014
为文档-主题的概率分布;
3.3)根据文章d中包含词语w的概率p(w|d),得到文章d生成的条件概率分布p(d|α,β):
Figure FDA0004271785160000015
其中,αi为文档i的主题分布超参数;αh为文档h的主题分布超参数;Nd为文章d的词语总数;θi为文档i-主题的概率分布;θh为文档h-主题的概率分布;βh,j为主题的词语分布超参数;wj n为词语;
4)采用吉布斯抽样算法,对KPCA-LDA主题模型进行训练和参数估计,求解KPCA-LDA主题模型的参数,生成若干个由词语表示的主题。
2.如权利要求1所述的一种基于核主成分分析和LDA的主题分析方法,其特征在于,所述步骤4)的具体过程为:
4.1)输入提取的词汇表、文献语料库D的文档-词语矩阵、文档的主题分布超参数α和主题的词语分布超参数β后,采用吉布斯抽样算法迭代计算,进行未知参数变量的估计,求解并输出文档-主题矩阵θ和主题-词语矩阵
Figure FDA0004271785160000021
其中,文档-词语矩阵θ为:
Figure FDA0004271785160000022
其中,
Figure FDA0004271785160000023
为主题zK的W文章D;
主题-词语矩阵
Figure FDA0004271785160000024
为:
Figure FDA0004271785160000025
其中,
Figure FDA0004271785160000026
为词语wW的K主题Z;
4.2)生成K个由t个词语表示的主题。
3.如权利要求2所述的一种基于核主成分分析和LDA的主题分析方法,其特征在于,所述步骤4.2)中采用主题一致性确定最优的主题数目:
Figure FDA0004271785160000027
Figure FDA0004271785160000028
其中,D(x,y)计算包含单词x和y的文档的数量,D(x)计算包含单词x的文档的数量,表示保证分数返回实数的平滑因子;V为描述主题的一组单词;∈为一个平滑因子,保证评分返回实数;Coherence(V)最大时单词V的数量即为最优的主题数目。
4.一种基于核主成分分析和LDA的主题分析系统,其特征在于,包括:
数据获取模块,用于获取文献语料库,并对文献语料库中的各文章进行预处理;
模型构建模块,用于根据预处理后的文献语料库,建立KPCA-LDA主题模型,所述模型构建模块包括:
词汇表提取单元,用于提取预处理后的文献语料库中各文章的词汇表;
矩阵生成单元,用于生成文献语料库的文档-词语矩阵;
降维单元,用于采用P阶多项式核函数,通过非线性映射,将生成的文档-词语矩阵从二维映射到高维希尔伯特空间,降维得到低维n行n列的主题-词语矩阵R,并将该主题-词语矩阵R作为KPCA-LDA主题模型的输入文档;
文本表示确定模块,用于采用建立的KPCA-LDA主题模型,对文献语料库中的文章进行主题分析,确定文献语料库中文章的文本表示,具体过程为:
基于主题的定义,计算文章d中词语w的生成概率p(w|d):
Figure FDA0004271785160000031
其中,z表示词语w出自的潜在主题;p(w|z=q)表示词语w出自潜在主题z的概率;p(z=j|d)表示潜在主题z出自文章d的概率;K表示主题数目;q表示主题;
根据KPCA-LDA主题模型建立过程中的参数设置,得到文章d中包含词语w的概率p(w|d):
Figure FDA0004271785160000032
其中,
Figure FDA0004271785160000033
为主题-词语的概率分布;/>
Figure FDA0004271785160000034
为文档-主题的概率分布;
根据文章d中包含词语w的概率p(w|d),得到文章d生成的条件概率分布p(d|α,β):
Figure FDA0004271785160000035
其中,αi为文档i的主题分布超参数;αh为文档h的主题分布超参数;Nd为文章d的词语总数;θi为文档i-主题的概率分布;θh为文档h-主题的概率分布;βh,j为主题的词语分布超参数;wj n为词语;
主题生成模块,用于采用吉布斯抽样算法,对KPCA-LDA主题模型进行训练和参数估计,求解KPCA-LDA主题模型的参数,生成若干个由词语表示的主题。
5.一种处理器,其特征在于,包括计算机程序指令,其中,所述计算机程序指令被处理器执行时用于实现权利要求1-3中任一项所述的基于核主成分分析和LDA的主题分析方法对应的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时用于实现权利要求1-3中任一项所述的基于核主成分分析和LDA的主题分析方法对应的步骤。
CN202110709322.3A 2021-06-25 2021-06-25 一种基于核主成分分析和lda的主题分析方法及系统 Active CN113344107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110709322.3A CN113344107B (zh) 2021-06-25 2021-06-25 一种基于核主成分分析和lda的主题分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110709322.3A CN113344107B (zh) 2021-06-25 2021-06-25 一种基于核主成分分析和lda的主题分析方法及系统

Publications (2)

Publication Number Publication Date
CN113344107A CN113344107A (zh) 2021-09-03
CN113344107B true CN113344107B (zh) 2023-07-11

Family

ID=77478609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110709322.3A Active CN113344107B (zh) 2021-06-25 2021-06-25 一种基于核主成分分析和lda的主题分析方法及系统

Country Status (1)

Country Link
CN (1) CN113344107B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112810A (zh) * 2023-07-12 2023-11-24 南京理工大学紫金学院 一种基于lda迭代检索文献数据集的全检索方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629275A (zh) * 2012-03-21 2012-08-08 复旦大学 面向跨媒体新闻检索的人脸-人名对齐方法及系统
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN107203958A (zh) * 2017-05-25 2017-09-26 段云涛 一种基于多特征联合的隐写图像分析方法
CN108519971A (zh) * 2018-03-23 2018-09-11 中国传媒大学 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN109063030A (zh) * 2018-07-16 2018-12-21 南京信息工程大学 一种基于流式lda主题模型发现文档隐含主题和主题词的方法
CN109325092A (zh) * 2018-11-27 2019-02-12 中山大学 融合短语信息的非参数并行化层次狄利克雷过程主题模型系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510257B2 (en) * 2010-10-19 2013-08-13 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629275A (zh) * 2012-03-21 2012-08-08 复旦大学 面向跨媒体新闻检索的人脸-人名对齐方法及系统
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN107203958A (zh) * 2017-05-25 2017-09-26 段云涛 一种基于多特征联合的隐写图像分析方法
CN108519971A (zh) * 2018-03-23 2018-09-11 中国传媒大学 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN109063030A (zh) * 2018-07-16 2018-12-21 南京信息工程大学 一种基于流式lda主题模型发现文档隐含主题和主题词的方法
CN109325092A (zh) * 2018-11-27 2019-02-12 中山大学 融合短语信息的非参数并行化层次狄利克雷过程主题模型系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Effect of thermal oxidation on detection of adulteration at low concentrations in extra virgin olive oil: Study based on laser-induced fluorescence spectroscopy combined with KPCA–LDA";Yi Li.etc;《Food Chemistry》;全文 *

Also Published As

Publication number Publication date
CN113344107A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN110442872B (zh) 一种文本要素完整性审核方法及装置
CN111259153B (zh) 一种完全注意力机制的属性级情感分析方法
Wahid et al. Topic2Labels: A framework to annotate and classify the social media data through LDA topics and deep learning models for crisis response
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN114647741A (zh) 工艺自动决策和推理方法、装置、计算机设备及存储介质
CN113051932A (zh) 语义和知识扩展主题模型的网络媒体事件的类别检测方法
CN115238029A (zh) 一种电力故障知识图谱的构建方法和装置
CN113344107B (zh) 一种基于核主成分分析和lda的主题分析方法及系统
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN116775812A (zh) 一种基于自然语音处理的中医药专利分析与挖掘工具
CN104679784A (zh) 一种o2b智能搜索方法及系统
CN111950646A (zh) 电磁图像的层次化知识模型构建方法及目标识别方法
US20170337484A1 (en) Scalable web data extraction
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
Pogorilyy et al. Assessment of Text Coherence by Constructing the Graph of Semantic, Lexical, and Grammatical Consistancy of Phrases of Sentences
He [Retracted] An Intelligent Diagnosis System for English Writing Based on Data Feature Extraction and Fusion
Jiang et al. A discourse coherence analysis method combining sentence embedding and dimension grid
Ong et al. A Comparative Study of Extractive Summary Algorithms Using Natural Language Processing
CN112989827A (zh) 一种基于多源异构特征的文本数据集质量评估方法
Wang et al. A semantic path based approach to match subgraphs from large financial knowledge graph
Dai et al. A novel attention-based BiLSTM-CNN model in valence-arousal space
Liu et al. Practical Skills of Business English Correspondence Writing Based on Data Mining Algorithm
Chen et al. [Retracted] The Application of Unsupervised Learning TF‐IDF Algorithm in Word Segmentation of Ideological and Political Education
Jiang et al. Python-Based Visual Classification Algorithm for Economic Text Big Data
Peng et al. Learning long-text semantic similarity with multi-granularity semantic embedding based on knowledge enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant