CN113344107B

CN113344107B - 一种基于核主成分分析和lda的主题分析方法及系统

Info

Publication number: CN113344107B
Application number: CN202110709322.3A
Authority: CN
Inventors: 李秀; 许菁; 王梦凯
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2023-07-11
Anticipated expiration: 2041-06-25
Also published as: CN113344107A

Abstract

本发明涉及一种基于核主成分分析和LDA的主题分析方法及系统，其特征在于，包括以下内容：1)获取文献语料库，并对文献语料库中的各文章进行预处理；2)根据预处理后的文献语料库，建立KPCA‑LDA主题模型；3)采用建立的KPCA‑LDA主题模型，对文献语料库中的文章进行主题分析，确定文献语料库中文章的文本表示；4)采用吉布斯抽样算法，对KPCA‑LDA主题模型进行训练和参数估计，求解KPCA‑LDA主题模型的参数，生成若干个由词语表示的主题，本发明可以广泛应用于文本挖掘领域中。

Description

一种基于核主成分分析和LDA的主题分析方法及系统

技术领域

本发明是关于一种基于核主成分分析和LDA的主题分析方法及系统，属于文本挖掘领域。

背景技术

目前，从科学文献中挖掘研究主题及演化发展已形成了较为成熟的方法体系，主要的研究方法大致可以分为词频分析法、共词分析法、引文分析法和文本挖掘方法四类。随着自然语言的飞速发展以及文本数据量的飞速增长，主题模型作为高效的文本数据分析工具，逐渐成为文本挖掘领域的核心方式之一。研究人员通过对科学文献语料库的主题抽取，得到两个概率分布-主题-词多项式分布φ和文档-主题多项式分布θ，并提出生成式概率主题模型，即LDA(隐含狄利克雷分布，Latent Dirichlet Allocation)主题模型。LDA模型弥补了传统文本挖掘模型不能很好地反映词汇间语义关系的缺陷，因此，被大量应用于科学情报分析研究中。Griffiths等研究人员首先将LDA模型用于提取美国国家科学院期刊文献的摘要分析，研究其主题及主题变化趋势，并采用Gibbs抽样算法推断LDA模型。Fuchs等研究人员提出半监督方法从微博中抽取主题，通过可视化分析方法探索文本语料中出现的主题，并提出利用交互迭代来精炼描述微博的全局主题。王曰芬等研究人员以中国知识流领域为研究对象，运用LDA模型研究学科分类视角下的主题提取和分布状态，并分析不同主题下各学科知识结构和研究热点。另外，LDA模型还大量应用于文本聚类、个性化推荐、生物医学、计算机科学以及文献计量学等多个领域的科学文献主题挖掘，进行特定领域的研究发展热点和趋势分析。

为优化LDA模型的建模效果，提升LDA模型主题识别的精确性以及主体演化路径的完整性，学者从模型算法、模型属性和理论基础等多方面对LDA模型相继进行了改进完善。Li等研究人员从模型算法方面出发，提出了一个基于模糊C-Means算法的微博主题抽取方法，使用模糊集表示类团和主题，可以得到更加合理和集中的主题结果。 Liu等研究人员从模型属性切入，提出一种多属性LDA模型(MA-LDA)，该主题分析模型将微博的时间和标签属性合并到LDA模型中。王少鹏等研究人员在文档聚类分析的理论基础上，运用LDA模型进行高校论坛网络舆情分析，并在文本隐含语义方面进行了更为深入的分析。另外，针对文本数据对象的差异，一些学者也对传统LDA模型进行了改进。Yan等研究人员为了解决词在文档层面共现的稀疏性问题，建立了BTM主题模型来对短文本进行处理，从而实现对短语建模进行数据分析。钟庆虹等研究人员通过LDA2Vec和ResNet V2模型优化了文本和图片的特征提取，解决了异构数据之间的语义鸿沟问题。杨玲等研究人员利用主成分分析PCA和主题模型结合的方法发现波动位置及其主题，用PCA对特征矩阵降维，可以得到特征矩阵的主成分，从而使原本分散在多个位置上的数量实现了统一集中。

随着LDA模型的不断改进优化，文本挖掘已经表现出良好的主题发现、趋势分析、主题演化等功能适应性。然而，目前的主题分析方法主要针对例如微博评论一类的短文本，缺乏处理较长文本性能优良的算法；且现有的定量研究多利用发文量、引用率等文献计量方法从单一学科领域、学科交叉领域等特定视角下进行文献梳理，缺乏全局视角的分析以及主题趋势演化研究。

发明内容

针对上述问题，本发明的目的是提供一种能够处理较长文本且具有全局视角的基于核主成分分析和LDA的主题分析方法及系统。

为实现上述目的，本发明采取以下技术方案：一种基于核主成分分析和LDA的主题分析方法，包括以下内容：

1)获取文献语料库，并对文献语料库中的各文章进行预处理；

2)根据预处理后的文献语料库，建立KPCA-LDA主题模型；

3)采用建立的KPCA-LDA主题模型，对文献语料库中的文章进行主题分析，确定文献语料库中文章的文本表示；

4)采用吉布斯抽样算法，对KPCA-LDA主题模型进行训练和参数估计，求解 KPCA-LDA主题模型的参数，生成若干个由词语表示的主题。

进一步地，所述步骤2)的具体过程为：

2.1)提取预处理后的文献语料库D中各文章的词汇表w_L＝(w₁,w_j,…,w_W)，其中， W为词汇表长度；w_j为词汇表w_L中的第j个词语；

2.2)生成文献语料库D的文档－词语矩阵；

2.3)采用P阶多项式核函数，通过非线性映射，将生成的文档－词语矩阵从二维映射到高维希尔伯特空间，降维得到低维n行n列的主题－词语矩阵R，并将该主题－词语矩阵R作为KPCA-LDA主题模型的输入文档。

进一步地，所述步骤2.2)的具体过程为：

2.2.1)设定文献语料库D中共有M篇文章D＝(D₁,D₂…,D_M)^T，D_i为文献语料库D 中的第i篇文章，且D_i＝[d_i1d_i2…d_iW]，其中，d_ij为d_ij表示词语w_j在D_i的权重，表示词汇表第j个词语w_j在语料库中第i篇文章中出现的次数；

2.2.2)依次计算文章集的词汇表w_L中的每一词语在每一文章中的权重，得到文献语料库D的文档－词语矩阵。

进一步地，所述步骤3)的具体过程为：

3.1)基于主题的定义，计算文章d中词语w的生成概率p(w|d)：

其中，z表示词语w出自的潜在主题；p(w|z＝q)表示词语w出自潜在主题z的概率；p(z＝j|d)表示潜在主题z出自文章d的概率；K表示主题数目；q表示主题；

3.2)根据KPCA-LDA主题模型建立过程中的参数设置，得到文章d中包含词语w的概率p(w|d)：

其中，

为主题－词语的概率分布；/>

为文档－主题的概率分布；

3.3)根据文章d中包含词语w的概率p(w|d)，得到文章d生成的条件概率分布 p(d|α,β)：

其中，α_i为文档i的主题分布超参数；α_h为文档h的主题分布超参数；N_d为文章d的词语总数；θ_i为文档i－主题的概率分布；θ_h为文档h－主题的概率分布；β_h,j为主题的词语分布超参数；w^j _n为词语。

进一步地，所述步骤4)的具体过程为：

4.1)输入提取的词汇表、文献语料库D的文档－词语矩阵、文档的主题分布超参数α和主题的词语分布超参数β后，采用吉布斯抽样算法迭代计算，进行未知参数变量的估计，求解并输出文档－主题矩阵θ和主题－词语矩阵

其中，文档－词语矩阵θ为：

其中，

为主题z_K的W文章D；

主题－词语矩阵

为：

其中，

为词语w_W的K主题Z；

4.2)生成K个由t个词语表示的主题。

进一步地，所述步骤4.2)中采用主题一致性确定最优的主题数目：

其中，D(x,y)计算包含单词x和y的文档的数量，D(x)计算包含单词x的文档的数量，表示保证分数返回实数的平滑因子；V为描述主题的一组单词；∈为一个平滑因子，保证评分返回实数。Coherence(V)最大时单词V的数量即为最优的主题数目。

一种基于核主成分分析和LDA的主题分析系统，包括：

数据获取模块，用于获取文献语料库，并对文献语料库中的各文章进行预处理；

模型构建模块，用于根据预处理后的文献语料库，建立KPCA-LDA主题模型；

文本表示确定模块，用于采用建立的KPCA-LDA主题模型，对文献语料库中的文章进行主题分析，确定文献语料库中文章的文本表示；

主题生成模块，用于采用吉布斯抽样算法，对KPCA-LDA主题模型进行训练和参数估计，求解KPCA-LDA主题模型的参数，生成若干个由词语表示的主题。

进一步地，所述模型构建模块包括：

词汇表提取单元，用于提取预处理后的文献语料库中各文章的词汇表；

矩阵生成单元，用于生成文献语料库的文档－词语矩阵；

降维单元，用于采用P阶多项式核函数，通过非线性映射，将生成的文档－词语矩阵从二维映射到高维希尔伯特空间，降维得到低维n行n列的主题－词语矩阵R，并将该主题－词语矩阵R作为KPCA-LDA主题模型的输入文档。

一种处理器，包括计算机程序指令，其中，所述计算机程序指令被处理器执行时用于实现上述基于核主成分分析和LDA的主题分析方法对应的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时用于实现上述基于核主成分分析和LDA的主题分析方法对应的步骤。

本发明由于采取以上技术方案，其具有以下优点：

1、在主题挖掘中，由于许多领域的文献具有宽泛、研究主题分散、文本较长的特点，因此得到的文档-词语矩阵维度较高且稀疏，不利于生成高质量的主题，本发明采用核主成分分析选择合适的核函数从高维特征空间中提取文本向量的主成分，能够实现文本输入空间的降维和语义特征空间的抽取，降低文档-词语矩阵的维度，也从一定程度上降低主题模型的空间复杂度，从而提高模型生成主题的质量。

2、本发明针对文献宽泛、研究主题分散和文本较长等特征的文献，采用主题一致性，确定最优主题数目，对于文献主题演化的分析更为全面准确，可以广泛应用于文本挖掘领域中。

附图说明

图1是本发明一实施例提供的方法流程图；

图2是本发明一实施例提供的KPCA-LDA主题模型示意图；

图3是本发明一实施例提供的文献主题演化示意图；

图4是本发明一实施例提供的文献主题强度演化趋势图，其中，横坐标为年份，纵坐标为文献主题强度。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施方式。虽然附图中显示了本发明的示例性实施方式，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

应理解的是，文中使用的术语仅出于描述特定示例实施方式的目的，而无意于进行限制。除非上下文另外明确地指出，否则如文中使用的单数形式“一”、“一个” 以及“所述”也可以表示包括复数形式。术语“包括”、“包含”、“含有”以及“具有”是包含性的，并且因此指明所陈述的特征、步骤、操作、元件和/或部件的存在，但并不排除存在或者添加一个或多个其它特征、步骤、操作、元件、部件、和/或它们的组合。文中描述的方法步骤、过程、以及操作不解释为必须要求它们以所描述或说明的特定顺序执行，除非明确指出执行顺序。还应当理解，可以使用另外或者替代的步骤。

术语解释：

1、LDA：Latent Dirichlet Allocation，隐含狄利克雷分布；

2、BTM：Biterm Topic Model，双词语义增强主题模型；

3、LDA2Vec：LDA+word2vec，主题模型中的词嵌入；

4、ResNet V2：Residual Network V2残差网络二代；

5、PCA：Principal Component Analysis，主成分分析；

6、KPCA：Kernel Principal Component Analysis，核主成分分析；

7、Gibbs Sampling：吉布斯抽样。

本发明实施例提供的基于核主成分分析和LDA的主题分析方法及系统针对文献为长文本、宽泛、主题分散较多的特点，在KPCA-LDA主题模型中，KPCA是一种改进的 PCA，是一种基于核的非线性降维方法，利用非线性映射将原始空间中的数据映射到高维希尔伯特空间，然后对高维空间中的映射数据进行主成分分析。

实施例1

如图1所示，本实施例提供一种基于核主成分分析和LDA的主题分析方法，包括以下步骤：

1)获取文献语料库D，并对文献语料库D中的各文章进行预处理，包括删除标点符号、删除英文字符、分词和去停用词等。

2)根据预处理后的文献语料库D，建立KPCA-LDA主题模型，具体为：

2.1)提取预处理后的文献语料库D中各文章的词汇表：

通过扫描文献语料库D，将文章中互斥的词语依次加入词汇表，得到文章集的词汇表w_L＝(w₁,w_j,…,w_W)，其中，W为词汇表长度；w_j为词汇表w_L中的第j个词语。

2.2)生成文献语料库D的文档－词语矩阵：

2.2.1)假设文献语料库D中共有M篇文章，即D＝(D₁,D₂…,D_M)^T，D_i为文献语料库D中的第i篇文章，且D_i＝[d_i1 d_i2 … d_iW]，其中，d_ij为词语w_j在D_i的权重，此处权重采用词频(term frequency,TF)值，即d_ij表示词汇表第j个词语w_j在语料库中第i篇文章中出现的次数。

2.3)采用P阶多项式核函数，通过非线性映射，将生成的文档－词语矩阵从二维映射到高维希尔伯特空间(H空间)，降维得到低维n行n列的对称矩阵R，即主题－词语矩阵，并将该主题－词语矩阵作为KPCA-LDA主题模型的输入文档。

3)采用建立的KPCA-LDA主题模型，对文献语料库D中的文章进行主题分析，确定文献语料库中文章的文本表示，具体为：

基于词共现矩阵的KPCA-LDA主题模型如图2所示，图1中各参数的说明如下表1 所示：

表1：参数说明表

3.1)基于主题的定义，计算文章d中词语w的生成概率p(w|d)为：

其中，z表示词语w出自的潜在主题；p(w|z＝q)表示词语w出自潜在主题z的概率；p(z＝j|d)表示潜在主题z出自文章d的概率；K表示主题数目；q表示主题。

3.2)根据KPCA-LDA主题模型建立过程中的参数设置，得到文章d中包含词语w的概率p(w|d)为：

其中，

为主题－词语的概率分布；/>

为文档－主题的概率分布。

3.3)根据文章d中包含词语w的概率p(w|d)，得到文章d生成的条件概率分布 p(d|α,β)为：

其中，α_i为文章I的主题分布超参数；α_h为文章h的主题分布超参数；N_d为文章d的词语总数(d为LDA模型公式的通用字符，文章i为选取的第i篇文章的意思)；θ_i为文章i－主题的概率分布；θ为文章θ－主题的概率分布；β_h,j为主题的词语分布超参数； w^j _n为词语。

即KPCA-LDA主题模型生成一篇文章的过程为：从概率模型θ中选择一个潜在主题z，在潜在主题z对应的概率模型

中选择词语w，不断重复N_d次，直至生成一条包含 N_d词语的文章，KPCA-LDA主题模型最优的目标是使条件概率分布p(d|α,β)最大。

4)采用吉布斯抽样算法，对KPCA-LDA主题模型进行训练和参数估计，求解 KPCA-LDA主题模型的参数，生成K个由t个词语表示的主题，具体为：

4.1)输入提取的词汇表、文献语料库D的文档－词语矩阵和相关参数值(即文档的主题分布超参数α和主题的词语分布超参数β)后，采用吉布斯抽样算法迭代计算，进行未知参数变量的估计，求解并输出文档－主题矩阵θ和主题－词语矩阵

其中，文档－主题矩阵θ为：

其中，

为主题z_K的W文章D。

主题－词语矩阵

为：

其中，

为词语w_W的K主题Z。

4.2)选取使主题的可读性最好的t个词语表达主题，生成K个由t个词语表示的主题，具体为：

采用主题一致性(Topic Coherence)确定最优的主题数目，它具有更高的可解释性保证，UMass指标将分数定义为基于文档共现：

下面以高等教育研究领域文献主题分析与演化为具体实施例详细说明本发明的基于核主成分分析和LDA的主题分析方法：

1、主题分析

1)建立KPCA-LDA主题模型：

1.1)获取高等教育研究领域文献，收集文献摘要，构建文献语料库，对文献语料库中的各文章进行分词和去停用词等预处理，形成较为规范的文献语料库。

1.2)通过扫描规范的文献语料库，得到词汇表和文档－词语矩阵。

1.3)对文本-词语矩阵进行KPCA降维，得到低维的对称矩阵R，采用降维后的矩阵表示文献语料。

2)采用建立的KPCA-LDA主题模型，对文献语料库中的各文章进行主题分析，确定文献语料库中文章的文本表示，其中，模型的先验参数α和β根据已有文献的经验值确定，主题数目K采用主题一致性确定。

3)采用吉布斯抽样算法，对KPCA-LDA主题模型进行训练和参数估计，求解 KPCA-LDA主题模型的参数，得到文档－主题分布矩阵和主题－词语分布矩阵，确定最优的KPCA-LDA主题模型。

2、主题演化：

1)研究框架

采用建立的KPCA-LDA模型对文本集合进行主题演化研究，如图3所示。在主题演化中首先进行主题提取，然后从以下两个方面开展研究：①主题强度的演化，通过不同时间窗口内文本集合的文档－主题分布解释；②主题内容的演化，通过不同时间窗口内主题分布的相似度和相似主题下主题－词汇的分布度量。

2)基于KPCA-LDA主题模型的主题演化研究

从以下方面进行KPCA-LDA主题模型的演化研究：①运用主题一致性确定最优主题数；②使用编辑距离法将主题对齐。在此基础上，先按照年份进行文本聚类，再分别采用公式进行主题强度和相似度计算，分析主题强度演化以及内容的演化，具体为：

2.1)最优主题数确定方面

采用主题一致性(Topic Coherence)确定主题演化研究中的最优主题数目。

2.2)主题对齐方面

采用编辑距离(Edit Distance)将主题对齐：

Levenshtein.distance(str1,str2) (8)

其中，str1为初始字符；str2为要转换的字符。

在主题强度演化的过程中，假设文档d中主题z所占的比例为时间窗口t上的文本集合，则时间窗口t上主题z的强度

为：

其中，D^t为时间窗口t下的文献语料库；

为主题z文档d下的文档－主题矩阵。

计算出不同时间窗口t内主题z的强度，并按照时间顺序作出其强度变化图，用于研究分析主题强度演化的趋势。

3、结果分析

采用建立的KPCA-LDA主题模型对全部的文本集合进行训练，并计算得出文本集合中文档－主题概率分布，将文本集合离散到2014—2018年的5个时间窗口，分别计算 5个时间窗口内的主题强度，本实施例选取其中较靠前的10个热点主题，并列出热点主题下的关键词，得到的主题识别结果如下表2所示：

表2：文献主题及其关键词

从表2可以看出，主题11是关于国际化教育的，主题25是关于沿边国际化教育的，主题38是关于留学和中外合作办学的，通过主题在不同时间窗口文本集合上的概率分布，可以得出主题强度的演化趋势，如图4所示。

在主题内容演化中，下表3给出了各个时间窗口中高等教育相关主题及其关键词：

表3：各个时间窗口主题及其关键词

综上所述，与实际情况相比，所识别的主题质量及其演化趋势相似，因此可以得出本发明的方法在跟踪特定领域的研究发展趋势和研究热点方面具有较好的应用效果。

实施例2

本实施例提供一种基于核主成分分析和LDA的主题分析系统，包括：

数据获取模块，用于获取文献语料库，并对文献语料库中的各文章进行预处理。

模型构建模块，用于根据预处理后的文献语料库，建立KPCA-LDA主题模型。

文本表示确定模块，用于采用建立的KPCA-LDA主题模型，对文献语料库中的文章进行主题分析，确定文献语料库中文章的文本表示。

在一个优选的实施例中，模型构建模块包括：

矩阵生成单元，用于生成文献语料库的文档－词语矩阵；

实施例3

本实施例提供一种与本实施例1所提供的基于核主成分分析和LDA的主题分析方法对应的处理设备，处理设备可以是用于客户端的处理设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行实施例1的方法。

所述处理设备包括处理器、存储器、通信接口和总线，处理器、存储器和通信接口通过总线连接，以完成相互间的通信。存储器中存储有可在处理器上运行的计算机程序，处理器运行计算机程序时执行本实施例1所提供的基于核主成分分析和LDA的主题分析方法。

在一些实现中，存储器可以是高速随机存取存储器(RAM：Random AccessMemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

在另一些实现中，处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器，在此不做限定。

实施例4

本实施例1的基于核主成分分析和LDA的主题分析方法可被具体实现为一种计算机程序产品，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本实施例1所述的基于核主成分分析和LDA的主题分析方法的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。

上述各实施例仅用于说明本发明，其中各部件的结构、连接方式和制作工艺等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.一种基于核主成分分析和LDA的主题分析方法，其特征在于，包括以下内容：

2)根据预处理后的文献语料库，建立KPCA-LDA主题模型，具体过程为：

2.1)提取预处理后的文献语料库D中各文章的词汇表w_L＝(w₁,w_j,…,w_W)，其中，W为词汇表长度；w_j为词汇表w_L中的第j个词语；

2.2)生成文献语料库D的文档－词语矩阵，具体过程为：

2.2.1)设定文献语料库D中共有M篇文章D＝(D₁,D₂…,D_M)^T，D_i为文献语料库D中的第i篇文章，且D_i＝[d_i1 d_i2 … d_iW]，其中，d_ij为d_ij表示词语w_j在D_i的权重，表示词汇表第j个词语w_j在语料库中第i篇文章中出现的次数；

2.2.2)依次计算文章集的词汇表w_L中的每一词语在每一文章中的权重，得到文献语料库D的文档－词语矩阵；

2.3)采用P阶多项式核函数，通过非线性映射，将生成的文档－词语矩阵从二维映射到高维希尔伯特空间，降维得到低维n行n列的主题－词语矩阵R，并将该主题－词语矩阵R作为KPCA-LDA主题模型的输入文档；

3)采用建立的KPCA-LDA主题模型，对文献语料库中的文章进行主题分析，确定文献语料库中文章的文本表示，具体过程为：

3.1)基于主题的定义，计算文章d中词语w的生成概率p(w|d)：

其中，

为主题－词语的概率分布；/>

为文档－主题的概率分布；

3.3)根据文章d中包含词语w的概率p(w|d)，得到文章d生成的条件概率分布p(d|α,β)：

其中，α_i为文档i的主题分布超参数；α_h为文档h的主题分布超参数；N_d为文章d的词语总数；θ_i为文档i－主题的概率分布；θ_h为文档h－主题的概率分布；β_h,j为主题的词语分布超参数；w^j _n为词语；

4)采用吉布斯抽样算法，对KPCA-LDA主题模型进行训练和参数估计，求解KPCA-LDA主题模型的参数，生成若干个由词语表示的主题。

2.如权利要求1所述的一种基于核主成分分析和LDA的主题分析方法，其特征在于，所述步骤4)的具体过程为：

其中，文档－词语矩阵θ为：

其中，

为主题z_K的W文章D；

主题－词语矩阵

为：

其中，

为词语w_W的K主题Z；

4.2)生成K个由t个词语表示的主题。

3.如权利要求2所述的一种基于核主成分分析和LDA的主题分析方法，其特征在于，所述步骤4.2)中采用主题一致性确定最优的主题数目：

其中，D(x,y)计算包含单词x和y的文档的数量，D(x)计算包含单词x的文档的数量，表示保证分数返回实数的平滑因子；V为描述主题的一组单词；∈为一个平滑因子，保证评分返回实数；Coherence(V)最大时单词V的数量即为最优的主题数目。

4.一种基于核主成分分析和LDA的主题分析系统，其特征在于，包括：

模型构建模块，用于根据预处理后的文献语料库，建立KPCA-LDA主题模型，所述模型构建模块包括：

矩阵生成单元，用于生成文献语料库的文档－词语矩阵；

降维单元，用于采用P阶多项式核函数，通过非线性映射，将生成的文档－词语矩阵从二维映射到高维希尔伯特空间，降维得到低维n行n列的主题－词语矩阵R，并将该主题－词语矩阵R作为KPCA-LDA主题模型的输入文档；

文本表示确定模块，用于采用建立的KPCA-LDA主题模型，对文献语料库中的文章进行主题分析，确定文献语料库中文章的文本表示，具体过程为：

基于主题的定义，计算文章d中词语w的生成概率p(w|d)：

根据KPCA-LDA主题模型建立过程中的参数设置，得到文章d中包含词语w的概率p(w|d)：

其中，

为主题－词语的概率分布；/>

为文档－主题的概率分布；

根据文章d中包含词语w的概率p(w|d)，得到文章d生成的条件概率分布p(d|α,β)：

5.一种处理器，其特征在于，包括计算机程序指令，其中，所述计算机程序指令被处理器执行时用于实现权利要求1-3中任一项所述的基于核主成分分析和LDA的主题分析方法对应的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时用于实现权利要求1-3中任一项所述的基于核主成分分析和LDA的主题分析方法对应的步骤。