CN106897436A

CN106897436A - 一种基于变分推断的学术研究热点关键词提取方法

Info

Publication number: CN106897436A
Application number: CN201710112755.4A
Authority: CN
Inventors: 马占宇; 陈光启; 肖波; 司中威
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2017-06-27
Anticipated expiration: 2037-02-28
Also published as: CN106897436B

Abstract

本发明实施例公开了一种基于变分推断的学术研究热点关键词提取方法。该系统包括如下步骤：文本预处理步骤，将文本分割清洗成为词语的集合；文本表示步骤，通过TF‑IDF特征加权将词语组成的文本映射到向量空间中成为词向量；层次聚类步骤，使用高斯混合模型表示数据的分布，并通过变分推断方法估计混合模型的参数，将模型划分为几个高斯模型的混合，实现聚类的目的，再对每个类的样本进行高斯混合模型的变分推断，实现层次聚类；结果生成步骤：将层次聚类得到的每个类作为一个话题，类中心里权值最高的词语作为该类的关键词，按照层次聚类的结构生成话题树。利用本发明实施例，能够高效、准确地提取一定时间内学术研究的热点关键词，作为一个合理的参考，具有实用价值。

Description

一种基于变分推断的学术研究热点关键词提取方法

技术领域

本发明涉及对学术文章中研究热点关键词的提取，着重描述了一种通过变分推断的方法达到学术研究热点关键词提取的目的。

背景技术

互联网上数据的增长呈现出爆炸的态势，在这些海量数据中，又隐含着很多的信息和知识。目前，在各种学科领域中，每年都有很多论文发表。由于文章数量众多，我们很难清楚地知道在某一特定的领域中，每一年研究的热点都是什么。因此，我们需要将对数据进行分析、挖掘的方法应用于学术文章中。

本发明中通过变分推断的方式分析数据。流程大致分四步，文本预处理、文本表示、层次化的变分推断、结果生成。其中，变分推断步骤基于高斯混合模型，对样本的概率分布进行估计，将样本表示成若干个高斯分布的组合，通过调节高斯模型的个数、混合方式，使混合模型逼近任意的分布。模型中每个高斯分布可以代表一类话题，变分推断方法可以自动地确定高斯混合模型最优的类别数以及类别分布，适用于本场景。

对一个特定领域内的期刊、论文按照时间划分后进行分析，可以分析出这一领域内的研究热点变化情况；对不同领域的论文同时进行分析，可能会发现其中融合与交叉的研究点，以及预见技术发展的新动向。

当前我国信息化工作的一项重点就是加强对信息资源的开发和利用。有效挖掘利用已有的信息，能够大大地提高社会的效率，推动科技、经济的发展。通过使用机器学习方法，对大规模的文章进行分析研究，寻找出不同领域的研究热点关键词，以及这些热点关键词间背后可能隐藏的关系，对于各个领域的研究人员、工程技术人员来说，更加清楚地掌握学科发展动向，能够更好地促进科学和技术的发展。

发明内容

本发明提供了一套应用于学术文章的研究热点关键词分析流程，主要方法包括下列步骤：

步骤一.文本预处理步骤：针对需要提取研究热点关键词的文本集的特点，进行去除标点、分词、词形还原、去除停用词的预处理步骤，降低文本特征维度；

步骤二.文本表示步骤：步骤一处理过后的文本成为词语的集合，可以通过这些词语表示文本。本文中使用的文本表示模型为向量空间模型(VSM-Vector Space Model)。通过使用TF-IDF特征加权方法提取特征，为文本中的词语确定权值，通过文本中的词语映射为向量空间中的向量来表示文本，并去掉权值过低的词语，进一步降低维度；

步骤三.层次聚类步骤：经过步骤二，文本成为由特征构成的向量，文本集合成为一个矩阵。使用高斯混合模型(GMM-Gaussian Mixture Model)逼近数据的分布。初始化高斯混合模型的参数，将文本的特征向量分配至各个高斯模型。通过变分推断(VariationalInference)的方法估计参数，得到最接近数据分布的高斯混合模型，每个高斯模型即为聚类后产生的一个类。对第一次聚类后产生的每个类，再进行一次变分推断，得到一些更小的类作为子话题。

步骤四.结果生成步骤：将步骤三中第一次聚类的每个类中心取出，作为一级话题，根据权值将类中心中的词汇排序，使用权值前三的词语作为该类话题的关键词。对于每个类的子类，将其类中心取出，作为二级话题，并从其中未出现在一级话题的词语中取出权值前三的词作为二级话题关键词。

在步骤二所述的文本表示步骤中，通过TF-IDF计算文档D_j中词t_i的特征权值，此步骤具体过程如下：

1)计算tf权值tf_ij：

其中n_i,j代表词t_i在文档D_j中出现的次数(频度),Maxn_j代表文档D_j中出现频度最高的词的频度；

2)计算文档D_j的idf权值idf_ij：

其中，|D|代表语料库所含文本数量。{j:t_i∈d_j}代表语料库中包含词语t_i的文档数量；

3)计算文档D_j中词t_i的特征权值w_ij：

w_ij＝tf_ij×idf_ij

4)将文档D_j表示成向量X_j：

X_j＝[w_1j,w_2j,…,w_nj]

在步骤三所述的层次聚类步骤中，使用高斯混合模型来逼近数据的分布，并通过变分推断的方法，估计高斯混合模型的参数。具体过程如下：

1)假设数据由K个高斯模型混合而成，设潜在变量z_n:

z_n＝[z_n1,z_n2,…,z_nK]

其中z_n1,z_n2,…,z_nK中仅有一个z_nj值为1，代表该样本点所属第j个高斯模型，其余z_ni(i≠j)均为0。

Z的条件概率分布为：

其中，π_k为第k个高斯模型的混合系数。π的先验分布选择狄利克雷分布：

其中，C(α₀)为狄利克雷分布的归一化常数，参数α₀为与混合分布的每一个分量相关的观测有效先验数量。根据对称性，对每个分量选取相同的α₀。

2)将文档数据{D₁,D₂,…,D_j,…,D_N}用高斯混合模型对数据进行建模，模型的条件概率分布为：

其中参数μ＝{μ_k},Λ＝{Λ_k}。μ与Λ的先验分布由高斯—Wishart分布给出：

其中β₀ ^-1为精度参数，m₀为均值初始化为0。

3)通过变分推断，估计参数变量Z,μ,Λ,π。在初始化所设的K个高斯模型中，其中只有一部分有作用，经过变分推断过程变量Z的分布会收敛到有作用的M个分量中。通过变量Z将样本划分为M个类，完成聚类，每一类的类均值μ_i作为类中心，代表该类的样本。

4)将3)划分出的M个类作为M个新的样本集合{M₁,M₂,…,M_M}，使用每个新的样本集合M_i重复上述的1)、2)、3)步骤，估计样本子类的个数，以及子类的均值，实现层次聚类。

附图说明

图1为本发明提供的基于变分推断的学术研究热点关键词提取方法的步骤流程图。

具体实施方式

下面将结合附图对本发明具体实施方式进行详细说明。

图1是本发明的流程图，包括以下步骤：

第一步：文本预处理：对文本进行去除标点、分词、词形还原、去除停用词；

第二步：文本表示

步骤S1：计算每个文档D_j中的每个词语的TF-IDF权值w_ij：

其中,n_i,j代表词t_i在文档D_j中出现的次数(频度),Maxn_j代表文档D_j中出现频度最高的词的频度,|D|代表语料库所含文本数量。{j:t_i∈d_j}代表语料库中包含词语t_i的文档数量；

步骤S2：将每个文档D_j表示成向量:

X_j＝[w_1j,w_2j,…,w_nj]

第三步：层次聚类

步骤S3：通过高斯混合模型表示数据的分布

p(X,Z,μ,Λ,π)＝p(X|Z,μ,Λ)p(μ|Λ)p(Λ)p(Z|π)p(π)

其中，模型的条件概率分布为：

均值μ与精度矩阵Λ的先验分布为：

分配变量Z与混合系数π的分布为：

步骤S4：通过变分推断估计每个样本的分配变量z_j，高斯混合模型的有效混合分量的数量M，与每个混合分量均值μ_i，将每个有效混合分量作为一个类，其均值μ_i作为类中心；

步骤S5：将S4得到的M个类作为M个新的样本集合，对其中每个M_i重复S4、S5步骤，估计出每个新样本集合的子类有效混合分量数量S_i，及每个有效混合分量均值μ_ij，完成层次聚类。根据需求，可再将子类依上述步骤继续聚类；

第四步：结果生成：将步骤S4得到的每一类均值μ_i取出，作为一级话题，依照权值大小，将μ_i中的词汇排序，取出权值最大的三个词作为该类的关键词；对于步骤S5生成的每个子类，作为二级话题，在其均值μ_ij里未出现在一级话题的词语中取出权值最大的三个词语，作为二级话题的关键词。将每个类(一级话题)及其子类(二级话题)的关键词按照树的结构排布，生成话题树，从而完成对学术文章中研究热点关键词的提取。

以上结合附图对所提出的基于变分推断的学术研究热点关键词提取方法的具体实施方式进行了阐述。通过以上实施方式的描述，所属领域的一般技术人员可以清楚的了解研究热点关键词提取所使用的数学推导方法，得到提取出的学术研究热点关键词。

依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

以上所述的本发明实施方式，并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于变分推断的学术研究热点关键词提取方法，其特征在于以下步骤：

步骤一.文本预处理：根据论文文本的特点，将标题、作者和摘要提取出，并对摘要进行分词、大小写统一、去标点、词形还原、去除停用词等预处理；

步骤二.特征提取：为了有效提取出文本的特征，本文使用TF-IDF(term frequency-inverse document frequency)方法对文本中的词语进行加权。

步骤三.层次聚类步骤：使用高斯混合模型(GMM-Gaussian Mixture Model)来描述文本的分布，通过变分推断(Variational Inference)的方式，估计高斯混合模型的参数，完成聚类。通过逐级对每次的聚类分别进行高斯混合模型的变分推断，实现层次聚类。具体过程如下：

1)通过高斯混合模型表示数据的分布:

p(X,Z,μ,Λ,π)＝p(X|Z,μ,Λ)p(μ|Λ)p(Λ)p(Z|π)p(π)

其中，模型的条件概率分布为：

p (X | Z, μ, Λ) = Π_{n = 1}^{N} Π_{k = 1}^{K} N {(x_{n} | μ_{k}, Λ_{k}^{- 1})}^{z_{n k}}

均值μ与精度矩阵Λ的先验分布为：

p (μ, Λ) = p (μ | Λ) p (Λ) = Π_{k = 1}^{K} N (μ_{k} | m_{0}, {(β_{0} Λ_{k})}^{- 1}) W (Λ_{k} | W_{0}, v_{0})

分配变量Z与混合系数π的分布为：

p (Z | π) = Π_{n = 1}^{N} Π_{k = 1}^{K} π_{k}^{z_{n k}}

p (π) = D i r (π | α_{0}) = C (α_{0}) Π_{k = 1}^{K} π_{k}^{α_{0} - 1}

2)通过变分推断估计每个样本的分配变量z_j，高斯混合模型的有效混合分量的数量M，与每个混合分量均值μ_i，将每个有效混合分量作为一个类，即一个话题，其均值μ_i作为类中心；

3)将2)得到的类作为M个新的数据集合{M₁,M₂,…,M_M}，对每个新的数据集合M_i，重复1)，2)步骤，估计出类M_i中有效混合分量数量S_i，每个有效混合分量均为M_i的子类，即M_i的二级话题。以及估计每个有效混合分量均值μ_ij，完成层次聚类。根据需求，可再将子类依上述步骤继续聚类；

步骤四.结果生成：将步骤三2)中得到的每一类的均值μ_i取出，依照权值大小，将μ_i中的词汇排序，取出权值最大的三个词作为该类一级话题的关键词；对于步骤三3)中生成的每一个子类，在其均值μ_ij中取出前三个权重最大且未出现在一级话题中的词语，作为二级话题的关键词。将每个一级话题及二级话题的关键词按照树的结构排布，生成话题树，完成对学术文章的研究热点关键词的提取。