CN106897436A - 一种基于变分推断的学术研究热点关键词提取方法 - Google Patents
一种基于变分推断的学术研究热点关键词提取方法 Download PDFInfo
- Publication number
- CN106897436A CN106897436A CN201710112755.4A CN201710112755A CN106897436A CN 106897436 A CN106897436 A CN 106897436A CN 201710112755 A CN201710112755 A CN 201710112755A CN 106897436 A CN106897436 A CN 106897436A
- Authority
- CN
- China
- Prior art keywords
- text
- variation
- topic
- class
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种基于变分推断的学术研究热点关键词提取方法。该系统包括如下步骤:文本预处理步骤,将文本分割清洗成为词语的集合;文本表示步骤,通过TF‑IDF特征加权将词语组成的文本映射到向量空间中成为词向量;层次聚类步骤,使用高斯混合模型表示数据的分布,并通过变分推断方法估计混合模型的参数,将模型划分为几个高斯模型的混合,实现聚类的目的,再对每个类的样本进行高斯混合模型的变分推断,实现层次聚类;结果生成步骤:将层次聚类得到的每个类作为一个话题,类中心里权值最高的词语作为该类的关键词,按照层次聚类的结构生成话题树。利用本发明实施例,能够高效、准确地提取一定时间内学术研究的热点关键词,作为一个合理的参考,具有实用价值。
Description
技术领域
本发明涉及对学术文章中研究热点关键词的提取,着重描述了一种通过变分推断的方法达到学术研究热点关键词提取的目的。
背景技术
互联网上数据的增长呈现出爆炸的态势,在这些海量数据中,又隐含着很多的信息和知识。目前,在各种学科领域中,每年都有很多论文发表。由于文章数量众多,我们很难清楚地知道在某一特定的领域中,每一年研究的热点都是什么。因此,我们需要将对数据进行分析、挖掘的方法应用于学术文章中。
本发明中通过变分推断的方式分析数据。流程大致分四步,文本预处理、文本表示、层次化的变分推断、结果生成。其中,变分推断步骤基于高斯混合模型,对样本的概率分布进行估计,将样本表示成若干个高斯分布的组合,通过调节高斯模型的个数、混合方式,使混合模型逼近任意的分布。模型中每个高斯分布可以代表一类话题,变分推断方法可以自动地确定高斯混合模型最优的类别数以及类别分布,适用于本场景。
对一个特定领域内的期刊、论文按照时间划分后进行分析,可以分析出这一领域内的研究热点变化情况;对不同领域的论文同时进行分析,可能会发现其中融合与交叉的研究点,以及预见技术发展的新动向。
当前我国信息化工作的一项重点就是加强对信息资源的开发和利用。有效挖掘利用已有的信息,能够大大地提高社会的效率,推动科技、经济的发展。通过使用机器学习方法,对大规模的文章进行分析研究,寻找出不同领域的研究热点关键词,以及这些热点关键词间背后可能隐藏的关系,对于各个领域的研究人员、工程技术人员来说,更加清楚地掌握学科发展动向,能够更好地促进科学和技术的发展。
发明内容
本发明提供了一套应用于学术文章的研究热点关键词分析流程,主要方法包括下列步骤:
步骤一.文本预处理步骤:针对需要提取研究热点关键词的文本集的特点,进行去除标点、分词、词形还原、去除停用词的预处理步骤,降低文本特征维度;
步骤二.文本表示步骤:步骤一处理过后的文本成为词语的集合,可以通过这些词语表示文本。本文中使用的文本表示模型为向量空间模型(VSM-Vector Space Model)。通过使用TF-IDF特征加权方法提取特征,为文本中的词语确定权值,通过文本中的词语映射为向量空间中的向量来表示文本,并去掉权值过低的词语,进一步降低维度;
步骤三.层次聚类步骤:经过步骤二,文本成为由特征构成的向量,文本集合成为一个矩阵。使用高斯混合模型(GMM-Gaussian Mixture Model)逼近数据的分布。初始化高斯混合模型的参数,将文本的特征向量分配至各个高斯模型。通过变分推断(VariationalInference)的方法估计参数,得到最接近数据分布的高斯混合模型,每个高斯模型即为聚类后产生的一个类。对第一次聚类后产生的每个类,再进行一次变分推断,得到一些更小的类作为子话题。
步骤四.结果生成步骤:将步骤三中第一次聚类的每个类中心取出,作为一级话题,根据权值将类中心中的词汇排序,使用权值前三的词语作为该类话题的关键词。对于每个类的子类,将其类中心取出,作为二级话题,并从其中未出现在一级话题的词语中取出权值前三的词作为二级话题关键词。
在步骤二所述的文本表示步骤中,通过TF-IDF计算文档Dj中词ti的特征权值,此步骤具体过程如下:
1)计算tf权值tfij:
其中ni,j代表词ti在文档Dj中出现的次数(频度),Maxnj代表文档Dj中出现频度最高的词的频度;
2)计算文档Dj的idf权值idfij:
其中,|D|代表语料库所含文本数量。{j:ti∈dj}代表语料库中包含词语ti的文档数量;
3)计算文档Dj中词ti的特征权值wij:
wij=tfij×idfij
4)将文档Dj表示成向量Xj:
Xj=[w1j,w2j,…,wnj]
在步骤三所述的层次聚类步骤中,使用高斯混合模型来逼近数据的分布,并通过变分推断的方法,估计高斯混合模型的参数。具体过程如下:
1)假设数据由K个高斯模型混合而成,设潜在变量zn:
zn=[zn1,zn2,…,znK]
其中zn1,zn2,…,znK中仅有一个znj值为1,代表该样本点所属第j个高斯模型,其余zni(i≠j)均为0。
Z的条件概率分布为:
其中,πk为第k个高斯模型的混合系数。π的先验分布选择狄利克雷分布:
其中,C(α0)为狄利克雷分布的归一化常数,参数α0为与混合分布的每一个分量相关的观测有效先验数量。根据对称性,对每个分量选取相同的α0。
2)将文档数据{D1,D2,…,Dj,…,DN}用高斯混合模型对数据进行建模,模型的条件概率分布为:
其中参数μ={μk},Λ={Λk}。μ与Λ的先验分布由高斯—Wishart分布给出:
其中β0 -1为精度参数,m0为均值初始化为0。
3)通过变分推断,估计参数变量Z,μ,Λ,π。在初始化所设的K个高斯模型中,其中只有一部分有作用,经过变分推断过程变量Z的分布会收敛到有作用的M个分量中。通过变量Z将样本划分为M个类,完成聚类,每一类的类均值μi作为类中心,代表该类的样本。
4)将3)划分出的M个类作为M个新的样本集合{M1,M2,…,MM},使用每个新的样本集合Mi重复上述的1)、2)、3)步骤,估计样本子类的个数,以及子类的均值,实现层次聚类。
附图说明
图1为本发明提供的基于变分推断的学术研究热点关键词提取方法的步骤流程图。
具体实施方式
下面将结合附图对本发明具体实施方式进行详细说明。
图1是本发明的流程图,包括以下步骤:
第一步:文本预处理:对文本进行去除标点、分词、词形还原、去除停用词;
第二步:文本表示
步骤S1:计算每个文档Dj中的每个词语的TF-IDF权值wij:
其中,ni,j代表词ti在文档Dj中出现的次数(频度),Maxnj代表文档Dj中出现频度最高的词的频度,|D|代表语料库所含文本数量。{j:ti∈dj}代表语料库中包含词语ti的文档数量;
步骤S2:将每个文档Dj表示成向量:
Xj=[w1j,w2j,…,wnj]
第三步:层次聚类
步骤S3:通过高斯混合模型表示数据的分布
p(X,Z,μ,Λ,π)=p(X|Z,μ,Λ)p(μ|Λ)p(Λ)p(Z|π)p(π)
其中,模型的条件概率分布为:
均值μ与精度矩阵Λ的先验分布为:
分配变量Z与混合系数π的分布为:
步骤S4:通过变分推断估计每个样本的分配变量zj,高斯混合模型的有效混合分量的数量M,与每个混合分量均值μi,将每个有效混合分量作为一个类,其均值μi作为类中心;
步骤S5:将S4得到的M个类作为M个新的样本集合,对其中每个Mi重复S4、S5步骤,估计出每个新样本集合的子类有效混合分量数量Si,及每个有效混合分量均值μij,完成层次聚类。根据需求,可再将子类依上述步骤继续聚类;
第四步:结果生成:将步骤S4得到的每一类均值μi取出,作为一级话题,依照权值大小,将μi中的词汇排序,取出权值最大的三个词作为该类的关键词;对于步骤S5生成的每个子类,作为二级话题,在其均值μij里未出现在一级话题的词语中取出权值最大的三个词语,作为二级话题的关键词。将每个类(一级话题)及其子类(二级话题)的关键词按照树的结构排布,生成话题树,从而完成对学术文章中研究热点关键词的提取。
以上结合附图对所提出的基于变分推断的学术研究热点关键词提取方法的具体实施方式进行了阐述。通过以上实施方式的描述,所属领域的一般技术人员可以清楚的了解研究热点关键词提取所使用的数学推导方法,得到提取出的学术研究热点关键词。
依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
以上所述的本发明实施方式,并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于变分推断的学术研究热点关键词提取方法,其特征在于以下步骤:
步骤一.文本预处理:根据论文文本的特点,将标题、作者和摘要提取出,并对摘要进行分词、大小写统一、去标点、词形还原、去除停用词等预处理;
步骤二.特征提取:为了有效提取出文本的特征,本文使用TF-IDF(term frequency-inverse document frequency)方法对文本中的词语进行加权。
步骤三.层次聚类步骤:使用高斯混合模型(GMM-Gaussian Mixture Model)来描述文本的分布,通过变分推断(Variational Inference)的方式,估计高斯混合模型的参数,完成聚类。通过逐级对每次的聚类分别进行高斯混合模型的变分推断,实现层次聚类。具体过程如下:
1)通过高斯混合模型表示数据的分布:
p(X,Z,μ,Λ,π)=p(X|Z,μ,Λ)p(μ|Λ)p(Λ)p(Z|π)p(π)
其中,模型的条件概率分布为:
均值μ与精度矩阵Λ的先验分布为:
分配变量Z与混合系数π的分布为:
2)通过变分推断估计每个样本的分配变量zj,高斯混合模型的有效混合分量的数量M,与每个混合分量均值μi,将每个有效混合分量作为一个类,即一个话题,其均值μi作为类中心;
3)将2)得到的类作为M个新的数据集合{M1,M2,…,MM},对每个新的数据集合Mi,重复1),2)步骤,估计出类Mi中有效混合分量数量Si,每个有效混合分量均为Mi的子类,即Mi的二级话题。以及估计每个有效混合分量均值μij,完成层次聚类。根据需求,可再将子类依上述步骤继续聚类;
步骤四.结果生成:将步骤三2)中得到的每一类的均值μi取出,依照权值大小,将μi中的词汇排序,取出权值最大的三个词作为该类一级话题的关键词;对于步骤三3)中生成的每一个子类,在其均值μij中取出前三个权重最大且未出现在一级话题中的词语,作为二级话题的关键词。将每个一级话题及二级话题的关键词按照树的结构排布,生成话题树,完成对学术文章的研究热点关键词的提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710112755.4A CN106897436B (zh) | 2017-02-28 | 2017-02-28 | 一种基于变分推断的学术研究热点关键词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710112755.4A CN106897436B (zh) | 2017-02-28 | 2017-02-28 | 一种基于变分推断的学术研究热点关键词提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106897436A true CN106897436A (zh) | 2017-06-27 |
CN106897436B CN106897436B (zh) | 2018-08-07 |
Family
ID=59185571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710112755.4A Active CN106897436B (zh) | 2017-02-28 | 2017-02-28 | 一种基于变分推断的学术研究热点关键词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106897436B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241272A (zh) * | 2018-07-25 | 2019-01-18 | 华南师范大学 | 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备 |
CN111898366A (zh) * | 2020-07-29 | 2020-11-06 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6556960B1 (en) * | 1999-09-01 | 2003-04-29 | Microsoft Corporation | Variational inference engine for probabilistic graphical models |
CN104166993A (zh) * | 2014-07-25 | 2014-11-26 | 南京邮电大学 | 一种基于加权变分期望最大化准则的图像分割方法 |
CN104320649A (zh) * | 2014-11-04 | 2015-01-28 | 北京邮电大学 | 一种基于全概率模型的多视点深度图增强系统 |
CN104850650A (zh) * | 2015-05-29 | 2015-08-19 | 清华大学 | 基于类标关系的短文本扩充方法 |
-
2017
- 2017-02-28 CN CN201710112755.4A patent/CN106897436B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6556960B1 (en) * | 1999-09-01 | 2003-04-29 | Microsoft Corporation | Variational inference engine for probabilistic graphical models |
CN104166993A (zh) * | 2014-07-25 | 2014-11-26 | 南京邮电大学 | 一种基于加权变分期望最大化准则的图像分割方法 |
CN104320649A (zh) * | 2014-11-04 | 2015-01-28 | 北京邮电大学 | 一种基于全概率模型的多视点深度图增强系统 |
CN104850650A (zh) * | 2015-05-29 | 2015-08-19 | 清华大学 | 基于类标关系的短文本扩充方法 |
Non-Patent Citations (2)
Title |
---|
TANK A等: "Streaming Variational Inference for Bayesian Nonparametric Mixture Models", 《EPRINT ARXIV》 * |
徐定杰等: "混合高斯分布的变分贝叶斯学习参数估计", 《上海交通大学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241272A (zh) * | 2018-07-25 | 2019-01-18 | 华南师范大学 | 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备 |
CN109241272B (zh) * | 2018-07-25 | 2021-07-06 | 华南师范大学 | 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备 |
CN111898366A (zh) * | 2020-07-29 | 2020-11-06 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
CN111898366B (zh) * | 2020-07-29 | 2022-08-09 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106897436B (zh) | 2018-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103207899B (zh) | 文本文件推荐方法及系统 | |
CN108846029B (zh) | 基于知识图谱的情报关联分析方法 | |
CN109344236A (zh) | 一种基于多种特征的问题相似度计算方法 | |
CN106021272A (zh) | 基于分布式表达词向量计算的关键词自动提取方法 | |
CN103324700B (zh) | 一种基于Web信息的本体概念属性学习方法 | |
CN105653706A (zh) | 一种基于文献内容知识图谱的多层引文推荐方法 | |
CN107451278A (zh) | 基于多隐层极限学习机的中文文本分类方法 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
CN108520038B (zh) | 一种基于排序学习算法的生物医学文献检索方法 | |
CN107239564A (zh) | 一种基于监督主题模型的文本标签推荐方法 | |
CN105893362A (zh) | 获取知识点语义向量的方法、确定相关知识点的方法及系统 | |
Sadr et al. | Exploring the efficiency of topic-based models in computing semantic relatedness of geographic terms | |
Abuhay et al. | Analysis of computational science papers from iccs 2001-2016 using topic modeling and graph theory | |
CN106897436B (zh) | 一种基于变分推断的学术研究热点关键词提取方法 | |
Li et al. | Big data-driven technology innovation: Concept and key problems | |
Li et al. | An agent based intelligent meta search engine | |
CN106202116A (zh) | 一种基于粗糙集与knn的文本分类方法及系统 | |
Ramadhan et al. | Artificial Intelligence in Natural Disaster: Data Crawling-and Text Mining-Based Literature Review | |
CN106570088A (zh) | 一种科研文献话题发现和演化跟踪的方法 | |
Tamrakar et al. | Student sentiment analysis using classification with feature extraction techniques | |
Qureshi et al. | Exploiting Wikipedia to Identify Domain-Specific Key Terms/Phrases from a Short-Text Collection. | |
Poibeau et al. | Generating navigable semantic maps from social sciences corpora | |
Hosam et al. | The design and development of exceptional representation based on domain ontology and multi-agent systems for e-learning purposes | |
Yang et al. | Machine learning-based analysis of online course learning experience |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |