CN109344248A

CN109344248A - 一种基于科技文献摘要聚类的学术主题生命周期分析方法

Info

Publication number: CN109344248A
Application number: CN201810847068.1A
Authority: CN
Inventors: 陆遥; 李昌洲; 吴峻峰; 郭君雨; 张弛
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2019-02-15
Anticipated expiration: 2038-07-27
Also published as: CN109344248B

Abstract

本发明涉及文本聚类以及生命周期领域，更具体地，涉及一种基于科技文献摘要聚类的学术主题生命周期分析方法。本方法首先将目的语句提炼出来，之后将常用专业词汇从目的语句中剔除，得到提纯后的目的语料，再通过LDA算法获得每个聚类的主题词，结合Word2Vec词向量空间模型得到每个聚类的主题向量和文档向量，最终得到聚类结果。该算法在针对科技文献摘要聚类时取得比传统聚类算法更加好的聚类结果，为学科主题生命周期分析的准确性提供了坚实的基础。然后，我们通过PW‑LDA算法对大量的科技文献数据进行聚类，并生成学科主题生命周期曲线，经人工抽样分析确认，其学科主题生命周期曲线符合现实发展规律。

Description

一种基于科技文献摘要聚类的学术主题生命周期分析方法

技术领域

本发明涉及文本聚类以及生命周期领域，更具体地，涉及一种基于科技文献摘要聚类的学术主题生命周期分析方法。

背景技术

当前主题生命周期分析的方法种类繁多，当中以词频分析、共引分析、共词分析、聚类分析最为常见。以真实数据为依据对关键词进行客观统计的词频分析法，因为能较好的避免定性分析方法的个人主观性，客观性和说服力较高，在热点词语分析、发展趋势等方面有着积极的作用。人们尝试了不同的方法想要得到某些学科领域一段时间内的发展方向和研究进展，以科技文献的关键词作为分析对象进行统计分析是预测学科的发展趋势多种渠道当中的一个。但该方法存在一定的缺陷，一般科研工作者在关注学科发展趋势的同时会希望浏览一些学科相关的文献，然而词频分析法通常是基于精准词语匹配去推荐相关文献，这使得同类型的文献有可能因关键词的表述不一而无法进行同主题推荐；而且词频分析法会因为关键词的覆盖面不足导致学科主题趋势过于广泛，从而无法精准反映细主题的发展状况。针对该问题，学者们提出了共词分析法，该方法通过探讨词与词之间的亲疏关系去对主题热度进行统计分析，一定程度上缩减了粒度过大的主题。但在相关文献推荐的时候也依旧是基于精准词语匹配进行推荐，仍然存在一定的局限性。而共引分析法研究的对象是文献，它先分析文献之间的纵横交错的关系网，关注高频引用文献，接着分析学科结构，再在此基础上测度被引文献间的主题相似性。然而高被引文献的形成往往需要较长的时间，新兴学科由于研究时长过短且研究内容过于分散，通常被引用的情况不太稳定。因此共引分析法往往在成熟的学科研究上能得到较好的趋势分析结果，但不适合对新兴学科进行分析。上述方法的不足使得信息技术人员重新思考，催生了文本聚类分析法。

由于社交网络的兴起，人们开始使用聚类的方法分析网络主题热点分布，并取得了不错的效果。在此基础上，科研工作者开始将聚类分析法应用至科技文献之上，例如使用LDA模型对新能源类的科技文献进行聚类后再分析其主题生命周期的发展趋势。然而，他们并没有对聚类的性能进行一个定性评估，只是通过人工观测主题词的分布来评估主题聚类的性能，评估方法过于主观。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于科技文献摘要聚类的学术主题生命周期分析方法。

为解决上述技术问题，本发明采用的技术方案是：一种基于科技文献摘要聚类的学术主题生命周期分析方法，包括以下步骤：

S1：获取科技文献摘要数据集，令科技文献摘要数据集为D＝{d₁,d₂,…,d_n}，根据摘要的结构化特性，分段提取文档集的目的句部分，得到目的语句文档集P＝{p₁,p₂,…,p_n}；并使用结巴分词工具对目的语句部分进行分词，再去除停用词，得到词表W＝{w₁,w₂,…,w_N}；

S2：通过对目的语句文档集P进行LDA聚类训练，得到T个主题{t₁,t₂,…,t_T}，将各主题中的词语按照概率从大到小进行排序，令表示主题t_i的第j个词语；

S3：Word2Vec将词表W中的每个单词训练并向量化为一个固定维度的向量{v(w₁),v(w₂),…,v(w_N)}；

S4：选择主题t_i中最高概率的前h词，并将其权重进行重新缩放，缩放公式如下：然后再对单词向量进行加权求和，得到主题向量v(t_i），加权求和公式

S5：计算文档向量：对p_i的所有词语的向量求和取平均，得到文档中所有词的质心v(p_i)，质心

S6：计算向量间的相似度，将文档归类至与之最为相似的主题中，即可完成聚类，并得到聚类结果，在此使用余弦距离求解文档向量与主题向量的相似度，计算公式如下：

S7：根据聚类结果，统计各个主题中文献发表年份，按照主题各年的文献分布情况得到各个学术主题的生命周期曲线。

优选地，所述步骤S2具体还包括：

S21：通过TFIDF特征提取算法提取目的语句文档集P＝{p₁,p₂,…,p_n}中每篇科技文献摘要的前5大TFIDF值的词语作为科技文献关键词。

S22：通过AP聚类算法去计算最优聚类主题数。

在步骤S21以及S22中，由于新的目的语句文档集P没有确定主题数，通过TFIDF特征提取算法提取目的语句文档集P＝{p₁,p₂,…,p_n}中每篇科技文献摘要的前5大TFIDF值的词语作为科技文献关键词，通过AP聚类算法去计算最优聚类主题数。通过使用最优聚类主题数既可以涵盖尽量多的信息，也避免了主题数过大导致程序运行时间过长，实现程序效果和效率的双重最优。

S23：对词表W＝{w₁,w₂,…,w_N}进行统计，然后去除词表W＝{w₁,w₂,…,w_N}中出现频率较高的词汇。在本步骤中，去除词表W中出现频率较高的词汇，是为了得到纯化后的词表。

与现有技术相比，本发明的有益效果是：

本发明针对科技文献摘要提出了一种基于LDA和Word2Vec的新的聚类方法，使得学科主题生命周期分析能更加客观合理；该算法在针对科技文献摘要聚类时取得比传统聚类算法更加好的聚类结果，为学科生命周期分析的准确性提供了坚实的基础；通过PW-LDA算法对大量的科技文献数据进行聚类，并生成学科主题生命周期曲线，经人工抽样分析确认，其学科主题生命周期曲线符合现实发展规律。

附图说明

图1为本发明的流程示意图。

图2为本发明中PW-LDA聚类算法关键流程。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

实施例

图1至图2为本发明一种基于科技文献摘要聚类的学术主题生命周期分析方法的第一实施例，一种基于科技文献摘要聚类的学术主题生命周期分析方法，包括以下步骤：

S1：获取科技文献摘要数据集，令科技文献摘要数据集为D＝{d₁,d₂,…,d_n}，根据摘要的结构化特性，分段提取文档集的目的句部分，得到目的语句文档集P＝{p₁,p₂,…,p_n}；并使用结巴分词工具对目的语句部分进行分词，再去除停用词，得到词表W＝{w₁,w₂,…,w_N}。

S2：通过对目的语句文档集P进行LDA聚类训练，得到T个主题{t₁,t₂,…,t_T}，将各主题中的词语按照概率从大到小进行排序，令表示主题t_i的第j个词语。

S3：Word2Vec将词表W中的每个单词训练并向量化为一个固定维度的向量{v(w₁),v(w₂),…,v(w_N)}。

S4：选择主题t_i中最高概率的前h词，并将其权重进行重新缩放，缩放公式如下：然后再对单词向量进行加权求和，得到主题向量v(t_i)，加权求和公式

其中，步骤S2具体还包括：

S22：通过AP聚类算法去计算最优聚类主题数。

S23：对词表W＝{w₁,w₂,…,w_N}进行统计，然后去除词表W＝{w₁，w₂，…，w_N}中出现频率较高的词汇。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于科技文献摘要聚类的学术主题生命周期分析方法，其特征在于，包括以下步骤：

2.一种基于科技文献摘要聚类的学术主题生命周期分析方法，其特征在于，所述步骤S2具体还包括：

S21：通过TFIDF特征提取算法提取目的语句文档集P＝{p₁,p₂,…,p_n}中每篇科技文献摘要的前5大TFIDF值的词语作为科技文献关键词；

S22：通过AP聚类算法去计算最优聚类主题数；

S23：对词表W＝{w₁,w₂,…,w_N}进行统计，然后去除词表W＝{w₁,w₂,…,w_N}中出现频率较高的词汇。