CN109344248B - 一种基于科技文献摘要聚类的学术主题生命周期分析方法 - Google Patents

一种基于科技文献摘要聚类的学术主题生命周期分析方法 Download PDF

Info

Publication number
CN109344248B
CN109344248B CN201810847068.1A CN201810847068A CN109344248B CN 109344248 B CN109344248 B CN 109344248B CN 201810847068 A CN201810847068 A CN 201810847068A CN 109344248 B CN109344248 B CN 109344248B
Authority
CN
China
Prior art keywords
clustering
scientific
life cycle
word
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810847068.1A
Other languages
English (en)
Other versions
CN109344248A (zh
Inventor
陆遥
李昌洲
吴峻峰
郭君雨
张弛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810847068.1A priority Critical patent/CN109344248B/zh
Publication of CN109344248A publication Critical patent/CN109344248A/zh
Application granted granted Critical
Publication of CN109344248B publication Critical patent/CN109344248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本聚类以及生命周期领域,更具体地,涉及一种基于科技文献摘要聚类的学术主题生命周期分析方法。本方法首先将目的语句提炼出来,之后将常用专业词汇从目的语句中剔除,得到提纯后的目的语料,再通过LDA算法获得每个聚类的主题词,结合Word2Vec词向量空间模型得到每个聚类的主题向量和文档向量,最终得到聚类结果。该算法在针对科技文献摘要聚类时取得比传统聚类算法更加好的聚类结果,为学科主题生命周期分析的准确性提供了坚实的基础。然后,我们通过PW‑LDA算法对大量的科技文献数据进行聚类,并生成学科主题生命周期曲线,经人工抽样分析确认,其学科主题生命周期曲线符合现实发展规律。

Description

一种基于科技文献摘要聚类的学术主题生命周期分析方法
技术领域
本发明涉及文本聚类以及生命周期领域,更具体地,涉及一种基于科技文献摘要聚类的学术主题生命周期分析方法。
背景技术
当前主题生命周期分析的方法种类繁多,当中以词频分析、共引分析、共词分析、聚类分析最为常见。以真实数据为依据对关键词进行客观统计的词频分析法,因为能较好的避免定性分析方法的个人主观性,客观性和说服力较高,在热点词语分析、发展趋势等方面有着积极的作用。人们尝试了不同的方法想要得到某些学科领域一段时间内的发展方向和研究进展,以科技文献的关键词作为分析对象进行统计分析是预测学科的发展趋势多种渠道当中的一个。但该方法存在一定的缺陷,一般科研工作者在关注学科发展趋势的同时会希望浏览一些学科相关的文献,然而词频分析法通常是基于精准词语匹配去推荐相关文献,这使得同类型的文献有可能因关键词的表述不一而无法进行同主题推荐;而且词频分析法会因为关键词的覆盖面不足导致学科主题趋势过于广泛,从而无法精准反映细主题的发展状况。针对该问题,学者们提出了共词分析法,该方法通过探讨词与词之间的亲疏关系去对主题热度进行统计分析,一定程度上缩减了粒度过大的主题。但在相关文献推荐的时候也依旧是基于精准词语匹配进行推荐,仍然存在一定的局限性。而共引分析法研究的对象是文献,它先分析文献之间的纵横交错的关系网,关注高频引用文献,接着分析学科结构,再在此基础上测度被引文献间的主题相似性。然而高被引文献的形成往往需要较长的时间,新兴学科由于研究时长过短且研究内容过于分散,通常被引用的情况不太稳定。因此共引分析法往往在成熟的学科研究上能得到较好的趋势分析结果,但不适合对新兴学科进行分析。上述方法的不足使得信息技术人员重新思考,催生了文本聚类分析法。
由于社交网络的兴起,人们开始使用聚类的方法分析网络主题热点分布,并取得了不错的效果。在此基础上,科研工作者开始将聚类分析法应用至科技文献之上,例如使用LDA模型对新能源类的科技文献进行聚类后再分析其主题生命周期的发展趋势。然而,他们并没有对聚类的性能进行一个定性评估,只是通过人工观测主题词的分布来评估主题聚类的性能,评估方法过于主观。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于科技文献摘要聚类的学术主题生命周期分析方法。
为解决上述技术问题,本发明采用的技术方案是:一种基于科技文献摘要聚类的学术主题生命周期分析方法,包括以下步骤:
S1:获取科技文献摘要数据集,令科技文献摘要数据集为D={d1,d2,...,dn},根据摘要的结构化特性,分段提取文档集的目的语句部分,得到目的语句文档集P={p1,p2,...,pn};并使用结巴分词工具对目的语句部分进行分词,再去除停用词,得到词表W={w1,w2,...,wN};
S2:通过对目的语句文档集P进行LDA聚类训练,得到T个主题{t1,t2,...,tT},将各主题中的词语按照概率从大到小进行排序,令
Figure GDA0003123786290000021
表示主题ti的第j个词语;
S3:Word2Vec将词表W中的每个单词训练并向量化为一个固定维度的向量{v(w1),v(w2),...,v(wN)};
S4:选择主题ti中最高概率的前h词,并将其权重进行重新缩放,缩放公式如下:
Figure GDA0003123786290000022
然后再对单词向量进行加权求和,得到主题向量v(ti),加权求和公式
Figure GDA0003123786290000023
S5:计算文档向量:对pi的所有词语的向量求和取平均,得到文档中所有词的质心v(pi),质心
Figure GDA0003123786290000024
S6:计算向量间的相似度,将文档归类至与之最为相似的主题中,即可完成聚类,并得到聚类结果,在此使用余弦距离求解文档向量与主题向量的相似度,计算公式如下:
Figure GDA0003123786290000025
S7:根据聚类结果,统计各个主题中文献发表年份,按照主题各年的文献分布情况得到各个学术主题的生命周期曲线。
优选地,所述步骤S2具体还包括:
S21:通过TFIDF特征提取算法提取目的语句文档集P={p1,p2,...,pn}中每篇科技文献摘要的前5大TFIDF值的词语作为科技文献关键词。
S22:通过AP聚类算法去计算最优聚类主题数。
在步骤S21以及S22中,由于新的目的语句文档集P没有确定主题数,通过TFIDF特征提取算法提取目的语句文档集P={p1,p2,...,pn}中每篇科技文献摘要的前5大TFIDF值的词语作为科技文献关键词,通过AP聚类算法去计算最优聚类主题数。通过使用最优聚类主题数既可以涵盖尽量多的信息,也避免了主题数过大导致程序运行时间过长,实现程序效果和效率的双重最优。
S23:对词表W={w1,w2,...,wN}进行统计,然后去除词表W={w1,w2,...,wN}中出现频率较高的词汇。在本步骤中,去除词表W中出现频率较高的词汇,是为了得到纯化后的词表。
与现有技术相比,本发明的有益效果是:
本发明针对科技文献摘要提出了一种基于LDA和Word2Vec的新的聚类方法,使得学科主题生命周期分析能更加客观合理;该算法在针对科技文献摘要聚类时取得比传统聚类算法更加好的聚类结果,为学科生命周期分析的准确性提供了坚实的基础;通过PW-LDA算法对大量的科技文献数据进行聚类,并生成学科主题生命周期曲线,经人工抽样分析确认,其学科主题生命周期曲线符合现实发展规律。
附图说明
图1为本发明的流程示意图。
图2为本发明中PW-LDA聚类算法关键流程。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例
图1至图2为本发明一种基于科技文献摘要聚类的学术主题生命周期分析方法的第一实施例,一种基于科技文献摘要聚类的学术主题生命周期分析方法,包括以下步骤:
S1:获取科技文献摘要数据集,令科技文献摘要数据集为D={d1,d2,...,dn},根据摘要的结构化特性,分段提取文档集的目的语句部分,得到目的语句文档集P={p1,p2,...,pn};并使用结巴分词工具对目的语句部分进行分词,再去除停用词,得到词表W={w1,w2,...,wN}。
S2:通过对目的语句文档集P进行LDA聚类训练,得到T个主题{t1,t2,...,tT},将各主题中的词语按照概率从大到小进行排序,令
Figure GDA0003123786290000041
表示主题ti的第j个词语。S3:Word2Vec将词表W中的每个单词训练并向量化为一个固定维度的向量{v(w1),v(w2),...,v(wN)}。
S4:选择主题ti中最高概率的前h词,并将其权重进行重新缩放,缩放公式如下:
Figure GDA0003123786290000042
然后再对单词向量进行加权求和,得到主题向量v(ti),加权求和公式
Figure GDA0003123786290000043
S5:计算文档向量:对pi的所有词语的向量求和取平均,得到文档中所有词的质心v(pi),质心
Figure GDA0003123786290000044
S6:计算向量间的相似度,将文档归类至与之最为相似的主题中,即可完成聚类,并得到聚类结果,在此使用余弦距离求解文档向量与主题向量的相似度,计算公式如下:
Figure GDA0003123786290000045
S7:根据聚类结果,统计各个主题中文献发表年份,按照主题各年的文献分布情况得到各个学术主题的生命周期曲线。
其中,步骤S2具体还包括:
S21:通过TFIDF特征提取算法提取目的语句文档集P={p1,p2,...,pn}中每篇科技文献摘要的前5大TFIDF值的词语作为科技文献关键词。
S22:通过AP聚类算法去计算最优聚类主题数。
S23:对词表W={w1,w2,...,wN}进行统计,然后去除词表W={w1,w2,...,wN}中出现频率较高的词汇。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (2)

1.一种基于科技文献摘要聚类的学术主题生命周期分析方法,其特征在于,包括以下步骤:
S1:获取科技文献摘要数据集,令科技文献摘要数据集为D={d1,d2,...,dn},根据摘要的结构化特性,分段提取文档集的目的语句部分,得到目的语句文档集P={p1,p2,...,pn};并使用结巴分词工具对目的语句部分进行分词,再去除停用词,得到词表W={w1,w2,...,wN};
S2:通过对目的语句文档集P进行LDA聚类训练,得到T个主题{t1,t2,...,tT},将各主题中的词语按照概率从大到小进行排序,令
Figure FDA0003123786280000011
表示主题ti的第j个词语;
S3:Word2Vec将词表W中的每个单词训练并向量化为一个固定维度的向量{v(w1),v(w2),...,v(wN)};
S4:选择主题ti中最高概率的前h词,并将其权重进行重新缩放,缩放公式如下:
Figure FDA0003123786280000012
然后再对单词向量进行加权求和,得到主题向量v(ti),加权求和公式
Figure FDA0003123786280000013
S5:计算文档向量:对pi的所有词语的向量求和取平均,得到文档中所有词的质心v(pi),质心
Figure FDA0003123786280000014
S6:计算向量间的相似度,将文档归类至与之最为相似的主题中,即可完成聚类,并得到聚类结果,在此使用余弦距离求解文档向量与主题向量的相似度,计算公式如下:
Figure FDA0003123786280000015
S7:根据聚类结果,统计各个主题中文献发表年份,按照主题各年的文献分布情况得到各个学术主题的生命周期曲线。
2.根据权利要求1所述的基于科技文献摘要聚类的学术主题生命周期分析方法,其特征在于,所述步骤S2具体还包括:
S21:通过TFIDF特征提取算法提取目的语句文档集P={p1,p2,...,pn}中每篇科技文献摘要的前5大TFIDF值的词语作为科技文献关键词;
S22:通过AP聚类算法去计算最优聚类主题数;
S23:对词表W={w1,w2,...,wN}进行统计,然后去除词表W={w1,w2,...,wN}中出现频率较高的词汇。
CN201810847068.1A 2018-07-27 2018-07-27 一种基于科技文献摘要聚类的学术主题生命周期分析方法 Active CN109344248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810847068.1A CN109344248B (zh) 2018-07-27 2018-07-27 一种基于科技文献摘要聚类的学术主题生命周期分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810847068.1A CN109344248B (zh) 2018-07-27 2018-07-27 一种基于科技文献摘要聚类的学术主题生命周期分析方法

Publications (2)

Publication Number Publication Date
CN109344248A CN109344248A (zh) 2019-02-15
CN109344248B true CN109344248B (zh) 2021-10-22

Family

ID=65291269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810847068.1A Active CN109344248B (zh) 2018-07-27 2018-07-27 一种基于科技文献摘要聚类的学术主题生命周期分析方法

Country Status (1)

Country Link
CN (1) CN109344248B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992245A (zh) * 2019-04-11 2019-07-09 河南师范大学 一种基于主题模型进行企业科技服务需求建模的方法及系统
CN111143511A (zh) * 2019-12-16 2020-05-12 北京工业大学 新兴技术预测方法、装置、电子设备及介质
CN113255340B (zh) * 2021-07-09 2021-11-02 北京邮电大学 面向科技需求的主题提取方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881401A (zh) * 2015-05-27 2015-09-02 大连理工大学 一种专利文献聚类方法
CN106997382A (zh) * 2017-03-22 2017-08-01 山东大学 基于大数据的创新创意标签自动标注方法及系统
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN105868178B (zh) * 2016-03-28 2018-07-17 浙江大学 一种基于短语主题建模的多文档自动摘要生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8832105B2 (en) * 2011-05-26 2014-09-09 Yahoo! Inc. System for incrementally clustering news stories

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881401A (zh) * 2015-05-27 2015-09-02 大连理工大学 一种专利文献聚类方法
CN105868178B (zh) * 2016-03-28 2018-07-17 浙江大学 一种基于短语主题建模的多文档自动摘要生成方法
CN106997382A (zh) * 2017-03-22 2017-08-01 山东大学 基于大数据的创新创意标签自动标注方法及系统
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于LDA主题模型和生命周期理论的科学文献主题挖掘;关鹏 等;《情报学报》;20150331;第34卷(第3期);第286-299页 *
融合主题与情感特征的突发事件微博舆情演化分析;安璐 等;《图书情报工作》;20170831;第61卷(第15期);第120-129页 *

Also Published As

Publication number Publication date
CN109344248A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN109783639B (zh) 一种基于特征提取的调解案件智能分派方法及系统
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN109344248B (zh) 一种基于科技文献摘要聚类的学术主题生命周期分析方法
CN107403017A (zh) 一种智能分析实时新闻对金融市场影响的方法
CN110955776A (zh) 一种政务文本分类模型的构建方法
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN117151870B (zh) 一种基于客群画像行为分析方法及系统
CN110765266B (zh) 一种裁判文书相似争议焦点合并方法及系统
CN106528768A (zh) 一种咨询热点分析方法及装置
CN112417893A (zh) 一种基于语义层次聚类的软件功能需求分类方法及系统
CN117474507A (zh) 一种基于大数据应用技术的智能招聘匹配方法及系统
CN106776978B (zh) 专家库建立办法和装置
CN115330130A (zh) 基于改进ahp-critic的农业园区综合能源系统评估方法
CN112987940B (zh) 一种基于样本概率量化的输入方法、装置和电子设备
TW201416887A (zh) 新聞文本情緒傾向分析方法
CN114491081A (zh) 基于数据血缘关系图谱的电力数据溯源方法及系统
CN116050419B (zh) 一种面向科学文献知识实体的无监督识别方法及系统
CN109255014A (zh) 基于多种算法提升文件关键词准确度的识别方法
CN110196911B (zh) 一种民生数据自动分类管理系统
CN115600602B (zh) 一种长文本的关键要素抽取方法、系统及终端设备
CN106991171A (zh) 基于智慧校园信息服务平台的话题发现方法
Ahrendt et al. Co-occurrence models in music genre classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant