CN109344248A - 一种基于科技文献摘要聚类的学术主题生命周期分析方法 - Google Patents
一种基于科技文献摘要聚类的学术主题生命周期分析方法 Download PDFInfo
- Publication number
- CN109344248A CN109344248A CN201810847068.1A CN201810847068A CN109344248A CN 109344248 A CN109344248 A CN 109344248A CN 201810847068 A CN201810847068 A CN 201810847068A CN 109344248 A CN109344248 A CN 109344248A
- Authority
- CN
- China
- Prior art keywords
- cluster
- scientific
- theme
- technical literature
- life cycle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 13
- 238000011161 development Methods 0.000 abstract description 7
- 239000000284 extract Substances 0.000 abstract description 2
- 238000005070 sampling Methods 0.000 abstract description 2
- 239000007787 solid Substances 0.000 abstract description 2
- 230000007812 deficiency Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及文本聚类以及生命周期领域,更具体地,涉及一种基于科技文献摘要聚类的学术主题生命周期分析方法。本方法首先将目的语句提炼出来,之后将常用专业词汇从目的语句中剔除,得到提纯后的目的语料,再通过LDA算法获得每个聚类的主题词,结合Word2Vec词向量空间模型得到每个聚类的主题向量和文档向量,最终得到聚类结果。该算法在针对科技文献摘要聚类时取得比传统聚类算法更加好的聚类结果,为学科主题生命周期分析的准确性提供了坚实的基础。然后,我们通过PW‑LDA算法对大量的科技文献数据进行聚类,并生成学科主题生命周期曲线,经人工抽样分析确认,其学科主题生命周期曲线符合现实发展规律。
Description
技术领域
本发明涉及文本聚类以及生命周期领域,更具体地,涉及一种基于科技文献摘要聚类的学术主题生命周期分析方法。
背景技术
当前主题生命周期分析的方法种类繁多,当中以词频分析、共引分析、共词分析、聚类分析最为常见。以真实数据为依据对关键词进行客观统计的词频分析法,因为能较好的避免定性分析方法的个人主观性,客观性和说服力较高,在热点词语分析、发展趋势等方面有着积极的作用。人们尝试了不同的方法想要得到某些学科领域一段时间内的发展方向和研究进展,以科技文献的关键词作为分析对象进行统计分析是预测学科的发展趋势多种渠道当中的一个。但该方法存在一定的缺陷,一般科研工作者在关注学科发展趋势的同时会希望浏览一些学科相关的文献,然而词频分析法通常是基于精准词语匹配去推荐相关文献,这使得同类型的文献有可能因关键词的表述不一而无法进行同主题推荐;而且词频分析法会因为关键词的覆盖面不足导致学科主题趋势过于广泛,从而无法精准反映细主题的发展状况。针对该问题,学者们提出了共词分析法,该方法通过探讨词与词之间的亲疏关系去对主题热度进行统计分析,一定程度上缩减了粒度过大的主题。但在相关文献推荐的时候也依旧是基于精准词语匹配进行推荐,仍然存在一定的局限性。而共引分析法研究的对象是文献,它先分析文献之间的纵横交错的关系网,关注高频引用文献,接着分析学科结构,再在此基础上测度被引文献间的主题相似性。然而高被引文献的形成往往需要较长的时间,新兴学科由于研究时长过短且研究内容过于分散,通常被引用的情况不太稳定。因此共引分析法往往在成熟的学科研究上能得到较好的趋势分析结果,但不适合对新兴学科进行分析。上述方法的不足使得信息技术人员重新思考,催生了文本聚类分析法。
由于社交网络的兴起,人们开始使用聚类的方法分析网络主题热点分布,并取得了不错的效果。在此基础上,科研工作者开始将聚类分析法应用至科技文献之上,例如使用LDA模型对新能源类的科技文献进行聚类后再分析其主题生命周期的发展趋势。然而,他们并没有对聚类的性能进行一个定性评估,只是通过人工观测主题词的分布来评估主题聚类的性能,评估方法过于主观。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于科技文献摘要聚类的学术主题生命周期分析方法。
为解决上述技术问题,本发明采用的技术方案是:一种基于科技文献摘要聚类的学术主题生命周期分析方法,包括以下步骤:
S1:获取科技文献摘要数据集,令科技文献摘要数据集为D={d1,d2,…,dn},根据摘要的结构化特性,分段提取文档集的目的句部分,得到目的语句文档集P={p1,p2,…,pn};并使用结巴分词工具对目的语句部分进行分词,再去除停用词,得到词表W={w1,w2,…,wN};
S2:通过对目的语句文档集P进行LDA聚类训练,得到T个主题{t1,t2,…,tT},将各主题中的词语按照概率从大到小进行排序,令表示主题ti的第j个词语;
S3:Word2Vec将词表W中的每个单词训练并向量化为一个固定维度的向量{v(w1),v(w2),…,v(wN)};
S4:选择主题ti中最高概率的前h词,并将其权重进行重新缩放,缩放公式如下:然后再对单词向量进行加权求和,得到主题向量v(ti),加权求和公式
S5:计算文档向量:对pi的所有词语的向量求和取平均,得到文档中所有词的质心v(pi),质心
S6:计算向量间的相似度,将文档归类至与之最为相似的主题中,即可完成聚类,并得到聚类结果,在此使用余弦距离求解文档向量与主题向量的相似度,计算公式如下:
S7:根据聚类结果,统计各个主题中文献发表年份,按照主题各年的文献分布情况得到各个学术主题的生命周期曲线。
优选地,所述步骤S2具体还包括:
S21:通过TFIDF特征提取算法提取目的语句文档集P={p1,p2,…,pn}中每篇科技文献摘要的前5大TFIDF值的词语作为科技文献关键词。
S22:通过AP聚类算法去计算最优聚类主题数。
在步骤S21以及S22中,由于新的目的语句文档集P没有确定主题数,通过TFIDF特征提取算法提取目的语句文档集P={p1,p2,…,pn}中每篇科技文献摘要的前5大TFIDF值的词语作为科技文献关键词,通过AP聚类算法去计算最优聚类主题数。通过使用最优聚类主题数既可以涵盖尽量多的信息,也避免了主题数过大导致程序运行时间过长,实现程序效果和效率的双重最优。
S23:对词表W={w1,w2,…,wN}进行统计,然后去除词表W={w1,w2,…,wN}中出现频率较高的词汇。在本步骤中,去除词表W中出现频率较高的词汇,是为了得到纯化后的词表。
与现有技术相比,本发明的有益效果是:
本发明针对科技文献摘要提出了一种基于LDA和Word2Vec的新的聚类方法,使得学科主题生命周期分析能更加客观合理;该算法在针对科技文献摘要聚类时取得比传统聚类算法更加好的聚类结果,为学科生命周期分析的准确性提供了坚实的基础;通过PW-LDA算法对大量的科技文献数据进行聚类,并生成学科主题生命周期曲线,经人工抽样分析确认,其学科主题生命周期曲线符合现实发展规律。
附图说明
图1为本发明的流程示意图。
图2为本发明中PW-LDA聚类算法关键流程。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例
图1至图2为本发明一种基于科技文献摘要聚类的学术主题生命周期分析方法的第一实施例,一种基于科技文献摘要聚类的学术主题生命周期分析方法,包括以下步骤:
S1:获取科技文献摘要数据集,令科技文献摘要数据集为D={d1,d2,…,dn},根据摘要的结构化特性,分段提取文档集的目的句部分,得到目的语句文档集P={p1,p2,…,pn};并使用结巴分词工具对目的语句部分进行分词,再去除停用词,得到词表W={w1,w2,…,wN}。
S2:通过对目的语句文档集P进行LDA聚类训练,得到T个主题{t1,t2,…,tT},将各主题中的词语按照概率从大到小进行排序,令表示主题ti的第j个词语。
S3:Word2Vec将词表W中的每个单词训练并向量化为一个固定维度的向量{v(w1),v(w2),…,v(wN)}。
S4:选择主题ti中最高概率的前h词,并将其权重进行重新缩放,缩放公式如下:然后再对单词向量进行加权求和,得到主题向量v(ti),加权求和公式
S5:计算文档向量:对pi的所有词语的向量求和取平均,得到文档中所有词的质心v(pi),质心
S6:计算向量间的相似度,将文档归类至与之最为相似的主题中,即可完成聚类,并得到聚类结果,在此使用余弦距离求解文档向量与主题向量的相似度,计算公式如下:
S7:根据聚类结果,统计各个主题中文献发表年份,按照主题各年的文献分布情况得到各个学术主题的生命周期曲线。
其中,步骤S2具体还包括:
S21:通过TFIDF特征提取算法提取目的语句文档集P={p1,p2,…,pn}中每篇科技文献摘要的前5大TFIDF值的词语作为科技文献关键词。
S22:通过AP聚类算法去计算最优聚类主题数。
S23:对词表W={w1,w2,…,wN}进行统计,然后去除词表W={w1,w2,…,wN}中出现频率较高的词汇。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (2)
1.一种基于科技文献摘要聚类的学术主题生命周期分析方法,其特征在于,包括以下步骤:
S1:获取科技文献摘要数据集,令科技文献摘要数据集为D={d1,d2,…,dn},根据摘要的结构化特性,分段提取文档集的目的句部分,得到目的语句文档集P={p1,p2,…,pn};并使用结巴分词工具对目的语句部分进行分词,再去除停用词,得到词表W={w1,w2,…,wN};
S2:通过对目的语句文档集P进行LDA聚类训练,得到T个主题{t1,t2,…,tT},将各主题中的词语按照概率从大到小进行排序,令表示主题ti的第j个词语;
S3:Word2Vec将词表W中的每个单词训练并向量化为一个固定维度的向量{v(w1),v(w2),…,v(wN)};
S4:选择主题ti中最高概率的前h词,并将其权重进行重新缩放,缩放公式如下:然后再对单词向量进行加权求和,得到主题向量v(ti),加权求和公式
S5:计算文档向量:对pi的所有词语的向量求和取平均,得到文档中所有词的质心v(pi),质心
S6:计算向量间的相似度,将文档归类至与之最为相似的主题中,即可完成聚类,并得到聚类结果,在此使用余弦距离求解文档向量与主题向量的相似度,计算公式如下:
S7:根据聚类结果,统计各个主题中文献发表年份,按照主题各年的文献分布情况得到各个学术主题的生命周期曲线。
2.一种基于科技文献摘要聚类的学术主题生命周期分析方法,其特征在于,所述步骤S2具体还包括:
S21:通过TFIDF特征提取算法提取目的语句文档集P={p1,p2,…,pn}中每篇科技文献摘要的前5大TFIDF值的词语作为科技文献关键词;
S22:通过AP聚类算法去计算最优聚类主题数;
S23:对词表W={w1,w2,…,wN}进行统计,然后去除词表W={w1,w2,…,wN}中出现频率较高的词汇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810847068.1A CN109344248B (zh) | 2018-07-27 | 2018-07-27 | 一种基于科技文献摘要聚类的学术主题生命周期分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810847068.1A CN109344248B (zh) | 2018-07-27 | 2018-07-27 | 一种基于科技文献摘要聚类的学术主题生命周期分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109344248A true CN109344248A (zh) | 2019-02-15 |
CN109344248B CN109344248B (zh) | 2021-10-22 |
Family
ID=65291269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810847068.1A Active CN109344248B (zh) | 2018-07-27 | 2018-07-27 | 一种基于科技文献摘要聚类的学术主题生命周期分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344248B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992245A (zh) * | 2019-04-11 | 2019-07-09 | 河南师范大学 | 一种基于主题模型进行企业科技服务需求建模的方法及系统 |
CN111143511A (zh) * | 2019-12-16 | 2020-05-12 | 北京工业大学 | 新兴技术预测方法、装置、电子设备及介质 |
CN113255340A (zh) * | 2021-07-09 | 2021-08-13 | 北京邮电大学 | 面向科技需求的主题提取方法、装置和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120303623A1 (en) * | 2011-05-26 | 2012-11-29 | Yahoo! Inc. | System for incrementally clustering news stories |
CN104881401A (zh) * | 2015-05-27 | 2015-09-02 | 大连理工大学 | 一种专利文献聚类方法 |
CN106997382A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及系统 |
CN107797983A (zh) * | 2017-04-07 | 2018-03-13 | 平安科技(深圳)有限公司 | 微博数据处理方法、装置、计算机设备及存储介质 |
CN105868178B (zh) * | 2016-03-28 | 2018-07-17 | 浙江大学 | 一种基于短语主题建模的多文档自动摘要生成方法 |
-
2018
- 2018-07-27 CN CN201810847068.1A patent/CN109344248B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120303623A1 (en) * | 2011-05-26 | 2012-11-29 | Yahoo! Inc. | System for incrementally clustering news stories |
CN104881401A (zh) * | 2015-05-27 | 2015-09-02 | 大连理工大学 | 一种专利文献聚类方法 |
CN105868178B (zh) * | 2016-03-28 | 2018-07-17 | 浙江大学 | 一种基于短语主题建模的多文档自动摘要生成方法 |
CN106997382A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及系统 |
CN107797983A (zh) * | 2017-04-07 | 2018-03-13 | 平安科技(深圳)有限公司 | 微博数据处理方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
关鹏 等: "基于LDA主题模型和生命周期理论的科学文献主题挖掘", 《情报学报》 * |
安璐 等: "融合主题与情感特征的突发事件微博舆情演化分析", 《图书情报工作》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992245A (zh) * | 2019-04-11 | 2019-07-09 | 河南师范大学 | 一种基于主题模型进行企业科技服务需求建模的方法及系统 |
CN111143511A (zh) * | 2019-12-16 | 2020-05-12 | 北京工业大学 | 新兴技术预测方法、装置、电子设备及介质 |
CN113255340A (zh) * | 2021-07-09 | 2021-08-13 | 北京邮电大学 | 面向科技需求的主题提取方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109344248B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rezaeian et al. | Science foresight using life-cycle analysis, text mining and clustering: A case study on natural ventilation | |
CN107092596B (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
Khan et al. | Urdu sentiment analysis with deep learning methods | |
CN103744953A (zh) | 一种基于中文文本情感识别的网络热点挖掘方法 | |
CN104794212A (zh) | 基于用户评论文本的上下文情感分类方法及分类系统 | |
CN103678278A (zh) | 一种中文文本情感识别方法 | |
CN103488623A (zh) | 多种语言文本数据分类处理方法 | |
CN106227756A (zh) | 一种基于情感分类的股票指数预测方法及系统 | |
CN105260356A (zh) | 基于多任务学习的中文交互文本情感与话题识别方法 | |
CN107526819A (zh) | 一种面向短文本主题模型的大数据舆情分析方法 | |
CN109344248A (zh) | 一种基于科技文献摘要聚类的学术主题生命周期分析方法 | |
Pota et al. | A subword-based deep learning approach for sentiment analysis of political tweets | |
Gao et al. | Pattern-based topic models for information filtering | |
Lu et al. | A novel fuzzy logic-based text classification method for tracking rare events on twitter | |
Khalid et al. | Topic detection from conversational dialogue corpus with parallel dirichlet allocation model and elbow method | |
Salah et al. | Extracting debate graphs from parliamentary transcripts: A study directed at uk house of commons debates | |
Persia et al. | Improving orienteering-based tourist trip planning with social sensing | |
CN103294811A (zh) | 考虑特征可靠性的视频分类器构造方法 | |
TW201640383A (zh) | 網路事件自動蒐集分析方法及系統 | |
Wu et al. | Wisdom of crowds: SWOT analysis based on hybrid text mining methods using online reviews | |
Li et al. | A method of polarity computation of chinese sentiment words based on gaussian distribution | |
CN108763349B (zh) | 基于社交媒体数据的城市土地利用混合度测算方法及系统 | |
Gao et al. | Topical pattern based document modelling and relevance ranking | |
Setyawan et al. | Sentiment Analysis of Public Responses on Indonesia Government Using Naïve Bayes and Support Vector Machine | |
Mateen et al. | An Analysis on Text Mining Techniques for Smart Literature Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |