CN102222115A - 基于关键词共现的研究热点边连通度分析方法 - Google Patents
基于关键词共现的研究热点边连通度分析方法 Download PDFInfo
- Publication number
- CN102222115A CN102222115A CN2011101957666A CN201110195766A CN102222115A CN 102222115 A CN102222115 A CN 102222115A CN 2011101957666 A CN2011101957666 A CN 2011101957666A CN 201110195766 A CN201110195766 A CN 201110195766A CN 102222115 A CN102222115 A CN 102222115A
- Authority
- CN
- China
- Prior art keywords
- keyword
- weighted graph
- occurrence
- research focus
- data base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于关键词共现的研究热点边连通度分析方法,包括如下步骤:a.从文献数据库DB中获取若干候选关键词n1,n2,n3,……,nm的步骤;b.根据上述关键词ni在文献数据库DB中所有文献中的权重确定该关键词ni的权值wi的步骤;c.构建各关键词的无向赋权图G的步骤;d.将无向赋权图G转化为有向赋权图D并进行运算的步骤;e.根据有向赋权图D来求取研究热点关键词的步骤。采用本发明的方法分析出的关键词能覆盖本领域所需讨论的关键技术问题,能够提炼出有待挖掘的研究热点,作为科技预测、发现新的学科增长点的突破口,从而推动学科的进步和发展。本发明的方法适用于文献知识分析管理技术领域,也同样适用于科学研究领域。
Description
技术领域
本发明涉及一种文献知识分析管理技术领域,特别涉及一种基于关键词共现的研究热点边连通度分析方法。
背景技术
最近几年来,人们对文献管理的研究不断深入,研究的范围不断扩大,文献中标示的关键词范围越来越广,数量越来越多。文献中的关键词是技术内容的提示符,是作者学术思想及学术观点的凝炼,也是文献计量研究的重要指标。同时,有些关键词常常共同出现,两个或更多关键词在同一篇文献中同时出现的现象,人们称之为关键词共现。关键词共现分析是文献计量学常用的一种重要的量化研究方法,这种方法以文献的关键词为基础,通过描述关键词与关键词之间的关联与结合,提示某一领域学术研究内容的内在相关性和学科领域的微观结构:人们通过关键词的共现分析来了解学科的发展动态和发展趋势。某些关键词频频共现,说明这些关键词所反映的学科领域正在蓬勃发展,而且二关键词关系密切,人们通过比较不同时期共现的关键词便可获得关于学科发展、交叉、渗透和兴衰的趋势的相关知识。
因此,基于关键词共现对现阶段学术界研究热点的分析,对把握学科的发展动态和发展趋势,具有重要的意义。例如,某一时期发现某一学科有相当一部分科学家的论文显示某两个或更多术语频频共现,便认为这种共现展示了该学科的一个新的蓬勃发展的研究领域。基于关键词共现分析还可以用于科技预测,发现新的学科增长点和突破口。例如,如果有文献研究表明术语A与术语B之间存在较强的共现关系,术语A与术语C之间也存在较强的共现关系,那么,可以推测术语B和术语C之间也可能存在某种关联,通过揭示术语B和术语C之间的关系便有可能导致科学上的某种创新性发现。
现阶段基于关键词共现进行研究热点分析的方法主要采用观察值矩阵表面分析,这种分析方法通常只研究观察值矩阵所对应网络图的关联度,其分析的关键词局限于文献所列出的3-5个关键词,通常不能全面反应全文的综合内容及创新观点。并且该方法在关键词共现的分析过程中,往往通过出现频次来定义关键词共现权重,并绘制简单的图标进行表示,对关键词之间的关联度研究分析达不到所想要的结果;分析出的关键词并未能覆盖本领域所需讨论的关键技术问题,难以提炼出有待挖掘的研究热点,更难以通过这种方法来展示学科的发展动态和发展趋势。
发明内容
为了解决上述技术问题,本发明提供一种基于关键词共现的研究热点边连通度分析方法,在文献数据库DB中的每篇文献中提取若干个关键词,其关键词并不局限于文献自身提供的关键词,再对关键词进行权重分析,结合基于赋权图的边连通度的关键词共现分析算法,得到研究热点关键词。
本发明采用的技术解决方案是,一种基于关键词共现的研究热点边连通度分析方法,包括如下步骤:
a.从文献数据库DB中获取若干候选关键词n1,n2,n3,……,nm的步骤;
b.根据上述关键词ni在文献数据库DB中所有文献中的权重确定该关键词ni的权值wi的步骤;
c.构建各关键词的无向赋权图G的步骤:
d.将无向赋权图G转化为有向赋权图D并进行运算的步骤:
e.根据有向赋权图D来求取研究热点关键词的步骤。
进一步的,所述步骤a.从文献数据库DB中获取若干候选关键词n1,n2,n3,……,nm的步骤,包括:
a1.从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词;
a2.计算每个关键词在文献数据库中的所有文献中出现的频次;
a3.取频次从高到低排列的前m个关键词,依次记为:n1,n2,n3,……,nm。
更进一步的,所述步骤a1.从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词,其方法是根据语义分析检索引擎选取每篇文献的若干关键词。
进一步的,所述步骤b.根据上述关键词ni在文献数据库DB中所有文献中的权重确定该关键词ni的权值的步骤,包括:
b1.根据语义分析检索引擎计算出关键词ni在语义分析检索引擎中的权重值,权重值介于0到255之间;
进一步的,所述步骤c.构建各关键词的无向赋权图G的步骤包括:
c1.建立关键词点集为:{n1,n2,n3,……nm},点权值集为:{w1,w2,w3,……wm};
c2.若两个关键词ni和nj在文献数据库DB的同一文献中共现,则该两个关键词ni和nj为赋权图中的一条边ninj,并以该两个关键词共现的文献数量作为边ninj的权值wij。
进一步的,所述步骤d.将无向赋权图G转化为有向赋权图D并进行运算的步骤包括:
d1.计算有向赋权图D中点ni到其他所有顶点的边不交的路的数目最大值ki;
d2.再计算出kiwi。
更进一步的,所述步骤d1.计算有向赋权图D中点ni到其他所有顶点的边不交的路的数目最大值ki,其详细步骤是:
d11.设ni和nj为无向赋权图G的两个不同顶点;
d12.将无向赋权图G转化成有向赋权图D,并取零流fij;
d13.扩大含ni的树T,并寻找fij-可扩路;
d14.运用最大流最小割定理计算出两顶点ni和nj之间的最大流值val(fij),val(fij)则为点ni到点nj的边不交的路的数目最大值;
进一步的,所述步骤e.根据有向赋权图D来求取研究热点关键词的步骤,包括:在有向赋权图D中,计算出满足的点nt。
进一步的,所述步骤a 3、步骤b2和步骤c1中的m≥2。
优选的,所述的m=100。选取m=100个关键词,既能保证所选取的关键词能够覆盖本领域所需讨论的关键技术问题,且能够保证计算机进行数据处理时快速有效。
本发明提供一种基于关键词共现的研究热点边连通度分析方法,在文献数据库DB中的每篇文献中提取若干个关键词,其关键词并不局限于文献自身提供的关键词,再对关键词进行权重分析,结合基于赋权图的边连通度的关键词共现分析算法,得到研究热点关键词。分析出的关键词能覆盖本领域所需讨论的关键技术问题,能够提炼出有待挖掘的研究热点,作为科技预测、发现新的学科增长点的突破口,从而推动学科的进步和发展。本发明的方法适用于文献知识分析管理技术领域,也同样适用于科学研究领域。
附图说明
图1是本发明实施例的流程示意图;
图2是本发明实施例的步骤41算法的软件实现流程。
具体实施方式
现结合附图和具体实施方式对本发明进一步说明。
下面实施中将主要以Autonomy软件为例进行说明,Autonomy是基于语义计算(MBC)的,以之为例是因为Autonomy是该领域公认的领导者,并且在商业应用领域中名声煊赫,在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户;但是,从理论上来说,用其它的相似功能的软件或者方式也是可以的,具体需要实现何种功能或者达到何种效果,相应的实施例中也将给具体说明,因此,Autonomy软件为例仅用于教导本领域技术人员具体如何实施本发明,但不意味仅能使用Autonomy软件,实施过程中可以结合实践需要来确定相应的软件或者方式。
图1是本发明实施例的流程示意图,如图所示,包括如下步骤:
步骤1.从文献数据库DB中获取若干候选关键词n1,n2,n3,……,nm的步骤,其中,步骤1具体包括:
步骤11.运用Autonomy软件从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词;
步骤12.计算每个关键词在文献数据库中的所有文献中出现的频次;
步骤13.取频次从高到低排列的前m个关键词,依次记为:n1,n2,n3,……,nm,且优选m=100来进行分析计算。
步骤2.根据上述关键词ni在文献数据库DB中所有文献中的权重确定该关键词ni的权值wi的步骤,其中,步骤2具体包括:
步骤21.运用Autonomy软件计算出关键词ni在Autonomy中的APCM值(Adaptive Probabilistic Concept Modeling自适应概率建模),APCM值介于0到255之间;
步骤3.构建各关键词的无向赋权图G的步骤,其中,步骤3具体包括:
步骤31.建立关键词点集为:{n1,n2,n3,……,n100},点权值集为:{w1,w2,w3,……,w100};
步骤32.其中,若两个关键词ni和nj在文献数据库DB的同一文献中共现,则该两个关键词ni和nj为无向赋权图G中的一条边ninj,并以该两个关键词共现的文献数量作为边ninj的权值。
步骤4.将无向赋权图G转化为有向赋权图D的步骤,其中,步骤4具体包括:
步骤41.计算有向赋权图D中点ni到其他所有顶点的边不交的路的数目最大值ki,步骤41还包括以下详细步骤包括:
步骤411.设ni和nj为无向赋权图G的两个不同顶点;
步骤412.将无向赋权图G中的每条边用两条有向弧代替,并附上与边相同的权值,构建成有向赋权图D,并取零流fij;
步骤413.扩大含ni的树T,并寻找fij-可扩路;
步骤414.采用最大流最小割定理计算出两顶点ni和nj之间的最大流值val(fij),val(fij)则为点ni到点nj的边不交的路的数目最大值;
步骤42.计算出kiwi。
如图2所示,为本发明实施例的步骤41算法的软件实现流程,实现该算法的基本定理为:Menger’s Theorem定理和最大流最小割定理(The max-flow min-cut Theorem)。根据Menger’s Theorem定理,设ni和nj为无向赋权图G的两个不同顶点,那么无向赋权图G中边不交的(ni,nj)-路的最大数量等于最小(ni,nj)-边割所含的边数。将无向赋权图G转化为有向赋权图D,即通过将无向赋权图G中任一条边ninj用两条有向弧ninj和njni代替,并分别将权值wij赋给这两条弧。有向赋权图D可看成一个网络,并且有向赋权图D的边割所含的边数对应是网络中边割的容量。故由最大流最小割定理,要求G中边不交的(ni,nj)-路的最大数量,只要将D看成以ni为源nj为端的网络,并计算最大流值,该最大流值就是无向赋权图G中边不交的(ni,nj)-路的最大数量。其算法软件实现流程如下:
步骤100:将无向赋权图G的每条边用两条有向弧代替,并赋上与边相同的权值,记得到的有向赋权图为D,执行步骤101;
步骤101:赋初值i=1,j=2,m=100,执行步骤102;
步骤103:T={ni}为树,S=V(T),执行步骤104;
步骤105:把弧a加到T上,记新的树为T,S=V(T),执行步骤107;
步骤106:判断中是否存在fij正向弧a,满足fij(a)>0,若是,则执行步骤105,否则,执行步骤109;
步骤107:判断是否ni∈S,若是,则执行步骤108,否则,执行步骤109;
步骤112:判断是否i=m,若是,则执行步骤113,否则,执行步骤114;
步骤113:判断是否j=m-1,若是,则执行步骤115,否则,执行步骤116;
步骤114:判断是否j=m,若是,则执行步骤119,否则,执行步骤116;
步骤115:输出ki,算法结束;
步骤116:令j=j+1,执行步骤117;
步骤117:判断是否i=j,若是,则执行步骤118,否则,执行步骤103;
步骤118:令j=j+1,执行步骤103;
步骤119:输出ki,i=i+1,j=1,执行步骤103。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
Claims (10)
1.一种基于关键词共现的研究热点边连通度分析方法,其特征在于,包括如下步骤:
a.从文献数据库DB中获取若干候选关键词n1,n2,n3,……,nm的步骤;
b.根据上述关键词ni在文献数据库DB中所有文献中的权重确定该关键词ni的权值wi的步骤;
c.构建各关键词的无向赋权图G的步骤;
d.将无向赋权图G转化为有向赋权图D并进行运算的步骤;
e.根据有向赋权图D来求取研究热点关键词的步骤。
2.根据权利要求1所述的一种基于关键词共现的研究热点边连通度分析方法,其特征在于,所述步骤a.从文献数据库DB中获取若干候选关键词n1,n2,n3,……,nm的步骤,包括:
a1.从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词;
a2.计算每个关键词在文献数据库中的所有文献中出现的频次;
a 3.取频次从高到低排列的前m个关键词,依次记为:n1,n2,n3,……,nm。
3.根据权利要求2所述的一种基于关键词共现的研究热点边连通度分析方法,其特征在于,所述步骤a1.从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词,其方法是运用语义分析检索引擎选取每篇文献的若干关键词。
5.根据权利要求1所述的一种基于关键词共现的研究热点边连通度分析方法,其特征在于,所述步骤c.构建各关键词的无向赋权图G的步骤包括:
c1.建立关键词点集为:{n1,n2,n3,……nm},点权值集为:{w1,w2,w3,……wm};
c2.若两个关键词ni和nj在文献数据库DB的同一文献中共现,则该两个关键词ni和nj为赋权图中的一条边ninj,并以该两个关键词共现的文献数量值作为边ninj的权值wij。
6.根据权利要求1所述的一种基于关键词共现的研究热点边连通度分析方法,其特征在于,所述步骤d.将无向赋权图G转化为有向赋权图D并进行运算的步骤包括:
d1.计算有向赋权图D中点ni到其他所有顶点的边不交的路的数目最大值ki;
d2.计算出kiwi。
9.根据权利要求2或4或5所述的一种基于关键词共现的研究热点边连通度分析方法,其特征在于,所述步骤a 3、步骤b2和步骤c1中的m≥2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110195766 CN102222115B (zh) | 2011-07-12 | 2011-07-12 | 基于关键词共现的研究热点边连通度分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110195766 CN102222115B (zh) | 2011-07-12 | 2011-07-12 | 基于关键词共现的研究热点边连通度分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102222115A true CN102222115A (zh) | 2011-10-19 |
CN102222115B CN102222115B (zh) | 2013-09-11 |
Family
ID=44778667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110195766 Expired - Fee Related CN102222115B (zh) | 2011-07-12 | 2011-07-12 | 基于关键词共现的研究热点边连通度分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102222115B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912646A (zh) * | 2016-04-09 | 2016-08-31 | 北京工业大学 | 一种基于多样性和比例特性的关键词检索方法 |
CN106682172A (zh) * | 2016-12-28 | 2017-05-17 | 江苏大学 | 一种基于关键词的文献研究热点推荐方法 |
WO2018177411A1 (zh) * | 2017-04-01 | 2018-10-04 | 上海半坡网络技术有限公司 | 语义脑图实时表达系统及其操作方法 |
CN109213869A (zh) * | 2017-06-29 | 2019-01-15 | 中国科学技术大学 | 基于多源数据的热点技术预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060095416A1 (en) * | 2004-10-28 | 2006-05-04 | Yahoo! Inc. | Link-based spam detection |
CN1996299A (zh) * | 2006-12-12 | 2007-07-11 | 孙斌 | 对网页和网站评级的方法 |
-
2011
- 2011-07-12 CN CN 201110195766 patent/CN102222115B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060095416A1 (en) * | 2004-10-28 | 2006-05-04 | Yahoo! Inc. | Link-based spam detection |
CN1996299A (zh) * | 2006-12-12 | 2007-07-11 | 孙斌 | 对网页和网站评级的方法 |
Non-Patent Citations (2)
Title |
---|
周军,姜元春,林文龙: "《基于有向带权图的Web用户浏览行为模型》", 《情报理论与实践》, vol. 31, no. 5, 31 December 2008 (2008-12-31), pages 795 - 798 * |
易高峰,刘盛博,赵文华: "《《高等教育研究》研究热点及其知识基础图谱分析》", 《高等教育研究》, vol. 30, no. 10, 31 October 2009 (2009-10-31), pages 74 - 80 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912646A (zh) * | 2016-04-09 | 2016-08-31 | 北京工业大学 | 一种基于多样性和比例特性的关键词检索方法 |
CN105912646B (zh) * | 2016-04-09 | 2019-03-26 | 北京工业大学 | 一种基于多样性和比例特性的关键词检索方法 |
CN106682172A (zh) * | 2016-12-28 | 2017-05-17 | 江苏大学 | 一种基于关键词的文献研究热点推荐方法 |
WO2018177411A1 (zh) * | 2017-04-01 | 2018-10-04 | 上海半坡网络技术有限公司 | 语义脑图实时表达系统及其操作方法 |
US10970489B2 (en) | 2017-04-01 | 2021-04-06 | Shanghai Banpo Network Technologies Ltd. | System for real-time expression of semantic mind map, and operation method therefor |
CN109213869A (zh) * | 2017-06-29 | 2019-01-15 | 中国科学技术大学 | 基于多源数据的热点技术预测方法 |
CN109213869B (zh) * | 2017-06-29 | 2021-08-13 | 中国科学技术大学 | 基于多源数据的热点技术预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102222115B (zh) | 2013-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pandarachalil et al. | Twitter sentiment analysis for large-scale data: an unsupervised approach | |
Luan et al. | A novel attribute reduction algorithm based on rough set and improved artificial fish swarm algorithm | |
Zhang et al. | How to combine term clumping and technology roadmapping for newly emerging science & technology competitive intelligence:“problem & solution” pattern based semantic TRIZ tool and case study | |
Hassan et al. | Twitter sentiment analysis: A bootstrap ensemble framework | |
CN102214245B (zh) | 基于关键词共现的研究热点图论分析方法 | |
CN102222115B (zh) | 基于关键词共现的研究热点边连通度分析方法 | |
Juang et al. | Efficient algorithms for team formation with a leader in social networks | |
Truong et al. | Graph methods for social network analysis | |
Vanaret et al. | Preventing premature convergence and proving the optimality in evolutionary algorithms | |
Bahadori et al. | An improved limited random walk approach for identification of overlapping communities in complex networks | |
Su | Epistemic answer set programming | |
Rautray et al. | Comparative study of DE and PSO over document summarization | |
Tanaka et al. | Comparison of centrality indexes in network Japanese text analysis | |
Bui et al. | On three soft rectangle packing problems with guillotine constraints | |
Moumtzidou et al. | Discovery of environmental nodes in the web | |
Mandal et al. | Text Summarization Technique by Sentiment Analysis and Cuckoo Search Algorithm | |
Abdolazimi et al. | Connected components of big graphs in fixed mapreduce rounds | |
Yang et al. | A spiderweb model for community detection in dynamic networks | |
Camastra et al. | Machine learning-based web documents categorization by semantic graphs | |
Su et al. | An auto-adaptive convex map generating path-finding algorithm: Genetic Convex A | |
Xu et al. | Quantifying the similarity of algorithm configurations | |
Nolet et al. | cuSLINK: Single-linkage Agglomerative Clustering on the GPU | |
Zong et al. | Efficiently answering why-not questions on radius-bounded k-core searches | |
Islam et al. | Application of Minimum Vertex Cover for Keyword–based Text Summarization Process | |
Ben HajKacem et al. | Spark based text clustering method using hashing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130911 Termination date: 20160712 |
|
CF01 | Termination of patent right due to non-payment of annual fee |