CN102214245B - 基于关键词共现的研究热点图论分析方法 - Google Patents

基于关键词共现的研究热点图论分析方法 Download PDF

Info

Publication number
CN102214245B
CN102214245B CN 201110193903 CN201110193903A CN102214245B CN 102214245 B CN102214245 B CN 102214245B CN 201110193903 CN201110193903 CN 201110193903 CN 201110193903 A CN201110193903 A CN 201110193903A CN 102214245 B CN102214245 B CN 102214245B
Authority
CN
China
Prior art keywords
keyword
occurrence
keywords
data base
bibliographic data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110193903
Other languages
English (en)
Other versions
CN102214245A (zh
Inventor
缪惠芳
郑剑香
吴一纯
蔡岗全
陈少敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN 201110193903 priority Critical patent/CN102214245B/zh
Publication of CN102214245A publication Critical patent/CN102214245A/zh
Application granted granted Critical
Publication of CN102214245B publication Critical patent/CN102214245B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于关键词共现的研究热点图论分析方法,包括如下步骤:a.从文献数据库DB中获取若干候选关键词n1,n2,n3,......,nm的步骤;b.根据上述关键词ni在文献数据库DB中所有文献中的权重确定该关键词ni的权值wi的步骤;c.构建各关键词的无向赋权图G的步骤;d.根据无向赋权图G来求取研究热点关键词的步骤。采用本发明的方法分析出的关键词能覆盖本领域所需讨论的关键技术问题,能够提炼出有待挖掘的研究热点,作为科技预测、发现新的学科增长点的突破口,从而推动学科的进步和发展。本发明的方法适用于文献知识分析管理技术领域,也同样适用于科学研究领域。

Description

基于关键词共现的研究热点图论分析方法
技术领域
本发明涉及一种文献知识分析管理技术领域,特别涉及一种基于关键词共现的研究热点图论分析方法。
背景技术
最近几年来,人们对文献管理的研究不断深入,研究的范围不断扩大,文献中标示的关键词范围越来越广,数量越来越多。文献中的关键词是技术内容的提示符,是作者学术思想及学术观点的凝炼,也是文献计量研究的重要指标。同时,有些关键词常常共同出现,两个或更多关键词在同一篇文献中同时出现的现象,人们称之为关键词共现。关键词共现分析是文献计量学常用的一种重要的量化研究方法,这种方法以文献的关键词为基础,通过描述关键词与关键词之间的关联与结合,提示某一领域学术研究内容的内在相关性和学科领域的微观结构:人们通过关键词的共现分析来了解学科的发展动态和发展趋势。某些关键词频频共现,说明这些关键词所反映的学科领域正在蓬勃发展,而且二关键词关系密切,人们通过比较不同时期共现的关键词便可获得关于学科发展、交叉、渗透和兴衰的趋势的相关知识。
因此,基于关键词共现对现阶段学术界研究热点的分析,对把握学科的发展动态和发展趋势,具有重要的意义。例如,某一时期发现某一学科有相当一部分科学家的论文显示某两个或更多术语频频共现,便认为这种共现展示了该学科的一个新的蓬勃发展的研究领域。基于关键词共现分析还可以用于科技预测,发现新的学科增长点和突破口。例如,如果有文献研究表明术语A与术语B之间存在较强的共现关系,术语A与术语C之间也存在较强的共现关系,那么,可以推测术语B和术语C之间也可能存在某种关联,通过揭示术语B和术语C之间的关系便有可能导致科学上的某种创新性发现。
现阶段基于关键词共现进行研究热点分析的方法主要采用观察值矩阵表面分析,这种分析方法通常只研究观察值矩阵所对应网络图的关联度,其分析的关键词局限于文献所列出的3-5个关键词,通常不能全面反应全文的综合内容及创新观点。且该方法在关键词共现的分析过程中,往往通过出现频次来定义关键词共现权重,对关键词之间的关联度研究分析达不到所想要的结果,分析出的关键词并未能覆盖本领域所需讨论的关键技术问题,难以提炼出有待挖掘的研究热点,更难以通过这种方法来展示学科的发展动态和发展趋势。
发明内容
为了解决上述技术问题,本发明提供一种基于关键词共现的研究热点图论分析方法,在文献数据库DB中的每篇文献中提取若干个关键词,其关键词并不局限于文献自身提供的关键词,再对关键词进行权重分析,结合基于赋权图的图论分析算法,得到研究热点关键词。
本发明采用的技术解决方案是,一种基于关键词共现的研究热点图论分析方法,包括如下步骤:
a.从文献数据库DB中获取若干候选关键词n1,n2,n3,......,nm的步骤;
b.根据上述关键词ni在文献数据库DB中所有文献中的权重确定该关键词ni的权值wi的步骤;
c.构建各关键词的无向赋权图G的步骤;
d.根据无向赋权图G来求取研究热点关键词的步骤。
进一步的,所述步骤a.从文献数据库DB中获取若干候选关键词n1,n2,n3,......,nm的步骤,包括:
a1.从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词;
a2.计算每个关键词在文献数据库中的所有文献中出现的频次;
a 3.取频次从高到低排列的前m个关键词,依次记为:n1,n2,n3,......,nm
更进一步的,所述步骤a1.从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词,其方法是根据语义分析检索引擎选取每篇文献的若干关键词。
进一步的,所述步骤b.根据上述关键词ni在文献数据库DB中所有文献中的权重确定该关键词ni的权值wi的步骤,包括:
b1.根据语义分析检索引擎计算出关键词ni在语义分析检索引擎中的权重值,权重值介于0到255之间;
b2.计算所述的该关键词ni的权值为
Figure BDA0000075196040000031
进一步的,所述步骤c.构建各关键词的无向赋权图G的步骤包括:
c1.建立关键词点集为:{n1,n2,n3,......nm},点权值集为:{w1,w2,w3,......wm}。
c2.其中,若两个关键词ni和nj在文献数据库DB的至少一篇文献中共现,则该两个关键词ni和nj为赋权图中的一条边ninj
进一步的,所述步骤d.根据无向赋权图G来求取研究热点关键词的步骤包括:
d1.在无向赋权图G中,计算两顶点ni和nj之间的距离d(ni,nj),所述的两顶点ni和nj之间的距离d(ni,nj)为点ni到点nj之间最短路所经的顶点数加1;
d2.对于点ni,计算点ni的最大距离
Figure BDA0000075196040000041
d3.根据点ni的权值wi和最大距离di来计算wi/di,再求出满足
Figure BDA0000075196040000042
的热点关键词nt
进一步的,其特征在于,所述步骤a3、步骤b2、步骤c、步骤d2中的m≥2。
优选的,所述的m=100。选取m=100个关键词,既能保证所选取的关键词能够覆盖本领域所需讨论的关键技术问题,且能够保证计算机进行数据处理时快速有效。
本发明提供一种基于关键词共现的研究热点图论分析方法,在文献数据库DB中的每篇文献中提取若干个关键词,其关键词并不局限于文献自身提供的关键词,再对关键词进行权重分析,结合基于赋权图的距离的关键词共现图论分析算法,得到研究热点关键词。分析出的关键词能覆盖本领域所需讨论的关键技术问题,能够提炼出有待挖掘的研究热点,作为科技预测、发现新的学科增长点的突破口,从而推动学科的进步和发展。本发明的方法适用于文献知识分析管理技术领域,也同样适用于科学研究领域。
附图说明
图1是本发明实施例的流程示意图;
图2是本发明实施例的步骤4的算法的软件实现流程。
具体实施方式
现结合附图和具体实施方式对本发明进一步说明。
下面实施中将主要以Autonomy软件为例进行说明,Autonomy是基于语义计算(MBC)的,以之为例是因为Autonomy是该领域公认的领军者,并且在商业应用领域中名声煊赫,在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户;但是,从理论上来说,用其它的相似功能的软件或者方式也是可以的,具体需要实现何种功能或者达到何种效果,相应的实施例中也将给具体说明,因此,Autonomy软件为例仅用于教导本领域技术人员具体如何实施本发明,但不意味仅能使用Autonomy软件,实施过程中可以结合实践需要来确定相应的软件或者方式。
图1是本发明实施例的流程示意图,如图所示,包括如下步骤:
步骤1.从文献数据库DB中获取若干候选关键词n1,n2,n3,......,nm的步骤,其中,步骤1具体包括:
步骤11.运用Autonomy软件从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词;
步骤12.计算每个关键词在文献数据库中的所有文献中出现的频次;
步骤13.取频次从高到低排列的前m个关键词,依次记为:n1,n2,n3,......,nm,且优选m=100来进行分析计算。
步骤2.根据上述关键词ni在文献数据库DB中所有文献中的权重确定该关键词ni的权值wi的步骤,其中,步骤2具体包括:
步骤21.运用Autonomy软件计算出关键词ni在Autonomy中的APCM值(Adaptive Probabilistic Concept Modeling自适应概率建模),APCM值介于0到255之间;
步骤22.计算该关键词ni的权值为此时关键词ni的权值介于0到2.55之间。
步骤3.构建各关键词的无向赋权图G的步骤,其中,步骤3具体包括:
步骤31.建立关键词点集为:{n1,n2,n3,......n100},点权值集为:{w1,w2,w3,......w100};
步骤32.其中,若两个关键词ni和nj在文献数据库DB的至少一篇文献中共现,则该两个关键词ni和nj为赋权图中的一条边ninj
步骤4.求取研究热点关键词的步骤,其中,步骤4具体包括:
步骤41.在无向赋权图G中,计算两顶点ni和nj之间的距离d(ni,nj),所述的两顶点ni和nj之间的距离d(ni,nj)为点ni到点nj之间所经的最短路的顶点数加1;
步骤42.对于点ni,计算点ni的最大距离
步骤43.根据点ni的权值wi和最大距离di来计算wi/di,求出满足
Figure BDA0000075196040000062
的关键词ni
如图2所示,为本发明实施例的步骤41和步骤42部分的算法的软件实现流程,包括如下步骤:
步骤100:赋初值m=0,i=1,执行步骤101;
步骤101:V*=V′={ni},di=0;
步骤102:判断是否N(V*)\V′=Φ,若是,则执行步骤103,否则,执行步骤104;
步骤103:输出di,i=i+1,执行步骤105;
步骤104:V*=N(V*)\V′,V′=V′UV*,di=di+1,执行步骤102;
步骤105:判断是否i=100+1,若是,则执行步骤106,否则,执行步骤101;
步骤106:算法结束。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (6)

1.一种基于关键词共现的研究热点图论分析方法,其特征在于,包括如下步骤:
a.从文献数据库DB中获取若干候选关键词n1,n2,n3,……nm的步骤,其中m指代关键词的个数;
b.根据上述关键词ni在文献数据库DB中所有文献中的权重确定该关键词ni的权值wi的步骤;
c.构建各关键词的无向赋权图G的步骤,包括:
c1.建立关键词点集为:{n1,n2,n3,……nm},点权值集为:{w1,w2,w3,……wm},
c2.其中,若两个关键词ni和nj在文献数据库DB的至少一篇文献中共现,则该两个关键词ni和nj为赋权图中的一条边ninj
d.根据无向赋权图G来求取研究热点关键词的步骤,包括:
d1.在无向赋权图G中,计算两顶点ni和nj之间的距离d(ni,nj),所述的两顶点ni和nj之间的距离d(ni,nj)为点ni到点nj之间最短路所经的顶点数加1;
d2.对于点ni,计算点ni的最大距离
Figure FDA00002951167100011
d3.根据点ni的权值wi和最大距离di来计算wi/di,再求出满足
Figure FDA00002951167100012
关键词nt
2.根据权利要求1所述的一种基于关键词共现的研究热点图论分析方法,其特征在于,所述步骤a.从文献数据库DB中获取若干候选关键词n1,n2,n3,……nm的步骤,包括:
a1.从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词;
a2.计算每个关键词在文献数据库中的所有文献中出现的频次;
a3.取频次从高到低排列的前m个关键词,依次记为:n1,n2,n3,……nm
3.根据权利要求2所述的一种基于关键词共现的研究热点图论分析方法,其特征在于,所述步骤a1.从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词,其方法是运用语义分析检索引擎选取每篇文献的若干关键词。
4.根据权利要求1所述的一种基于关键词共现的研究热点图论分析方法,其特征在于,所述步骤b.根据上述关键词ni在文献数据库DB中所有文献中的权重确定该关键词ni的权值wi的步骤,包括:
b1.根据语义分析检索引擎计算出关键词ni在语义分析检索引擎中的权重值,权重值介于0到255之间;
b2.计算所述的该关键词ni的权值为
Figure FDA00002951167100021
5.根据权利要求2或4所述的一种基于关键词共现的研究热点图论分析方法,其特征在于,所述的m≥2。
6.根据权利要求5所述的一种基于关键词共现的研究热点图论分析方法,其特征在于,所述的m=100。
CN 201110193903 2011-07-12 2011-07-12 基于关键词共现的研究热点图论分析方法 Expired - Fee Related CN102214245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110193903 CN102214245B (zh) 2011-07-12 2011-07-12 基于关键词共现的研究热点图论分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110193903 CN102214245B (zh) 2011-07-12 2011-07-12 基于关键词共现的研究热点图论分析方法

Publications (2)

Publication Number Publication Date
CN102214245A CN102214245A (zh) 2011-10-12
CN102214245B true CN102214245B (zh) 2013-09-11

Family

ID=44745553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110193903 Expired - Fee Related CN102214245B (zh) 2011-07-12 2011-07-12 基于关键词共现的研究热点图论分析方法

Country Status (1)

Country Link
CN (1) CN102214245B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779143B (zh) * 2012-01-31 2014-08-27 中国科学院自动化研究所 知识谱系的可视化方法
CN105550216A (zh) * 2015-12-03 2016-05-04 百度在线网络技术(北京)有限公司 学术研究信息的搜索方法、挖掘方法及装置
CN107766318B (zh) * 2016-08-17 2021-03-16 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备
CN106682172A (zh) * 2016-12-28 2017-05-17 江苏大学 一种基于关键词的文献研究热点推荐方法
CN107832398A (zh) * 2017-10-31 2018-03-23 郑州云海信息技术有限公司 一种数据处理方法及装置
CN111782821B (zh) * 2020-06-30 2023-12-19 平安科技(深圳)有限公司 基于fm模型的医学热点的预测方法、装置和计算机设备
CN113643077A (zh) * 2021-10-14 2021-11-12 北京百炼智能科技有限公司 一种标书标的物预测处理方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393566A (zh) * 2008-11-17 2009-03-25 北京交通大学 基于网络结构用户行为模式的信息跟踪与检测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7533092B2 (en) * 2004-10-28 2009-05-12 Yahoo! Inc. Link-based spam detection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393566A (zh) * 2008-11-17 2009-03-25 北京交通大学 基于网络结构用户行为模式的信息跟踪与检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
易高峰,刘盛博,赵文华.《《高等教育研究》研究热点及其知识基础图谱分析》.《高等教育研究》.2009,第30卷(第10期),第75-77页. *
陈超美.《CiteSpace Ⅱ:科学文献中新趋势与新动态的识别与可视化》.《情报学报》.2009,第28卷(第3期),第401-421页. *

Also Published As

Publication number Publication date
CN102214245A (zh) 2011-10-12

Similar Documents

Publication Publication Date Title
CN102214245B (zh) 基于关键词共现的研究热点图论分析方法
Hassan et al. Twitter sentiment analysis: A bootstrap ensemble framework
US9264505B2 (en) Building a semantics graph for an enterprise communication network
CN108287875B (zh) 人物共现关系确定方法、专家推荐方法、装置及设备
JP2020074193A (ja) サーチ方法、装置、設備および不揮発性計算機メモリ
CN110162637B (zh) 信息图谱构建方法、装置及设备
CN103885933A (zh) 用于评价文本的情感度的方法和设备
JP6973255B2 (ja) 単語ベクトル変更装置、方法、及びプログラム
Nedeljković et al. Building a construction project key-phrase network from unstructured text documents
Moya et al. Integrating web feed opinions into a corporate data warehouse
CN102222115B (zh) 基于关键词共现的研究热点边连通度分析方法
Zhang et al. A paper recommender for scientific literatures based on semantic concept similarity
Chen et al. A comparative analysis of system features used in the TREC-COVID information retrieval challenge
Taneja et al. Web information retrieval using query independent page rank algorithm
Cha et al. Topic model based approach for improved indexing in content based document retrieval
Antunes et al. Semantic features for context organization
EP3350726B1 (en) Preventing the distribution of forbidden network content using automatic variant detection
Nagappan et al. Agent based weighted page ranking algorithm for Web content information retrieval
US11544277B2 (en) Query term expansion and result selection
Zong et al. Efficiently answering why-not questions on radius-bounded k-core searches
CN103678400B (zh) 基于群体搜索行为的网页分类方法及装置
KR20210029007A (ko) 딥러닝 기반의 정보 분류 방법 및 그 장치
CN103870520A (zh) 用于搜索信息的设备和方法
Ying et al. An enhanced intelligent forum crawler
Kim et al. Enhancing Text Document Clustering Using Non-negative Matrix Factorization and WordNet

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130911

Termination date: 20160712

CF01 Termination of patent right due to non-payment of annual fee