CN102222115A

CN102222115A - 基于关键词共现的研究热点边连通度分析方法

Info

Publication number: CN102222115A
Application number: CN2011101957666A
Authority: CN
Inventors: 缪惠芳; 郑剑香; 吴一纯; 蔡岗全; 陈少敏
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2011-07-12
Filing date: 2011-07-12
Publication date: 2011-10-19
Anticipated expiration: 2031-07-12
Also published as: CN102222115B

Abstract

本发明提供一种基于关键词共现的研究热点边连通度分析方法，包括如下步骤：a.从文献数据库DB中获取若干候选关键词n₁，n₂，n₃，……，n_m的步骤；b.根据上述关键词n_i在文献数据库DB中所有文献中的权重确定该关键词n_i的权值w_i的步骤；c.构建各关键词的无向赋权图G的步骤；d.将无向赋权图G转化为有向赋权图D并进行运算的步骤；e.根据有向赋权图D来求取研究热点关键词的步骤。采用本发明的方法分析出的关键词能覆盖本领域所需讨论的关键技术问题，能够提炼出有待挖掘的研究热点，作为科技预测、发现新的学科增长点的突破口，从而推动学科的进步和发展。本发明的方法适用于文献知识分析管理技术领域，也同样适用于科学研究领域。

Description

基于关键词共现的研究热点边连通度分析方法

技术领域

本发明涉及一种文献知识分析管理技术领域，特别涉及一种基于关键词共现的研究热点边连通度分析方法。

背景技术

最近几年来，人们对文献管理的研究不断深入，研究的范围不断扩大，文献中标示的关键词范围越来越广，数量越来越多。文献中的关键词是技术内容的提示符，是作者学术思想及学术观点的凝炼，也是文献计量研究的重要指标。同时，有些关键词常常共同出现，两个或更多关键词在同一篇文献中同时出现的现象，人们称之为关键词共现。关键词共现分析是文献计量学常用的一种重要的量化研究方法，这种方法以文献的关键词为基础，通过描述关键词与关键词之间的关联与结合，提示某一领域学术研究内容的内在相关性和学科领域的微观结构：人们通过关键词的共现分析来了解学科的发展动态和发展趋势。某些关键词频频共现，说明这些关键词所反映的学科领域正在蓬勃发展，而且二关键词关系密切，人们通过比较不同时期共现的关键词便可获得关于学科发展、交叉、渗透和兴衰的趋势的相关知识。

因此，基于关键词共现对现阶段学术界研究热点的分析，对把握学科的发展动态和发展趋势，具有重要的意义。例如，某一时期发现某一学科有相当一部分科学家的论文显示某两个或更多术语频频共现，便认为这种共现展示了该学科的一个新的蓬勃发展的研究领域。基于关键词共现分析还可以用于科技预测，发现新的学科增长点和突破口。例如，如果有文献研究表明术语A与术语B之间存在较强的共现关系，术语A与术语C之间也存在较强的共现关系，那么，可以推测术语B和术语C之间也可能存在某种关联，通过揭示术语B和术语C之间的关系便有可能导致科学上的某种创新性发现。

现阶段基于关键词共现进行研究热点分析的方法主要采用观察值矩阵表面分析，这种分析方法通常只研究观察值矩阵所对应网络图的关联度，其分析的关键词局限于文献所列出的3-5个关键词，通常不能全面反应全文的综合内容及创新观点。并且该方法在关键词共现的分析过程中，往往通过出现频次来定义关键词共现权重，并绘制简单的图标进行表示，对关键词之间的关联度研究分析达不到所想要的结果；分析出的关键词并未能覆盖本领域所需讨论的关键技术问题，难以提炼出有待挖掘的研究热点，更难以通过这种方法来展示学科的发展动态和发展趋势。

发明内容

为了解决上述技术问题，本发明提供一种基于关键词共现的研究热点边连通度分析方法，在文献数据库DB中的每篇文献中提取若干个关键词，其关键词并不局限于文献自身提供的关键词，再对关键词进行权重分析，结合基于赋权图的边连通度的关键词共现分析算法，得到研究热点关键词。

本发明采用的技术解决方案是，一种基于关键词共现的研究热点边连通度分析方法，包括如下步骤：

a.从文献数据库DB中获取若干候选关键词n₁，n₂，n₃，……，n_m的步骤；

b.根据上述关键词n_i在文献数据库DB中所有文献中的权重确定该关键词n_i的权值w_i的步骤；

c.构建各关键词的无向赋权图G的步骤：

d.将无向赋权图G转化为有向赋权图D并进行运算的步骤：

e.根据有向赋权图D来求取研究热点关键词的步骤。

进一步的，所述步骤a.从文献数据库DB中获取若干候选关键词n₁，n₂，n₃，……，n_m的步骤，包括：

a1.从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词；

a2.计算每个关键词在文献数据库中的所有文献中出现的频次；

a3.取频次从高到低排列的前m个关键词，依次记为：n₁，n₂，n₃，……，n_m。

更进一步的，所述步骤a1.从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词，其方法是根据语义分析检索引擎选取每篇文献的若干关键词。

进一步的，所述步骤b.根据上述关键词n_i在文献数据库DB中所有文献中的权重确定该关键词n_i的权值的步骤，包括：

b1.根据语义分析检索引擎计算出关键词n_i在语义分析检索引擎中的权重值，权重值介于0到255之间；

b2.计算所述的该关键词n_i的权值为

此时关键词n_i的权值介于0到2.55之间。

进一步的，所述步骤c.构建各关键词的无向赋权图G的步骤包括：

c1.建立关键词点集为：{n₁，n₂，n₃，……n_m}，点权值集为：{w₁，w₂，w₃，……w_m}；

c2.若两个关键词n_i和n_j在文献数据库DB的同一文献中共现，则该两个关键词n_i和n_j为赋权图中的一条边n_in_j，并以该两个关键词共现的文献数量作为边n_in_j的权值w_ij。

进一步的，所述步骤d.将无向赋权图G转化为有向赋权图D并进行运算的步骤包括：

d1.计算有向赋权图D中点n_i到其他所有顶点的边不交的路的数目最大值k_i；

d2.再计算出k_iw_i。

更进一步的，所述步骤d1.计算有向赋权图D中点n_i到其他所有顶点的边不交的路的数目最大值k_i，其详细步骤是：

d11.设n_i和n_j为无向赋权图G的两个不同顶点；

d12.将无向赋权图G转化成有向赋权图D，并取零流f_ij；

d13.扩大含n_i的树T，并寻找f_ij-可扩路；

d14.运用最大流最小割定理计算出两顶点n_i和n_j之间的最大流值val(f_ij)，val(f_ij)则为点n_i到点n_j的边不交的路的数目最大值；

d15.计算点n_i到其他所有顶点的边不交的路的数目最大值

记为k_i。

进一步的，所述步骤e.根据有向赋权图D来求取研究热点关键词的步骤，包括：在有向赋权图D中，计算出满足的点n_t。

进一步的，所述步骤a 3、步骤b2和步骤c1中的m≥2。

优选的，所述的m＝100。选取m＝100个关键词，既能保证所选取的关键词能够覆盖本领域所需讨论的关键技术问题，且能够保证计算机进行数据处理时快速有效。

本发明提供一种基于关键词共现的研究热点边连通度分析方法，在文献数据库DB中的每篇文献中提取若干个关键词，其关键词并不局限于文献自身提供的关键词，再对关键词进行权重分析，结合基于赋权图的边连通度的关键词共现分析算法，得到研究热点关键词。分析出的关键词能覆盖本领域所需讨论的关键技术问题，能够提炼出有待挖掘的研究热点，作为科技预测、发现新的学科增长点的突破口，从而推动学科的进步和发展。本发明的方法适用于文献知识分析管理技术领域，也同样适用于科学研究领域。

附图说明

图1是本发明实施例的流程示意图；

图2是本发明实施例的步骤41算法的软件实现流程。

具体实施方式

现结合附图和具体实施方式对本发明进一步说明。

下面实施中将主要以Autonomy软件为例进行说明，Autonomy是基于语义计算(MBC)的，以之为例是因为Autonomy是该领域公认的领导者，并且在商业应用领域中名声煊赫，在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户；但是，从理论上来说，用其它的相似功能的软件或者方式也是可以的，具体需要实现何种功能或者达到何种效果，相应的实施例中也将给具体说明，因此，Autonomy软件为例仅用于教导本领域技术人员具体如何实施本发明，但不意味仅能使用Autonomy软件，实施过程中可以结合实践需要来确定相应的软件或者方式。

图1是本发明实施例的流程示意图，如图所示，包括如下步骤：

步骤1.从文献数据库DB中获取若干候选关键词n₁，n₂，n₃，……，n_m的步骤，其中，步骤1具体包括：

步骤11.运用Autonomy软件从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词；

步骤12.计算每个关键词在文献数据库中的所有文献中出现的频次；

步骤13.取频次从高到低排列的前m个关键词，依次记为：n₁，n₂，n₃，……，n_m，且优选m＝100来进行分析计算。

步骤2.根据上述关键词n_i在文献数据库DB中所有文献中的权重确定该关键词n_i的权值w_i的步骤，其中，步骤2具体包括：

步骤21.运用Autonomy软件计算出关键词n_i在Autonomy中的APCM值(Adaptive Probabilistic Concept Modeling自适应概率建模)，APCM值介于0到255之间；

步骤22.计算该关键词n_i的权值为

此时关键词n_i的权值介于0到2.55之间。

步骤3.构建各关键词的无向赋权图G的步骤，其中，步骤3具体包括：

步骤31.建立关键词点集为：{n₁，n₂，n₃，……，n₁₀₀}，点权值集为：{w₁，w₂，w₃，……，w₁₀₀}；

步骤32.其中，若两个关键词n_i和n_j在文献数据库DB的同一文献中共现，则该两个关键词n_i和n_j为无向赋权图G中的一条边n_in_j，并以该两个关键词共现的文献数量作为边n_in_j的权值。

步骤4.将无向赋权图G转化为有向赋权图D的步骤，其中，步骤4具体包括：

步骤41.计算有向赋权图D中点n_i到其他所有顶点的边不交的路的数目最大值k_i，步骤41还包括以下详细步骤包括：

步骤411.设n_i和n_j为无向赋权图G的两个不同顶点；

步骤412.将无向赋权图G中的每条边用两条有向弧代替，并附上与边相同的权值，构建成有向赋权图D，并取零流f_ij；

步骤413.扩大含n_i的树T，并寻找f_ij-可扩路；

步骤414.采用最大流最小割定理计算出两顶点n_i和n_j之间的最大流值val(f_ij)，val(f_ij)则为点n_i到点n_j的边不交的路的数目最大值；

步骤415.计算点n_i到其他所有顶点的边不交的路的数目最大值

记为k_i。

步骤42.计算出k_iw_i。

步骤5.根据有向赋权图D来求取研究热点关键词的步骤，其中，步骤5具体包括：在有向赋权图D中，计算出满足

的点n_t，该点n_t所代表的关键词n_t即为研究热点关键词。

如图2所示，为本发明实施例的步骤41算法的软件实现流程，实现该算法的基本定理为：Menger’s Theorem定理和最大流最小割定理(The max-flow min-cut Theorem)。根据Menger’s Theorem定理，设n_i和n_j为无向赋权图G的两个不同顶点，

那么无向赋权图G中边不交的(n_i，n_j)-路的最大数量等于最小(n_i，n_j)-边割所含的边数。将无向赋权图G转化为有向赋权图D，即通过将无向赋权图G中任一条边n_in_j用两条有向弧n_in_j和n_jn_i代替，并分别将权值w_ij赋给这两条弧。有向赋权图D可看成一个网络，并且有向赋权图D的边割所含的边数对应是网络中边割的容量。故由最大流最小割定理，要求G中边不交的(n_i，n_j)-路的最大数量，只要将D看成以n_i为源n_j为端的网络，并计算最大流值，该最大流值就是无向赋权图G中边不交的(n_i，n_j)-路的最大数量。其算法软件实现流程如下：

步骤100：将无向赋权图G的每条边用两条有向弧代替，并赋上与边相同的权值，记得到的有向赋权图为D，执行步骤101；

步骤101：赋初值i＝1，j＝2，m＝100，执行步骤102；

步骤102：设n_i为网络源，n_i为网络端，取零流f_ij，即

f_ij(a)＝0，，c(a)＝w(a)，其中w(a)为a的权值或容量，执行步骤103；

步骤103：T＝{n_i}为树，S＝V(T)，执行步骤104；

步骤104：判断

中是否存在不饱和弧a，(即a在f_ij中的流量小于a的容量)，使得a的弧尾(tail)与T相连，若是，则执行步骤105，否则，执行步骤106；

步骤105：把弧a加到T上，记新的树为T，S＝V(T)，执行步骤107；

步骤106：判断中是否存在f_ij正向弧a，满足f_ij(a)＞0，若是，则执行步骤105，否则，执行步骤109；

步骤107：判断是否n_i∈S，若是，则执行步骤108，否则，执行步骤109；

步骤108：在T中取(n_i，n_j)-路P(即f_ij-可扩路)，令

此时

执行步骤110；

步骤109：判断

中是否存在不饱和弧，若是，则执行步骤112，否则，执行步骤104；

步骤110：得到一新流

令

执行步骤111；

步骤111：

k_ij＝val(f_ij)，k_i＝max(k_i，k_ij)，返回执行步骤103；

步骤112：判断是否i＝m，若是，则执行步骤113，否则，执行步骤114；

步骤113：判断是否j＝m-1，若是，则执行步骤115，否则，执行步骤116；

步骤114：判断是否j＝m，若是，则执行步骤119，否则，执行步骤116；

步骤115：输出k_i，算法结束；

步骤116：令j＝j+1，执行步骤117；

步骤117：判断是否i＝j，若是，则执行步骤118，否则，执行步骤103；

步骤118：令j＝j+1，执行步骤103；

步骤119：输出k_i，i＝i+1，j＝1，执行步骤103。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种基于关键词共现的研究热点边连通度分析方法，其特征在于，包括如下步骤：

c.构建各关键词的无向赋权图G的步骤；

d.将无向赋权图G转化为有向赋权图D并进行运算的步骤；

e.根据有向赋权图D来求取研究热点关键词的步骤。

2.根据权利要求1所述的一种基于关键词共现的研究热点边连通度分析方法，其特征在于，所述步骤a.从文献数据库DB中获取若干候选关键词n₁，n₂，n₃，……，n_m的步骤，包括：

a 3.取频次从高到低排列的前m个关键词，依次记为：n₁，n₂，n₃，……，n_m。

3.根据权利要求2所述的一种基于关键词共现的研究热点边连通度分析方法，其特征在于，所述步骤a1.从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词，其方法是运用语义分析检索引擎选取每篇文献的若干关键词。

4.根据权利要求1所述的一种基于关键词共现的研究热点边连通度分析方法，其特征在于，所述步骤b.根据上述关键词n_i在文献数据库DB中所有文献中的权重确定该关键词n_i的权值w_i的步骤，包括：

b2.计算所述的该关键词n_i的权值为

此时关键词n_i的权值介于0到2.55之间。

5.根据权利要求1所述的一种基于关键词共现的研究热点边连通度分析方法，其特征在于，所述步骤c.构建各关键词的无向赋权图G的步骤包括：

c2.若两个关键词n_i和n_j在文献数据库DB的同一文献中共现，则该两个关键词n_i和n_j为赋权图中的一条边n_in_j，并以该两个关键词共现的文献数量值作为边n_in_j的权值w_ij。

6.根据权利要求1所述的一种基于关键词共现的研究热点边连通度分析方法，其特征在于，所述步骤d.将无向赋权图G转化为有向赋权图D并进行运算的步骤包括：

d2.计算出k_iw_i。

7.根据权利要求6所述的一种基于关键词共现的研究热点边连通度分析方法，其特征在于，所述步骤d1.计算有向赋权图D中点n_i到其他所有顶点的边不交的路的数目最大值k_i，其详细步骤是：

d11.设n_i和n_j为无向赋权图G的两个不同顶点；

d12.将无向赋权图G构建成有向赋权图D，并取零流f_ij；

d13.扩大含n_i的树T，并寻找f_ij-可扩路；

d14.采用最大流最小割定理计算出两顶点n_i和n_j之间的最大流值val(f_ij)，val(f_ij)则为点n_i到点n_j的边不交的路的数目最大值；

d15.计算点n_i到其他所有顶点的边不交的路的数目最大值

记为k_i。

8.根据权利要求1所述的一种基于关键词共现的研究热点边连通度分析方法，其特征在于，所述步骤e.根据有向赋权图D来求取研究热点关键词的步骤，包括：在有向赋权图D中，计算出满足

的点n_t。

9.根据权利要求2或4或5所述的一种基于关键词共现的研究热点边连通度分析方法，其特征在于，所述步骤a 3、步骤b2和步骤c1中的m≥2。

10.根据权利要求9所述的一种基于关键词共现的研究热点边连通度分析方法，其特征在于，所述的m＝100。