CN110929044A

CN110929044A - 一种面向学术合作网络的社区检测方法和装置

Info

Publication number: CN110929044A
Application number: CN201911220175.2A
Authority: CN
Inventors: 杜航原; 裴希亚
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-03-27

Abstract

本发明属于社会网络分析技术领域，具体涉及一种面向学术合作网络的社区检测方法和装置。本发明一种面向学术合作网络的社区检测方法具体步骤为：获取学者发表论文的数据，对数据进行预处理，计算出每两个学者之间的合作次数；构建邻接矩阵与学术合作网络；搜索社区中心学者；分配非中心学者；输出社区检测结果。本发明一种面向学术合作网络的社区检测装置包括处理器、缓存、通信接口和储存介质通过总线连接。且处理器包括：获取数据模块，邻接矩阵构建模块，搜索社区中心学者模块，分配非中心学者模块，和输出检测结果模块构成。本发明有效提高了学术合作以及学术社区检测的精度和检测效率。

Description

一种面向学术合作网络的社区检测方法和装置

技术领域

本发明属于社会网络分析技术领域，具体涉及一种面向学术合作网络的社区检测方法和装置。

背景技术

在知识经济时代，学者在科技创新方面扮演着重要角色，而科研合作有利于知识的共享，学者在将自己的知识和经验共享的同时，也有可能给彼此带来创作的灵感，因此科研合作对于技术创新有重要的作用。随着越来越多的学者在各个领域开展了大量的合作，学术合作网络变得更加庞大与复杂，其中蕴含着大量有价值的信息。通常将由学者论文合作关系数据构建的学术合作网络建模为复杂网络，其中将学者抽象为网络节点，将学者之间的合作关系抽象为节点之间的连边。社区结构作为一种数据组织形式广泛存在于各种复杂网络中，如：在学术合作网络中具有共同研究兴趣的学者往往形成同一社区，而社区中心是该领域的一些权威专家。对学术合作网络进行社区结构挖掘，可以获取个人、机构以及地区之间的科研合作与学术交流水平，也可以获取该网络中学者合作的紧密程度与合作模式以及各个学科发展趋势，这样不仅有利于学者找到合适的合作对象，同时也能反映特定领域的热点问题和科研合作质量，能帮助学者了解所在学科。

传统的社区检测方法认为每个学者只能归属于一个学术团体。随着研究的深入，人们发现存在一个学者同时参与多个学术团体的情况，即社区结构表现出重叠特性。除此之外，学术合作网络含有丰富的属性信息，社区的形成除了与节点间拓扑结构相关外，还受到节点的属性信息的影响，如：具有共同研究兴趣的学者往往构成同一社区。然而传统的社区检测方法仅依赖拓扑关系进行社区结构的检测，忽略了节点的属性信息在社区形成中的作用。有的方法虽然考虑到了节点的属性信息，也是独立运用拓扑结构和节点属性两类信息进行社区检测，忽略了两类信息在网络社区形成过程中的共同作用。这都导致了社区检测结果可靠性不高。

发明内容

针对检测结果准确度差，效率低等问题本发明提供了一种面向学术合作网络的社区检测方法和装置。

为了达到上述目的，本发明采用了下列技术方案：

一种面向学术合作网络的社区检测方法，包括以下步骤:

步骤1，获取数据；

步骤2，构建邻接矩阵与学术合作网络；

步骤3，搜索社区中心学者；

步骤4，分配非中心学者；

步骤5，输出社区检测结果。

进一步地，所述步骤1中获取数据的具体操作为：

获取学者发表论文的数据，对数据进行预处理，计算出每两个学者之间的合作次数。学者之间的合作次数越多，表明两个学者的研究课题越相似，通过分析所有学者的合作关系及合作次数，可以让学者很容易找到跟他研究领域相同的其他学者，为学者提供了合适的合作对象。

所述预处理的具体操作是将学者发表论文的数据进行合作关系的匹配；

所述学者发表论文的数据包括作者、题目、摘要、关键字和项目资助信息。

再进一步地，所述步骤2中构建邻接矩阵与学术合作网络的具体操作为：

依据学者间的合作关系建立学术合作网络的邻接矩阵：

其中i和j表示学者，n表示学者的总数，

表示由不同学者之间的合作关系构成的邻接矩阵，

表示第i个学者与第j个学者之间的合作关系；若两个学者之间有合作关系，则

否则

研究邻接矩阵中学者之间的合作关系，可以更好的了解作者合作的紧密程度与合作模式。

通过邻接矩阵构建学术合作网络：G＝＜V,E,HG＞

其中，G表示一个学术合作网络，

表示由网络中的n个学者组成的集合，v_i表示学术合作网络中第i个学者的节点；

表示由学术合作网络中学者间合作关系对应的边组成的集合，节点间的边e_i,j代表第i个学者与第j 个学者存在合作关系；

表示学术合作网络中学者间的合作次数组成的集合，其中HG(i,j)表示第i个学者与第j个学者的合作次数。在由各个学者构成的学术合作网络G中，网络中的稠密部分能反映特定领域的热点问题。

所述学术合作网络中的每一个网络节点表示一个学者；

所述学术合作网络是由学者论文的合作关系数据构建的。

更进一步地，所述步骤3中的搜索社区中心学者的具体操作为：

抽取出学术合作网络中包含的所有模体

其中

表示模体中包含的边的总数，η表示模体中包含的节点总数；

所述模体

是由

条边和η个节点组成的闭合环状结构；

将HG(i,j)作为两个学者间的属性同质值，计算每个模体的属性同质值，计算公式如下：

其中A_r表示第r个模体的属性同质值，δ_r表示第r个模体中边的总数，b表示模体中每条边的编号，start_b和end_b表示模体中由第b条边相连的两个学者；

所述属性同质值表示学术合作网络中对应的两个学者间的属性相似程度， A_r取值越大，表示学术合作网络中两个学者之间的属性相似程度越高。学者之间的属性相似度越高，表明两个学者的研究领域越相似。

计算包含在模体中的任意两个学者之间的属性-结构连接强度，计算公式如下：

其中attr_ij表示包含在模体中的学者v_i和v_j之间的属性-结构连接强度，MT_r表示学术合作网络G＝＜V,E,HG＞中的第r个模体，{i,j}∈MT_r表示学者v_i和v_j同时被包含在MT_r中；

对于学者v_i，通过遍历学术合作网络中所有的学者，计算学者v_i的密集度，计算公式如下：

其中Density_i表示学者v_i的密集度，n为学术合作网络中的学者总数，学者v_i的密集度是学者与社区内其它学者间的属性-结构连接强度之和。学者的密集度越大，表明学者与社区内其他学者之间不仅有很大的属性相似度而且存在着很强的拓扑结构联系。

计算两个学者间的相似度和每条边的边适应度：

Φ_i＝Nb(i)+{v_i}-{v_j}和Φ_j＝Nb(j)+{v_j}-{v_i}表示由边e_i,j连接的两个学者邻域，其中{v_i}表示只包含学者v_i的集合，{v_j}表示只包含学者v_j的集合，Nb(i)和Nb(j) 分别表示学者v_i和学者v_j的相邻学者，与学者v_i有合作关系的其他学者称为学者 v_i的相邻学者；

计算两个相邻学者间的直接相似度，计算公式如下：

其中DS(i,j)为学者v_i与v_j之间的直接相似度，用于表示学术合作网络中相邻学者之间的相似程度；AS(i,j)为学者v_i与v_j之间的属性相似度，用于表示学术合作网络中两个学者之间的属性相似程度；AS(i)为学者v_i与所有相邻学者的属性相似度总和；Degree(r)为与学者v_r有直接关联关系的学者总和；

计算两个不相邻学者间的间接相似度，计算公式如下：

其中IS(i,j)为学者v_i与学者v_j间的间接相似度，用于表示学术合作网络中不相邻学者间的相似程度，num＝min(DS(i,i₁),DS(i₁,i₂),...,DS(i_n,j))，num表示由学者v_i到学者v_j的路径中所有相邻学者间直接相似度的最小值，dt_max为设定的阈值，dt_i,j为学者v_i与学者v_j之间的路径长度；

计算学术合作网络G＝＜V,E,HG＞中两个学者v_i和v_j之间的相似度S(i,j)，计算公式如下：

其中S(i,j)用于表示学术合作网络中学者v_i与v_j间的相似度，DS(i,j)为学术合作网络中学者v_i与v_j之间的直接相似度，IS(i,j)为学术合作网络中学者v_i与v_j间的间接相似度。直接相似度指有直接合作关系的两个学者之间的相似度，间接相似度存在间接合作关系的两个学者之间的相似度，作者之间的相似度越大，表明研究的领域越相似。

计算每条边的边适应度，用于表示学术合作网络中两个学者之间关联性的强度，取值越大，两个学者关联性越强，计算公式如下：

其中，EF_ij表示边e_i,j的边适应度，

和

分别表示边e_i,j相对于学者邻域Φ_i和Φ_j的边适应度；

计算边e_i,j相对于学者邻域Φ_i的边适应度，计算公式如下：

其中

表示边e_i,j相对于学者邻域Φ_i的边适应度，

表示学者邻域Φ_j内学者间相似度总和，v_a和v_b是学者邻域Φ_j内的任意两个不同的学者，

表示学者邻域Φ_j内学者与学者邻域Φ_i内学者间相似度总和， v_a是学者邻域Φ_i内的学者，v_b是学者邻域Φ_j内的学者，

表示学者v_i与节点邻域Φ_j内学者间相似度总和，v_b是节点邻域Φ_j内的学者，

表示学者v_i与学者邻域Φ_i内学者间相似度总和，v_a是学者邻域Φ_i内不同于学者v_i的学者，S(a,b)表示学者v_a和v_b之间的相似度；

计算边e_i,j相对于学者邻域Φ_j的边适应度，计算公式如下：

其中

表示边e_i,j相对于学者邻域Φ_j的边适应度，

表示学者邻域Φ_i内学者间相似度总和，v_a和v_b是学者邻域Φ_i内的任意两个不同的学者；

表示学者邻域Φ_j内学者与学者邻域Φ_i内学者间相似度总和，v_a是学者邻域Φ_i内的学者，v_b是学者邻域Φ_j内的学者；

表示学者v_j与学者邻域Φ_i内学者间相似度总和，v_a是学者邻域Φ_i内的学者；

表示学者v_j与学者邻域Φ_j内学者间相似度总和，v_b是学者邻域Φ_j内不同于学者v_j的学者，S(a,b)表示学者v_a和v_b之间的相似度。边适应度表示学术合作网络中两个学者之间关联性的强度，取值越大，两个学者关联性越强，研究的领域越相似。

计算学者的间隔度：

对于学者v_i，通过遍历学术合作网络中所有的学者，找出比学者vⁱ密集度大的学者，学者v_i的间隔度的计算公式如下：

其中，Interval_i为学者v_i的间隔度，学者v_j是比学者v_i的密集度大的学者，EF_ij为边e_i,j的边适应度，Density_i和Density_j分别表示学者v_i和v_j的密集度。间隔度是指学者与比其密集度大的所有学者的关联性强度的和的倒数，其值越大，表明学者与比其密集度大的所有学者之间的关联性越弱，从而表明学者与比其密集度大的学者的研究领域相差很远。这有助于发现不同领域的研究热点。

选出社区中心集合：选择密集度Density_i和间隔度Interval_i乘积最大的K个学者作为学术合作网络各个社区的社区中心，其中第k个社区的中心节点记为c_k，从而得到社区中心学者集合

由每个社区中心作者确定一个社区。作者的密集度Density_i和间隔度Interval_i乘积最大，说明作者与本研究领域内的其他作者有很强的关联性和属性相似度，而与其他研究领域的作者有很弱的关联性和属性相似度。密集度Density_i和间隔度Interval_i乘积最大的作者符合社区中心的特性，故将该作者作为社区中心。

更进一步地，所述步骤4中分配非中心学者的具体操作为：

根据隶属度分配非中心学者，对学术合作网络进行社区结构划分，以找出至少一个社区；

根据密集度和间隔度，计算非中心学者关于每个社区的隶属度，用来表示非中心学者隶属于该社区的概率大小，

非中心学者集合

中的第u个学者h_u，如果非中心学者h_u的密集度小于第k个社区中心c_k的密集度，则根据公式(11)计算第u个学者h_u关于第k 个社区的隶属度MS_uk；否则MS_uk＝0；

其中，MS_uk表示学者h_u关于第k个社区的隶属度，EF_uk表示边e_u,k的边适应度，其取值越大表示两个学者关联性越强，EF_ux表示边e_u,x的边适应度，LC_u表示比学者h_u的密集度大的社区中心学者的集合；

通过设定阈值判断非中心学者是否为重叠节点，对于学者v_i，

将学者v_i分配到社区k，其中

表示学者v_i关于社区1的隶属度MS_i1、学者v_i关于社区2的隶属度MS_i2、...、学者v_i关于社区g的隶属度MS_ig中所有隶属度的最大值。学者v_i关于社区k的隶属度与关于社区g的隶属度满足MS_ig/MS_ik＞θ(0＜θ＜1)，θ为阈值，则学者v_i是社区k和 g的重叠节点；

再通过隶属度将非中心学者分配到隶属度最大的社区。非中心学者关于社区的隶属度越大，非中心学者与该社区内的其他作者之间的属性相似度和关联性越强。故将非中心学者分配到隶属度最大的社区，该社区由具有共同研究兴趣的学者构成，这有助于学者找到合适的合作对象。

更进一步地，所述步骤5输出社区检测结果的具体操作是：划分后的每个社区由具有共同研究兴趣的学者构成，对学术合作网络进行社区结构挖掘，获取个人、机构以及地区之间的科研合作与学术交流情况，获取学术合作网络中学者合作的紧密程度与合作模式以及各个学科发展趋势；学者根据学术合作网络了解所在学科和特定领域的热点问题和科研合作情况，找到合适的合作对象。由于具有共同研究兴趣的学者构成同一社区，所以学者通过寻找同一社区中的其他学者就可以找到合适的合作对象。

一种面向学术合作网络的社区检测装置，包括以下设备构成：处理器、缓存、通信接口和储存介质通过总线连接；

所述处理器包括：获取数据模块，用于获取学术合作网络中学者发表论文的数据；邻接矩阵构建模块，用于根据获取的数据构建邻接矩阵；搜索社区中心学者模块，用于检测学术合作网络中的社区中心学者；分配非中心学者模块，用于将非中心学者分配到相应的的社区结构中；和输出检测结果模块，用于将划分好的社区结构进行输出。

进一步地，所述获取数据模块，具体用于获取学术合作网络中学者发表论文的数据，对数据进行预处理，计算出每两个学者之间的合作次数；

所述邻接矩阵构建模块，具体用于根据学者之间的合作关系构建邻接矩阵和学术合作网络，其中学术合作网络中的每一个网络节点表示一个学者；

所述搜索社区中心学者模块，具体用于抽取出网络中包含的所有模体，在此基础上计算每个模体的属性同质值，用于表示模体中所有节点间的属性相似程度；计算包含在模体中的任意两个学者之间的属性-结构连接强度，用于表示学者之间的属性相似程度和关联性强度；计算学者的密集度；计算两个学者间的相似度和每条边的边适应度，边适应度用来表示学者之间的关联性强度；计算学者的间隔度；选出社区中心集合，由每个社区中心确定一个社区；

所述分配非中心学者模块，具体用于计算非中心学者关于每个社区的隶属度，用来表示非中心学者隶属于该社区的概率大小，在此基础上，通过设定阈值判断非中心学者是否为重叠节点，最后通过隶属度将非中心学者分配到相应的的社区结构中；

所述输出检测结果模块，具体用于将划分好的社区结构进行输出，划分后的每个社区由具有共同研究兴趣的学者构成，对学术合作网络进行社区结构挖掘，获取个人、机构以及地区之间的科研合作与学术交流情况，获取学术合作网络中学者合作的紧密程度与合作模式以及各个学科发展趋势；学者根据学术合作网络了解所在学科和特定领域的热点问题和科研合作情况，找到合适的合作对象。

与现有技术相比本发明具有以下优点：

1.本发明融合学术合作网络拓扑结构信息和学者属性信息，有效提高了社区检测的精度，可以更加精准的检测出学术合作网络中存在的社区结构。在学术合作网络中，具有共同研究兴趣的学者往往形成同一社区，从中挖掘出这些信息可以对于学者未来的合作提供积极的帮助。

2.本发明基于密度峰值聚类思想设计了学术合作网络社区中心的快速搜索算法，可以在短时间内快速搜索到社区中心，大大提高了社区检测效率。学术合作网络的社区中心是该领域的一些权威专家，掌握权威专家有利于了解相应学科的发展趋势和特定领域的热点问题。

附图说明

图1为本发明的一个方面的学术合作网络社区检测方法的总体流程图；

图2为本发明的一个方面的netscience学术合作网络拓扑结构示意图；

图3为本发明的一个方面的

的模体结构图；

图4为本发明的一个方面的

的模体结构图；

图5为本发明的一个方面的

的模体结构图；

图6为本发明的一个方面的边e_1,5的学者邻域的示意图，其中Nb(1)＝{2,4,5}， Nb(5)＝{1,6,7}；

图7为本发明一个方面的netscience学术合作网络社区结构划分结果示意图；

图8为本发明一种终端设备结构示意图；

图9为本发明一个方面的netscience学术合作网络社区检测装置结构示意图。

具体实施方式

为了使本技术领域的相关人员更好的理解本说明书实施例中的技术方案，下面将结合本说明书一个实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

示例性实施例被描述成作为流程图描绘的处理或方法，虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行的、并发的或者同时实施。

实施例1

本发明一种面向学术合作网络的社区检测方法，见图1，为本发明的一个方面的学术合作网络社区检测方法的总体流程图：

步骤1，获取学者发表论文的数据，数据包括作者、题目、摘要、关键字和项目资助信息，将学者发表论文的数据进行合作关系的匹配，计算出每两个学者之间的合作次数。

步骤2，依据学者间的合作关系建立学术合作网络的邻接矩阵：

其中i和j表示学者，n表示学者的总数，

表示由不同学者之间的合作关系构成的邻接矩阵，

否则

通过邻接矩阵构建学术合作网络：G＝＜V,E,HG＞；其中，G表示一个学术合作网络，

表示由学术合作网络中学者间合作关系对应的边组成的集合，节点间的边e_i,j代表第i个学者与第j个学者存在合作关系；

表示学术合作网络中学者间的合作次数组成的集合，其中 HG(i,j)表示第i个学者与第j个学者的合作次数。如图2为本发明的一个方面的 netscience学术合作网络拓扑结构示意图所示，该网络由88个节点，248条边构成。

学术合作网络中的每一个网络节点表示一个学者，学术合作网络是由学者论文的合作关系数据构建的。

步骤3，搜索社区中心学者，抽取出学术合作网络中包含的所有模体

其中

表示模体中包含的边的总数，η表示模体中包含的节点总数；模体

是由

条边和η个节点组成的闭合环状结构；如图3、图4、图5分别为本发明的一个方面的

的模体结构图、

的模体结构图和

的模体结构图。

属性同质值表示学术合作网络中对应的两个学者间的属性相似程度，A_r取值越大，表示学术合作网络中两个学者之间的属性相似程度越高；

其中Density_i表示学者v_i的密集度，n为学术合作网络中的学者总数，学者v_i的密集度是学者与社区内其它学者间的属性-结构连接强度之和。

计算两个学者间的相似度和每条边的边适应度：

Φ_i＝Nb(i)+{v_i}-{v_j}和Φ_j＝Nb(j)+{v_j}-{v_i}表示由边e_i,j连接的两个学者邻域，如图6为本发明的一个方面的边e_1,5的学者邻域的示意图，其中Nb(1)＝{2,4,5}， Nb(5)＝{1,6,7}；其中{v_i}表示只包含学者v_i的集合，{v_j}表示只包含学者v_j的集合，Nb(i)和Nb(j)分别表示学者v_i和学者v_j的相邻学者，与学者v_i有合作关系的其他学者称为学者v_i的相邻学者；

计算两个相邻学者间的直接相似度，计算公式如下：

计算两个不相邻学者间的间接相似度，计算公式如下：

其中S(i,j)用于表示学术合作网络中学者v_i与v_j间的相似度，DS(i,j)为学术合作网络中学者v_i与v_j之间的直接相似度，IS(i,j)为学术合作网络中学者v_i与v_j间的间接相似度；

其中，EF_ij表示边e_i,j的边适应度，

和

分别表示边e_i,j相对于学者邻域Φ_i和Φ_j的边适应度；

计算边e_i,j相对于学者邻域Φ_i的边适应度，计算公式如下：

其中

表示边e_i,j相对于学者邻域Φ_i的边适应度，

计算边e_i,j相对于学者邻域Φ_j的边适应度，计算公式如下：

其中

表示边e_i,j相对于学者邻域Φ_j的边适应度，

表示学者v_j与学者邻域Φ_j内学者间相似度总和，v_b是学者邻域Φ_j内不同于学者v_j的学者，S(a,b)表示学者v_a和v_b之间的相似度；

计算学者的间隔度：

对于学者v_i，通过遍历学术合作网络中所有的学者，找出比学者v_i密集度大的学者，学者v_i的间隔度的计算公式如下：

其中，Interval_i为学者v_i的间隔度，学者v_j是比学者v_i的密集度大的学者，EF_ij为边e_i,j的边适应度，Density_i和Density_j分别表示学者v_i和v_j的密集度；

由每个社区中心作者确定一个社区。

步骤4，根据隶属度分配非中心学者，对学术合作网络进行社区结构划分，以找出至少一个社区；

非中心学者集合

将学者v_i分配到社区k，其中

再通过隶属度将非中心学者分配到隶属度最大的社区。

步骤5，输出社区检测结果的具体操作是：划分后的每个社区由具有共同研究兴趣的学者构成，对学术合作网络进行社区结构挖掘，获取个人、机构以及地区之间的科研合作与学术交流情况，获取学术合作网络中学者合作的紧密程度与合作模式以及各个学科发展趋势；学者根据学术合作网络了解所在学科和特定领域的热点问题和科研合作情况，找到合适的合作对象。如图7为本发明一个方面的netscience学术合作网络社区结构划分结果示意图。其中圆形节点表示重叠节点，即同时有多个兴趣的学者；其他形状的节点，每个形状的节点分别代表一个社区，即有共同兴趣和研究领域的学者。

本发明一种面向学术合作网络的社区检测装置，其特征在于：包括以下设备构成：处理器、缓存、通信接口和储存介质通过总线连接；如图8所示出了按照本公开的另一方面的netscience学术合作网络社区检测装置结构示意图。

计算设备可以包括至少一个处理器、缓存、通信接口和存储介质，并且至少一个处理器、缓存、通信接口和存储介质经由总线连接在一起。至少一个处理器执行在存储器中存储或编码的至少一个计算机可读指令。

根据一个实施例，提供了一种比如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令，该指令当被机器执行时，使得机器执行本公开的实施例中图1和图8描述的各种操作和功能。具体的，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

存储介质是指任何的各种类型的存储器设备或存储设备。包括安装介质、计算机系统存储器或随机存取存储器、非易失性存储器和寄存器等。存储介质可以还包括其它类型的存储器或其组合。存储介质可以存储可由一个或多个处理器执行的程序指令。

上述实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。以上实施例中，硬件单元或模块可以通过机械方式或电器方式实现。例如：一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑来完成相应操作。

图9为本发明的又一方面的netscience学术合作网络社区检测装置模块示意图；学术合作网络社区检测装置可以包括获取数据模块、邻接矩阵构建模块、搜索社区中心学者、分配非中心学者模块及输出检测结果模块。用于由学术合作网络中检测学者所在的学术圈，所述学术合作网络是由学者论文的合作关系数据构建的，所述学者是所述学术合作网络的其中一个网络节点。

获取数据模块，具体用于获取学术合作网络中学者发表论文的数据，对数据进行预处理，计算出每两个学者之间的合作次数；

邻接矩阵构建模块，具体用于根据学者之间的合作关系构建邻接矩阵和学术合作网络，其中学术合作网络中的每一个网络节点表示一个学者；

搜索社区中心学者模块，具体用于抽取出网络中包含的所有模体，在此基础上计算每个模体的属性同质值，用于表示模体中所有节点间的属性相似程度；计算包含在模体中的任意两个学者之间的属性-结构连接强度，用于表示学者之间的属性相似程度和关联性强度；计算学者的密集度；计算两个学者间的相似度和每条边的边适应度，边适应度用来表示学者之间的关联性强度；计算学者的间隔度；选出社区中心集合，由每个社区中心确定一个社区；

分配非中心学者模块，具体用于计算非中心学者关于每个社区的隶属度，用来表示非中心学者隶属于该社区的概率大小，在此基础上，通过设定阈值判断非中心学者是否为重叠节点，最后通过隶属度将非中心学者分配到相应的的社区结构中；

输出检测结果模块，具体用于将划分好的社区结构进行输出，划分后的每个社区由具有共同研究兴趣的学者构成，对学术合作网络进行社区结构挖掘，获取个人、机构以及地区之间的科研合作与学术交流情况，获取学术合作网络中学者合作的紧密程度与合作模式以及各个学科发展趋势；学者根据学术合作网络了解所在学科和特定领域的热点问题和科研合作情况，找到合适的合作对象。

技术效果评价：

通常采用扩展模块度EQ函数来衡量社区结构检测的质量，其值越大表明社区检测效果越好，扩展模块度EQ函数定义如式(13)：

其中p为网络中的连边总数，Q_i、Q_j为学者v_i、v_j所属的社区个数，

为网络邻接矩阵中的元素，Degree(i)、Degree(j)分别为学者v_i、v_j的度，g_y为第y个社区包含的学者集合。

表1为本发明与基于链接密度的算法(LINK)、基于标签传递的重叠社区发现算法(COPRA)和一种改进的基于密度峰值的社交网络聚类算法(DPSCD) 在netscience数据集上的扩展模块度EQ值比较结果。

表1

方法	LINK	COPRA	DPSCD	本发明
					EQ值	0.263	0.426	0.514	0.602

从表1可以看出，本发明方法与LINK算法、COPRA算法和DPSCD算法相比，在netscience数据集上得到的EQ值明显较高，说明本发明方法可以准确检测出学术合作网络中的社区结构。

上述内容对实施例做了详细的说明，但本发明不受上述实施方式和实施例的限制，在不脱离本发明宗旨的前提下，在本领域技术人员所具备的知识范围内还可以对其进行各种变化和改进，这些变化和改进均落入本发明要保护的范围之内。

Claims

1.一种面向学术合作网络的社区检测方法，其特征在于：包括以下步骤:

步骤1，获取数据；

步骤2，构建邻接矩阵与学术合作网络；

步骤3，搜索社区中心学者；

步骤4，分配非中心学者；

步骤5，输出社区检测结果。

2.根据权利要求1所述的一种面向学术合作网络的社区检测方法，其特征在于：所述步骤1中获取数据的具体操作为：

获取学者发表论文的数据，对数据进行预处理，计算出每两个学者之间的合作次数；

3.根据权利要求1所述的一种面向学术合作网络的社区检测方法，其特征在于：所述步骤2中构建邻接矩阵与学术合作网络的具体操作为：

依据学者间的合作关系建立学术合作网络的邻接矩阵：

其中i和j表示学者，n表示学者的总数，

表示由不同学者之间的合作关系构成的邻接矩阵，

否则

通过邻接矩阵构建学术合作网络：G＝＜V,E,HG＞

其中，G表示一个学术合作网络，

表示学术合作网络中学者间的合作次数组成的集合，其中HG(i,j)表示第i个学者与第j个学者的合作次数；

所述学术合作网络中的每一个网络节点表示一个学者；

所述学术合作网络是由学者论文的合作关系数据构建的。

4.根据权利要求1所述的一种面向学术合作网络的社区检测方法，其特征在于：所述步骤3中的搜索社区中心学者的具体操作为：

抽取出学术合作网络中包含的所有模体

其中

所述模体

是由

条边和η个节点组成的闭合环状结构；

所述属性同质值表示学术合作网络中对应的两个学者间的属性相似程度，A_r取值越大，表示学术合作网络中两个学者之间的属性相似程度越高；

其中Density_i表示学者v_i的密集度，n为学术合作网络中的学者总数，学者v_i的密集度是学者与社区内其它学者间的属性-结构连接强度之和；

计算两个学者间的相似度和每条边的边适应度：

Φ_i＝Nb(i)+{v_i}-{v_j}和Φ_j＝Nb(j)+{v_j}-{v_i}表示由边e_i,j连接的两个学者邻域，其中{v_i}表示只包含学者v_i的集合，{v_j}表示只包含学者v_j的集合，Nb(i)和Nb(j)分别表示学者v_i和学者v_j的相邻学者，与学者v_i有合作关系的其他学者称为学者v_i的相邻学者；

计算两个相邻学者间的直接相似度，计算公式如下：

计算两个不相邻学者间的间接相似度，计算公式如下：

其中IS(i,j)为学者v_i与学者v_j间的间接相似度，用于表示学术合作网络中不相邻学者间的相似程度，num＝min(DS(i,i₁),DS(i1,i₂),...,DS(i_n,j))，num表示由学者v_i到学者v_j的路径中所有相邻学者间直接相似度的最小值，dt_max为设定的阈值，dt_i,j为学者v_i与学者v_j之间的路径长度；

其中，EF_ij表示边e_i,j的边适应度，

和

分别表示边e_i,j相对于学者邻域Φ_i和Φ_j的边适应度；

计算边e_i,j相对于学者邻域Φ_i的边适应度，计算公式如下：

其中

表示边e_i,j相对于学者邻域Φ_i的边适应度，

表示学者邻域Φ_j内学者与学者邻域Φ_i内学者间相似度总和，v_a是学者邻域Φ_i内的学者，v_b是学者邻域Φ_j内的学者，

计算边e_i,j相对于学者邻域Φ_j的边适应度，计算公式如下：

其中

表示边e_i,j相对于学者邻域Φ_j的边适应度，

计算学者的间隔度：

由每个社区中心作者确定一个社区。

5.根据权利要求1所述的一种面向学术合作网络的社区检测方法，其特征在于：所述步骤4中分配非中心学者的具体操作为：

非中心学者集合

中的第u个学者h_u，如果非中心学者h_u的密集度小于第k个社区中心c_k的密集度，则根据公式(11)计算第u个学者h_u关于第k个社区的隶属度MS_uk；否则MS_uk＝0；

将学者v_i分配到社区k，其中

表示学者v_i关于社区1的隶属度MS_i1、学者v_i关于社区2的隶属度MS_i2、...、学者v_i关于社区g的隶属度MS_ig中所有隶属度的最大值；学者v_i关于社区k的隶属度与关于社区g的隶属度满足MS_ig/MS_ik＞θ(0＜θ＜1)，θ为阈值，则学者v_i是社区k和g的重叠节点；

再通过隶属度将非中心学者分配到隶属度最大的社区。

6.根据权利要求1所述的一种面向学术合作网络的社区检测方法，其特征在于：所述步骤5输出社区检测结果的具体操作是：划分后的每个社区由具有共同研究兴趣的学者构成，对学术合作网络进行社区结构挖掘，获取个人、机构以及地区之间的科研合作与学术交流情况，获取学术合作网络中学者合作的紧密程度与合作模式以及各个学科发展趋势；学者根据学术合作网络了解所在学科和特定领域的热点问题和科研合作情况，找到合适的合作对象。

7.一种面向学术合作网络的社区检测装置，其特征在于：包括以下设备构成：处理器、缓存、通信接口和储存介质通过总线连接；

8.根据权利要求7所述的一种面向学术合作网络的社区检测装置，其特征在于：所述获取数据模块，具体用于获取学术合作网络中学者发表论文的数据，对数据进行预处理，计算出每两个学者之间的合作次数；