CN108959543A

CN108959543A - 一种学术合作作者网络划分方法

Info

Publication number: CN108959543A
Application number: CN201810705363.3A
Authority: CN
Inventors: 刘云; 刘富; 周淼磊; 康冰; 侯涛; 王柯; 王婧媛
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2018-12-07

Abstract

本发明公开一种合作作者网络划分方法，属于复杂网络分析技术领域，其中该方法包括：1)从学术社交网络或者学术期刊下载某一学科或者某一段时间内的论文发表数据；2)构建合作作者网络。在下载的论文发表信息中，去重复之后的所有作者即为合作作者网络中的顶点，若两个作者有共同发表的论文，那么就应有一条边连接这两个作者所代表的顶点，两个作者共同发表的论文数量作为两顶点之间边的权值；3)利用改进的c均值算法进行合作作者网络划分，该改进算法对于不平衡数据集具有良好的聚类性能；4)输出学术社区划分结果。本发明公开的方法能够在大规模合作作者网络中挖掘出顶点数量较少的学术社区。

Description

一种学术合作作者网络划分方法

技术领域

本发明属于社区发现技术领域，特别涉及一种学术合作作者网络划分方法。

背景技术

复杂网络是复杂系统的抽象，现实中许多复杂系统都可以用复杂网络的相关特性进行描述和分析。因此，对复杂网络的研究一直是许多领域的研究热点。复杂网络是由一系列的节点和连接节点的边组成，节点表示系统中的个体，边表示个体之间的连接关系。复杂网络的一个普遍特征是其中存在社区结构，整个网络可视为由许多社区组合而成。社区是整个网络的一个子图，由节点和连接它们的边组成。同一社区内的节点与节点之间的连接很紧密，而不同社区之间的节点的连接比较稀疏。

随着时代的进步和发展，学者之间以协作的方式开展科学研究变得越来越普遍，尤其是来自不同学科的学者之间的合作。在科学研究中，合作的一个主要体现就是来自同一领域或者不同领域的学者共同署名发表学术论文，因此，我们就可以根据作者的共同署名关系构建一个学术合作作者网络。在学术合作作者网络中，顶点代表作者，如果两个作者共同发表了一篇或多篇学术论文，那么这两个作者在网络中是连接的。对学术合作作者网络进行挖掘与划分，对于探索科学社区中的研究组织和科学的社会进程，具有十分重要的意义。

然而，由于不同作者发表论文的数量差别很大，不同论文的作者数量也不尽相同，使得学术合作作者网络具有不平衡的属性，对其进行划分是一个难点。本发明拟公开一种基于改进c均值聚类算法的学术合作作者网络划分方法。C均值算法的聚类思想是将数据集中的每个样本划分到距离最近的类中，具有简单、计算效率高的优点，在许多领域中得到了广泛的应用。但有研究表明，c均值聚类算法的聚类效果会受到类间数据的不平衡分布的影响，如不同的样本个数、不同的样本分布密度等。基于此，本发明公开一种改进的c均值算法，该算法能够克服传统算法在类间样本数量不均衡和样本分布密度不均衡情况下的缺陷，同时保持传统算法对平衡数据的良好聚类性能；并利用改进的算法进行学术合作作者网络的划分，在对包含有1,712,433位来自计算机学科的作者网络的划分结果中，取得了良好的效果。

发明内容

本发明公开一种基于改进c均值算法的学术合作作者网络划分方法，主要流程包括：作者发表学术论文数据的获取、合作作者网络的构建、利用改进的c均值算法对网络进行划分、输出划分结果。

一种学术合作作者网络划分方法，包含以下步骤：

步骤一：作者发表学术论文数据的获取

从某学术社区下载某一个学科或者交叉学科的某一段时间内的论文发表数据，也可以从某个学术期刊上下载一段时间内的论文发表数据；

步骤二：合作作者网络的构建

合作作者网络主要由顶点和连接顶点之间的边组成，在下载的论文发表信息中，去重复之后的所有作者即为合作作者网络中的顶点，若两个作者有共同发表的论文，那么就应有一条边连接这两个作者所代表的顶点；此外，利用两个作者共同发表的论文数量作为两顶点之间边的权值，共同发表的论文数量越大，代表两个顶点之间的联系越紧密；

步骤三：利用改进c均值算法对合作作者网络进行划分

1)初始聚类中心的选择

在合作作者网络中选择若干个顶点作为初始聚类中心，选择步骤是：

a、将网络中的顶点按照与其连接的顶点数量从大到小排列，选择第一个顶点即具有最多连接的作者，作为第一个聚类中心；

b、转到下一个顶点，若该顶点与已经选为聚类中心的顶点之间都没有连接即没有共同发表的论文，则选择该顶点作为第二个聚类中心；

c、重复步骤b直到该顶点发表的论文数量小于网络中所有顶点发表论文数量的平均值。

2)利用改进的c均值算法进行合作作者网络的划分

a、改进的c均值算法

传统c均值算法是通过最小化代价函数的方式，将一个数据集划分为c个类，其代价函数为：

式中，x_i代表数据集中第i个数据，C_j代表第j个聚类，θ_j是第j个聚类的中心，定义为该聚类中所有数据的均值：N_j是第j个聚类的数据数量，||·,·||代表欧氏距离；

在c均值的聚类过程中，每个数据被分配到距离其最近的那个类中；当类间具有不同的尺寸、近似的数据分布密度时，大类中的数据将会分布在更大的空间中，那么大类中靠近小类的一部分数据可能距离小类的聚类中心更近，这部分数据将被错误的划分到小类中；然而，当类间具有不同密度、相似尺寸时，不同类中的数据会分布在大小近似的空间中，因此这种情况对传统c均值算法的聚类性能影响不大；

改进算法改良了传统算法对于不平衡数据分布的聚类性能，定义了两个变量，类的大小和类的密度，用以衡量一个类的数据数量和数据分布密度；

类的大小定义为：该类包含的数据数量除以数据集中的数据总量：

类的密度定义为：该类聚类中心的邻域中数据的个数：

p_j＝|Ω(θ_j)| (3)

式中|g|代表集合中的元素数量，Ω(θ_j)是聚类中心θ_j的一个邻域，定义为：

Ω(θ_j)＝{x_i|||x_i,θ_j||≤δ} (4)

其中，δ的选择为初始聚类中心之间的最小距离；基于欧式距离和类的大小、类的密度，定义了一个新的距离测度：

式中m代表数据集中数据特征向量的维数；公式(5)的理论解释为：

类间具有相似密度、不同尺寸的情况下，公式(5)中的密度指标不起作用，一个类包含的数据数量即类的大小与其尺寸成正比，与该类分布空间半径的m次方成正比，因此公式(5)中分母对s_j开m次方的结果与该类的样本分布半径成正比，这样一来，类间的不同尺寸得到了归一化，类间不同尺寸的影响也得到了有效的抑制；

类间具有不同密度、相似尺寸的情况下，一个类包含的数据数量与该类的数据分布密度成正比，表现为类的大小s_j和类的密度p_j成正比，因此公式(5)中的分母是一个常数，该公式就与传统c均值算法的距离计算方式相同；

综上，公式(5)的距离测度能够改善传统算法在类间不同尺寸的聚类性能，同时保持类间不同密度的聚类性能。

b、利用改进的c均值算法进行合作作者网络划分

首先，根据合作作者网络的特点，对改进c均值算法中的几个变量作如下定义：

特征向量的维数：m＝1；

类的大小s_j定义为：该类包含的顶点数量除以网络中所有的顶点数量；

类的密度p_j定义为：该类中所有顶点与中心顶点的连接权值之和；

顶点与聚类中心之间的距离||x_i-θ_j||：以顶点与聚类中心之间边的权值(代表的两个作者合作发表论文的数量)的倒数作为这他们之间的距离，即：

其次，利用改进的c均值算法进行合作作者网络划分，划分步骤为：

i.根据公式(6)计算每个顶点与所有初始聚类中心的距离；

ii.将每个顶点划分到与之具有最小距离的类中；

iii.计算类的大小s_j和类的密度p_j；

iv.根据公式(5)计算每个顶点与所有聚类中心的距离；

v.将每个顶点划分到与之具有最小距离的类中；

vi.重复步骤iii-v直到每个顶点的归属不再变化。

步骤四：输出划分结果

根据合作作者网络的划分结果，输出该网络的若干个科技社区，每个社区由作者数量、发表文章数量等参数表示，每个社区中发表文章数量最多的作者视为该社区中的中心作者。

有益效果：

本发明公开的学术合作作者网络的划分方法，得益于改进c均值算法对于不平衡数据的良好聚类性能，能够在复杂的网络中划分出规模较小的学术社区。

具体实施方式：

本发明的主要流程包括：作者发表学术论文数据的获取、合作作者网络的构建、利用改进的c均值算法对网络进行划分、输出划分结果。

可从web of science、ResearchGate等学术社区下载某一个学科或者交叉学科的某一段时间内的论文发表数据，也可以从某个学术期刊上下载一段时间内的论文发表数据。

实施例

从网址https://www.aminer.cn/billboard/aminernetwork下载了一个包含有1,712,433个作者的合作作者网络，该网络名为AMiner。通过本发明所述的划分方法，在这个网络中确定了69,723个初始聚类中心，并最终发现了69,723个学术社区，不同学术社区的规模差异很大，最大的社区包含555个作者，绝大部分的社区的作者数量小于10个。表1列出了发现的学术社区的统计信息，只有一小部分的学术社区拥有100位以上的研究人员。得益于本发明所提算法对于不平衡数据的良好性能，我们在AMiner网络中发现了数量巨大的、研究人员数量很少的学术社区。

表1 学术社区的统计数据

学术社区规模(作者数量)	学术社区数量
		>500	2
400～500	2
		300～400	13
200～300	41
		100～200	401
10～100	25700
		5～10	43564
总共	69723

此外，本发明中还列出了规模前20的学术社区，表2中是这20个社区中心作者的信息，包括姓名、机构、发表文章数量、文章被引次数和H-index。这些规模最大的社区的中心作者的发表文章数量、被引次数和H-index都比较大，表示这些作者的学术水平高、学术影响力大，从而验证了本发明所提方法的有效性。

Claims

1.一种学术合作作者网络划分方法，包含以下步骤：