CN108959543A - 一种学术合作作者网络划分方法 - Google Patents
一种学术合作作者网络划分方法 Download PDFInfo
- Publication number
- CN108959543A CN108959543A CN201810705363.3A CN201810705363A CN108959543A CN 108959543 A CN108959543 A CN 108959543A CN 201810705363 A CN201810705363 A CN 201810705363A CN 108959543 A CN108959543 A CN 108959543A
- Authority
- CN
- China
- Prior art keywords
- class
- vertex
- data
- network
- author
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种合作作者网络划分方法,属于复杂网络分析技术领域,其中该方法包括:1)从学术社交网络或者学术期刊下载某一学科或者某一段时间内的论文发表数据;2)构建合作作者网络。在下载的论文发表信息中,去重复之后的所有作者即为合作作者网络中的顶点,若两个作者有共同发表的论文,那么就应有一条边连接这两个作者所代表的顶点,两个作者共同发表的论文数量作为两顶点之间边的权值;3)利用改进的c均值算法进行合作作者网络划分,该改进算法对于不平衡数据集具有良好的聚类性能;4)输出学术社区划分结果。本发明公开的方法能够在大规模合作作者网络中挖掘出顶点数量较少的学术社区。
Description
技术领域
本发明属于社区发现技术领域,特别涉及一种学术合作作者网络划分方法。
背景技术
复杂网络是复杂系统的抽象,现实中许多复杂系统都可以用复杂网络的相关特性进行描述和分析。因此,对复杂网络的研究一直是许多领域的研究热点。复杂网络是由一系列的节点和连接节点的边组成,节点表示系统中的个体,边表示个体之间的连接关系。复杂网络的一个普遍特征是其中存在社区结构,整个网络可视为由许多社区组合而成。社区是整个网络的一个子图,由节点和连接它们的边组成。同一社区内的节点与节点之间的连接很紧密,而不同社区之间的节点的连接比较稀疏。
随着时代的进步和发展,学者之间以协作的方式开展科学研究变得越来越普遍,尤其是来自不同学科的学者之间的合作。在科学研究中,合作的一个主要体现就是来自同一领域或者不同领域的学者共同署名发表学术论文,因此,我们就可以根据作者的共同署名关系构建一个学术合作作者网络。在学术合作作者网络中,顶点代表作者,如果两个作者共同发表了一篇或多篇学术论文,那么这两个作者在网络中是连接的。对学术合作作者网络进行挖掘与划分,对于探索科学社区中的研究组织和科学的社会进程,具有十分重要的意义。
然而,由于不同作者发表论文的数量差别很大,不同论文的作者数量也不尽相同,使得学术合作作者网络具有不平衡的属性,对其进行划分是一个难点。本发明拟公开一种基于改进c均值聚类算法的学术合作作者网络划分方法。C均值算法的聚类思想是将数据集中的每个样本划分到距离最近的类中,具有简单、计算效率高的优点,在许多领域中得到了广泛的应用。但有研究表明,c均值聚类算法的聚类效果会受到类间数据的不平衡分布的影响,如不同的样本个数、不同的样本分布密度等。基于此,本发明公开一种改进的c均值算法,该算法能够克服传统算法在类间样本数量不均衡和样本分布密度不均衡情况下的缺陷,同时保持传统算法对平衡数据的良好聚类性能;并利用改进的算法进行学术合作作者网络的划分,在对包含有1,712,433位来自计算机学科的作者网络的划分结果中,取得了良好的效果。
发明内容
本发明公开一种基于改进c均值算法的学术合作作者网络划分方法,主要流程包括:作者发表学术论文数据的获取、合作作者网络的构建、利用改进的c均值算法对网络进行划分、输出划分结果。
一种学术合作作者网络划分方法,包含以下步骤:
步骤一:作者发表学术论文数据的获取
从某学术社区下载某一个学科或者交叉学科的某一段时间内的论文发表数据,也可以从某个学术期刊上下载一段时间内的论文发表数据;
步骤二:合作作者网络的构建
合作作者网络主要由顶点和连接顶点之间的边组成,在下载的论文发表信息中,去重复之后的所有作者即为合作作者网络中的顶点,若两个作者有共同发表的论文,那么就应有一条边连接这两个作者所代表的顶点;此外,利用两个作者共同发表的论文数量作为两顶点之间边的权值,共同发表的论文数量越大,代表两个顶点之间的联系越紧密;
步骤三:利用改进c均值算法对合作作者网络进行划分
1)初始聚类中心的选择
在合作作者网络中选择若干个顶点作为初始聚类中心,选择步骤是:
a、将网络中的顶点按照与其连接的顶点数量从大到小排列,选择第一个顶点即具有最多连接的作者,作为第一个聚类中心;
b、转到下一个顶点,若该顶点与已经选为聚类中心的顶点之间都没有连接即没有共同发表的论文,则选择该顶点作为第二个聚类中心;
c、重复步骤b直到该顶点发表的论文数量小于网络中所有顶点发表论文数量的平均值。
2)利用改进的c均值算法进行合作作者网络的划分
a、改进的c均值算法
传统c均值算法是通过最小化代价函数的方式,将一个数据集划分为c个类,其代价函数为:
式中,xi代表数据集中第i个数据,Cj代表第j个聚类,θj是第j个聚类的中心,定义为该聚类中所有数据的均值:Nj是第j个聚类的数据数量,||·,·||代表欧氏距离;
在c均值的聚类过程中,每个数据被分配到距离其最近的那个类中;当类间具有不同的尺寸、近似的数据分布密度时,大类中的数据将会分布在更大的空间中,那么大类中靠近小类的一部分数据可能距离小类的聚类中心更近,这部分数据将被错误的划分到小类中;然而,当类间具有不同密度、相似尺寸时,不同类中的数据会分布在大小近似的空间中,因此这种情况对传统c均值算法的聚类性能影响不大;
改进算法改良了传统算法对于不平衡数据分布的聚类性能,定义了两个变量,类的大小和类的密度,用以衡量一个类的数据数量和数据分布密度;
类的大小定义为:该类包含的数据数量除以数据集中的数据总量:
类的密度定义为:该类聚类中心的邻域中数据的个数:
pj=|Ω(θj)| (3)
式中|g|代表集合中的元素数量,Ω(θj)是聚类中心θj的一个邻域,定义为:
Ω(θj)={xi|||xi,θj||≤δ} (4)
其中,δ的选择为初始聚类中心之间的最小距离;基于欧式距离和类的大小、类的密度,定义了一个新的距离测度:
式中m代表数据集中数据特征向量的维数;公式(5)的理论解释为:
类间具有相似密度、不同尺寸的情况下,公式(5)中的密度指标不起作用,一个类包含的数据数量即类的大小与其尺寸成正比,与该类分布空间半径的m次方成正比,因此公式(5)中分母对sj开m次方的结果与该类的样本分布半径成正比,这样一来,类间的不同尺寸得到了归一化,类间不同尺寸的影响也得到了有效的抑制;
类间具有不同密度、相似尺寸的情况下,一个类包含的数据数量与该类的数据分布密度成正比,表现为类的大小sj和类的密度pj成正比,因此公式(5)中的分母是一个常数,该公式就与传统c均值算法的距离计算方式相同;
综上,公式(5)的距离测度能够改善传统算法在类间不同尺寸的聚类性能,同时保持类间不同密度的聚类性能。
b、利用改进的c均值算法进行合作作者网络划分
首先,根据合作作者网络的特点,对改进c均值算法中的几个变量作如下定义:
特征向量的维数:m=1;
类的大小sj定义为:该类包含的顶点数量除以网络中所有的顶点数量;
类的密度pj定义为:该类中所有顶点与中心顶点的连接权值之和;
顶点与聚类中心之间的距离||xi-θj||:以顶点与聚类中心之间边的权值(代表的两个作者合作发表论文的数量)的倒数作为这他们之间的距离,即:
其次,利用改进的c均值算法进行合作作者网络划分,划分步骤为:
i.根据公式(6)计算每个顶点与所有初始聚类中心的距离;
ii.将每个顶点划分到与之具有最小距离的类中;
iii.计算类的大小sj和类的密度pj;
iv.根据公式(5)计算每个顶点与所有聚类中心的距离;
v.将每个顶点划分到与之具有最小距离的类中;
vi.重复步骤iii-v直到每个顶点的归属不再变化。
步骤四:输出划分结果
根据合作作者网络的划分结果,输出该网络的若干个科技社区,每个社区由作者数量、发表文章数量等参数表示,每个社区中发表文章数量最多的作者视为该社区中的中心作者。
有益效果:
本发明公开的学术合作作者网络的划分方法,得益于改进c均值算法对于不平衡数据的良好聚类性能,能够在复杂的网络中划分出规模较小的学术社区。
具体实施方式:
本发明的主要流程包括:作者发表学术论文数据的获取、合作作者网络的构建、利用改进的c均值算法对网络进行划分、输出划分结果。
可从web of science、ResearchGate等学术社区下载某一个学科或者交叉学科的某一段时间内的论文发表数据,也可以从某个学术期刊上下载一段时间内的论文发表数据。
实施例
从网址https://www.aminer.cn/billboard/aminernetwork下载了一个包含有1,712,433个作者的合作作者网络,该网络名为AMiner。通过本发明所述的划分方法,在这个网络中确定了69,723个初始聚类中心,并最终发现了69,723个学术社区,不同学术社区的规模差异很大,最大的社区包含555个作者,绝大部分的社区的作者数量小于10个。表1列出了发现的学术社区的统计信息,只有一小部分的学术社区拥有100位以上的研究人员。得益于本发明所提算法对于不平衡数据的良好性能,我们在AMiner网络中发现了数量巨大的、研究人员数量很少的学术社区。
表1 学术社区的统计数据
学术社区规模(作者数量) | 学术社区数量 |
>500 | 2 |
400~500 | 2 |
300~400 | 13 |
200~300 | 41 |
100~200 | 401 |
10~100 | 25700 |
5~10 | 43564 |
总共 | 69723 |
此外,本发明中还列出了规模前20的学术社区,表2中是这20个社区中心作者的信息,包括姓名、机构、发表文章数量、文章被引次数和H-index。这些规模最大的社区的中心作者的发表文章数量、被引次数和H-index都比较大,表示这些作者的学术水平高、学术影响力大,从而验证了本发明所提方法的有效性。
Claims (1)
1.一种学术合作作者网络划分方法,包含以下步骤:
步骤一:作者发表学术论文数据的获取
从某学术社区下载某一个学科或者交叉学科的某一段时间内的论文发表数据,也可以从某个学术期刊上下载一段时间内的论文发表数据;
步骤二:合作作者网络的构建
合作作者网络主要由顶点和连接顶点之间的边组成,在下载的论文发表信息中,去重复之后的所有作者即为合作作者网络中的顶点,若两个作者有共同发表的论文,那么就应有一条边连接这两个作者所代表的顶点;此外,利用两个作者共同发表的论文数量作为两顶点之间边的权值,共同发表的论文数量越大,代表两个顶点之间的联系越紧密;
步骤三:利用改进c均值算法对合作作者网络进行划分
1)初始聚类中心的选择
在合作作者网络中选择若干个顶点作为初始聚类中心,选择步骤是:
a、将网络中的顶点按照与其连接的顶点数量从大到小排列,选择第一个顶点即具有最多连接的作者,作为第一个聚类中心;
b、转到下一个顶点,若该顶点与已经选为聚类中心的顶点之间都没有连接即没有共同发表的论文,则选择该顶点作为第二个聚类中心;
c、重复步骤b直到该顶点发表的论文数量小于网络中所有顶点发表论文数量的平均值。
2)利用改进的c均值算法进行合作作者网络的划分
a、改进的c均值算法
传统c均值算法是通过最小化代价函数的方式,将一个数据集划分为c个类,其代价函数为:
式中,xi代表数据集中第i个数据,Cj代表第j个聚类,θj是第j个聚类的中心,定义为该聚类中所有数据的均值:Nj是第j个聚类的数据数量,||·,·||代表欧氏距离;
在c均值的聚类过程中,每个数据被分配到距离其最近的那个类中;当类间具有不同的尺寸、近似的数据分布密度时,大类中的数据将会分布在更大的空间中,那么大类中靠近小类的一部分数据可能距离小类的聚类中心更近,这部分数据将被错误的划分到小类中;然而,当类间具有不同密度、相似尺寸时,不同类中的数据会分布在大小近似的空间中,因此这种情况对传统c均值算法的聚类性能影响不大;
改进算法改良了传统算法对于不平衡数据分布的聚类性能,定义了两个变量,类的大小和类的密度,用以衡量一个类的数据数量和数据分布密度;
类的大小定义为:该类包含的数据数量除以数据集中的数据总量:
类的密度定义为:该类聚类中心的邻域中数据的个数:
pj=|Ω(θj)| (3)
式中|g|代表集合中的元素数量,Ω(θj)是聚类中心θj的一个邻域,定义为:
Ω(θj)={xi||xi,θj||≤δ} (4)
其中,δ的选择为初始聚类中心之间的最小距离;基于欧式距离和类的大小、类的密度,定义了一个新的距离测度:
式中m代表数据集中数据特征向量的维数;
类间具有相似密度、不同尺寸的情况下,公式(5)中的密度指标不起作用,一个类包含的数据数量即类的大小与其尺寸成正比,与该类分布空间半径的m次方成正比,因此公式(5)中分母对sj开m次方的结果与该类的样本分布半径成正比,这样一来,类间的不同尺寸得到了归一化,类间不同尺寸的影响也得到了有效的抑制;
类间具有不同密度、相似尺寸的情况下,一个类包含的数据数量与该类的数据分布密度成正比,表现为类的大小sj和类的密度pj成正比,因此公式(5)中的分母是一个常数,该公式就与传统c均值算法的距离计算方式相同;
综上,公式(5)的距离测度能够改善传统算法在类间不同尺寸的聚类性能,同时保持类间不同密度的聚类性能;
b、利用改进的c均值算法进行合作作者网络划分
首先,根据合作作者网络的特点,对改进c均值算法中的几个变量作如下定义:
特征向量的维数:m=1;
类的大小sj定义为:该类包含的顶点数量除以网络中所有的顶点数量;
类的密度pj定义为:该类中所有顶点与中心顶点的连接权值之和;
顶点与聚类中心之间的距离||xi-θj||:以顶点与聚类中心之间边的权值即代表两个作者合作发表论文的数量的倒数作为这他们之间的距离,即:
其次,利用改进的c均值算法进行合作作者网络划分,划分步骤为:
i.根据公式(6)计算每个顶点与所有初始聚类中心的距离;
ii.将每个顶点划分到与之具有最小距离的类中;
iii.计算类的大小sj和类的密度pj;
iv.根据公式(5)计算每个顶点与所有聚类中心的距离;
v.将每个顶点划分到与之具有最小距离的类中;
vi.重复步骤iii-v直到每个顶点的归属不再变化。
步骤四:输出划分结果
根据合作作者网络的划分结果,输出该网络的若干个科技社区,每个社区由作者数量、发表文章数量或其它参数表示,每个社区中发表文章数量最多的作者视为该社区中的中心作者。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810705363.3A CN108959543A (zh) | 2018-07-02 | 2018-07-02 | 一种学术合作作者网络划分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810705363.3A CN108959543A (zh) | 2018-07-02 | 2018-07-02 | 一种学术合作作者网络划分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108959543A true CN108959543A (zh) | 2018-12-07 |
Family
ID=64484781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810705363.3A Pending CN108959543A (zh) | 2018-07-02 | 2018-07-02 | 一种学术合作作者网络划分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959543A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829634A (zh) * | 2019-01-18 | 2019-05-31 | 北京工业大学 | 一种自适应的高校专利科研团队识别方法 |
CN110929044A (zh) * | 2019-12-03 | 2020-03-27 | 山西大学 | 一种面向学术合作网络的社区检测方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080109762A1 (en) * | 2006-11-03 | 2008-05-08 | Microsoft Corporation | Visual document user interface system |
CN102609546A (zh) * | 2011-12-08 | 2012-07-25 | 清华大学 | 一种学术期刊论文作者信息挖掘方法及系统 |
CN104899281A (zh) * | 2015-06-01 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 学术文章处理方法和学术文章的搜索处理方法及装置 |
CN105589948A (zh) * | 2015-12-18 | 2016-05-18 | 重庆邮电大学 | 一种文献引用网络可视化及文献推荐方法及系统 |
CN107103551A (zh) * | 2017-03-20 | 2017-08-29 | 重庆邮电大学 | 一种选取种子节点的合著网络社区划分方法 |
-
2018
- 2018-07-02 CN CN201810705363.3A patent/CN108959543A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080109762A1 (en) * | 2006-11-03 | 2008-05-08 | Microsoft Corporation | Visual document user interface system |
CN102609546A (zh) * | 2011-12-08 | 2012-07-25 | 清华大学 | 一种学术期刊论文作者信息挖掘方法及系统 |
CN104899281A (zh) * | 2015-06-01 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 学术文章处理方法和学术文章的搜索处理方法及装置 |
CN105589948A (zh) * | 2015-12-18 | 2016-05-18 | 重庆邮电大学 | 一种文献引用网络可视化及文献推荐方法及系统 |
CN107103551A (zh) * | 2017-03-20 | 2017-08-29 | 重庆邮电大学 | 一种选取种子节点的合著网络社区划分方法 |
Non-Patent Citations (1)
Title |
---|
刘承良等: "全球科研论文合作网络的结构异质性及其邻近性机理", 《地理学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829634A (zh) * | 2019-01-18 | 2019-05-31 | 北京工业大学 | 一种自适应的高校专利科研团队识别方法 |
CN109829634B (zh) * | 2019-01-18 | 2021-02-26 | 北京工业大学 | 一种自适应的高校专利科研团队识别方法 |
CN110929044A (zh) * | 2019-12-03 | 2020-03-27 | 山西大学 | 一种面向学术合作网络的社区检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aldino et al. | Implementation of K-means algorithm for clustering corn planting feasibility area in south lampung regency | |
Si et al. | Model-based clustering for RNA-seq data | |
Wong | A hybrid clustering method for identifying high-density clusters | |
Ringbauer et al. | Estimating barriers to gene flow from distorted isolation-by-distance patterns | |
Mohammadi | Knowledge mapping of the Iranian nanoscience and technology: a text mining approach | |
CN108959543A (zh) | 一种学术合作作者网络划分方法 | |
Chen et al. | Efficient maximum closeness centrality group identification | |
Seary et al. | Partitioning networks by eigenvectors | |
Duin et al. | Solving group Steiner problems as Steiner problems | |
CN110096630A (zh) | 一类基于聚类分析的大数据处理方法 | |
Li et al. | The seeding algorithm for k-means problem with penalties | |
Jin et al. | Efficient parallel spectral clustering algorithm design for large data sets under cloud computing environment | |
Zhou et al. | Maximum parsimony analysis of gene copy number changes | |
CN109948705A (zh) | 一种基于k近邻图的稀有类检测方法及装置 | |
Gascuel | On the optimization principle in phylogenetic analysis and the minimum-evolution criterion | |
Zhan et al. | Fast incremental PageRank on dynamic networks | |
Deza et al. | Distances and similarities in data analysis | |
Li et al. | scMultiSim: simulation of multi-modality single cell data guided by cell-cell interactions and gene regulatory networks | |
Ali et al. | Detection of gene ontology clusters using biclustering algorithms | |
Hu et al. | Discovering an integrated network in heterogeneous data for predicting lncRNA-miRNA interactions | |
von Davier | New results on an improved parallel EM algorithm for estimating generalized latent variable models | |
Abramo et al. | The domestic localization of knowledge flows as evidenced by publication citation: the case of Italy | |
Song et al. | Community detection using parallel genetic algorithms | |
Cao et al. | Agcm-3dlf: accelerating atmospheric general circulation model via 3-d parallelization and leap-format | |
Gan et al. | Exploiting high utility occupancy patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181207 |
|
WD01 | Invention patent application deemed withdrawn after publication |