CN110674183A

CN110674183A - 科研社群划分及核心学者发现方法、系统、介质及终端

Info

Publication number: CN110674183A
Application number: CN201910785086.6A
Authority: CN
Inventors: 田欣; 徐旻昕; 翁泉飞; 刘振宇; 胡寅骏
Original assignee: Shanghai Science And Technology Development Co Ltd
Current assignee: Shanghai Kehui Talent Service Co ltd; Shanghai Science And Technology Development Co ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2020-01-10

Abstract

本发明提供一种科研社群划分及核心学者发现方法、系统、介质及终端。所述方法包括以下步骤：获取学者信息；构建学者网络图谱；从学者网络图谱中划分出科研社群；基于科研社群和学者网络图谱，确定核心科研合作团体，发现核心学者。本发明通过构建用于表征学者之间合作关系的学者网络图谱，并提出利用合作次数、合作时间和合作文章影响因子这三个特征定量衡量两学者之间合作紧密度，比以往只根据合作次数做为评价标准更加全面合理，且充分考虑时效性；利用数据挖掘算法，能够快速高效划分出科研社群，且能找到核心学者，便于了解国家科研合作特点，找到科研实力强群，有助于未来重大科研课题分配工作和发现科研潜力新星。

Description

科研社群划分及核心学者发现方法、系统、介质及终端

技术领域

本发明属于科研学者分类技术领域，特别是涉及一种科研社群划分及核心学者发现方法、系统、介质及终端。

背景技术

近几年，国家计划对科研及科研人才重视程度逐步增加，每个重大科研成果背后是诸多科研学者合作的结果，例如论文、专利、著作等文献，在这些文献中记载了有关科研学者的相关信息。

随着科学技术的发展和研究逐步深入，难度也逐步加大，完成高水平的科研成果需要科研学者之间的紧密合作，因此，在进行一次高水平科研成果之前，往往需要先建立一个科研团队，如何从科研学者中找到适合该项高水平科研的科研学者，以最大程度满足该项高水平科研的需求，成为目前迫切需要解决的问题。

现有技术往往通过查找相关技术领域、研究方向等找到一些科研学者，然后再从这些科研学者中筛选出适合此次科研的学者组成科研团队，这种方式存在查找范围大、建立团队时间长的问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种科研社群划分及核心学者发现方法、系统、介质及终端，通过构建用于表征学者之间合作关系的学者网络图谱，并利用数据挖掘算法，能够快速高效地划分出科研社群，且能够找到核心学者，便于了解国家科研合作特点，找到科研实力强群，发现科研潜力新星。

为实现上述目的及其他相关目的，本发明提供一种科研社群划分及核心学者发现方法，包括以下步骤：获取学者信息；构建学者网络图谱；所述学者网络图谱用于表征学者之间合作关系；划分出科研社群；所述科研社群内部学者关系紧密、科研社群之间关系稀疏；基于所述科研社群和所述学者网络图谱，确定核心科研合作团体，以在所述核心科研合作团体中发现核心学者。

于本发明的一实施例中，获取所述学者信息包括以下步骤：收集文献源文件，并对所述文献源文件进行解析，以获取解析后的文献数据；基于所述解析后的文献数据，获取所有的学者信息；对所述所有的学者信息进行清洗，以获取所述学者信息。

于本发明的一实施例中，所述学者信息包括学者姓名、学者所属机构、学者所属部门、学者文章关系和学者合作关系。

于本发明的一实施例中，构建所述学者网络图谱包括以下步骤：基于所述学者信息，区别同名学者，将不同的学者分别定义为不同的节点；基于所述学者信息，获取两个所述节点之间的合作次数、合作时间和合作文章影响因子，以基于所述合作次数、所述合作时间和所述合作文章影响因子计算两个所述节点之间关系边的权重值；将所有与所述节点相连的关系边的权重值相加，以获得用于衡量所述节点重要度的点权值；基于所述点权值、所述节点和所述关系边的权重值构建所述学者网络图谱。

于本发明的一实施例中，所述关系边的权重值的计算公式为：

其中，E表示关系边的权重值；n表示合作次数；s表示合作文章影响因子；x表示当前时间；t表示合作时间。

于本发明的一实施例中，从所述学者网络图谱中划分出所述科研社群包括以下步骤：定义社群模块度并初始化所述社群模块度为0，所述社群模块度用来作为衡量划分质量的标准；从所述学者网络图谱上选取预设个节点作为初始中心，基于预设个所述节点，构建预设个最短路径值群；分别计算所述学者网络图谱上除预设个所述节点外剩下的每一节点至预设个所述节点的路径长度，以获取剩下的每一所述节点至预设个所述节点的最短路径；所述路径长度为所述关系边的权重值的倒数；将预设个所述节点分别一一划分到预设个所述最短路径值群中，并按照所述最短路径，将剩下的每一所述节点分别划分到对应预设个所述节点的所述最短路径值群中，以获取划分后的最短路径值群，基于所述划分后的最短路径值群，计算所述社群模块度的第一值；分别取预设个所述最短路径值群中所述点权值大的节点作为新的中心，基于预设个作为新的中心的所述点权值最大的节点，重复上述步骤，以获取划分后的最短路径值群，基于所述划分后的最短路径值群，计算所述社群模块度的第二值；将所述第一值与所述第二值进行比较；若所述第一值大于所述第二值，则以所述第一值对应的所述划分后的最短路径值群作为划分出的科研社群；若所述第一值小于所述第二值，则重复上一步，直至所述社群模块度的值最大且不再变化，以所述社群模块度值最大对应的划分后的最短路径值群作为划分出的科研社群。

于本发明的一实施例中，所述社群模块度的计算公式为：

其中，e_ij表示连接两个科研社群的节点的关系边的权重值在所述关系边的权重值中所占的比例，i节点和j节点分别属于不同的科研社群；定义一个预设维度的对称矩阵e＝e_ij；

定义为矩阵中对角线上各元素之和，表示连接一个科研社群内部各节点的关系边的权重值在所有关系边的权重值的数目中所占的比例；定义为矩阵中每行中各个元素之和，表示外部与i个科研社群中的节点相连的关系边权重值在所有关系边权重值中所占的比例；||e²||表示矩阵e²中所有元素之和。

本发明提供一种科研社群划分及核心学者发现系统，包括：获取模块、构建模块、划分模块和发现模块；所述获取模块用于获取学者信息；所述构建模块用于构建学者网络图谱；所述学者网络图谱用于表征学者之间合作关系；所述划分模块用于从所述学者网络图谱中划分出科研社群；所述科研社群内部学者关系紧密、科研社群之间关系稀疏；所述发现模块用于基于所述科研社群和所述学者网络图谱，确定核心科研合作团体，以在所述核心科研合作团体中发现核心学者。

本发明提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的科研社群划分及核心学者发现方法。

本发明提供一种终端，包括：处理器及存储器；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上述的科研社群划分及核心学者发现方法。

如上所述，本发明所述的科研社群划分及核心学者发现方法、系统、介质及终端，具有以下有益效果：

(1)通过解析大规模文献构建用于表征学者之间合作关系的学者网络图谱，并提出利用合作次数、合作时间和合作文章影响因子这三个特征定量衡量两学者之间的合作紧密度，比以往只根据合作次数做为评价标准更加全面合理，且充分考虑时效性。

(2)利用数据挖掘算法，能够快速高效划分出社群内部节点关系紧密，社群之间关系稀疏的科研社群，且能够找到核心学者，便于了解国家科研合作特点，找到科研实力强群，有助于未来重大科研课题的分配工作和发现科研潜力新星。

附图说明

图1显示为本发明的科研社群划分及核心学者发现方法于一实施例中的流程图。

图2显示为本发明的获取学者信息于一实施例中的流程图。

图3显示为本发明的构建学者网络图谱于一实施例中的流程图。

图4显示为本发明的从学者网络图谱中划分出科研社群于一实施例中的流程图。

图5显示为本发明的科研社群划分及核心学者发现系统于一实施例中的结构示意图。

元件标号说明

51 获取模块

52 构建模块

53 划分模块

54 发现模块

S1～S4 科研社群划分及核心学者发现方法的步骤

S11～S13 获取学者信息的步骤

S21～S24 构建学者网络图谱的步骤

S31～S36 从学者网络图谱中划分出科研社群的步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的科研社群划分及核心学者发现方法、系统、介质及终端，通过解析大规模文献构建用于表征学者之间合作关系的学者网络图谱，并提出利用合作次数、合作时间和合作文章影响因子这三个特征定量衡量两学者之间的合作紧密度，比以往只根据合作次数做为评价标准更加全面合理，且充分考虑时效性；利用数据挖掘算法，能够快速高效划分出社群内部节点关系紧密，社群之间关系稀疏的科研社群，且能够找到核心学者，便于了解国家科研合作特点，找到科研实力强群，有助于未来重大科研课题的分配工作和发现科研潜力新星。

实施例一

本实施例提供一种科研社群划分及核心学者发现方法，包括以下步骤：

获取学者信息；

构建学者网络图谱；所述学者网络图谱用于表征学者之间合作关系；

从所述学者网络图谱中划分出科研社群；所述科研社群内部学者关系紧密、科研社群之间关系稀疏；

基于所述科研社群和所述学者网络图谱，确定核心科研合作团体，以在所述核心科研合作团体中发现核心学者。

以下将结合图1至图4对本实施例所提供的科研社群划分及核心学者发现方法进行详细描述。

请参阅图1，显示为本发明的科研社群划分及核心学者发现方法于一实施例中的流程图。如图1所示，本发明的科研社群划分及核心学者发现方法包括以下步骤：

S1、获取学者信息。

请参阅图2，显示为本发明的获取学者信息于一实施例中的流程图。如图2所示，获取所述学者信息包括以下步骤：

S11、收集文献源文件，并对所述文献源文件进行解析，以获取解析后的文献数据。

具体地，通过网络爬虫和/或采购的文献库中收集XML格式(XML是指可扩展标记语音，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言)的文献源文件，然后对XML文献源文件进行解析，使其变成JSON格式(JSON，JavaScript ObjectNotation，JS对象简谱，是一种轻量级的数据交换格式，它是基于ECMAScript(欧洲计算机协会制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据，简洁和清晰的层次结构使得JSON成为理想的数据交换语言，易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率)，以获取解析后的文献数据。

进一步地，从解析后的文献数据中构建学者-机构关系表、学者-部门关系表、学者-文章关系表和学者合作关系表等结构化数据，并存入到数据库中，便于后续的查找使用。

S12、基于所述解析后的文献数据，获取所有的学者信息。

具体地，文献中记载了学者的相关信息，从解析后的文献数据中提取出这些学者的信息。

S13、对所述所有的学者信息进行清洗，以获取所述学者信息。

具体地，对S12中获取的所有的学者信息按照一定的规则进行数据清洗操作，以清除不符合要求的学者信息。

需要说明的是，基于解析后的文献数据获取的学者信息中，有些学者可能只有姓名信息，缺少其它的诸如部门信息、机构信息等，此时，可认为该学者是无效的，对应的其信息也是无效的，因此就需要通过数据清洗将其筛选出去，而只留下信息完整的学者及其信息。具体地，数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等，数据清洗的原理是利用有关技术如数据统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。

于本实施例中，所述学者信息包括学者姓名、学者所属机构、学者所属部门、学者文章关系和学者合作关系。其中，所述学者文章关系中包括了文章的影响因子；影响因子是对高质量文章的一种评价形式，影响因子越高代表其文章的含金量越高，特别需要注意的是，影响因子是指文章的影响因子，并不代表文章的质量；在实际应用中，可通过智能查询系统查询文章的影响因子，诸如梅斯查询系统；所述学者合作关系中包括了与每位学者合作过的其他学者、他们之间合作的时间以及合作的次数。

S2、构建学者网络图谱；所述学者网络图谱用于表征学者之间合作关系。

具体地，基于S1中获取的所述学者信息，构建一个用来表征学者之间合作关系的学者网络图谱。所述学者网络图谱中包含了节点、各节点的点权值及边权信息；其中，不同的节点表示不同的学者；边权为两节点之间关系边的权重值，用于表征两节点之间的紧密度；各节点的点权值为与该节点相连的所有边权相加，用于表征该节点的重要度。

请参阅图3，显示为本发明的构建学者网络图谱于一实施例中的流程图。如图3所示，构建所述学者网络图谱包括以下步骤：

S21、基于所述学者信息，区别同名学者，将不同的学者分别定义为不同的节点。

具体地，两个学者存在同名现象，通过S1中获取的学者信息中的机构、部门等信息，实现同名学者之间的区分，并将不同的学者定义为不同的节点。

S22、基于所述学者信息，获取两个所述节点之间的合作次数、合作时间和合作文章影响因子，以基于所述合作次数、所述合作时间和所述合作文章影响因子计算两个所述节点之间关系边的权重值。

具体地，基于S1中获取的学者信息，获取两个节点之间(即两个学者之间)的合作次数、合作时间和合作文章影响因子，并利用合作次数、合作时间和合作文章影响因子这三个特征定量计算两节点之间关系边的权重值，记为边权。

于本实施例中，所述关系边的权重值的计算公式为：

其中，E表示关系边的权重值；n表示合作次数；s表示合作文章影响因子；x表示当前时间；t表示合作时间。诸如，A学者与B学者的合作次数为3次，这3次合作的时间分别为1999年、2010年和2011年，合作文章影响因子分别为0.8、0.2、0.5，当前时间为2019年，则A学者与B学者之间的边权E即为：

E＝0.8/(2019-1999)²+0.2/(2019-2010)²+0.5/(2019-2011)²≈0.012

需要说明的是，边权越大说明两节点关系越紧密；反之，说明两节点之间关系稀疏。

S23、将所有与所述节点相连的关系边的权重值相加，以获得用于衡量所述节点重要度的点权值。

具体地，通过将与某一节点相关的所有的边权叠加在一起，即为该节点的点权值。点权值用来衡量学者的重要度，该值越大说明该学者重要度越大；反之，重要度越小。重要度是指学者的重要程度。

S24、基于所述点权值、所述节点和所述关系边的权重值构建所述学者网络图谱。

具体地，基于点权值、节点和边权构建一个学者网络图谱结构，所述的学者网络图谱中包含了各节点的点权值和边权信息。

S3，从所述学者网络图谱中划分出科研社群；所述科研社群内部学者关系紧密、科研社群之间关系稀疏。

具体地，基于所述学者网络图谱划分出社群内部学者关系紧密、社群之间关系稀疏的科研社群。

于本实施中，利用数据挖掘算法(数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算，为了创建模型，算法将首先分析提供的数据，并查找特定类型的模式和趋势)对学者网络图谱进行科研社群的划分，本实施中，优选采用K-Means聚类算法，K-Means聚类算法是一种最经典也是使用最广泛的聚类方法，K-Means聚类算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类；然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值)；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开对于一个聚类任务。

请参阅图4，显示为本发明的划分出科研社群于一实施例中的流程图。如图4所示，采用K-Means聚类算法划分出所述科研社群包括以下步骤：

S31、定义社群模块度并初始化所述社群模块度为0，所述社群模块度用来作为衡量划分质量的标准；具体地，社群模块度记为Q。

S32、从所述学者网络图谱上选取预设个节点作为初始中心，基于预设个所述节点，构建预设个最短路径值群。

具体地，从学者网络图谱上选取K个节点(K表示预设的节点的个数)作为初始中心，并构建K个分别对应这K个节点的最短路径值群。

S33、分别计算所述学者网络图谱上除预设个所述节点外剩下的每一节点至预设个所述节点的路径长度，以获取剩下的每一所述节点至预设个所述节点的最短路径；所述路径长度为所述关系边的权重值的倒数。

具体地，分别计算学者网络图谱上除K个节点外剩下的每一个节点分别到这K个节点的路径长度，以得到剩下的每一个节点到这K个节点的最短路径；其中，路径长度定义为边权的倒数，边权越大路径长度就越小。

S34、将预设个所述节点分别一一划分到预设个所述最短路径值群中，并按照所述最短路径，将剩下的每一所述节点分别划分到对应预设个所述节点的所述最短路径值群中，以获取划分后的最短路径值群，基于所述划分后的最短路径值群，计算所述社群模块度的第一值。

具体地，将这K个节点分别划分到K个最短路径值群中，基于S43获取学者网络图谱上剩下的每一节点至这K个节点的最短路径后，将剩下的每一节点按照最短路径的结果一一划分到这K个最短路径值群中，并基于划分后的这K个最短路径值群计算Q。

S35、分别取预设个所述最短路径值群中所述点权值大的节点作为新的中心，基于预设个作为新的中心的所述点权值最大的节点，重复上述步骤，以获取划分后的最短路径值群，基于所述划分后的最短路径值群，计算所述社群模块度的第二值。

具体地，基于S34的划分结果，分别从这K个最短路径值群中选取一个点权值最大的节点作为K个新的中心，重新进行聚类，具体聚类方法为：首先重新构建K个最短路径值群；然后分别计算学者网络图谱上除这K个新的中心外的每一节点分别到这K个节点的路径长度，以得到剩下的每一节点到这K个节点的最短路径；最后，将这K个节点分别划分到重新构建的这K个最短路径值群中，并将剩下的每一节点按照最短路径的结果也一一划分到这K个最短路径值群中，这样就获取了K个新的最短路径值群，基于划分后的这K个最短路径值群再次Q。

S36、将所述第一值与所述第二值进行比较；若所述第一值大于所述第二值，则以所述第一值对应的所述划分后的最短路径值群作为划分出的科研社群；若所述第一值小于所述第二值，则重复上一步，直至所述社群模块度的值最大且不再变化，以所述社群模块度值最大对应的划分后的最短路径值群作为划分出的科研社群。

具体地，将根据作为初始中心选取的K个节点划分出的最短路径值群所得的Q的第一值与根据作为新的中心重新选取的K个节点划分出的最短路径值群所得的Q的第二值进行比较；若第一值大于第二值，则以第一值对应的划分后的最短路径值群作为划分出的科研社群；若第一值小于第二值，则重复上一步(从划分出的最短路径值群中再分别选取一个点权值最大的节点重新作为新的中心，再次进行相应聚类运算，具体运算过程如S35所述，在此不再赘述)，直至Q的值最大且不再变化，以Q最大对应的划分后的最短路径值群作为划分出的科研社群。

于本实施例中，所述社群模块度的计算公式为：

定义为矩阵中对角线上各元素之和，表示连接一个科研社群内部各节点的关系边的权重值在所有关系边的权重值的数目中所占的比例；

定义为矩阵中每行中各个元素之和，表示外部与i个科研社群中的节点相连的关系边权重值在所有关系边权重值中所占的比例；||e²||表示矩阵e²中所有元素之和。

社群模块度用来作为衡量划分质量的标准，该值越接近于1说明科研社群结构越明显。

根据K-Means聚类算法划分科研社群原则：以最大距离(指最大点权值)原则选取新的聚类中心，以最小距离(指最短路径距离)原则进行节点归类，直到所有节点都划分完为止。这样选取的作为聚类中心的节点不仅与同科研社群其他节点具有较强的关联度，而且与之相连的节点之间也具有较强的局部聚集性。

S4、基于所述科研社群和所述学者网络图谱，确定核心科研合作团体，以在所述核心科研合作团体中发现核心学者。

具体地，基于S3获取划分后的K个科研社群，从这K个科研社群中分别选取一个点权值最大的节点组成核心科研合作团体，并根据该核心科研合作团体中各节点的点权值，最终发现核心学者(点权值最大的节点作为核心学者)。

下面通过具体实施例来进一步验证本发明的采用K-Means聚类算法划分科研社群的方法。

诸如，于一实施例中，学者网络图谱上包含有5个节点，分别记为1、2、3、4、5，从这5个节点中随机选取2个作为初始中心，如选取1、2作为初始中心，构建2个最短路径值群；已知节点3与节点1、2的边权分别为0.5、0.2，节点4与节点1、2的边权分别为0.1、0.05，节点5与节点1、2的边权分别为0,1、0.2，则划分出2个最短路径值群分别为(1，3，4)和(2，5)，计算Q的第一值；已知节点1与节点2的边权为0.1，节点3与节点4、5的边权分别为0.1、0.1，节点4与节点5的边权为0.2，则1、2、3、4、5这5个节点的点权值分别为0.8、0.55、0.9、0.45、0.6，由此从(1，5)和(2，3，4)中分别选取节点1和节点3作为新的中心，根据新的中心，可重新划分出2个最短路径值群分别为(1，4，5)和(3，2)，计算Q的第二值；将第一值与第二值进行比较，并根据比较结果，执行相应算法(具体的算法流程按照上述S36进行)，最终确定划分后的科研社群。

特别说明的是，由于节点4与节点1、节点3的边权是相同的，节点5与节点1、节点3的边权也是相同的，所以，对于节点4和节点5的划分是不受限制的，即节点4和节点5可均划分到节点1所在群，也可均划分到节点3所在群，或者是一个划分到节点1所在群，另一个划分到节点3所在群，具体如何划分不会对最终结果造成影响。

需要说明的是，本发明所述的科研社群划分及核心学者发现方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

本实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的科研社群划分及核心学者发现方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的计算机可读存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的计算机存储介质。

实施例二

本实施例提供一种科研社群划分及核心学者发现系统，包括：获取模块、构建模块、划分模块和发现模块；

所述获取模块用于获取学者信息；

所述构建模块用于构建学者网络图谱；所述学者网络图谱用于表征学者之间合作关系；

所述划分模块用于从所述学者网络图谱中划分出科研社群；所述科研社群内部学者关系紧密、科研社群之间关系稀疏；

所述发现模块用于基于所述科研社群和所述学者网络图谱，确定核心科研合作团体，以在所述核心科研合作团体中发现核心学者。

以下将结合图示对本实施例所提供的科研社群划分及核心学者发现系统进行详细描述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个数字信号处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

请参阅图5，显示为本发明的科研社群划分及核心学者发现系统于一实施例中的结构示意图。如图5所示，本发明的科研社群划分及核心学者发现系统包括获取模块51、构建模块52、划分模块53和发现模块54；所述获取模块51用于获取学者信息；所述构建模块52用于基于获取的学者信息构建学者网络图谱；所述学者网络图谱用于表征学者之间合作关系；所述划分模块53用于基于学者网络图谱划分出社群内部学者关系紧密、社群之间关系稀疏的科研社群；所述发现模块54用于基于所述科研社群和所述学者网络图谱，确定核心科研合作团体，以在所述核心科研合作团体中发现核心学者。

需要说明的是，本实施例提供的科研社群划分及核心学者发现系统的工作原理与实施例一提供的科研社群划分及核心学者发现方法一一对应，所述系统可以实现所述方法，在此不再赘述。

实施例三

本实施例提供一种终端，包括处理器及存储器；优选地，所述存储器包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质；所述处理器与所述存储器相连，用于执行所述存储器存储的计算机程序，以使所述终端执行上述的科研社群划分及核心学者发现方法。

优选地，所述处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，本发明的科研社群划分及核心学者发现系统可以实现本发明的科研社群划分及核心学者发现方法，但本发明的科研社群划分及核心学者发现方法的实现装置包括但不限于本实施例列举的科研社群划分及核心学者发现系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

综上所述，本发明的科研社群划分及核心学者发现方法、系统、介质及终端，通过解析大规模文献构建用于表征学者之间合作关系的学者网络图谱，并提出利用合作次数、合作时间和合作文章影响因子这三个特征定量衡量两学者之间的合作紧密度，比以往只根据合作次数做为评价标准更加全面合理，且充分考虑时效性；利用数据挖掘算法，能够快速高效划分出社群内部节点关系紧密，社群之间关系稀疏的科研社群，且能够找到核心学者，便于了解国家科研合作特点，找到科研实力强群，有助于未来重大科研课题的分配工作和发现科研潜力新星。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种科研社群划分及核心学者发现方法，其特征在于，包括以下步骤：

获取学者信息；

2.根据权利要求1所述的科研社群划分及核心学者发现方法，其特征在于，获取所述学者信息包括以下步骤：

收集文献源文件，并对所述文献源文件进行解析，以获取解析后的文献数据；

基于所述解析后的文献数据，获取所有的学者信息；

对所述所有的学者信息进行清洗，以获取所述学者信息。

3.根据权利要求1或2所述的科研社群划分及核心学者发现方法，其特征在于，所述学者信息包括学者姓名、学者所属机构、学者所属部门、学者文章关系和学者合作关系。

4.根据权利要求1所述的科研社群划分及核心学者发现方法，其特征在于，构建所述学者网络图谱包括以下步骤：

基于所述学者信息，区别同名学者，将不同的学者分别定义为不同的节点；

基于所述学者信息，获取两个所述节点之间的合作次数、合作时间和合作文章影响因子，以基于所述合作次数、所述合作时间和所述合作文章影响因子计算两个所述节点之间关系边的权重值；

将所有与所述节点相连的关系边的权重值相加，以获得用于衡量所述节点重要度的点权值；

基于所述点权值、所述节点和所述关系边的权重值构建所述学者网络图谱。

5.根据权利要求4所述的科研社群划分及核心学者发现方法，其特征在于，所述关系边的权重值的计算公式为：

6.根据权利要求4所述的科研社群划分及核心学者发现方法，其特征在于，从所述学者网络图谱中划分出所述科研社群包括以下步骤：

定义社群模块度并初始化所述社群模块度为0，所述社群模块度用来作为衡量划分质量的标准；

从所述学者网络图谱上选取预设个节点作为初始中心，基于预设个所述节点，构建预设个最短路径值群；

分别计算所述学者网络图谱上除预设个所述节点外剩下的每一节点至预设个所述节点的路径长度，以获取剩下的每一所述节点至预设个所述节点的最短路径；所述路径长度为所述关系边的权重值的倒数；

将预设个所述节点分别一一划分到预设个所述最短路径值群中，并按照所述最短路径，将剩下的每一所述节点分别划分到对应预设个所述节点的所述最短路径值群中，以获取划分后的最短路径值群，基于所述划分后的最短路径值群，计算所述社群模块度的第一值；

分别取预设个所述最短路径值群中所述点权值大的节点作为新的中心，基于预设个作为新的中心的所述点权值最大的节点，重复上述步骤，以获取划分后的最短路径值群，基于所述划分后的最短路径值群，计算所述社群模块度的第二值；

将所述第一值与所述第二值进行比较；若所述第一值大于所述第二值，则以所述第一值对应的所述划分后的最短路径值群作为划分出的科研社群；若所述第一值小于所述第二值，则重复上一步，直至所述社群模块度的值最大且不再变化，以所述社群模块度值最大对应的划分后的最短路径值群作为划分出的科研社群。

7.根据权利要求6所述的科研社群划分及核心学者发现方法，其特征在于，所述社群模块度的计算公式为：

8.一种科研社群划分及核心学者发现系统，其特征在于，包括：获取模块、构建模块、划分模块和发现模块；

所述获取模块用于获取学者信息；

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7中任一项所述的科研社群划分及核心学者发现方法。

10.一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至7中任一项所述的科研社群划分及核心学者发现方法。