CN105718528B

CN105718528B - 基于论文间引用关系的学术地图展示方法

Info

Publication number: CN105718528B
Application number: CN201610029065.8A
Authority: CN
Inventors: 谈兆炜; 毛宇宁; 刘长风; 刘兴邦; 张文斌; 赵璟浩; 宋振宇; 沈嘉明; 郭运奇; 王彪; 傅洛伊; 王新兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-01-15
Filing date: 2016-01-15
Publication date: 2019-06-21
Anticipated expiration: 2036-01-15
Also published as: CN105718528A

Abstract

本发明提供了一种基于论文间引用关系的学术地图展示方法，包括如下步骤：步骤1：利用聚类算法及分布式处理法将事先获取的论文引用关系数据进行聚类，并划分为多个社区；步骤2：分析多个社区的属性和含义，将相关的引用关系数据存入数据库中；步骤3：读取数据库中的引用关系数据并构建论文引用网络，利用可视化工具动态展现论文间的关系，找到目标论文；步骤4：在多个视角上展示论文间的引用关系，形成学术地图。本发明通过聚类算法分布式处理，对事先获取的论文数据进行聚类划分多个社区，并以动态可视化方式展现论文间关系，有效提高用户检索论文的效率。

Description

基于论文间引用关系的学术地图展示方法

技术领域

本发明涉及学术论文检索领域，具体地，涉及一种基于论文间引用关系的学术地图展示方法。

背景技术

科研活动是体现一个国家综合实力的重要且不可缺少的一方面，也是社会生产力不断发展的基石。在国际竞争日益激烈的今天，谁掌握了科学技术的制高点，谁就将引领下一次的科技革命，世界各国也因此将科学技术的发展放在了国家发展的核心位置。从我国科教兴国战略实施以来，国家各方面政策不断向科研方面倾斜，财政支出也稳步提升。据统计，2014年，全国共投入科技支出及研究与试验发展(R&D)经费13015.6亿元，比上年增加1169.0亿元，增长9.9％，且呈持续上升态势，表明我国研发实力进一步增强，科技水平不断提高。

学术论文是科研活动中的重要一环。从科研经验来看，学术论文是研究人员确定研究方向，开展下一步工作与课题攻坚活动中重要的信息来源，也是深入了解前沿科学的重要组成部分。面对几何级增长的论文数量，如何从浩如烟海的论文中找到所需要的论文，并且做到快速性，时效性，准确性的有机结合，成为了广大科研工作者所共同面对的难题。在目前有一些开放的学术论文数据库，方便科研人员在工作中查找有关资料，但是这些数据库有着十分明显的缺点。第一，单一数据库中收藏的论文有限，而数据库间的交流不畅导致查找者无法迅速找出在查找方面关联紧密的论文；第二，数据库中的搜索系统不够先进，关键字提取所得的内容往往与想要的结果在细节上不够吻合；第三，大量的文本数据对于查找者来说不易快速得到结果，从而使得查找结果的利用率直线下降，从用户体验上面也不尽如人意；第四，单一论文数据库更新较慢，查找者在得到最新的科研动态方面困难重重。

看到了学术搜索的重要性，谷歌公司在2004年就开始推出学术搜索引擎，接着微软又在2006年开发了学术搜索引擎Microsoft Academic Search。尽管这些公司依靠其强大的资源获取能力，在包含了其学术搜索引擎中包含了大量的学术期刊，从一个地方开始可以搜索到大量的相关论文，但实际上，它们的搜索效果不那么理想，因为它们的搜索结果只把关键字与论文精确匹配，却没有重视论文间的联系和论文在各自领域的位置。此外，这样以大量论文列表的形式返回的结果需要用户重新甄别这些论文的重要性和其涉及话题的发展趋势，在大量的信息面前，这样的结果对于用户来说是远远不够的。

随着全球学术研究的不断发展，学术搜索系统的进一步发展已是必需的。国内外学术论文搜索方面的研究开始越来越多，主要方向有：分析论文语义试图寻找论文间的关系；网络建模来分析论文的重要性；对引用文献进行推荐等。尽管关于论文搜索系统的论文数量逐步上升，但是这些搜索推荐系统要么没有一个足够丰富的论文数据库来支持，要么没有注重论文话题间的演进关系，因此实用价值不高。而在大数据时代的学术论文搜索背景下，一个可视化的学术搜索地图系统将更能满足用户的需求，可视化使搜索结果更加直观和易于理解，很大程度上提高了用户的效率。本发明基于以上问题，根据全新的思路，运用了聚类算法等高效的方法，设计一种基于论文间引用关系的学术地图展示系统，该系统以地图的方式生动直观地展示数据之间的结构关联，包括通过对论文间引用关系的分析来划分论文的社区、对于社区关系的可视化展示、以及底层论文引用关系的可视化展示，并且具有可延展性，在大数据的时代更具适应力，将极大地提高用户的效率。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于论文间引用关系的学术地图展示方法。

根据本发明提供的基于论文间引用关系的学术地图展示方法，包括如下步骤：

步骤1：利用聚类算法及分布式处理法将事先获取的论文引用关系数据进行聚类，并划分为多个社区；

步骤2：分析多个社区的属性和含义，将相关的引用关系数据存入数据库中；

步骤3：读取数据库中的引用关系数据并构建论文引用网络，利用可视化工具动态展现论文间的关系，找到目标论文；

步骤4：在多个视角上展示论文间的引用关系，形成学术地图。

优选地，所述步骤1包括：

步骤1.1：使用互联网上公开的论文数据集，导出论文之间的引用关系数据；

步骤1.2：根据构建的学术网络图内的论文之间的引用关系，用Apache Spark中的GraphX模块来实现社区发现算法来对所有论文进行聚类处理；

所述聚类算法是指：将论文引用关系数据按照不同的类别进行划分，构成为社区的结构；

所述社区发现算法是指：标签传递法Label Propagation Algorithm，简称LPA，以及Louvain法。

标签传递法是指：每个节点的标签按相似度传播给相邻节点，在节点传播的每一步，每个节点根据相邻节点的标签来更新本节点的标签，与本节点相似度越大，则对应的相邻节点对本节点标注的影响权值越大，若相邻节点的标签越趋于一致，则标签就越容易传播；

Louvain Method方法是指：网络中的每个节点分配到对应各个节点的社区，对于节点分配邻近的社区，若没有模块化增量，则节点所在社区位置不变；若存在模块化有增量，则将节点加入到新的社区，当不存在模块增量时，将在同一社区的所有节点合并，形成一个新的网络；

步骤1.3：在聚类过程中，通过调整不断地优化Louvain模块和LPA的迭代次数，对比标签传递法和Louvain法这两种算法之间的结果与效率，选择Louvain Method方法，得到划分结果。

优选地，所述步骤2包括：

步骤2.1：对论文引用关系数据的内容进行分析，得到所划分社区的属性或含义；

步骤2.2：提取相关论文的信息，存储于MySQL数据库中用于进一步处理与展示。

优选地，所述步骤3包括：

步骤3.1：读取数据库中的论文引用关系数据，构建论文的引用网络，并实时计算引用网络中各个论文的重要程度，处理生成JSON文件；

步骤3.2：利用D3.JS可视化工具，对读取到的论文引用关系数据进行处理，将论文的引用网络以及论文本身的各种信息动态地展现到网站系统中；

步骤3.3：通过对论文的重要程度以及其他相关论文到用户关注论文的路径长度信息的挖掘，过滤不重要的或用户不关心的论文；

步骤3.4：提供用户操作窗口，根据用户的输入信息搜索论文的学术族谱，找到所寻找的目标论文。

优选地，所述步骤4包括：

步骤4.1：将步骤1中得到的社区分类的结果处理成JSON文件以供网站前端使用；

步骤4.2：以步骤2中获得的社区属性或含义，以地图缩放形式，多层次多角度地展示学术地图；

步骤4.3：利用D3.JS可视化工具，提供动态地论文演变过程。

优选地，所述步骤1.3中的Louvain Modularity算法是基于模块性的算法，在一个有权网络中，模块性的定义为：

式中：Q表示Louvain模块化，A_ij表示节点i与节点j之间的边的权重，k_i表示所有连接到节点i的边的权重之和，c_i表示当前节点i归属的社区，c_j表示当前节点j归属的社区，m表示在网络中的所有链接的权重的总和，其中，当函数δ(u,v)中的u等于v时，函数δ(u,v)的值为1，否则为0。

与现有技术相比，本发明具有如下的有益效果：

1、本发明提供的基于论文间引用关系的学术地图展示方法，通过聚类算法分布式处理，对事先获取的论文数据进行聚类划分多个社区，并以动态可视化方式展现论文间关系，有效提高用户检索论文的效率。

2、本发明提供的基于论文间引用关系的学术地图展示方法将底层论文引用关系进行可视化展示，且具有良好的延展性和适用性，能够应用于各种数据系统。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的基于论文间引用关系的学术地图展示方法中当前论文到中心论文路径示意图；

图2为论文网络的探索过程示意图；

图3为复杂网络的论文过滤过程示意图；

图4为文章社区的上层示意图；

图5为图4中的一个子社区示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

根据本发明提供的基于论文间引用关系的学术地图展示方法，包括通过对论文间引用关系的分析来划分论文的社区、对于社区关系的可视化展示、以及底层论文引用关系的可视化展示。具体地，包括如下步骤：

步骤S1：利用聚类算法，采用分布式处理，对事先获取的数据进行聚类划分社区；

步骤S2：将数据按照需要存入数据库中，用于后续展示；

步骤S3：结合引用网络，利用创新的可视化技术动态展现论文间的关系；

步骤S4：在多个视角上展示论文间的引用关系，创新性地呈现出一种类似地图的视角。

所述步骤S1包括：使用互联网上公开的论文数据集，导出论文之间的引用关系数据；其次采用优化的聚类或社区发现算法程序，对数据进行社区划分，并使用大数据处理系统Spark来实现分布式的聚类或社区发现算法，优化算法在分布式情况下对大规模数据的处理效率；最后调整算法程序参数，对比不同算法之间的结果与效率，选择合适算法。

所述步骤S2包括：结合数据内容分析所划分社区的属性或含义，然后去除无用信息，提取有用的信息，选择合适的存储格式，将数据存储于MySQL数据库中用于进一步处理与展示。

所述步骤S3包括：读取后台数据库处理成JSON文件，利用D3.JS等可视化工具，对读取到的数据进行处理，将论文的引用网络以及论文本身的各种信息动态地展现到网站系统中；通过论文的重要程度以及其他论文到用户关注论文的路径长度等信息，过滤不重要的或用户不关心的论文，使呈现方式对用户更加友好；用户可以通过点击论文等方式，搜索论文的学术族谱，持续探索直至发现所寻找的论文。

所述步骤S4包括：读取聚类等算法对论文在不同层次上进行分类的结果，将其处理成适合网站系统使用的JSON格式，读取并动态加载数据，以地图缩放等展示方式动态地呈现出学术地图，使用户清楚地看出每个领域或会议的重要程度，并从各个角度上对学术领域有更直观的感受；利用D3.JS等可视化工具，提供动态的论文演变过程，展示论文的发展演变过程。

更进一步地，对于已经得到的庞大的数据，我们通过聚类算法对其进行处理，使数据按照不同的类别进行划分，成为社区的结构，为后期可视化的层次划分和具体实现提供数据基础，具体如下：

使用互联网上公开的论文数据集，导出论文之间的引用关系数据，并对数据进行一系列预处理，比如位制转换，数据归纳分类等。然后采用优化的聚类或社区发现算法程序，对数据进行社区划分处理，比如Louvain Modularity算法或是LPA算法；最后调整算法程序参数，对比不同算法之间的结果与效率，选择合适算法。由于学术论文引用数据处于超大规模，单机使用算法处理往往受机器性能限制，需要大量的运算时间，而基于大数据处理系统Spark优化后的分布式算法程序，能最大限度地利用机器集群的整体性能，大大提升数据处理的效率与实时性。在大数据处理系统Spark中，实现了Louvain Modularity和LPA等算法并和优化了其处理性能，并使用这些算法对事先处理的数据进行社区划分。LPA标签传播算法是一种基于图的半监督学习方法，其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。利用样本间的关系建立关系完全图模型，在完全图中，节点包括已标注和未标注数据，其边表示两个节点的相似度，节点的标签按相似度传递给其他节点。标签数据就像是一个源头，可以对无标签数据进行标注，节点的相似度越大，标签越容易传播。根据LPA算法基本理论，每个节点的标签按相似度传播给相邻节点，在节点传播的每一步，每个节点根据相邻节点的标签来更新自己的标签，与该节点相似度越大，其相邻节点对其标注的影响权值越大，相似节点的标签越趋于一致，其标签就越容易传播。在标签传播过程中，保持已标注数据的标签不变，使其像一个源头把标签传向未标注数据。最终，当迭代过程结束时，相似节点的概率分布也趋于相似，可以划分到同一个类别中，从而完成标签传播过程。

具体地，Louvain算法是基于模块性的算法，在一个有权网络中，模块性的定义为：

式中：Q表示Louvain模块化(Modularity)，A_ij表示节点i与节点j之间的边的权重，k_i表示所有连接到节点i的边的权重之和，c_i表示当前节点i归属的社区，c_j表示当前节点j归属的社区，m表示在网络中的所有链接的权重的总和，其中，当函数δ(u,v)中的u等于v时，函数δ(u,v)的值为1，否则为0。

为了有效地最大化该值时，Louvain算法有两个相反复重复这一点。

首先，网络中的每个节点分配到它自己的社区。然后对于每个节点i，在模块化增量△Q可以这样计算：将i从它自己的社区除去，并将其移入它的每个邻居的社区j的i。此值是很容易计算：

其中，∑_in是i正在进入的社区内所有链接的权重的总和，∑_tot是所有社区节点链接的权重的总和，k_i是的i的度，k_i,in是在社区中i和其他节点链接权重的总和，m是在网络中的所有链接的权重的总和。然后，一旦计算所有被i连接到的社区的该值，i被移入导致最大的模块化增量的社区。如果没有模块化增量，i保持在其原有的社区。这个过程被重复，并顺序地施加到所有的节点，直到没有模块化增加可以发生。一旦得到本地的最大模块化值，在第一阶段已经结束。

在Louvain算法的第二阶段，在同一社区的所有节点合并，并形成一个新的网络，其中该网络的节点是上一阶段的社区。同一社区的节点之间的任何链路现在由新社区节点上自环来表示。而来自同一社区的多个节点链接到其他社区的不同结点，用社区之间加权的边来表示。一旦创建了新的网络，第二阶段已经结束，第一阶段可以被重新应用到新的网络。

利用Apache Spark中GraphX模块的相应API不断并行化遍历网络中的点，将其从原来的社区取出,计算该点加入到各个社区产生的模块性增量，从这些社区中挑选一个对应模块性增量最大的社区，把该点加进去，直到没有点可以移动，将各个社区合并成一个超点。重复上述步骤，直到模块性不再增加。

在算法的分布式实现中，所有的点同时挑选新形成的社区，而不是顺序地一个个挑选。随后更新图的状态。因为算法是并行运作的，一些点挑选的社区不是最优的，对应的模块属性增量不是最大的，但是在经过反复的迭代后，社区选择变得更加稳定，得到的社区结果也与串行算法的结果相近。

在使用分布式算法进行社区划分后，通过参数调整我们得到更加优化的结果。同时不同算法的实现效果存在不同，处理效率也存在差异，通过对比可根据系统在不同阶段或应对不同的处理要求使用不同的算法。

将数据按照需要存入数据库中，用于后续展示；即将社区计算的结果，以及论文基本信息，引用网络等存入数据库，以备后用。

具体地，创建了两个数据库，数据库1保存了论文的各个方面的基本信息，存入的信息结构如下：对每一篇论文，我们保存了它的论文的序号，作者，摘要，所属的会议，关键词这五个属性。数据库2保存了论文之间的引用关系的信息。我们用序号来代表各篇论文，形成一对对的序号对。每一对中，处于左边的序号所对应的论文引用了处于右边的序号所对应的论文，这样就保存了论文之间的引用关系。

结合引用网络，利用创新的可视化技术动态展现论文间的关系；根据上述方法获取了大量的论文数据，然而如此庞大的数据是不可能全部展示出来的，因此需要编写程序从数据库中选取当前需要展示的信息，并将其调整为适合读取和展示的数据格式，即JSON文件，使数据量不至于过大以致加载缓慢，也不至于过小以致展示信息过少。利用D3.JS等可视化工具来对论文关系进行动态展示。D3.JS提供了读取JSON文件的接口，读入后可对数据进行批量处理。采用了D3.JS中的力学图来对论文的网络结构进行展示。D3.JS默认的力学图样式较为单一，不甚美观。我们根据自身的需求，在其基础上进行了优化，实现了如下功能：

1)当用户鼠标指向一篇论文时，高亮与之相连的论文节点，即显示论文的引用关系，同时高亮该节点到中心节点的路径。中心节点意为用户当前关心的节点，以红色标示，是用户开始探索的第一个节点。路径的高亮与其他无关节点的消隐，请见图1。该功能的实现利用了预先得出的论文之间的引用关系，将含有引用关系的论文编号存入字典中，每当检测到鼠标指向某个节点时，判断与之相邻节点并改变节点的透明度。计算路径利用了所有节点都是由中心节点扩展出来的这一特性，使用循环不断寻找上层节点，并记录经过的节点和路径信息，直至找到中心节点。随后更改相应节点和路径的颜色等信息。

2)在论文之间连线上添加箭头，以更直观地展示引用关系。箭头方向为论文指向其引用的论文，箭头同样会根据用户鼠标位置显示和消隐。此处使用了SVG自带的marker标签，并根据需要适当调整了箭头的样式。

3)以节点的大小表示论文的重要程度，以连线的粗细表示引用关系的重要程度。该功能的实现首先需实时计算论文的重要性，并存储在JSON文件中，接着加载到网站上，将量化的重要程度信息反映到节点大小(通过在代码中指定节点半径)及连线粗细(通过在代码中指定连线宽度)中。

4)用户点击一篇论文后，会呈现出该论文引用的论文，接着用户可以进一步点击新生成的论文，再生成新的论文，从而实现一个探索的过程，探索的过程请见图2。该功能的实现方式为，为每个节点绑定一个回调函数，在回调函数内首先判断节点是否为展开状态，如为展开则需要删除对应的节点连线，如未展开则查找需要增加的节点和连线，以及判断节点和节点是否重复或者已经存在，是否为空等，每次单击即调用回调函数以添加或删除节点。

5)用户可以设置当前显示论文的最低重要性(事先计算出的量化指标)，来过滤掉不重要的论文，一个较为复杂的论文网络过滤的过程请见图3。该功能的实现类似于功能4，每次检测到用户设置参数的变化，即调用相应函数来判断节点是否满足设置的条件，随后删除或添加相应的节点和连线。

6)用户可以设置论文到达中心论文经过的论文数，来过滤掉离中心论文较远的论文。该功能的实现类似于功能5，首先需要将论文到中心论文的距离计算储存起来以供使用。

在多个视角上展示论文间的引用关系，创新性地呈现出一种类似地图的视角；在上述提到的论文引用网络中加入了缩放和拖拽的功能，使用户可以在不同视角和不同范围内搜寻文章，该功能的实现利用了D3.JS中的drag回调函数和transform函数。其次利用聚类得出了论文在不同层次上的分类信息，可在不同的尺度上展示论文(如图4所示)，此为宏观上论文的展示方式，点击此图包含的子领域即可经动画展示当前点击的一个子图(如图5所示)，此时可同上操作继续探索更小的领域，或者返回上一视图，该图利用了D3.JS中的pack样式。该功能通过检测鼠标的点击位置，向坐标变换函数中传递相应的参数，以实现在不同视图的变化。此外，我们还根据聚类中的论文标题里含有的词汇提取了聚类的关键词，并将停止词即无用的词汇去除，方便用户了解聚类的内容。

为了处理数据量过大，浏览器无法加载的问题，我们事先分析了每个聚类的大小，即其包含的子聚类的个数，将过大的聚类拆成多个文件储存显示，并将页面上的信息适当隐藏，以保证系统的响应速度

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于论文间引用关系的学术地图展示方法，其特征在于，包括如下步骤：

步骤4：在多个视角上展示论文间的引用关系，形成学术地图；

所述步骤2包括：

步骤2.2：提取相关论文的信息，存储于MySQL数据库中用于进一步处理与展示；

所述步骤3包括：

2.根据权利要求1所述的基于论文间引用关系的学术地图展示方法，其特征在于，所述步骤1包括：

所述社区发现算法是指：标签传递法Label Propagation Algorithm，简称LPA，以及Louvain法；

3.根据权利要求1所述的基于论文间引用关系的学术地图展示方法，其特征在于，所述步骤4包括：

步骤4.3：利用D3.JS可视化工具，提供动态地论文演变过程。

4.根据权利要求2所述的基于论文间引用关系的学术地图展示方法，其特征在于，所述步骤1.3中的Louvain Modularity算法是基于模块性的算法，在一个有权网络中，模块性的定义为：