CN107832412B

CN107832412B - 一种基于文献引用关系的刊物聚类方法

Info

Publication number: CN107832412B
Application number: CN201711078085.5A
Authority: CN
Inventors: 梅建萍; 王杰
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2020-06-30
Anticipated expiration: 2037-11-06
Also published as: CN107832412A

Abstract

本发明涉及一种基于文献引用关系的刊物聚类方法，通过收集刊物所发表的论文信息以及论文之间的引用关系，计算刊物之间的相关度，将T个“论文‑论文”的引用关系进行逐行转换，得到T行“刊物‑刊物”关系，基于此，得到n个刊物之间的关系W，建立以刊物为节点的关系网络，采用谱聚类对以刊物为节点的关系网络W进行刊物划分，对刊物进行迭代聚类，得到聚类结果。本发明采用基于大量论文之间的引用关系数据，计算刊物之间的关联关系，再用基于关系的聚类算法得到刊物之间的分组，相较于人工分类，本发明提出的基于引用关系的分类能更客观、及时地反映出各个刊物之间研究方向的关联，因此得到的分组结果具有客观性和时效性。

Description

一种基于文献引用关系的刊物聚类方法

技术领域

本发明属于特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法的技术领域，特别涉及一种数据挖掘以对刊物进行归类的基于文献引用关系的刊物聚类方法。

背景技术

在广大科研人员进行学术研究的过程中，学术刊物是呈现专业领域研究趋势以及指导科研工作的重要资源。研究人员一般根据刊物的领域分类来选择关注相应刊物，比如对该刊物上的论文进行阅读以及投稿到该刊物。

现有技术中，对基于领域不同的刊物的归类以人工分类为主，一般以刊物所涉及的研究方向为依据来划分其所属研究领域，但随着研究工作的进行、新的热门研究方向的不断出现以及交叉学科的出现，使得刊物所属领域需要及时调整和更新，传统的人工分类方法存在考虑不够全面和时间滞后的不足，不利于对具有及时性、创新性要求的科研工作的开展。

如何通过使用大量文献相关数据来对刊物进行高效、准确、及时的分类，是有效使用学术资源的一个重要问题。

发明内容

本发明解决的技术问题是，现有技术中，对基于领域不同的刊物的归类以人工分类为主，而导致的随着研究工作的进行、新的热门研究方向的不断出现以及交叉学科的出现，使得刊物所属领域需要及时调整和更新，传统的人工分类方法存在考虑不够全面和时间滞后的不足，不利于对具有及时性、创新性要求的科研工作的开展的问题，进而提供了一种优化的基于文献引用关系的刊物聚类方法。

本发明所采用的技术方案是，一种基于文献引用关系的刊物聚类方法，所述方法包括以下步骤：

步骤1：收集刊物所发表的论文信息以及论文之间的引用关系，计算刊物之间的相关度，将T个“论文-论文”的引用关系进行逐行转换，得到T行“刊物-刊物”关系；

步骤2：合并T行“刊物-刊物”关系，得到n个刊物之间的关系W，建立以刊物为节点的关系网络；

步骤3：采用谱聚类对以刊物为节点的关系网络W进行刊物划分，对刊物进行迭代聚类，得到聚类结果。

优选地，所述步骤1包括以下步骤：

步骤1.1：以记录P_i→P_j表示论文P_i引用了论文P_j；

步骤1.2：分别识别论文P_i初次刊发于刊物J_s上、论文P_j初次刊发于刊物J_h上；

步骤1.3：得到“刊物-刊物”关系J_s→J_h；

步骤1.4：循环T个“论文-论文”的引用关系进行逐行转换，得到T行“刊物-刊物”关系。

优选地，所述刊物包括发表论文的期刊、会议集和图书。

优选地，所述步骤2包括以下步骤：

步骤2.1：对于任意的两个刊物J_s和J_h，统计T行“刊物-刊物”关系中出现所述两个刊物J_s和J_h的引用关系J_s→J_h的次数W_s,h，以W_s,h作为所述两个刊物J_s和J_h的相关度；

步骤2.2：循环处理T行“刊物-刊物”关系，得到一个以n个刊物为节点、刊物之间关系为边的有向图W。

优选地，所述有向图W中，W_s,h作为每条边的权重，代表刊物J_s上的论文对刊物J_h上的论文的总引用次数。

优选地，所述步骤3包括以下步骤：

步骤3.1：由有向图W计算得到对称矩阵A，A＝(W+W^T)/2；

步骤3.2：设置聚类的类目数k，0≤k≤0.5n；

步骤3.3：计算对称矩阵A每行的和，得到对角矩阵D，对角矩阵D中每个对角元素

其中，p和q分别代表对称矩阵A的第p列和第q行；

步骤3.4：计算规范化的拉普拉斯矩阵L，

步骤3.5：对矩阵L进行矩阵的特征分解，得到n个特征值及相应的特征向量，对n个特征值排序选出最小的k个特征值，由其对应的特征向量组成矩阵V＝[v₁,v₂,...v_c,...v_k]，其中，v_c对应第c个特征值的特征向量，c＝1,...k；

步骤3.6：归一化所有矩阵V中的横向量，使矩阵V中的各元素之和为1，得到矩阵V'；

步骤3.7：将矩阵V'中的每一行看成是一个对象的特征表示，以k-means得到所有矩阵V'的n个对象的k个类的聚类。

优选地，所述步骤3.7包括以下步骤：

步骤3.7.1：随机初始化k个中心点，以k维向量m₁,m₂,...m_k表示；

步骤3.7.2：对于矩阵V'中的每一行k维向量v_i，计算其与每个中心点的欧式距离||v_i-m_f||，，其中，m_f对应第f个中心点的向量，f＝1,...k，f对应为第f个类；把v_i分到距离最近的中心点所在的类；

步骤3.7.3：更新k个中心点，每个中心点的向量m_f重新计算为所对应类f中的所有的对象的均值

其中，F为第f个类中包括的对象数量；

步骤3.7.4：重复步骤3.7.2，直至每个中心点稳定，此时更新前后的中心点的变化距离小于ε，若仍未稳定，在给定的迭代次数R后结束迭代。

优选地，所述步骤3.7.2中，对象到中心点的距离由欧式距离计算得到；所述步骤3.7.4中，中心点的变化距离由欧式距离计算得到。

优选地，所述步骤3中，调用Gephi的可视化模块将聚类结果以可视化图的形式输出。

优选地，所述步骤3中，通过对聚类结果和人工分组的比较和分析，得出跨领域学科的形成。

本发明提供了一种优化的基于文献引用关系的刊物聚类方法，通过收集刊物所发表的论文信息以及论文之间的引用关系，计算刊物之间的相关度，将T个“论文-论文”的引用关系进行逐行转换，得到T行“刊物-刊物”关系，基于此，得到n个刊物之间的关系W，建立以刊物为节点的关系网络，采用谱聚类对以刊物为节点的关系网络W进行刊物划分，对刊物进行迭代聚类，得到聚类结果。本发明采用基于大量论文之间的引用关系数据，计算刊物之间的关联关系，再用基于关系的聚类算法得到刊物之间的分组，相较于人工分类，本发明提出的基于引用关系的分类能更客观、及时地反映出各个刊物之间研究方向的关联，因此得到的分组结果具有客观性和时效性。

附图说明

图1为本发明中的以67种刊物、k为4进行谱聚类算法后得到的结果，节点大小表示连接到这个节点的边的权重之和，节点灰度不同表示不同的类，节点标签为JCR人工分类的大类领域；

图2为本发明中的以67种刊物、k为13进行谱聚类算法后得到的结果，节点大小表示连接到这个节点的边的权重之和，节点灰度不同表示不同的类，节点标签为JCR人工分类的小类领域；

图3为本发明中的以67种刊物、k为13进行谱聚类算法后得到的结果，序号表示刊物的ID，大类标签和小类标签为JCR人工分类，聚类编号为本发明得到的聚类结果中对每个类的编号，具有同样聚类编号即被本发明分在同一个类的刊物用相同的单元格背景灰度突出。

具体实施方式

下面结合实施例对本发明做进一步的详细描述，但本发明的保护范围并不限于此。

本发明涉及一种基于文献引用关系的刊物聚类方法，所述方法包括以下步骤。

步骤1：收集刊物所发表的论文信息以及论文之间的引用关系，计算刊物之间的相关度，将T个“论文-论文”的引用关系进行逐行转换，得到T行“刊物-刊物”关系。

所述步骤1包括以下步骤：

步骤1.1：以记录P_i→P_j表示论文P_i引用了论文P_j；

步骤1.3：得到“刊物-刊物”关系J_s→J_h；

所述刊物包括发表论文的期刊、会议集和图书。

本发明中，步骤1主要是基于刊物所发表的论文信息以及论文之间的引用关系计算刊物之间的相关度，建立以刊物为节点的关系网络。

本发明中，刊物包括但不限于发表论文的期刊、会议集、图书等载体。

步骤2：合并T行“刊物-刊物”关系，得到n个刊物之间的关系W，建立以刊物为节点的关系网络。

所述步骤2包括以下步骤：

所述有向图W中，W_s,h作为每条边的权重，代表刊物J_s上的论文对刊物J_h上的论文的总引用次数。

本发明中，未开始处理时，任意的两个刊物J_s和J_h的相关度为0，在整个循环处理的过程中，每有一篇J_s刊物上发表的论文引用了J_h刊物上发表的一篇论文，就使得刊物J_s→J_h的相关度加1，这里的相关度其实是一个数量，即统计两种刊物中有引用关系的论文总数，代表这两个刊物间的相关性。

本发明中，W_s,h其实就是任意的两个刊物J_s和J_h的相关度，是刊物聚类的重要指标，用于衡量刊物之间的紧密程度，相关度越大，表示在有向图中，这条边越“厚”，也就是这两个刊物的关系越紧密。

所述步骤3包括以下步骤：

步骤3.1：由有向图W计算得到对称矩阵A，A＝(W+W^T)/2；

步骤3.2：设置聚类的类目数k，0≤k≤0.5n；

其中，p和q分别代表对称矩阵A的第p列和第q行；

步骤3.4：计算规范化的拉普拉斯矩阵L，

所述步骤3.7包括以下步骤：

其中，F为第f个类中包括的对象数量；

所述步骤3.7.2中，对象到中心点的距离由欧式距离计算得到；步骤3.7.4中，中心点的变化距离由欧式距离计算得到。

本发明中，对称矩阵A是由有向图W转换得到的无向图。

本发明中，类目数k表示k个组，在实施过程中可以依据本领域技术人员的需求设置k的值，k越大则得到的分类越细。

本发明中，对矩阵L进行矩阵的特征分解是指对n×n的对角矩阵的特征分解，最终会得到n个特征向量。

本发明中，矩阵V＝[v₁,v₂,...v_c,...v_k]中的特征向量由小到大排列，即v_c对应第c小的特征值的特征向量。

本发明中，步骤3.7.3中，均值指这个类内所有对象的向量的平均值。

本发明中，步骤3.7.4中的“稳定”是指每次迭代内都是对n个对象属于哪个类进行分配，直至每个类的中心点的位置保持稳定。

所述步骤3中，调用Gephi的可视化模块将聚类结果以可视化图的形式输出。

本发明中，启动Gephi后导入所有两两关系J_s→J_h，得到关系图，运行后根据聚类结果，用同一种颜色表示属于同一个类的不同节点。节点大小对应连接到该节点的边的权重之和，选用Force Atlas布局模式调整节点布局后得到最后结果。

所述步骤3中，通过对聚类结果和人工分组的比较和分析，得出跨领域学科的形成。

本发明中，可以对比人工分组和聚类结果，如果某些人工标记为不同领域的刊物被分到了同一个类，则说明这些刊物之间的跨领域的引用关系比较多，因此由这些刊物形成的类可以对应一个跨领域研究方向。

给出一个本发明的实施例。

本发明选取了中科院JCR刊物分区在线平台上一区排名靠前的80余种刊物进行分析，这些刊物大类涵盖生物、计算机、工程技术、数学四种领域，所需文献数据来自于微软学术图(MAG)的上百G论文相关数据，共计1亿余篇论文信息、23410个刊物，论文发表时间为1960年至2016年。对包含4915612个“论文-论文”之间的引用关系进行逐行转换，重复直到4915612行全部处理完，从中筛选JCR中选取的刊物，得到89个刊物之间的关系W，包括3929行引用关系。统计边权重并过滤无效节点(不与其他任何节点相连)后得到的有向图W，节点数为67、边数为236，本实施例中，k被设置为4和13，分别得到刊物大类和小类的分组，ε＝10^-5，分别得到附图1、2、3的结果。

如图1所示，比较同一种灰度的节点的标签，可以看出，聚类结果大部分和人工分组相一致，但也有少数不一致的。比如，一个被标为“数学”领域的刊物被分到计算机刊物的一组，因为该刊物虽然被人工分到数学领域，但其实其和计算机领域的刊物相互引用的次数反而多于和数学领域刊物之间的引用。

如图2和图3所示，当k为13，得到更细的分类，由图2和图3对比人工分组和聚类结果，可以发现某些人工标记为不同领域的刊物被分到了同一个类，比如图3中聚类标签为3、7、9的这几个类，这些刊物之间的跨领域的引用关系比较多，有利于由这些刊物形成的类对应交叉学科研究。

本发明解决了现有技术中，对基于领域不同的刊物的归类以人工分类为主，而导致的随着研究工作的进行、新的热门研究方向的不断出现以及交叉学科的出现，使得刊物所属领域需要及时调整和更新，传统的人工分类方法存在考虑不够全面和时间滞后的不足，不利于对具有及时性、创新性要求的科研工作的开展的问题，通过收集刊物所发表的论文信息以及论文之间的引用关系，计算刊物之间的相关度，将T个“论文-论文”的引用关系进行逐行转换，得到T行“刊物-刊物”关系，基于此，得到n个刊物之间的关系W，建立以刊物为节点的关系网络，采用谱聚类对以刊物为节点的关系网络W进行刊物划分，对刊物进行迭代聚类，得到聚类结果。本发明采用基于大量论文之间的引用关系数据，计算刊物之间的关联关系，再用基于关系的聚类算法得到刊物之间的分组，相较于人工分类，本发明提出的基于引用关系的分类能更客观、及时地反映出各个刊物之间研究方向的关联，因此得到的分组结果具有客观性和时效性。

Claims

1.一种基于文献引用关系的刊物聚类方法，其特征在于：所述方法包括以下步骤：

所述步骤2包括以下步骤：

步骤2.2：循环处理T行“刊物-刊物”关系，得到一个以n个刊物为节点、刊物之间关系为边的有向图W；

2.根据权利要求1所述的一种基于文献引用关系的刊物聚类方法，其特征在于：所述步骤1包括以下步骤：

步骤1.1：以记录P_i→P_j表示论文P_i引用了论文P_j；

步骤1.3：得到“刊物-刊物”关系J_s→J_h；

3.根据权利要求1所述的一种基于文献引用关系的刊物聚类方法，其特征在于：所述刊物包括发表论文的期刊、会议集和图书。

4.根据权利要求1所述的一种基于文献引用关系的刊物聚类方法，其特征在于：所述有向图W中，W_s,h作为每条边的权重，代表刊物J_s上的论文对刊物J_h上的论文的总引用次数。

5.根据权利要求1所述的一种基于文献引用关系的刊物聚类方法，其特征在于：所述步骤3包括以下步骤：

步骤3.1：由有向图W计算得到对称矩阵A，A＝(W+W^T)/2；

步骤3.2：设置聚类的类目数k，0≤k≤0.5n；

其中，p和q分别代表对称矩阵A的第p列和第q行；

步骤3.4：计算规范化的拉普拉斯矩阵L，

6.根据权利要求5所述的一种基于文献引用关系的刊物聚类方法，其特征在于：所述步骤3.7包括以下步骤：

步骤3.7.2：对于矩阵V'中的每一行k维向量v_i，计算其与每个中心点的欧式距离||v_i-m_f||，其中，m_f对应第f个中心点的向量，f＝1,...k，f对应为第f个类；把v_i分到距离最近的中心点所在的类；

其中，F为第f个类中包括的对象数量；

7.根据权利要求6所述的一种基于文献引用关系的刊物聚类方法，其特征在于：所述步骤3.7.2中，对象到中心点的距离由欧式距离计算得到；所述步骤3.7.4中，中心点的变化距离由欧式距离计算得到。

8.根据权利要求1所述的一种基于文献引用关系的刊物聚类方法，其特征在于：所述步骤3中，调用Gephi的可视化模块将聚类结果以可视化图的形式输出。

9.根据权利要求1所述的一种基于文献引用关系的刊物聚类方法，其特征在于：所述步骤3中，通过对聚类结果和人工分组的比较和分析，得出跨领域学科的形成。