CN110083703A

CN110083703A - 一种基于引用网络和文本相似度网络的文献聚类方法

Info

Publication number: CN110083703A
Application number: CN201910347368.8A
Authority: CN
Inventors: 张帅; 徐杨炳; 张文宇; 熊志英; 庄晓瑜
Original assignee: Zhejiang University of Finance and Economics
Current assignee: Zhejiang University of Finance and Economics
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-08-02

Abstract

本发明公开了一种基于引用网络和文本相似度网络的文献聚类方法，综合考虑了参考文献在引证文献中引用的次数及位置分布，参考文献之间的引用邻近度，以及文献的文本相似度等因素，计算文献的相似度，并采用随机游走算法对文献进行聚类，计算每篇文献的中心度来确定文献的重要程度。本发明的方法能有效弥补基于传统耦合网络和文本相似度网络在文献聚类时的不足，本发明提出的方法能更加科学合理地实现文献聚类分析。

Description

一种基于引用网络和文本相似度网络的文献聚类方法

技术领域

本发明属于文献聚类技术领域，尤其涉及一种基于引用网络和文本相似度网络的文献聚类方法。

背景技术

近年来，由于各领域发表的文献数量呈指数级增长，使得学者(尤其是新入门的学者)仅依靠人工阅读文献并对文献进行聚类分析，成为一项几乎不可能完成的任务。因此，构建一种能准确地聚类文献，且能合理地定位核心文献的方法显得迫在眉睫。在文献计量学和信息计量学领域，文献引用网络常用于文献聚类分析。文献引用网络主要有如图1所示的三种结构：直接引用网络、共被引网络、耦合网络。如果文献A引用了文献B，那么文献A和B构成直接引用网络(如图1(a))；如果文献A和B均被另一篇文献C引用，那么文献A和B构成共被引网络(如图1(b))；如果文献A和B均引用了同一篇文献C，那么文献A和B构成耦合网络(如图1(c))。

除文献的直接引用网络外，文献的共被引网络也常用于文献聚类分析然而，由于获取文献全文及参考文献在引证文献中引用位置信息的工作量较大，基于传统共被引的文献聚类模型缺乏对参考文献引用邻近度的考虑，仅简单假设引证文献中所有的参考文献具有相等的相似度。有些现有技术方案虽然综合考虑了文献的平均发表时间、文献的关键词相似度、参考文献的相似性，以及参考文献与引证文献的引用次数等因素。但考虑的参考文献与引证文献之间的引用次数，只是基于文献的直接引用网络、共被引网络和耦合网络的简单统计，并没有进一步考虑参考文献在引证文献中引用的次数及位置分布。此外，现有技术提出的文献聚类方法，通常考虑了参考文献的相对距离而不是绝对距离。

因此，寻找更加有效的文献聚类方法，一直是本领域技术人员的重要课题。

发明内容

本发明的目的是提供一种基于引用网络和文本相似度网络的文献聚类方法，以文献为节点，以文献相似度为连边强度，构建了文献-相似度网络，对文献进行聚类分析，使得同一聚类中的文献具有相似的主题。

为了实现上述目的，本发明技术方案如下：

一种基于引用网络和文本相似度网络的文献聚类方法，其特征在于，所述基于引用网络和文本相似度网络的文献聚类方法，包括：

对基于引用网络和文本相似度网络的文献相似度进行标准化，采用S＝[S_i,j]表示基于引用网络和文本相似度网络的N×N的相似度矩阵，其中元素S_i,j表示文献i和文献j的相似度，S_i,j的计算公式如下：

其中，和分别表示标准化后的基于引用网络和文本相似度网络的文献相似度，λ表示引用网络的权重；

采用随机游走算法对文献进行聚类，计算每篇文献的中心度来确定文献的重要程度。

进一步地，以表示基于引用网络的N×N的相似度矩阵，元素表示文献i和文献j基于引用网络的相似度，标准化后就是计算公式如下：

其中，v₁、v₂、和v₃分别表示构成文献相似度矩阵时直接引用网络、共被引网络及耦合网络的权重，且v₁+v₂+v₃＝1，表示文献i和文献j基于直接引用网络的相似度，表示文献i和文献j基于共被引网络的相似度，表示文献i和文献j基于耦合网络的相似度。

进一步地，用表示基于直接引用网络的N×N的文献相似度矩阵，元素表示文献i和文献j基于直接引用网络的相似度，其计算公式表示如下：

其中t_i,j表示文献j被文献i引用的次数，T_i表示文献i中所有引用的次数之和，m_i,j表示文献i中引用了文献j的章节数，M_i表示文献i中含有引用的章节数。

进一步地，用表示基于共被引网络的N×N的相似度矩阵，元素表示文献i和文献j基于共被引网络的相似度，由下式计算得到：

C₁＝C_i∩C_j，

C₂＝C_i-C_j，

C₃＝C_j-C_i，

其中C₁表示同时引用了文献i和文献j的文献集合，C₂表示引用了文献i却没有引用文献j的文献集合，C₃表示引用了文献j却没有引用文献i的文献集合，k表示对应文献集合中的文献，P_i,j,k表示文献i和文献j在文献k中的引用邻近度的权重，C_i和C_j分别表示引用了文献i和文献j的文献集合。

进一步地，用表示基于耦合网络的N×N的相似度矩阵，元素表示文献i和文献j基于耦合网络的相似度，由如下公式计算得到：

C’₁＝C′_i∩C′_j，

C’₂＝C′_i-C′_j，

C’₃＝C′_j-C′_i，

其中C’₁表示同时被文献i和文献j引用的文献集合，C’₂表示被文献i引用却没有被文献j引用的文献集合，C’₃表示被文献j引用却没有被文献i引用的文献集合，k表示对应文献集合中的文献，C′_i和C′_j分别表示被文献i和文献j引用的文献集合。

本发明提出的一种基于引用网络和文本相似度网络的文献聚类方法，综合考虑了参考文献在引证文献中引用的次数及位置分布，参考文献之间的引用邻近度，以及文献的文本相似度等因素。本发明的方法能有效弥补基于传统耦合网络和文本相似度网络在文献聚类时的不足，本发明提出的方法能更加科学合理地实现文献聚类分析。

附图说明

图1为文献引用网络的三种结构示意图；

图2为本发明实施例基于引用网络和文本相似度网络的文献聚类方法流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图2所示，提供了一种基于引用网络和文本相似度网络的文献聚类方法。在计算文献相似度时，考虑了直接引用网络、共被引网络、耦合网络和文本相似度网络。本实施例一种基于引用网络和文本相似度网络的文献聚类方法，包括：

步骤S1、对基于引用网络和文本相似度网络的文献相似度进行标准化，采用S＝[S_i,j]表示基于引用网络和文本相似度网络的N×N的相似度矩阵，其中元素S_i,j表示文献i和文献j的相似度，S_i,j的计算公式如下：

其中，和分别表示标准化后的基于引用网络和文本相似度网络的文献相似度，λ表示引用网络的权重。

本步骤对基于引用网络和文本相似度网络的文献相似度进行标准化,计算文献i和文献j的相似度。具体地，对基于引用网络和文本相似度网络的文献相似度进行标准化中，包括对基于引用网络的文献相似度进行标准化和对基于文本相似度网络的文献相似度进行标准化，标准化公式如下：

S^nv＝S^ov/S^maxv (2)

其中，S^nv和S^ov分别表示标准化后与标准化前的文献相似度值，S^maxv表示对应矩阵的最大值。

本实施例以表示基于引用网络的N×N的相似度矩阵，该相似度矩阵综合考虑了基于直接引用网络、共被引网络及耦合网络的文献相似度。元素表示文献i和文献j基于引用网络的相似度，如下式所示：

其中，v₁、v₂、和v₃分别表示构成文献相似度矩阵时直接引用网络、共被引网络及耦合网络的权重，且v₁+v₂+v₃＝1。标准化后就是标准化后就是表示文献i和文献j基于文本相似度网络的相似度。

其中，表示文献i和文献j基于直接引用网络的相似度，表示文献i和文献j基于共被引网络的相似度，表示文献i和文献j基于耦合网络的相似度。

需要说明的是，传统的技术方案中，有很多关于和的技术方案，虽然基于传统的技术方案也可以计算得到但本发明优选的是，分别对和的计算方法进行了改进，具体描述如下

本实施例用表示基于直接引用网络的N×N的文献相似度矩阵，其中N表示在数据集中目标文献的数量。元素表示文献i和文献j基于直接引用网络的相似度，其计算公式表示如下：

其中t_i,j表示文献j被文献i引用的次数，T_i表示文献i中所有引用的次数之和，m_i,j表示文献i中引用了文献j的章节数，M_i表示文献i中含有引用的章节数。显然，文献的相似度矩阵是一个对称矩阵，即文献i与文献j的相似度等于文献j和文献i的相似度。因此，当文献j引用文献i时，另一方面，考虑到多数文献都有较多的章节，但是只有其中一个或两个章节引用了同一篇参考文献，为了使文献的相似度更加平滑，本实施例采用对数方式处理直接引用网络中基于引用的位置分布的部分。根据式(4)，的范围在0到1之间，且文献j与文献i越相似，其值越大。本实施例提出的直接引用网络方法很好地解释了若参考文献与引证文献越相似，则该参考文献在引证文献中引用的次数越多且位置分布越广泛的现象。

本实施例将参考文献之间的引用邻近度作为共被引网络模型的重要组成部分。将引用邻近度划分为四个等级：两篇文献是否引用在同一句子中，是否引用在同一段落中，是否引用在同一章节中，以及是否引用在同一文献中，并按照表1为每个等级赋予权重。同时，若两篇文献满足多个引用邻近度等级的要求，则赋予这两篇文献最高等级的权重。本实施例用表示基于共被引网络的N×N的相似度矩阵。元素表示文献i和文献j基于共被引网络的相似度，可由式(5)-(8)计算得到。

C₁＝C_i∩C_j， (5)

C₂＝C_i-C_j， (6)

C₃＝C_j-C_i， (7)

其中C₁表示同时引用了文献i和文献j的文献集合，C₂表示引用了文献i却没有引用文献j的文献集合，C₃表示引用了文献j却没有引用文献i的文献集合，k表示对应文献集合中的文献，P_i,j,k表示文献i和文献j在文献k中的引用邻近度的权重，其值由表1得到。C_i和C_j分别表示引用了文献i和文献j的文献集合。根据式(8)，文献i和文献j的相似度不仅与引用它们的文献数相关，也与它们的引用邻近度相关。

表1.两篇文献的引用邻近度与其对应的等级权重

表1

需要说明的是，表1中权重仅为一种示例，本领域技术人员可以根据实际情况分配不同的权重，这里不再赘述。

本实施例用表示基于耦合网络的N×N的相似度矩阵。元素表示文献i和文献j的相似度，可由式(9)-(12)计算得到。其中C’₁表示同时被文献i和文献j引用的文献集合，C’₂表示被文献i引用却没有被文献j引用的文献集合，C’₃表示被文献j引用却没有被文献i引用的文献集合，k表示对应文献集合中的文献。

C’_i＝C′_i∩C′_j， (9)

C’2＝C′_i-C′_j， (10)

C’₃＝C′_j-C′_i， (11)

C′_i和C′_j分别表示被文献i和文献j引用的文献集合。显然，上述公式在计算文献相似度时具有二次方的时间复杂度。为了降低模型运行时的内存消耗并加快运算速度，本实施例采用了分块技术。例如：充分利用文献引用网络的稀疏性，采用链表来表示文献的引用关系，每一个链表中的元素表示对应文献的参考文献，并且只计算具有引用关系的文献相似度，从而有效提升了算法的运行效率。

虽然BM25算法主要用于文献排序分析，但也可用于文献聚类分析，尤其在处理大规模文献聚类时具有良好的性能。主流的文献相似度计算方法有：基于词频-逆文档矩阵的余弦相似度方法、潜在语义分析方法、主题模型方法等。本实施例采用了BM25算法计算文献相似度，并且没有考虑其它的文献相似度计算方法，例如：余弦相似度方法、编辑距离方法、jaccard指数方法等。本实施例用表示基于文本相似度网络的N×N的相似度矩阵。元素表示文献i和文献j的相似度，可由式(13)和(14)计算得到。

其中，n表示不同词的数量，n_x表示词x在文献j中出现的次数，|L|和分别表示文献j中词的数量和所有文献中词的平均数量，k1和b是BM25算法的两个调优参数，本实施例分别设置为2.0和0.75，IDF_x表示词x的逆文档频率。在式(14)中，D表示文献的数量，d_x表示含有词x的文献数量。为减少算法执行的时间复杂度并提高文献聚类的准确度，在计算文献文本相似度时，本实施例只考虑文献中逆文档频率大于2的词。BM25算法为现有比较成熟的技术方案，这里不再赘述。

步骤S2、采用随机游走算法对文献进行聚类，计算每篇文献的中心度来确定文献的重要程度。

随机游走算法是一种主流的社群发现算法，且不需要人为确定聚类个数，因此本实施例采用随机游走算法对文献进行聚类分析。基于随机游走算法得到的聚类个数在10-20之间。

确定核心文献对于理解整个研究领域具有重要作用。因此，如何确定聚类中的核心文献是文献聚类分析中的重要内容。本实施例通过计算每篇文献的中心度来确定文献的重要程度，具体计算方法如下式所示：

DC_i＝δ(v_i，v_j)S_i，j，i≠j， (15)

其中，DC_i表示文献i的中心度，v_i和v_j分别表示文献i和文献j所在的聚类。且当文献i和j属于同一个聚类时，δ(v_i,v_j)＝1，否则δ(v_i,v_j)＝0。建议核心文献应占数据集规模的0.1-1.0％，因此本实施例将每个聚类中，中心度前0.5％的文献作为该聚类的核心文献，且将出现次数最频繁的前3个MeSH词作为该聚类的聚类主题。通过阅读这些核心文献，学者们可以快速了解整个研究领域，掌握领域研究现状，发现领域研究前沿。

本实施例还通过实验，来验证本申请技术方案的技术效果。通过实验比较了基于不同算法得到的文献聚类结果在精确度、召回率和F值等指标。发现，基于随机游走算法得到的聚类结果具有最高的F值，这说明随机游走算法是一种有效的文献聚类算法。

本实施例还通过实验发现基于传统共被引网络得到的文献聚类结果非常糟糕，例如在一个实验中文献被归为8,295个聚类，其中7,629个聚类中仅含有一篇文献。面对如此糟糕的聚类结果，通过精确度或者召回率等指标去评价该模型对文献聚类结果的影响是没有意义的。因此本实施例不对基于传统共被引网络的文献聚类结果进行评价。

表2示出了基于本实施例提出的模型、传统耦合网络、文本相似度网络对文献聚类结果的影响。

表2

表2展示了基于本实施例提出的模型、传统耦合网络、文本相似度网络得到的文献聚类结果在精确度、召回率和F值等指标上的比较。根据表2，基于传统耦合网络的文献聚类结果具有最高的精确度，但是其召回率指标却明显低于基于其它两个模型的文献聚类结果。这说明有很多相似的文献被错误地划分到了不同的聚类中。另外，基于本实施例提出的模型的文献聚类结果得到的F值高于基于传统耦合网络得到的文献聚类结果的F值。这说明考虑参考文献在引证文献中引用的次数和位置分布，参考文献的引用邻近度，文献文本相似度等因素确实能更准确地反映文献之间的相似度，提高文献聚类的准确度。另外，本实施例提出的模型的聚类结果具有最高的F值，说明本实施例提出的模型能有效弥补基于传统耦合网络和文本相似度网络在文献聚类时的不足，同时也证明本实施例提出的引用网络和文本相似度网络能更加科学合理地实现文献聚类分析。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于引用网络和文本相似度网络的文献聚类方法，其特征在于，所述基于引用网络和文本相似度网络的文献聚类方法，包括：

2.根据权利要求1所述的基于引用网络和文本相似度网络的文献聚类方法，其特征在于，以表示基于引用网络的N×N的相似度矩阵，元素表示文献i和文献j基于引用网络的相似度，标准化后就是计算公式如下：

3.根据权利要求2所述的基于引用网络和文本相似度网络的文献聚类方法，其特征在于，用表示基于直接引用网络的N×N的文献相似度矩阵，元素表示文献i和文献j基于直接引用网络的相似度，其计算公式表示如下：

4.根据权利要求2所述的基于引用网络和文本相似度网络的文献聚类方法，其特征在于，用表示基于共被引网络的N×N的相似度矩阵，元素表示文献i和文献j基于共被引网络的相似度，由下式计算得到：

C₁＝C_i∩C_j，

C₂＝C_i-C_j，

C₃＝C_j-C_i，

5.根据权利要求2所述的基于引用网络和文本相似度网络的文献聚类方法，其特征在于，用表示基于耦合网络的N×N的相似度矩阵，元素表示文献i和文献j基于耦合网络的相似度，由如下公式计算得到：

C’₁＝C’_i∩C’_j，

C’₂＝C’_i-C’_j，

C’₃＝C’_j-C’_i，