CN101477536A

CN101477536A - 基于关联网络的科技文献实体综合排序方法

Info

Publication number: CN101477536A
Application number: CNA2008102463144A
Authority: CN
Inventors: 金海�; 袁平鹏; 黄莉; 孙雪婧; 廖振松
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2008-12-30
Filing date: 2008-12-30
Publication date: 2009-07-08

Abstract

本发明公开了一种基于关联网络的科技文献实体综合排序方法，步骤为：①根据文献实体之间的关联构建文献关联网络；②设置文献关联网络中结点的初始排序值，将这些节点的初始排序值表示成向量v；③构造文献关联网络的关联矩阵A；④分别对矩阵进行行向量规范化和列向量规范化，所得矩阵分别设为B和C；⑤计算v′＝B×(C+H)×v^T；⑥v′＝dv′a^－1。然后v′中的每个元素加上1－d，得到向量v^new。向量v^new的各分量即为各节点的当前排序值；⑦计算每个结点的当前排序值与旧排序值的差绝对值，找出其中最大值，如果大于阈值，则v＝v^new转5继续迭代，否则向量v^new的各分量就是各节点的最终排序值，结束。本发明方法克服了目前排序方法的缺点，以文献世界中存在的多种关联为依据对文献领域中实体进行排序。文中的实验结果表明了文中所述方法比目前排序方法要更为准确。

Description

基于关联网络的科技文献实体综合排序方法

技术领域

本发明属于计算机科学领域的信息检索及管理学领域科学计量，具体涉及一种基于关联网络的科技文献实体综合排序方法，该方法主要利用文献领域实体之间存在的关联来解决文献领域实体的排序问题。

背景技术

随着科学技术的飞速发展，学术文献也在以飞快的速度增加。如，到2006年12月份，CNKI收录了自1979年以来的期刊论文共22,266,795篇。每日新增约1.5万余篇。这还不包括博硕士论文以及其它文献。国外文献数据库IEEE Xplore收录有文献1,457,175篇。Citeseer有文献767,516篇。DBLP有840,000篇文献的数据。如何从这些海量的文献源中有效地查找高质量文献，对于研究人员来说就显得至关重要。因此，文献检索系统需要将文献进行排序以帮助用户尽快找到所需要的文献领域实体。但目前的文献检索系统对此并不能提供有效支持。这表现在：首先，目前多数文献检索系统大都是以被引次数为依据来返回文献检索结果。虽然被引次数能够在一定程度上说明一篇论文的重要性，但仅仅依靠被引次数是不够准确和全面的。这是因为，一方面文章的被引次数在将来可能会增长，根据当前的数据不一定能够准确。另一方面是新发表的文章同先前发表的文章相比，在引用次数上相对来说就会少一些。由于研究人员通常阅读最近几年的文章，因此，根据被引次数并不能给研究人员检索文献提供很好的帮助。其次，目前多数文献检索系统基本上都只有对文献的排序，很少涉及到文献领域其它实体，如作者、出版源的排序。对于研究人员来说，了解相关领域的权威人士、权威出版源对于查找相关论文能起到事半功倍的效果。

对检索结果进行排序是检索系统很重要的一项功能。排序算法及技术是检索系统的关键技术之一。总体上来说，对文献的排序不外乎两种方法，一种是依据字段的排序方法，这在以数据库为代表的检索系统中最为常见。这种排序方式反映的是文献内容与检索的相似程度。常见的文献库，如ACM数据库、维普数据库、中国期刊全文数据库等在排序中也均采用了这种方式。另一种是基于关联的排序方法。基于关联的排序方法依据对象之间的联系来决定对象的重要程度或相关程度。基于关联的排序方法依据计算方式又可分为静态和动态的排序方法。静态方法通常仅仅依靠对链入或链出次数的统计来进行排序。目前文献检索系统大多数采用的是静态方法，文献排序的依据是被引用数。动态方法首先建立关联网络，然后通过某种方式对其中的每一对象进行迭代运算得到该对象的影响值。

发明内容

本发明的目的是提供一种基于关联网络的科技文献实体综合排序方法，该方法可以更为准确和全面地对文献领域实体，包括作者、文献、出版物进行排序。

本发明提供的基于关联网络的科技文献实体综合排序方法，包括如下步骤：

(1)按照下述过程构建文献关联网络：

(1.1)将作者、文献名称和学术会议或期刊名称表示成文献关联网络上的节点；

(1.2)如果两份文献之间存在引用关系，在文献关联网络增加引用文献节点与被引用文献节点的双向链接，链接分别标上引用与被引用；如果某人是一文献的作者之一，在文献关联网络增加文献到与作者之间的双向链接，链接分别标上创作与被创作；如果某一文献发表在某一会议或期刊上，在文献关联网络增加从文献与会议或期刊的双向链接，链接分别标上发表与被发表；

(1.3)根据文献关联网络中链接的属性，对文献关联网络中的链接分别赋予权值；

(2)设置文献关联网络中结点的初始排序值，将这些节点的初始的旧排序值表示成向量v；

(3)构造文献关联网络的关联矩阵A，其中矩阵中行代表实体，列代表关联，

(4)分别对关联矩阵A进行行向量规范化和列向量规范化，所得矩阵分别设为B和C；

(5)计算中间向量v′＝B×(C+H)×v^T，H为由权值传递增强因子构成的矩阵，各权值传递增强因子为同一常数；

(6)令v′＝dv′a^-1，其中，d为衰退因子，a为根据结点之间距离控制相应影响因子传递的文献影响因子；然后v′中的每个元素加上1-d，得到向量v^new，向量v^new的各分量为各节点的当前排序值；

(7)计算每个结点的当前排序值与旧排序值的差的绝对值，找出其中最大值；

(8)如果步骤(7)中的最大值大于设定的阈值，令v＝v^new，得到各结点的新的旧排序值，再转入步骤(5)，否则将向量v^new中的各分量作为各节点的最终排序值；

(9)根据最终排序值对实体进行排序。

目前文献排序大多是以被引次数为依据，而且目前多数文献检索系统基本上都只有对文献的排序，很少涉及到文献领域其它实体，如作者、出版源的排序。针对以上问题，考虑到文献领域中实体，如文献、作者、出版源等多种实体之间均存在多种形式的关联。这些关联可从某些方面反映了相应文献领域实体的重要程度。基于此，本发明提出一种基于文献关联网络的文献领域实体综合排序方法。该方法是在对文献领域实体之间关联进行分析的基础之上，利用丰富的关联语义，以便更为准确性、更加全面地对文献实体进行排序。具体而言，本发明具有以下特点：

(1)本发明采用统一的方法不但可以对文献排序，而且对文献领域其它实体，如作者、出版源等进行排序；

(2)不同于目前多数文献检索系统大都是以被引次数为依据来排序文献，本发明考虑文献领域实体之间多样关联的差异性对文献领域实体进行排序。因此，本发明可以对缺少引用或引用不多的新文献领域实体进行恰当排序。

(3)利用丰富的关联语义，更为准确性、更加全面地对文献实体进行排序。

附图说明

图1为本发明方法的处理流程图。

具体实施方式

文献领域存在多种实体。这些实体包括文献、作者、出版物等。文献领域实体之间存在多种多样的关联。理论上可存在9种可能关联，如：文献-文献，文献-作者，文献-出版物、作者-作者、作者-文献、作者-出版物、出版物-出版物、出版物-文献、出版物-作者等等之间的关联。在实际中，人们通常关注的关联主要有：引用关联；创作/被创作关联；出版关联；合作关联。这些关联将文献领域实体，如文献、作者、出版源等连接起来形成网络。形成4种网络：创作网络、引用网络、合作网络、发表网络。创作网络反映了文献实体与作者实体之间的关联网络。创作网络里存在多个作者实体与一篇文献相关联的情况，这时不同位置的作者对文章的贡献是不同的，必须加以区分。引用网络反映了文献之间的引用关联。合作网络反映了作者之间在创作文献时所发生的关联。而发表网络则反映了刊物与文献之间的关系。将这4种网络融合在一起形成文献关联网络。文献领域实体之间关联的强度有大有小，文献领域实体通过关联相互影响的程度有高有低。考虑到不同关联的影响力，对关联赋予一权值。所形成的文献关联网络称为赋权文献关联网络。由于权值体现了关联的源端对目的端的影响力，因此将权值称为影响因子(Impact Factor)。

关联的影响因子与文献关联类型相关。它反映了关联源端影响关联末端的程度。对于文献引用关系的影响因子来说，它的传递方向是从引用的文献指向被引用的文献。引用关系影响因子大小取决于引用关系两端节点。具体地说，单纯的文献被引关系的影响因子应由引用文献的重要性来决定。被重要文献引用的文献也越重要，被越多文献引用的文献越重要。作者相同的文献引用关系的影响因子应赋较小值。不相关作者文献引用关系的影响因子应赋较大值。对于创作关系的影响因子是从作者传向文献，而表示被创作关系的边的影响因子是从文献传向作者。对于会议/期刊与文献的收录关系的影响因子是从会议/期刊传向文献，而表示被收录关系的边的影响因子传递相反。

将文献关联网络表示成如下的关联矩阵。矩阵中行代表实体，列为关联。将这种关联矩阵称之为边-点关联矩阵。矩阵每一元素代表关联的影响因子。采用这种方式表达文献关联网络的优点是，可以表达实体之间多于两种以上关联的情况以及实体之间关联的属性与端节点相关的情况。由于实体与关联的关系存在两种可能：一种是关联的源节点，另一种是目标节点。因此，相应地将关联矩阵分为两种，一种是入矩阵。入矩阵的行是列中关联的目标节点；另一种是出矩阵。

对于入矩阵I_in，矩阵里面的元素定义为

a_{ij} = \{\begin{matrix} 1 & t \arg et (v_{i}, e_{j}) \\ 0 & otherwise \end{matrix}

对于出矩阵I_out，矩阵里面的元素定义为

a_{ij} = \{\begin{matrix} {IF}_{e_{j}} & source (v_{i}, e_{j}) \\ 0 & otherwise \end{matrix}

为了后面的叙述方便起见，将关联e_j表示成更常见的形式e_il，即关联两端节点来表达关联，其中j为边的序号(若两节点之间没有关联视之为零关联)，i，l分别为关联两端节点的序号。边的序号可以通过式j＝(l-1)×n+i.vl是e_j的源节点。

文献领域的实体被人访问与否，或者访问频繁与否，由文献领域实体的影响力来决定。也即影响力越大的实体，将会获得越多的引用或关联。从这个意义上说，赋权文献关联网络相当于一水渠网络：实体相当于网络中一水池节点，而实体之间的关联相当于水渠。在水渠网络中，既有流量注入水池节点，同样会有流量从水池节点流出。由于进入水池节点的水渠数目不同，水渠的截面面积也不同，注入不同水池节点流量是不同的。随着流量的注入，水渠网络将进入平衡状态。在平衡状态下，水池节点的流量是稳定的。这时水池节点的流量是节点最大流量。这时的节点流量可用来衡量节点的能力。因此，对实体排序的问题就转化为计算水管网络中的节点流量问题。考虑到水在水管流动时，会有一定的损失，这样到达水池节点的流量会有损耗。据此可得：

Q＝(1-d)+dI_inq^T (1)

其中Q＝(r₀，r₁，…，r_i，…，r_n)，为各节点的流量。d为衰减因子，通常取0.85。

q = (f_{e_{1}}, f_{e_{2}}, . . ., f_{e_{m}})

是行向量，为各关联上的流量。也即从源节点流向目标节点的流量。源节点流给一目标节点的流量由两个因素决定，一个是入流量，另一个是出关联的数量及其影响值。

f_{e_{ij}} = \{\begin{matrix} \frac{r_{i} {IF}_{e_{ij}}}{\underset{i &RightArrow; k}{Σ} {IF}_{e_{ik}}}, & \underset{i &RightArrow; k}{Σ} {IF}_{e_{ik}} > 0 \\ 0, & \underset{i &RightArrow; k}{Σ} {IF}_{e_{ik}} = 0 \end{matrix} - - - (2)

公式(2)中，

表示结点j到结点i的权值传递向量因子。

表示结点j到结点i关联的影响因子，影响因子的大小是由文献关联网络中结点j与i的类型来决定。i→k表示存在从结点i指向结点k的关联。i与k之间的关联类型可以是引用/被引用、发表/被发表、创作/被创作、合作等。

根据公式(1)计算结点的排序值，首先需要根据文献关联图构造关联矩阵A。关联矩阵中元素A_ij的值为由结点i指向结点j的关联的影响因子。由于实体之间关联数目及类型均有差异，为了规范排序值的计算，需要对关联矩阵规范化。规范化关联矩阵分成行向量规范化和列向量规范化。

为了迭代运算能够终止，需要设一个阈值g，通过实验，该域值范围为(0，0.5)。本发明基于关联网络的科技文献实体综合排序方法的步骤如下：

(1)构建文献关联网络，具体步骤如下：

a)将作者、文献、学术会议或期刊表示成关联网络上的节点；

b)如果两文献之间存在引用关系，在文献关联网络增加引用文献节点与被引用文献节点的双向链接，链接分别标上引用与被引用；

c)如果某人是一文献的作者之一，在文献关联网络增加文献到与作者之间的双向链接，链接分别标上创作与被创作；

d)如果某一文献发表在某一会议或期刊上，在文献关联网络增加一从文献与会议或期刊的双向链接，链接分别标上发表与被发表；

e)根据文献关联网络中链接的属性，对文献关联网络中的链接分别赋予权值。

(2)设置文献关联网络中结点的初始排序值，将这些节点的初始排序值表示成向量v；

(3)构造文献关联网络的关联矩阵A；

(4)分别对矩阵进行行向量规范化和列向量规范化，所得矩阵分别设为B和C；

(5)计算中间向量v′＝B×(C+H)×v^T，H为权值传递增强因子矩阵，H中的每个的元素为权值传递增强因子，均为同一常数h，h的一般取值范围为(0.5，1)；

(6)v′＝dv′a^-1，其中，d为衰退因子，如取值为0.85；a为根据结点之间距离控制相应影响因子传递的文献影响因子，文献影响因子a的长度不应过长，如取值为自然对应e；然后v′中的每个元素加上1-d，得到向量v^new，向量v^new的各分量即为各节点的当前排序值；

(7)计算每个结点的当前排序值与旧排序值的差绝对值，找出其中最大值，记为s；

(8)如果s>阈值g，v＝v^new，转入步骤(5)，否则将向量v^new中的各分量作为各节点的最终排序值；

(9)向量v^new的各分量就是各节点的最终排序值；

(10)按照上述排序值为实体进行排序。

根据上述方法，通过对包括文献引用关系在内的与文献有关的各种关联关系进行分析，而不是单一的对表示文献引用关系的引文网络进行分析，因此该方法对文献的排序要更为全面和准确。此外，该方法除开对文献进行排序以外，还可对其它实体，如作者、出版源进行排序。

本发明不仅适用于文献领域实体的排序，而且可以根据本发明的技术方案进行相应的等同改变或替换，用于如社会网络中人员重要性排序等，而所有这些改变或替换，都应属于本发明所附权利要求的保护范围。

Claims

1、一种基于关联网络的科技文献实体综合排序方法，包括如下步骤：

(1)按照下述过程构建文献关联网络：

(9)根据最终排序值对实体进行排序。