CN102298579A

CN102298579A - 面向科技文献的论文、作者和期刊排序模型及排序方法

Info

Publication number: CN102298579A
Application number: CN2010102046764A
Authority: CN
Inventors: 方国栋; 邓志鸿
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2010-06-22
Filing date: 2010-06-22
Publication date: 2011-12-28

Abstract

本发明公布了一种面向科技文献的论文、作者和期刊排序模型及排序方法，属于数字图书馆领域。本发明根据科研文献网的特点，提出了PAJ模型，该模型是一个有向图，包括论文、作者、期刊或会议三种结点以及这三种结点间的五种关系。本发明同时提出了一种基于PAJ模型的排序方法，包括：抽取科研文献实体；建立PAJ模型；生成转移概率矩阵；对矩阵进行计算并生成结果。该算法利用矩阵迭代计算，达到收敛结果，以此作为排序的依据，能够充分挖掘科研文献网的内在联系，对各个实体的排名结果准确可信。

Description

面向科技文献的论文、作者和期刊排序模型及排序方法

技术领域

本发明提供了一种科技文献的排序模型及排序方法，属于数字图书馆领域。

背景技术

科研文献网是一个包含作者、论文和期刊或会议的网络如图1所示，在这个网络中，作者撰写文章，而文章在相应的期刊或会议上发表，同时，文章之间还有相互引用的关系。

科研工作者为了进行研究工作需要查阅大量的论文。如何选择重要的期刊或会议，以及重要作者的有影响力的论文进行研读，是科研工作的一个重要环节。

目前为止，关于科研文献网的现有技术包括：

1.清华大学的唐杰等人开发的ArnetMiner原型系统(http://www.arnetminer.org/)。在他的系统中，利用条件随机场CRF(Conditional Random Fields)来对网络信息进行提取，利用EM(Expectation Maximization)方法对同名作者进行了区分，最后利用ACT模型(Author-Conference-Topic Model)对科研文献网进行建模，为用户提供查询。

2.UIUC的Yizhou Sun，Jiawei Han等人针对科研文献网提出的聚类排序算法RankClus以及NetClus。该方法把基于结点的分类聚类和结点的组内的排序，综合起来，首先对所有的结点进行一个初步的分类和聚类，然后再利用一些Ranking(排序)的算法来计算每一个结点在相应聚类中的排名，然后这个排名反过来对聚类的结果也有一定的帮助，最后反复迭代，达到一个稳定的值。

现有技术主要针对的是对科研文献网中科研文献实体信息的抽取以及对相关信息的分类以及聚类，针对排名做的工作比较少。在Yizhou Sun等人的RankClus方法有对相应实体信息的排名。但是一方面，其工作的重点在于对文章的聚类和分类，其排名也仅仅是对会议和作者的排名，没有对论文进行排名。另一方面，它的排名的信息并没有用到文章之间相互引用的关系。而众所周知，被其他文章引用是判断一篇论文是否重要的一个十分关键的因素。

发明内容

本发明针对目前科研文献网排序模型存在的问题，根据科研文献网的特点，提出了一种新的排序模型：PAJ模型，该模型充分利用科研文献网中实体的相互联系，对科研文献网中的科研文献实体(期刊或会议，作者，论文)进行排序。

本发明的具体技术方案如下：

本发明提出的PAJ模型如图3所示。该模型是一个有向权重图，该图包括三种结点，结点A代表作者集合，结点P代表论文集合，结点J代表期刊或会议的集合。这三种结点之间总共有5种边，其权值如下：

1)作者与文章之间的边

e (a, p) = e (p, a) = \frac{1}{S_{p, a} * \underset{a^{'} &Element; A (p)}{Σ} \frac{1}{S_{p, a^{'}}}}

其中s_p，a表示作者a在文章p中的排名；表示该文章的所有作者的排名的倒数之和。

2)作者与期刊或会议之间的边

其中p∈P(j)表示文章p在期刊或会议j上发表；a∈A(p)表示作者a是文章p的作者之一。

3)文章与期刊或会议之间的边

e (p, j) = e (j, p) = \{\begin{matrix} 1 & p &Element; p (j) \\ 0 & p &NotElement; p (j) \end{matrix}

即：如果论文p在期刊或会议j上发表，那么他们之间的边的权重为1，否则为0。

4)文章与文章之间的边

e (p_{1,} p_{2}) = \{\begin{matrix} 1 & p_{2} &Element; ref (p_{1}) \\ 0 & p_{2} &NotElement; ref (p_{1}) \end{matrix}

即：如果文章p₁引用了文章p₂，那么e(p₁，p₂)的值为1，否则为0。

5)作者与作者之间的边

本发明提出的基于PAJ模型的排序方法如图2所示，包括如下步骤：

A.抽取科研文献实体

从科研文献网络或现有科研文献数据库中获得相应的论文，论文所属期刊或会议，论文作者，以及论文之间的相互引用关系。

B.建立PAJ模型并计算各条边的权值

C.生成转移概率矩阵，方法如下：

C1.定义从点i到点j的转移概率

\Pr_{i &RightArrow; j} = \frac{ϵ}{| V |} + \frac{(1 - ϵ)}{\underset{k &Element; V, e_{i &RightArrow; k} &Element; PAJ}{Σ} e (i, k)} * e (i, j)

其中ε是从本结点随机游走的概率(0＜ε＜1)，|V|代表的是图中所有结点的个数。

C2.生成转移概率矩阵

所有的转移概率Pr_i→j构成的矩阵，构成了一个转移概率矩阵W_Pr。假设图中有n个结点，那么

W_{pr} = \{\begin{matrix} p_{11} & p_{12} & L & L & L & L & p_{1 n} \\ p_{21} & O & p_{2 n} \\ M & O & M \\ M & O & M \\ M & O & M \\ M & O & M \\ p_{n 1} & L & L & L & L & L & p_{nn} \end{matrix}\}

D.对转移概率矩阵进行运算，得出最终的概率分布。方法如下：

D1.结点概率分布K＝{k₁，k₂，L，k_n}代表PAJ图中所有结点的访问概率分布。其中

\underset{1 \leq i \leq n}{Σ} k_{i} = 1 .

D2.初始化概率分布。假定任意的一个概率分布K⁰，

\underset{1 \leq i \leq n}{Σ} k_{i} = 1

D3.由旧的结点概率分布计算新的结点概率分布K^t＝K^t-1*W_Pr，K^t为经过t次迭代后得到的概率分布。

D4.计算终止条件。事先假定一个误差阈值δ，当||K^t-K^t-1||²≤δ时，算法终止。

D5.得出结果。算法终止时的K^t即为最终的概率分布。

本发明根据科研文献网的特点，提出了新的排序模型和排序算法，该算法利用矩阵迭代计算，达到收敛结果，以此作为排序的依据，能够充分挖掘科研文献网的内在联系，对各个实体的排名结果准确可信。

附图说明

图1：普通科研文献网模型图；

图2：本发明提出的排序模型执行流程图；

图3：本发明提出的PAJ模型图；

图4：对科研网进行处理的流程示意图；

图5：科研信息网实例；

图6：科研网PAJ模型实例；

图7：转移概率矩阵实例；

图8：矩阵迭代计算示意图；

具体实施方式

下面通过实例对本发明做进一步的说明，但是需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

如图4所示，一个基于本发明技术方案的实施步骤包括以下几个部分：论文的收集，论文内容的提取，对内容的进一步分析，存储以及接口设计，建模以及排序算法，对外搜索服务：

其中，在论文的收集可以从网上的一些资源比如ACM，DBLP和万方下载论文信息。

论文内容的提取主要是需要从下载的文章中提取标题，作者，会议或期刊名字，引用，摘要，关键字等信息。提取这些信息是为了构建相应的科研文献网的各个实体。同时，有一些辅助信息有助于对于搜集到的文献的理解以及进一步的分析。

在对内容的进一步的分析阶段，主要需要做的是同名作者区分以及挖掘文章之间的引用关系。同名作者区分可以采用一些现有方法。而为了挖掘文章之间的引用关系，由于各个文章其引用信息不一定规范，可以采用字符串匹配的方法，如果某篇文章A的引用信息包含了另一篇文章B的标题，就可以认为文章A引用了文章B。

在第四部分，存储与接口部分，主要是需要把前面所提取的文献实体信息存储到相应的数据库中。以便进一步的分析。

第五部分，建模以及排序算法，是本发明的核心部分。主要就是基于提取到的文献实体信息，编程实现PAJ模型及其排序算法，并且运算出相应的结果。

最后一部分，就是把在第五部分所计算得出的排序结果，以比较友好的用户界面的方式展示出去。

下面用一个具体的例子来对本发明做进一步的说明。

图5表示一个虚拟的科研文献网实例。在这个图中，A₁和A₂是两个作者，P₁和P₂是两篇论文，J₁是期刊。他们之间的关系如下：

●A₁以第一作者发表论文P₁。

●A₂，A₁分别以第一和第二作者的身份发表了论文P₂。

●论文P₁引用了论文P₂。

●论文P₁与P₂均发表在期刊J₁上。

首先，把这个原始的科研文献网，转化到相应的PAJ模型中。

图6即为该科研文献网转化成的PAJ模型实例。其中的各条边的权值就是由2.1节的定义计算得出的，下面以几条边为例子做简要的说明。

e(A₁，A₂)代表的是A₁与A₂之间的合作关系边，由于他们在这个图中只合作发表了一篇文章，并且他们在这篇文章中分别是第一作者和第二作者，因此，

e(P₁，P₂)代表的是文章P₁与P₂之间的引用关系边，由于文章P₁引用了文章P₂，那么e(P₁，P₂)＝1。而由于文章P₂没有引用文章P₁，因此e(P₂，P₁)＝0。

e(A₁，P₂)代表的是作者A₁与文章P₂之间的写作关系边。由于文章P₂总共由两个作者，并且A₁在其中是第二作者，则

e (A_{1}, P_{2}) = e (P_{2,} A_{1}) = \frac{1}{2 * (1 + 1 \times 2)} = 0.33

e(A₁，J₁)代表的是作者A₁与期刊J₁之间的发表关系边。由于A₁在期刊J₁上发表了两篇文章，那么则有

e(A₁，J₁)＝e(J₁，A₁)＝1+0.33＝1.33。

在得到基本的PAJ模型之后，下一步就是要从这个PAJ模型构造出相应的转移概率矩阵。

图7就是由前面的PAJ模型构造出的响应的转移概率矩阵。下面以其中两个点为例，来说明这个转移概率矩阵是如何构造的。

把转移概率ε设为0.2。

代表从点P₁到点P₂的转移概率，它分为两部分：

第一部分是随机游走的概率。由于随机游走概率是0.2，并且这个图中总的结点数是5，因此0.2/5＝0.04。

第二部分是从P₁到P₂的边所直接产生的转移的概率。由于从P₁出发的总的边的权重是3，而从P₁到P₂的边的权重是1。因此有0.8/3*1＝0.27。

综上所述，可得

W_{P_{1} P_{2}} = 0.2 / 5 + 0.8 / 3 * 1 = 0.04 + 0.27 = 0.31 .

代表从点A₂到点J₁的转移概率，它也分为两部分：

第二部分是从A₂到J₁的边所直接产生的转移的概率。由于从A₂出发的总的边的权重是2.37，而从A₂到J₁的边的权重是0.67。因此0.8/2.37*0.67＝0.23。

综上所述，可得

W_{A_{2} J_{1}} = 0.2 / 5 + 0.8 / 2.37 * 0.67 = 0.27 .

其他点的计算也用类似的方法完成。完成所有的点的计算之后，就形成了这个转移概率矩阵。

在得到转移概率矩阵之后，首先任意给出一个初始的概率分布K，然后通过K^t＝K^t-1*W_Pr反复迭代。如图8所示，经过45次迭代之后，算法终止。在这里设定的阈值为0，也即K^t＝K^t-1时算法终止。

通过对结果的分析可知，对于作者A₁和A₂来说，作者A₁的权值大于A₂的权值。这是因为在这个图中A₁发表了两篇文章而A₂只发表了一篇文章，这个是符合人们一般的经验的。

另一方面，对于文章P₁和P₂来说，文章P₂的权值要大于文章P₁的权值，这是因为文章P₂被文章P₁引用了。这个结果也是符合客观规律的。

最后需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种面向科研文献的排序模型，取名为PAJ模型，该模型为一个有向图，包含三种结点，分别是作者集合结点A、论文集合结点P、期刊或会议集合结点J，其特征在于，该模型还包括五种有向边，各边的权值定义如下：

1)作者与文章之间的边其中s_p，a表示作者a在文章p中的排名；

表示该文章的所有作者的排名的倒数之和；

2)作者与期刊或会议之间的边

其中p∈P(j)表示文章p在期刊或会议j上发表；a∈A(p)表示作者a是文章p的作者之一；

3)文章与期刊或会议之间的边

即：如果论文p在期刊或会议j上发表，那么他们之间的边的权重为1，否则为0；

4)文章与文章之间的边

即：如果文章p₁引用了文章p₂，那么e(p₁，p₂)的值为1，否则为0；

5)作者与作者之间的边

2.一种面向科研文献的排序方法，该方法基于如权利要求1所述的PAJ排序模型，其特征在于，该方法包含如下步骤：

D1.抽取科研文献实体

D2.建立PAJ模型并计算各条边的权值；

D3.生成转移概率矩阵；

D4.对转移概率矩阵进行运算，得出最终的概率分布。

3.如权利要求2所述的排序方法，其特征在于，所述抽取科研文献实体是从科研文献网或者包含科研文献的数据库中抽取；所述科研文献实体包括论文、论文所述期刊或会议、论文作者、论文之间的引用关系。

4.如权利要求2所述的排序方法，其特征在于，步骤C的实现方法如下：

C1.定义从点i到点j的转移概率

其中ε是从本结点随机游走的概率(0＜ε＜1)，|V|代表的是图中所有结点的个数；

C2.生成转移概率矩阵

所有的转移概率Pr_i→j构成的矩阵，构成了一个转移概率矩阵W_Pr，假设图中有n个结点，那么

W_{\Pr} = \{\begin{matrix} p_{11} & p_{12} & L & L & L & L & p_{1 n} \\ p_{21} & O & p_{2 n} \\ M & O & M \\ M & O & M \\ M & O & M \\ M & O & M \\ p_{n 1} & L & L & L & L & L & p_{nn} \end{matrix}\} .

5.如权利要求4所述的排序方法，其特征在于，步骤D的实现方法如下：

D1.结点概率分布K＝{k₁，k₂，L，k_n}代表PAJ图中所有结点的访问概率分布，其中

\underset{1 \leq i \leq n}{Σ} k_{i} = 1;

D2.初始化概率分布，假定任意的一个概率分布K⁰，

D3.由旧的结点概率分布计算新的结点概率分布K^t＝K^t-1*W_Pr，K^t为经过t次迭代后得到的概率分布；

D4.计算终止条件，事先假定一个误差阈值δ，当||K^t-K^t-1||²≤δ时，算法终止；

D5.得出结果，算法终止时的K^t即为最终的概率分布。