CN107391659B

CN107391659B - 一种基于信誉度的引文网络学术影响力评价排序方法

Info

Publication number: CN107391659B
Application number: CN201710587023.0A
Authority: CN
Inventors: 冯磊; 冀俊忠; 徐骋
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2020-05-22
Anticipated expiration: 2037-07-18
Also published as: CN107391659A

Abstract

一种基于信誉度的引文网络学术影响力评价排序方法属于学术影响力评价技术领域，结合引文网络的特征，本发明根据文章背景信息定义一系列规则，改进TrustRank算法和Anti‑TrustRank算法选取种子集机制，循环迭代计算网络节点的信誉值和非信誉值，最后综合两者的结果给出评分。根据最终综合信誉值的降序排序结果，获取并输出引文网络中科学文献的学术影响力排序。本发明旨在提供一种合理的、公正的评价方法，能够对文献的影响力准确地评价，从而评选出某一学科内高质量的论文资料。科研人员也能快速地查找文献资料和把握当前研究的热门方向，将更多的时间分配在科学理论研究上。本发明的研究对于认识引文网络的结构和传播特性以及文献影响力评价具有重要的理论意义。

Description

一种基于信誉度的引文网络学术影响力评价排序方法

技术领域

本发明属于学术影响力评价技术领域，涉及一种引文网络中基于文献信誉度的学术影响力分析与排序方法。

背景技术

科学文献是传递知识的重要载体，对科学技术的发展起到了巨大的促进作用。科研成果的不断发表，文献间不断增长的引证关系构成了一个大规模的复杂网络——引文网络。从事科研工作的人越来越多，每年发表的文献也呈上升趋势，这在促进科学进步的同时也带来了许多问题，文献质量良莠不齐。科学文献包含论文、期刊、会议和专利等出版物，对于科学技术的进步，科学家科研基金的申请是个重要的评判依据。因此如何识别高质量的文章成为了重要课题。

概况的说，文献影响力评价通常采用两种方法，一种是基于文献计量学方法，另一种是基于引证网络拓扑结构模型的数据挖掘算法。传统的基于统计的方法，如统计文章被引用次数，作者每年发表文章数目等。另一种基于引证网络拓扑结构的方法，本质是依据网页间的链接关系对网页的重要性进行计算。如将衡量搜索引擎旳检索结果网页质量的指标PageRank，应用于引文网络。PageRank算法为马尔科夫过程，描述随机游走者利用信息传递机制在网络中随机游走的过程。但是前两种方法只考虑节点的入度，即被引用次数，忽略了节点的出度即此篇文章发出的引用是否合理及有参考价值。忽略了著作者为了提高排名而不断自引，以及和合作者大量互引现象，当一篇原本质量水平一般的文章被引用了很多的次数，就会获得很高的排名和得分，这种恶意活动(Malicious Activity)，给合理公正评价提出了严峻挑战。

虽然文献包含丰富的信息，但是现有引文网络数据对于文献特征并没有完全的表示，更多是利用文章的引证关系把文献铺设成一个网络。网络结构通常具有正、负特性，顶点间通过有向边的调用关系，完成一种有目的的指向和表达。以往的方法只考虑节点的入链次数，基于无标记网络链接关系的迭代排序方法具有很大的局限性忽略了节点的出度即此篇文章发出的引用是否合理及有参考价值。一篇文章的灵感往往是作者广泛阅读前人相关研究的基础上形成的，再结合自身的创造性和主观能动性开展新的研究。所以引文网络中引用与被引用的交互行为，反应了作者对其它文章的参考价值和信任程度。由于科学文献包含丰富的背景信息(Background Information)，如期刊、会议和作者以及出版时间等，权威性的作者更喜欢向影响因子高的权威性期刊投递论文，论文质量也一直成为基金申请、职位晋升的重要参考标准。我们试图寻找真正有影响力有意义的文章作为repute信誉节点，同时找到质量一般但却试图不断通过自引以及它引的文章列为不受信节点，迭代查找的方式识别网络中的节点再试图合理评价。

TrustRank是由斯坦福大学和雅虎公司为应对网络作弊提出的搜索引擎排序算法。众所周知，万维网中存在大量虚假网页同时发出指向一个目标网页链接，以致目标网页骗过那些单纯统计网页入链的搜索引擎，从而帮助目标网页获得较高的排名，人工识别这种作弊行为准确率高却效率低下，另外需要消耗大量的时间金钱成本。故TrustRank算法采用半人工的方式，预先确定一部分种子集，好的信誉的网页指向的网页通常是可信的，再利用评价公式进行迭代，一定步长后算法趋于稳定。与TrustRank算法相对应的是Anti-TrustRank算法，该算法反其道而行之，选取不受信节点为种子集，迭代计算网页的不受信值，好网页往往有较低的不受信值，引文网络与万维网有着相似的链接结构，同时引文网络有着更加鲜明的特征属性。根据网络节点的期刊作者会议等背景信息(BackgroundInformation)，我们可以充分评估它的信誉值，并选取作为种子集，并且利用网络拓扑结构对信誉进行扩散，最后根据特征种子集来评价文献的学术影响力。因此，我们提出了一种新的引文网络科学文献评价方法，该算法结合引文网络特点，要考虑到该页面所在站点的信任指数和权威性，引文网络普遍存在恶意活动，也能提供一种文献质量的排名公平合理的排序方法。

发明内容

本发明的旨在提供一种引文网络中科学文献学术影响力的质量评价及排序方法，能够提高科学文献学术影响力排序的准确率和公平性，以合理评估研究者的科研成果质量及帮助用户找到高质量的论文。

本发明的是通过下述技术方案实现的：

一种基于信誉度论文引文网络学术影响力评价排序方法，其具体操作步骤为：

(一)首先，构建引文网络模型，论文为顶点，论文间的引用关系为边。论文引用图G＝(V,E)是一个有向图，V代表节点集{v₁,v₂,v₃...v_n}，有N个顶点，E代表边集，

1≤i,j≤n，如果顶点v_i指向v_i的有向边存在，则边元素e_i,j为1；若顶点v_i指向v_i的有向边不存在，则边元素e_i,j为0。提取出引证数据的局部特征,

表示顶点v_i的出链数量，

表示顶点v_i的入链数量；

表示顶点v_i的出链指向的顶点集合，

表示顶点v_i的入链指向的顶点集合。

(二)其次，种子集选取机制

利用PageRank算法和Inverse PageRank算法求解每个节点的初始信誉值和非信誉值，结合JCR分区信息，

分区越高的论文节点，视作可信度越大，分区越低的节点可信度越低。如1区有最高的可信度为4。

好种子集选取:使用PageRank算法对论文进行初步评价，根据评价值对论文进行降序排列，选取top-k种子集根据文章背景信息进行判断，再结合ASE算法扩充好种子集；

坏种子集选取使用Inverse PageRank算法对论文进行初步评价，根据评价值对论文进行降序排列，选取top-k种子集根据文章背景信息进行判断，再结合ASE算法扩充坏种子集；

(三)然后，信任值计算

然后通过模拟随机游走模型和随机跳跃过程，根据TrustRank和Anti-TrustRank算法分别计算每个节点的信任值Tr_i和不信任值Dr_i,分别表示论文节点v_i的信任值和不信任值。

根据文献得信任值和不信任值综合计算每个论文节点的综合评分。ReputeRank公式为：

α、β和γ为三个阻尼系数，在综合指标中所占的比重，其中0≤α≤1，-1≤β≤0，0≤r≤1-α，i∈{1,2,3,...,N}。

ReputeRank_i为论文节点v_i的最后评分值，0≤ReputeRank_i≤1。

(四)根据最终综合信誉值的降序排序结果，获取并输出引文网络中科学文献的学术影响力排序。

好种子集选取过程——TrustRank算法的种子集选取部分；

①使用PageRank算法对数据集进行处理；

PageRank公式如下：需要迭代计算，让网络中的每个节点PageRank值趋于稳定，即P＝{P₁,P₂,P₃,...,P_N}

i,j∈{1,2...N}，t表示迭代循环次数，P_j(t)表示顶点v_j的第t次PageRank值，P_i(t-1)表示顶点v_i第t-1次PageRank值，P_i∈[0,1]，t∈{1,2...30},循环计算30次后，每个顶点PageRank值趋于稳定；c为阻尼系数，在指标中所占的比重，c∈[0,1]，在此计算时候选取c＝0.85，

边元素

i＝{1,2,3,...,N},j＝{1,2,3,...,N}.

当v_i顶点的出度数

为0的时候，防止分母不能为0，故设置

防止程序报错；

②对文献的P值从大到小排序；文献的PageRank值反映了文献被选为种子文献的“期望值”，通过从大到小排序，挑选出PageRank值大的文献作为初始好种子集；

③设置种子集的大小L，选取前L个文献作为种子文献；

④对种子集文献评价；根据文献发表刊物的影响力因子和刊物的分区情况；例如，可以将文献发表期刊的影响因子低于1或者JCR分区在3区以下的文献默认设置为低质量、低影响力文献，高于1或者分区在3区以上的文献默认设置为高质量、高影响力文献；将文献背景信息信息好的高PageRank评分的节点列为好种子集合标记为GS,其它文献节点标记为未知节点集合US；如下为JCR分区评分；

Q1、Q2、Q3和Q4分别表示JCR分区1,2,3,4区，评分Q1>Q2>Q3>Q4>非sci

⑤结合ASE算法扩充好种子集；根据上一步得到的好种子集GS,若是有5个以上好种子指向一个未知的种子，则将未知种子从未知种子集US提取到好种子集合GS中。

坏种子集选取过程——Anti-TrustRank算法的种子集选取部分

①使用Inverse PageRank算法对数据集进行处理；

Inverse PageRank公式如下：需要迭代计算，让网络中的每个节点InversePageRank值趋于稳定，即IP＝{IP₁,IP₂,IP₃,...,IP_N}.IP_i∈[0,1].

i,j∈{1,2...N}，t表示迭代循环次数，IP_j(t)表示顶点v_j的第t次InversePageRank值，IP_i(t-1)表示顶点v_i的第t-1次Inverse PageRank值，t∈{1,2...30},循环计算30次后，每个顶点Inverse PageRank值趋于稳定；c为阻尼系数，在指标中所占的比重，c∈[0,1]，在此计算时候选取c＝0.85.

当v_i顶点的入度数

为0的时候，防止分母不能为0，故设置

防止程序报错；边元素

i＝{1,2,3,...,N},j＝{1,2,3,...,N}.

②对文献的IP值从大到小排序；文献的Inverse PageRank值反映了文献被选为种子文献的“期望值”，通过从大到小排序，挑选出Inverse PageRank值大的文献作为初始坏种子集；

③设置种子集的大小M，选取前M个文献作为种子文献；种子集的数量需要根据引文网络的规模大小来设置，

④对种子集文献评价；将文献背景信息信息不好的的Inverse PageRank评分的节点列为坏种子集合标记为BS,其它文献节点标记为未知节点集合US；如下为JCR分区评分；

Q1、Q2、Q3和Q4分别表示JCR分区1,2,3,4区，评分Q1>Q2>Q3>Q4>非sci

⑤结合ASE算法扩充坏种子集；根据上一步得到的坏种子集BS,若是有多个坏种子指向一个未知的种子，则将未知种子从未知种子集US提取到坏种子集合BS中。

(三)信任值计算中

(1)TrustRank算法实现部分：

①初始化每篇论文信任评分，令各节点的初始信任值等于前面求出的PageRank值，即Tr＝P.初始化信任好种子集向量GS；

i＝{1,2,3,...,N},j＝{1,2,3,...,N},N_GS表示好种子集数量；

②实现帯有文献特征集个性化向量的TrustRank算法；将种子集向量GS、初始化后的信任指数向量Tr、常量参数ω＝0.85代入TrustRank算法公式，迭代计算TrustRank值；

t表示迭代次数，

t和

参数含义同上；

Tr_j(t)表示顶点v_j的第t次TrustRank值，Tr_i(t-1)表示顶点v_i第t-1次TrustRank值.

③得到文献的信任指数；将算法公式20次以上迭代后，每个文献的信任指数会逐渐收敛，直至稳定。

Anti-TrustRank算法的实现部分

④初始化每篇论文信任评分，令各节点的初始信任值等于前面求出的InversePageRank值，即Dr＝IP.初始化不信任坏种子集向量BS；

i＝{1,2,3,...,N},N_BS表示坏种子集数量；

⑤实现帯有文献特征集个性化向量的Anti-TrustRank算法；将坏种子集向量BS、初始化后的信任指数向量Dr、常量参数μ＝0.85代入Anti-TrustRank算法公式，迭代计算Anti-TrustRank值；

t表示迭代次数，

t和

参数含义同上；

Dr_j(t)表示顶点v_j的第t次Anti-TrustRank值,Dr_i(t-1)表示顶点v_i第t-1次AntiTrustRank值.

⑥得到文献的不信任指数；将算法公式20次以上迭代后，每个文献的信任指数会逐渐收敛，直至稳定。

(四)综合计算部分；使用TrustRank算法的结果和Anti-TrustRank算法的结果，输出文献的影响力大小；

α、β和γ为三个阻尼系数，在综合指标中所占的比重，其中α＝0.5，β＝-0.5，r＝0.45,i＝{1,2,3,...,N}。

结合引文网络的特征，根据文章背景信息定义一系列规则，改进TrustRank算法和Anti-TrustRank算法选取种子集机制，循环迭代计算网络节点的信誉值和非信誉值，最后综合两者的结果给出评分。

根据最终综合信誉值的降序排序结果，获取并输出引文网络中科学文献的学术影响力排序。

科学文献质量评价算法模型是解决一个NP完全问题.本发明旨在提供一种合理的、公正的评价方法，能够对文献的影响力准确地评价，从而评选出某一学科内高质量的论文资料。科研人员也能快速地查找文献资料和把握当前研究的热门方向，将更多的时间分配在科学理论研究上。本发明的研究对于认识引文网络的结构和传播特性以及文献影响力评价具有重要的理论意义，对认识科学技术发展和文献检索也具有重要的实践价值。

附图说明

图1示出了根据本发明技术方案的基于信誉度的引文网络文献学术影响力排序方法的流程示意图；

图2示出了根据本发明技术方案的基于信誉度的引文网络文献学术影响力排序方法结构示意图；

图3排名Top－k JCR 4区以上的SCI文章数量百分比

具体实施方式

选取数据集为KDD cup引文网络数据集，网址：http://www.cs.cornell.edu/projects/kddcup/datasets.html

包括:(1992-2003)年的文章，txt格式，论文29,555篇，引用关系352,807条边，期刊来源：Physical Review Letters，Physical Letters B，Physical Report，PhysicalReview D等。

(一)首先，构建引文网络模型.

加载数据集。引文网络的数据集通常包括文献的引用关系、文献的摘要、文献的具体内容等可以用于理论研究的信息。加载数据集的过程，就是利用文献的引用关系，形成引文网络的过程。一般的引文网络都是采用关系矩阵来表示，当数据集中数据量非常庞大时，关系矩阵明显转变成了稀疏矩阵。

论文为顶点，论文间的引用关系为边。论文引用图G＝(V,E)是一个有向图，V代表节点集{v₁,v₂,v₃...v_N}，有N个顶点，E代表边集，

边元素

1≤i,j≤N，如果顶点v_i指向v_j的有向边存在，则边元素e_i,j为1；若顶点v_i指向v_j的有向边不存在，则边元素e_i,j为0。提取出引证数据的局部特征,

表示顶点v_i的出链数量，

表示顶点v_i的入链数量；

表示顶点的v_i出链指向的顶点集合，

表示顶点v_i的入链指向的顶点集合。

(二)种子集选取

1.好种子集选取过程——TrustRank算法的种子集选取部分。

⑥使用PageRank算法对数据集进行处理。

边元素

i＝{1,2,3,...,N},j＝{1,2,3,...,N}.

当v_i顶点的出度数

为0的时候，防止分母不能为0，故设置

防止程序报错。

⑦对文献的P值从大到小排序。文献的PageRank值反映了文献被选为种子文献的“期望值”，通过从大到小排序，可以选出合适的种子文献。挑选出PageRank值大的文献作为初始好种子集。

⑧设置种子集的大小L，选取前L个文献作为种子文献。种子集的数量需要根据引文网络的规模大小来设置，本文使用到的数据集包含2万多个文献，将种子集的大小设置为200。

⑨对种子集文献评价。种子集的评价过程在整个算法中是最花时间的。在改进之前，人工标注种子集，对这L篇文献进行资料分析，判断这些文献的好坏。改进之后，在评价种子集文献质量的时候，只需要根据文献发表刊物的影响力因子和刊物的分区情况。例如，可以将文献发表期刊的影响因子低于1或者JCR分区在3区以下的文献默认设置为低质量、低影响力文献，高于1或者分区在3区以上的文献默认设置为高质量、高影响力文献。此步可以将文献背景信息信息好的高PageRank评分的节点列为好种子集合(Good Seeds)标记为GS,其它文献节点标记为未知节点集合(Unknown Seeds)US。如下为JCR分区评分。

Q1、Q2、Q3和Q4分别表示JCR分区1,2,3,4区，评分Q1>Q2>Q3>Q4>非sci

⑩结合ASE算法扩充好种子集。根据上一步得到的好种子集GS,若是有5个以上好种子指向一个未知的种子，则将未知种子从未知种子集US提取到好种子集合GS中。

2.坏种子集选取过程——Anti-TrustRank算法的种子集选取部分

①使用Inverse PageRank算法对数据集进行处理。

当v_i顶点的入度数

为0的时候，防止分母不能为0，故设置

防止程序报错。边元素

i＝{1,2,3,...,N},j＝{1,2,3,...,N}.

②对文献的IP值从大到小排序。文献的Inverse PageRank值反映了文献被选为种子文献的“期望值”，通过从大到小排序，可以选出合适的种子文献。挑选出InversePageRank值大的文献作为初始坏种子集。

③设置种子集的大小M，选取前M个文献作为种子文献。种子集的数量需要根据引文网络的规模大小来设置，本文使用到的数据集包含2万多个文献，将M的大小设置为200。

④对种子集文献评价。对文献评价，根据前M个种子文献，根据文献背景信息，人工标注坏种子集。评价并选取坏种子的过程与算法选取好种子集部分有着些许的不同。通常，在引文网络数据集中，挑选好种子文献比较容易，然而，选取坏种子文献却比较困难。在逆链接的引文网路中PageRank高的文献不一定就是低质量、低影响力的文献。本文在选取坏种子文献时，参考JCR分区特点，从非SCi中选取，同时针对期刊有大量出度链接，少量入度链接即很少被引用的普通期刊文章视作坏种子集。此步将文献背景信息信息不好的的Inverse PageRank评分的节点列为坏种子集合(Bad Seeds)标记为BS,其它文献节点标记为未知节点集合(Unknown Seeds)US。如下为JCR分区评分。

Q1、Q2、Q3和Q4分别表示JCR分区1,2,3,4区，评分Q1>Q2>Q3>Q4>非sci

⑤结合ASE算法扩充坏种子集。根据上一步得到的坏种子集BS,若是有多个坏种子指向一个未知的种子，则将未知种子从未知种子集US提取到坏种子集合BS中。

(三)信任值计算

(2)TrustRank算法实现部分

⑦初始化每篇论文信任评分，令各节点的初始信任值等于前面求出的PageRank值，即Tr＝P.初始化信任好种子集向量GS。

i＝{1,2,3,...,N},j＝{1,2,3,...,N},N_GS表示好种子集数量。

⑧实现帯有文献特征集个性化向量的TrustRank算法。将种子集向量GS、初始化后的信任指数向量Tr、常量参数ω＝0.85代入TrustRank算法公式，迭代计算TrustRank值。

t表示迭代次数，

t和

参数含义同上。

⑨得到文献的信任指数。将算法公式20多次迭代后，每个文献的信任指数会逐渐收敛，直至稳定。

(3)Anti-TrustRank算法的实现部分

⑩初始化每篇论文信任评分，令各节点的初始信任值等于前面求出的InversePageRank值，即Dr＝IP.初始化不信任坏种子集向量BS。

i＝{1,2,3,...,N},N_BS表示坏种子集数量。

实现帯有文献特征集个性化向量的Anti-TrustRank算法。将坏种子集向量BS、初始化后的信任指数向量Dr、常量参数μ＝0.85代入Anti-TrustRank算法公式，迭代计算Anti-TrustRank值。

t表示迭代次数，

t和

参数含义同上。

得到文献的不信任指数。将算法公式20次迭代后，每个文献的信任指数会逐渐收敛，直至稳定。

(四)综合计算部分。综合计算将会使用TrustRank算法的结果和Anti-TrustRank算法的结果，根据改进策略中的综合影响力评价公式，输出文献的影响力大小。

β和γ为三个阻尼系数，在综合指标中所占的比重，其中,0≤α≤1，-1≤β≤0，0≤r≤1-α，经试验，α＝0.5，β＝-0.5，r＝0.45,识别JCR分区高的文章效果较好。i＝{1,2,3,...,N}

实验结果

在前100篇文献中，识别出sci2区以上文献88篇，准确率高达88％。与其他方法相比，在识别高水平文章上面有明显优势。

Claims

1.一种基于信誉度论文引文网络学术影响力评价排序方法，其特征在于，具体操作步骤为：

(一)首先，构建引文网络模型，论文为顶点，论文间的引用关系为边；论文引用图G＝(V,E)是一个有向图，V代表节点集{v₁,v₂,v₃...v_n}，有N个顶点，E代表边集，

1≤i,j≤n，如果顶点v_i指向v_i的有向边存在，则边元素e_i,j为1；若顶点v_i指向v_i的有向边不存在，则边元素e_i,j为0；提取出引证数据的局部特征,

表示顶点v_i的出链数量，

表示顶点v_i的入链数量；V_i ^out表示顶点v_i的出链指向的顶点集合，V_i ⁱⁿ表示顶点v_i的入链指向的顶点集合；

(二)其次，种子集选取机制

分区越高的论文节点，视作可信度越大，分区越低的节点可信度越低；

(三)然后，信任值计算

然后通过模拟随机游走模型和随机跳跃过程，根据TrustRank和Anti-TrustRank算法分别计算每个节点的信任值Tr_i和不信任值Dr_i,分别表示论文节点v_i的信任值和不信任值；

根据文献得信任值和不信任值综合计算每个论文节点的综合评分；ReputeRank公式为：

α、β和γ为三个阻尼系数，在综合指标中所占的比重，其中0≤α≤1，-1≤β≤0，0≤r≤1-α，i∈{1,2,3,...,N}；

ReputeRank_i为论文节点v_i的最后评分值，0≤ReputeRank_i≤1；

(四)根据最终综合信誉值的降序排序结果，获取并输出引文网络中科学文献的学术影响力排序；

好种子集选取过程——TrustRank算法的种子集选取部分；

①使用PageRank算法对数据集进行处理；

边元素

i＝{1,2,3,...,N},j＝{1,2,3,...,N}.

当v_i顶点的出度数

为0的时候，防止分母不能为0，故设置

防止程序报错；

③设置种子集的大小L，选取前L个文献作为种子文献；

④对种子集文献评价；根据文献发表刊物的影响力因子和刊物的分区情况；将文献发表期刊的影响因子低于1或者JCR分区在3区以下的文献默认设置为低质量、低影响力文献，高于1或者分区在3区以上的文献默认设置为高质量、高影响力文献；将文献背景信息信息好的高PageRank评分的节点列为好种子集合标记为GS,其它文献节点标记为未知节点集合US；如下为JCR分区评分；

Q1、Q2、Q3和Q4分别表示JCR分区1,2,3,4区，评分Q1>Q2>Q3>Q4>非sci

2.根据权利要求1所述方法，其特征在于：

坏种子集选取过程——Anti-TrustRank算法的种子集选取部分

①使用Inverse PageRank算法对数据集进行处理；

Inverse PageRank公式如下：需要迭代计算，让网络中的每个节点Inverse PageRank值趋于稳定，即IP＝{IP₁,IP₂,IP₃,...,IP_N}.IP_i∈[0,1].

i,j∈{1,2...N}，t表示迭代循环次数，IP_j(t)表示顶点v_j的第t次Inverse PageRank值，IP_i(t-1)表示顶点v_i的第t-1次Inverse PageRank值，t∈{1,2...30},循环计算30次后，每个顶点Inverse PageRank值趋于稳定；c为阻尼系数，在指标中所占的比重，c∈[0,1]，在此计算时候选取