CN107391659B - 一种基于信誉度的引文网络学术影响力评价排序方法 - Google Patents

一种基于信誉度的引文网络学术影响力评价排序方法 Download PDF

Info

Publication number
CN107391659B
CN107391659B CN201710587023.0A CN201710587023A CN107391659B CN 107391659 B CN107391659 B CN 107391659B CN 201710587023 A CN201710587023 A CN 201710587023A CN 107391659 B CN107391659 B CN 107391659B
Authority
CN
China
Prior art keywords
value
seed
documents
algorithm
pagerank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn - After Issue
Application number
CN201710587023.0A
Other languages
English (en)
Other versions
CN107391659A (zh
Inventor
冯磊
冀俊忠
徐骋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201710587023.0A priority Critical patent/CN107391659B/zh
Publication of CN107391659A publication Critical patent/CN107391659A/zh
Application granted granted Critical
Publication of CN107391659B publication Critical patent/CN107391659B/zh
Withdrawn - After Issue legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于信誉度的引文网络学术影响力评价排序方法属于学术影响力评价技术领域,结合引文网络的特征,本发明根据文章背景信息定义一系列规则,改进TrustRank算法和Anti‑TrustRank算法选取种子集机制,循环迭代计算网络节点的信誉值和非信誉值,最后综合两者的结果给出评分。根据最终综合信誉值的降序排序结果,获取并输出引文网络中科学文献的学术影响力排序。本发明旨在提供一种合理的、公正的评价方法,能够对文献的影响力准确地评价,从而评选出某一学科内高质量的论文资料。科研人员也能快速地查找文献资料和把握当前研究的热门方向,将更多的时间分配在科学理论研究上。本发明的研究对于认识引文网络的结构和传播特性以及文献影响力评价具有重要的理论意义。

Description

一种基于信誉度的引文网络学术影响力评价排序方法
技术领域
本发明属于学术影响力评价技术领域,涉及一种引文网络中基于文献信誉度的学术影响力分析与排序方法。
背景技术
科学文献是传递知识的重要载体,对科学技术的发展起到了巨大的促进作用。科研成果的不断发表,文献间不断增长的引证关系构成了一个大规模的复杂网络——引文网络。从事科研工作的人越来越多,每年发表的文献也呈上升趋势,这在促进科学进步的同时也带来了许多问题,文献质量良莠不齐。科学文献包含论文、期刊、会议和专利等出版物,对于科学技术的进步,科学家科研基金的申请是个重要的评判依据。因此如何识别高质量的文章成为了重要课题。
概况的说,文献影响力评价通常采用两种方法,一种是基于文献计量学方法,另一种是基于引证网络拓扑结构模型的数据挖掘算法。传统的基于统计的方法,如统计文章被引用次数,作者每年发表文章数目等。另一种基于引证网络拓扑结构的方法,本质是依据网页间的链接关系对网页的重要性进行计算。如将衡量搜索引擎旳检索结果网页质量的指标PageRank,应用于引文网络。PageRank算法为马尔科夫过程,描述随机游走者利用信息传递机制在网络中随机游走的过程。但是前两种方法只考虑节点的入度,即被引用次数,忽略了节点的出度即此篇文章发出的引用是否合理及有参考价值。忽略了著作者为了提高排名而不断自引,以及和合作者大量互引现象,当一篇原本质量水平一般的文章被引用了很多的次数,就会获得很高的排名和得分,这种恶意活动(Malicious Activity),给合理公正评价提出了严峻挑战。
虽然文献包含丰富的信息,但是现有引文网络数据对于文献特征并没有完全的表示,更多是利用文章的引证关系把文献铺设成一个网络。网络结构通常具有正、负特性,顶点间通过有向边的调用关系,完成一种有目的的指向和表达。以往的方法只考虑节点的入链次数,基于无标记网络链接关系的迭代排序方法具有很大的局限性忽略了节点的出度即此篇文章发出的引用是否合理及有参考价值。一篇文章的灵感往往是作者广泛阅读前人相关研究的基础上形成的,再结合自身的创造性和主观能动性开展新的研究。所以引文网络中引用与被引用的交互行为,反应了作者对其它文章的参考价值和信任程度。由于科学文献包含丰富的背景信息(Background Information),如期刊、会议和作者以及出版时间等,权威性的作者更喜欢向影响因子高的权威性期刊投递论文,论文质量也一直成为基金申请、职位晋升的重要参考标准。我们试图寻找真正有影响力有意义的文章作为repute信誉节点,同时找到质量一般但却试图不断通过自引以及它引的文章列为不受信节点,迭代查找的方式识别网络中的节点再试图合理评价。
TrustRank是由斯坦福大学和雅虎公司为应对网络作弊提出的搜索引擎排序算法。众所周知,万维网中存在大量虚假网页同时发出指向一个目标网页链接,以致目标网页骗过那些单纯统计网页入链的搜索引擎,从而帮助目标网页获得较高的排名,人工识别这种作弊行为准确率高却效率低下,另外需要消耗大量的时间金钱成本。故TrustRank算法采用半人工的方式,预先确定一部分种子集,好的信誉的网页指向的网页通常是可信的,再利用评价公式进行迭代,一定步长后算法趋于稳定。与TrustRank算法相对应的是Anti-TrustRank算法,该算法反其道而行之,选取不受信节点为种子集,迭代计算网页的不受信值,好网页往往有较低的不受信值,引文网络与万维网有着相似的链接结构,同时引文网络有着更加鲜明的特征属性。根据网络节点的期刊作者会议等背景信息(BackgroundInformation),我们可以充分评估它的信誉值,并选取作为种子集,并且利用网络拓扑结构对信誉进行扩散,最后根据特征种子集来评价文献的学术影响力。因此,我们提出了一种新的引文网络科学文献评价方法,该算法结合引文网络特点,要考虑到该页面所在站点的信任指数和权威性,引文网络普遍存在恶意活动,也能提供一种文献质量的排名公平合理的排序方法。
发明内容
本发明的旨在提供一种引文网络中科学文献学术影响力的质量评价及排序方法,能够提高科学文献学术影响力排序的准确率和公平性,以合理评估研究者的科研成果质量及帮助用户找到高质量的论文。
本发明的是通过下述技术方案实现的:
一种基于信誉度论文引文网络学术影响力评价排序方法,其具体操作步骤为:
(一)首先,构建引文网络模型,论文为顶点,论文间的引用关系为边。论文引用图G=(V,E)是一个有向图,V代表节点集{v1,v2,v3...vn},有N个顶点,E代表边集,
Figure BDA0001353802080000031
1≤i,j≤n,如果顶点vi指向vi的有向边存在,则边元素ei,j为1;若顶点vi指向vi的有向边不存在,则边元素ei,j为0。提取出引证数据的局部特征,
Figure BDA0001353802080000034
表示顶点vi的出链数量,
Figure BDA0001353802080000035
表示顶点vi的入链数量;
Figure BDA0001353802080000036
表示顶点vi的出链指向的顶点集合,
Figure BDA0001353802080000037
表示顶点vi的入链指向的顶点集合。
(二)其次,种子集选取机制
利用PageRank算法和Inverse PageRank算法求解每个节点的初始信誉值和非信誉值,结合JCR分区信息,
Figure BDA0001353802080000032
分区越高的论文节点,视作可信度越大,分区越低的节点可信度越低。如1区有最高的可信度为4。
好种子集选取:使用PageRank算法对论文进行初步评价,根据评价值对论文进行降序排列,选取top-k种子集根据文章背景信息进行判断,再结合ASE算法扩充好种子集;
坏种子集选取使用Inverse PageRank算法对论文进行初步评价,根据评价值对论文进行降序排列,选取top-k种子集根据文章背景信息进行判断,再结合ASE算法扩充坏种子集;
(三)然后,信任值计算
然后通过模拟随机游走模型和随机跳跃过程,根据TrustRank和Anti-TrustRank算法分别计算每个节点的信任值Tri和不信任值Dri,分别表示论文节点vi的信任值和不信任值。
根据文献得信任值和不信任值综合计算每个论文节点的综合评分。ReputeRank公式为:
Figure BDA0001353802080000033
α、β和γ为三个阻尼系数,在综合指标中所占的比重,其中0≤α≤1,-1≤β≤0,0≤r≤1-α,i∈{1,2,3,...,N}。
ReputeRanki为论文节点vi的最后评分值,0≤ReputeRanki≤1。
(四)根据最终综合信誉值的降序排序结果,获取并输出引文网络中科学文献的学术影响力排序。
好种子集选取过程——TrustRank算法的种子集选取部分;
①使用PageRank算法对数据集进行处理;
PageRank公式如下:需要迭代计算,让网络中的每个节点PageRank值趋于稳定,即P={P1,P2,P3,...,PN}
Figure BDA0001353802080000041
i,j∈{1,2...N},t表示迭代循环次数,Pj(t)表示顶点vj的第t次PageRank值,Pi(t-1)表示顶点vi第t-1次PageRank值,Pi∈[0,1],t∈{1,2...30},循环计算30次后,每个顶点PageRank值趋于稳定;c为阻尼系数,在指标中所占的比重,c∈[0,1],在此计算时候选取c=0.85,
Figure BDA0001353802080000042
边元素
Figure BDA0001353802080000043
i={1,2,3,...,N},j={1,2,3,...,N}.
当vi顶点的出度数
Figure BDA0001353802080000044
为0的时候,防止分母不能为0,故设置
Figure BDA0001353802080000045
防止程序报错;
②对文献的P值从大到小排序;文献的PageRank值反映了文献被选为种子文献的“期望值”,通过从大到小排序,挑选出PageRank值大的文献作为初始好种子集;
③设置种子集的大小L,选取前L个文献作为种子文献;
④对种子集文献评价;根据文献发表刊物的影响力因子和刊物的分区情况;例如,可以将文献发表期刊的影响因子低于1或者JCR分区在3区以下的文献默认设置为低质量、低影响力文献,高于1或者分区在3区以上的文献默认设置为高质量、高影响力文献;将文献背景信息信息好的高PageRank评分的节点列为好种子集合标记为GS,其它文献节点标记为未知节点集合US;如下为JCR分区评分;
Figure BDA0001353802080000046
Q1、Q2、Q3和Q4分别表示JCR分区1,2,3,4区,评分Q1>Q2>Q3>Q4>非sci
⑤结合ASE算法扩充好种子集;根据上一步得到的好种子集GS,若是有5个以上好种子指向一个未知的种子,则将未知种子从未知种子集US提取到好种子集合GS中。
坏种子集选取过程——Anti-TrustRank算法的种子集选取部分
①使用Inverse PageRank算法对数据集进行处理;
Inverse PageRank公式如下:需要迭代计算,让网络中的每个节点InversePageRank值趋于稳定,即IP={IP1,IP2,IP3,...,IPN}.IPi∈[0,1].
Figure BDA0001353802080000051
i,j∈{1,2...N},t表示迭代循环次数,IPj(t)表示顶点vj的第t次InversePageRank值,IPi(t-1)表示顶点vi的第t-1次Inverse PageRank值,t∈{1,2...30},循环计算30次后,每个顶点Inverse PageRank值趋于稳定;c为阻尼系数,在指标中所占的比重,c∈[0,1],在此计算时候选取c=0.85.
Figure BDA0001353802080000052
当vi顶点的入度数
Figure BDA0001353802080000053
为0的时候,防止分母不能为0,故设置
Figure BDA0001353802080000054
防止程序报错;边元素
Figure BDA0001353802080000055
i={1,2,3,...,N},j={1,2,3,...,N}.
②对文献的IP值从大到小排序;文献的Inverse PageRank值反映了文献被选为种子文献的“期望值”,通过从大到小排序,挑选出Inverse PageRank值大的文献作为初始坏种子集;
③设置种子集的大小M,选取前M个文献作为种子文献;种子集的数量需要根据引文网络的规模大小来设置,
④对种子集文献评价;将文献背景信息信息不好的的Inverse PageRank评分的节点列为坏种子集合标记为BS,其它文献节点标记为未知节点集合US;如下为JCR分区评分;
Figure BDA0001353802080000056
Q1、Q2、Q3和Q4分别表示JCR分区1,2,3,4区,评分Q1>Q2>Q3>Q4>非sci
⑤结合ASE算法扩充坏种子集;根据上一步得到的坏种子集BS,若是有多个坏种子指向一个未知的种子,则将未知种子从未知种子集US提取到坏种子集合BS中。
(三)信任值计算中
(1)TrustRank算法实现部分:
①初始化每篇论文信任评分,令各节点的初始信任值等于前面求出的PageRank值,即Tr=P.初始化信任好种子集向量GS;
Figure BDA0001353802080000061
i={1,2,3,...,N},j={1,2,3,...,N},NGS表示好种子集数量;
②实现帯有文献特征集个性化向量的TrustRank算法;将种子集向量GS、初始化后的信任指数向量Tr、常量参数ω=0.85代入TrustRank算法公式,迭代计算TrustRank值;
Figure BDA0001353802080000062
t表示迭代次数,
Figure BDA0001353802080000063
t和
Figure BDA0001353802080000064
参数含义同上;
Trj(t)表示顶点vj的第t次TrustRank值,Tri(t-1)表示顶点vi第t-1次TrustRank值.
③得到文献的信任指数;将算法公式20次以上迭代后,每个文献的信任指数会逐渐收敛,直至稳定。
Anti-TrustRank算法的实现部分
④初始化每篇论文信任评分,令各节点的初始信任值等于前面求出的InversePageRank值,即Dr=IP.初始化不信任坏种子集向量BS;
Figure BDA0001353802080000065
i={1,2,3,...,N},NBS表示坏种子集数量;
⑤实现帯有文献特征集个性化向量的Anti-TrustRank算法;将坏种子集向量BS、初始化后的信任指数向量Dr、常量参数μ=0.85代入Anti-TrustRank算法公式,迭代计算Anti-TrustRank值;
Figure BDA0001353802080000071
t表示迭代次数,
Figure BDA0001353802080000072
t和
Figure BDA0001353802080000073
参数含义同上;
Drj(t)表示顶点vj的第t次Anti-TrustRank值,Dri(t-1)表示顶点vi第t-1次AntiTrustRank值.
⑥得到文献的不信任指数;将算法公式20次以上迭代后,每个文献的信任指数会逐渐收敛,直至稳定。
(四)综合计算部分;使用TrustRank算法的结果和Anti-TrustRank算法的结果,输出文献的影响力大小;
Figure BDA0001353802080000074
α、β和γ为三个阻尼系数,在综合指标中所占的比重,其中α=0.5,β=-0.5,r=0.45,i={1,2,3,...,N}。
结合引文网络的特征,根据文章背景信息定义一系列规则,改进TrustRank算法和Anti-TrustRank算法选取种子集机制,循环迭代计算网络节点的信誉值和非信誉值,最后综合两者的结果给出评分。
根据最终综合信誉值的降序排序结果,获取并输出引文网络中科学文献的学术影响力排序。
科学文献质量评价算法模型是解决一个NP完全问题.本发明旨在提供一种合理的、公正的评价方法,能够对文献的影响力准确地评价,从而评选出某一学科内高质量的论文资料。科研人员也能快速地查找文献资料和把握当前研究的热门方向,将更多的时间分配在科学理论研究上。本发明的研究对于认识引文网络的结构和传播特性以及文献影响力评价具有重要的理论意义,对认识科学技术发展和文献检索也具有重要的实践价值。
附图说明
图1示出了根据本发明技术方案的基于信誉度的引文网络文献学术影响力排序方法的流程示意图;
图2示出了根据本发明技术方案的基于信誉度的引文网络文献学术影响力排序方法结构示意图;
图3排名Top-k JCR 4区以上的SCI文章数量百分比
Figure BDA0001353802080000081
具体实施方式
选取数据集为KDD cup引文网络数据集,网址:http://www.cs.cornell.edu/projects/kddcup/datasets.html
包括:(1992-2003)年的文章,txt格式,论文29,555篇,引用关系352,807条边,期刊来源:Physical Review Letters,Physical Letters B,Physical Report,PhysicalReview D等。
(一)首先,构建引文网络模型.
加载数据集。引文网络的数据集通常包括文献的引用关系、文献的摘要、文献的具体内容等可以用于理论研究的信息。加载数据集的过程,就是利用文献的引用关系,形成引文网络的过程。一般的引文网络都是采用关系矩阵来表示,当数据集中数据量非常庞大时,关系矩阵明显转变成了稀疏矩阵。
论文为顶点,论文间的引用关系为边。论文引用图G=(V,E)是一个有向图,V代表节点集{v1,v2,v3...vN},有N个顶点,E代表边集,
Figure BDA0001353802080000091
边元素
Figure BDA0001353802080000092
1≤i,j≤N,如果顶点vi指向vj的有向边存在,则边元素ei,j为1;若顶点vi指向vj的有向边不存在,则边元素ei,j为0。提取出引证数据的局部特征,
Figure BDA0001353802080000093
表示顶点vi的出链数量,
Figure BDA0001353802080000094
表示顶点vi的入链数量;
Figure BDA0001353802080000095
表示顶点的vi出链指向的顶点集合,
Figure BDA0001353802080000096
表示顶点vi的入链指向的顶点集合。
(二)种子集选取
1.好种子集选取过程——TrustRank算法的种子集选取部分。
⑥使用PageRank算法对数据集进行处理。
PageRank公式如下:需要迭代计算,让网络中的每个节点PageRank值趋于稳定,即P={P1,P2,P3,...,PN}
Figure BDA0001353802080000097
i,j∈{1,2...N},t表示迭代循环次数,Pj(t)表示顶点vj的第t次PageRank值,Pi(t-1)表示顶点vi第t-1次PageRank值,Pi∈[0,1],t∈{1,2...30},循环计算30次后,每个顶点PageRank值趋于稳定;c为阻尼系数,在指标中所占的比重,c∈[0,1],在此计算时候选取c=0.85,
Figure BDA0001353802080000101
边元素
Figure BDA0001353802080000102
i={1,2,3,...,N},j={1,2,3,...,N}.
当vi顶点的出度数
Figure BDA0001353802080000103
为0的时候,防止分母不能为0,故设置
Figure BDA0001353802080000104
防止程序报错。
⑦对文献的P值从大到小排序。文献的PageRank值反映了文献被选为种子文献的“期望值”,通过从大到小排序,可以选出合适的种子文献。挑选出PageRank值大的文献作为初始好种子集。
⑧设置种子集的大小L,选取前L个文献作为种子文献。种子集的数量需要根据引文网络的规模大小来设置,本文使用到的数据集包含2万多个文献,将种子集的大小设置为200。
⑨对种子集文献评价。种子集的评价过程在整个算法中是最花时间的。在改进之前,人工标注种子集,对这L篇文献进行资料分析,判断这些文献的好坏。改进之后,在评价种子集文献质量的时候,只需要根据文献发表刊物的影响力因子和刊物的分区情况。例如,可以将文献发表期刊的影响因子低于1或者JCR分区在3区以下的文献默认设置为低质量、低影响力文献,高于1或者分区在3区以上的文献默认设置为高质量、高影响力文献。此步可以将文献背景信息信息好的高PageRank评分的节点列为好种子集合(Good Seeds)标记为GS,其它文献节点标记为未知节点集合(Unknown Seeds)US。如下为JCR分区评分。
Figure BDA0001353802080000105
Q1、Q2、Q3和Q4分别表示JCR分区1,2,3,4区,评分Q1>Q2>Q3>Q4>非sci
⑩结合ASE算法扩充好种子集。根据上一步得到的好种子集GS,若是有5个以上好种子指向一个未知的种子,则将未知种子从未知种子集US提取到好种子集合GS中。
2.坏种子集选取过程——Anti-TrustRank算法的种子集选取部分
①使用Inverse PageRank算法对数据集进行处理。
Inverse PageRank公式如下:需要迭代计算,让网络中的每个节点InversePageRank值趋于稳定,即IP={IP1,IP2,IP3,...,IPN}.IPi∈[0,1].
Figure BDA0001353802080000111
i,j∈{1,2...N},t表示迭代循环次数,IPj(t)表示顶点vj的第t次InversePageRank值,IPi(t-1)表示顶点vi的第t-1次Inverse PageRank值,t∈{1,2...30},循环计算30次后,每个顶点Inverse PageRank值趋于稳定;c为阻尼系数,在指标中所占的比重,c∈[0,1],在此计算时候选取c=0.85.
Figure BDA0001353802080000112
当vi顶点的入度数
Figure BDA0001353802080000113
为0的时候,防止分母不能为0,故设置
Figure BDA0001353802080000114
防止程序报错。边元素
Figure BDA0001353802080000115
i={1,2,3,...,N},j={1,2,3,...,N}.
②对文献的IP值从大到小排序。文献的Inverse PageRank值反映了文献被选为种子文献的“期望值”,通过从大到小排序,可以选出合适的种子文献。挑选出InversePageRank值大的文献作为初始坏种子集。
③设置种子集的大小M,选取前M个文献作为种子文献。种子集的数量需要根据引文网络的规模大小来设置,本文使用到的数据集包含2万多个文献,将M的大小设置为200。
④对种子集文献评价。对文献评价,根据前M个种子文献,根据文献背景信息,人工标注坏种子集。评价并选取坏种子的过程与算法选取好种子集部分有着些许的不同。通常,在引文网络数据集中,挑选好种子文献比较容易,然而,选取坏种子文献却比较困难。在逆链接的引文网路中PageRank高的文献不一定就是低质量、低影响力的文献。本文在选取坏种子文献时,参考JCR分区特点,从非SCi中选取,同时针对期刊有大量出度链接,少量入度链接即很少被引用的普通期刊文章视作坏种子集。此步将文献背景信息信息不好的的Inverse PageRank评分的节点列为坏种子集合(Bad Seeds)标记为BS,其它文献节点标记为未知节点集合(Unknown Seeds)US。如下为JCR分区评分。
Figure BDA0001353802080000121
Q1、Q2、Q3和Q4分别表示JCR分区1,2,3,4区,评分Q1>Q2>Q3>Q4>非sci
⑤结合ASE算法扩充坏种子集。根据上一步得到的坏种子集BS,若是有多个坏种子指向一个未知的种子,则将未知种子从未知种子集US提取到坏种子集合BS中。
(三)信任值计算
(2)TrustRank算法实现部分
⑦初始化每篇论文信任评分,令各节点的初始信任值等于前面求出的PageRank值,即Tr=P.初始化信任好种子集向量GS。
Figure BDA0001353802080000122
i={1,2,3,...,N},j={1,2,3,...,N},NGS表示好种子集数量。
⑧实现帯有文献特征集个性化向量的TrustRank算法。将种子集向量GS、初始化后的信任指数向量Tr、常量参数ω=0.85代入TrustRank算法公式,迭代计算TrustRank值。
Figure BDA0001353802080000123
t表示迭代次数,
Figure BDA0001353802080000124
t和
Figure BDA0001353802080000125
参数含义同上。
Trj(t)表示顶点vj的第t次TrustRank值,Tri(t-1)表示顶点vi第t-1次TrustRank值.
⑨得到文献的信任指数。将算法公式20多次迭代后,每个文献的信任指数会逐渐收敛,直至稳定。
(3)Anti-TrustRank算法的实现部分
⑩初始化每篇论文信任评分,令各节点的初始信任值等于前面求出的InversePageRank值,即Dr=IP.初始化不信任坏种子集向量BS。
Figure BDA0001353802080000131
i={1,2,3,...,N},NBS表示坏种子集数量。
Figure BDA0001353802080000132
实现帯有文献特征集个性化向量的Anti-TrustRank算法。将坏种子集向量BS、初始化后的信任指数向量Dr、常量参数μ=0.85代入Anti-TrustRank算法公式,迭代计算Anti-TrustRank值。
Figure BDA0001353802080000133
t表示迭代次数,
Figure BDA0001353802080000134
t和
Figure BDA0001353802080000135
参数含义同上。
Drj(t)表示顶点vj的第t次Anti-TrustRank值,Dri(t-1)表示顶点vi第t-1次AntiTrustRank值.
Figure BDA0001353802080000136
得到文献的不信任指数。将算法公式20次迭代后,每个文献的信任指数会逐渐收敛,直至稳定。
(四)综合计算部分。综合计算将会使用TrustRank算法的结果和Anti-TrustRank算法的结果,根据改进策略中的综合影响力评价公式,输出文献的影响力大小。
Figure BDA0001353802080000137
β和γ为三个阻尼系数,在综合指标中所占的比重,其中,0≤α≤1,-1≤β≤0,0≤r≤1-α,经试验,α=0.5,β=-0.5,r=0.45,识别JCR分区高的文章效果较好。i={1,2,3,...,N}
实验结果
在前100篇文献中,识别出sci2区以上文献88篇,准确率高达88%。与其他方法相比,在识别高水平文章上面有明显优势。

Claims (5)

1.一种基于信誉度论文引文网络学术影响力评价排序方法,其特征在于,具体操作步骤为:
(一)首先,构建引文网络模型,论文为顶点,论文间的引用关系为边;论文引用图G=(V,E)是一个有向图,V代表节点集{v1,v2,v3...vn},有N个顶点,E代表边集,
Figure FDA0002430709330000011
1≤i,j≤n,如果顶点vi指向vi的有向边存在,则边元素ei,j为1;若顶点vi指向vi的有向边不存在,则边元素ei,j为0;提取出引证数据的局部特征,
Figure FDA0002430709330000012
表示顶点vi的出链数量,
Figure FDA0002430709330000013
表示顶点vi的入链数量;Vi out表示顶点vi的出链指向的顶点集合,Vi in表示顶点vi的入链指向的顶点集合;
(二)其次,种子集选取机制
利用PageRank算法和Inverse PageRank算法求解每个节点的初始信誉值和非信誉值,结合JCR分区信息,
Figure FDA0002430709330000014
分区越高的论文节点,视作可信度越大,分区越低的节点可信度越低;
好种子集选取:使用PageRank算法对论文进行初步评价,根据评价值对论文进行降序排列,选取top-k种子集根据文章背景信息进行判断,再结合ASE算法扩充好种子集;
坏种子集选取使用Inverse PageRank算法对论文进行初步评价,根据评价值对论文进行降序排列,选取top-k种子集根据文章背景信息进行判断,再结合ASE算法扩充坏种子集;
(三)然后,信任值计算
然后通过模拟随机游走模型和随机跳跃过程,根据TrustRank和Anti-TrustRank算法分别计算每个节点的信任值Tri和不信任值Dri,分别表示论文节点vi的信任值和不信任值;
根据文献得信任值和不信任值综合计算每个论文节点的综合评分;ReputeRank公式为:
Figure FDA0002430709330000015
α、β和γ为三个阻尼系数,在综合指标中所占的比重,其中0≤α≤1,-1≤β≤0,0≤r≤1-α,i∈{1,2,3,...,N};
ReputeRanki为论文节点vi的最后评分值,0≤ReputeRanki≤1;
(四)根据最终综合信誉值的降序排序结果,获取并输出引文网络中科学文献的学术影响力排序;
好种子集选取过程——TrustRank算法的种子集选取部分;
①使用PageRank算法对数据集进行处理;
PageRank公式如下:需要迭代计算,让网络中的每个节点PageRank值趋于稳定,即P={P1,P2,P3,...,PN}
Figure FDA0002430709330000021
i,j∈{1,2...N},t表示迭代循环次数,Pj(t)表示顶点vj的第t次PageRank值,Pi(t-1)表示顶点vi第t-1次PageRank值,Pi∈[0,1],t∈{1,2...30},循环计算30次后,每个顶点PageRank值趋于稳定;c为阻尼系数,在指标中所占的比重,c∈[0,1],在此计算时候选取c=0.85,
Figure FDA0002430709330000022
边元素
Figure FDA0002430709330000023
i={1,2,3,...,N},j={1,2,3,...,N}.
当vi顶点的出度数
Figure FDA0002430709330000024
为0的时候,防止分母不能为0,故设置
Figure FDA0002430709330000025
防止程序报错;
②对文献的P值从大到小排序;文献的PageRank值反映了文献被选为种子文献的“期望值”,通过从大到小排序,挑选出PageRank值大的文献作为初始好种子集;
③设置种子集的大小L,选取前L个文献作为种子文献;
④对种子集文献评价;根据文献发表刊物的影响力因子和刊物的分区情况;将文献发表期刊的影响因子低于1或者JCR分区在3区以下的文献默认设置为低质量、低影响力文献,高于1或者分区在3区以上的文献默认设置为高质量、高影响力文献;将文献背景信息信息好的高PageRank评分的节点列为好种子集合标记为GS,其它文献节点标记为未知节点集合US;如下为JCR分区评分;
Figure FDA0002430709330000031
Q1、Q2、Q3和Q4分别表示JCR分区1,2,3,4区,评分Q1>Q2>Q3>Q4>非sci
⑤结合ASE算法扩充好种子集;根据上一步得到的好种子集GS,若是有5个以上好种子指向一个未知的种子,则将未知种子从未知种子集US提取到好种子集合GS中。
2.根据权利要求1所述方法,其特征在于:
坏种子集选取过程——Anti-TrustRank算法的种子集选取部分
①使用Inverse PageRank算法对数据集进行处理;
Inverse PageRank公式如下:需要迭代计算,让网络中的每个节点Inverse PageRank值趋于稳定,即IP={IP1,IP2,IP3,...,IPN}.IPi∈[0,1].
Figure FDA0002430709330000032
i,j∈{1,2...N},t表示迭代循环次数,IPj(t)表示顶点vj的第t次Inverse PageRank值,IPi(t-1)表示顶点vi的第t-1次Inverse PageRank值,t∈{1,2...30},循环计算30次后,每个顶点Inverse PageRank值趋于稳定;c为阻尼系数,在指标中所占的比重,c∈[0,1],在此计算时候选取
Figure FDA0002430709330000038
当vi顶点的入度数
Figure FDA0002430709330000034
为0的时候,防止分母不能为0,故设置
Figure FDA0002430709330000035
防止程序报错;边元素
Figure FDA0002430709330000037
②对文献的IP值从大到小排序;文献的Inverse PageRank值反映了文献被选为种子文献的“期望值”,通过从大到小排序,挑选出Inverse PageRank值大的文献作为初始坏种子集;
③设置种子集的大小M,选取前M个文献作为种子文献;种子集的数量需要根据引文网络的规模大小来设置,
④对种子集文献评价;将文献背景信息信息不好的的Inverse PageRank评分的节点列为坏种子集合标记为BS,其它文献节点标记为未知节点集合US;如下为JCR分区评分;
Figure FDA0002430709330000041
Q1、Q2、Q3和Q4分别表示JCR分区1,2,3,4区,评分Q1>Q2>Q3>Q4>非sci
⑤结合ASE算法扩充坏种子集;根据上一步得到的坏种子集BS,若是有多个坏种子指向一个未知的种子,则将未知种子从未知种子集US提取到坏种子集合BS中。
3.根据权利要求1所述方法,其特征在于,
(三)信任值计算中
(1)TrustRank算法实现部分:
①初始化每篇论文信任评分,令各节点的初始信任值等于前面求出的PageRank值,即Tr=P.初始化信任好种子集向量GS;
Figure FDA0002430709330000042
i={1,2,3,...,N},j={1,2,3,...,N},NGS表示好种子集数量;
②实现帯有文献特征集个性化向量的TrustRank算法;将种子集向量GS、初始化后的信任指数向量Tr、常量参数ω=0.85代入TrustRank算法公式,迭代计算TrustRank值;
Figure FDA0002430709330000043
t表示迭代次数,
Figure FDA0002430709330000044
t和
Figure FDA0002430709330000045
参数含义同上;
Trj(t)表示顶点vj的第t次TrustRank值,Tri(t-1)表示顶点vi第t-1次TrustRank值.
③得到文献的信任指数;将算法公式20次以上迭代后,每个文献的信任指数会逐渐收敛,直至稳定。
4.根据权利要求1所述方法,其特征在于,
(三)信任值计算中Anti-TrustRank算法的实现部分
④初始化每篇论文信任评分,令各节点的初始信任值等于前面求出的InversePageRank值,即Dr=IP.初始化不信任坏种子集向量BS;
Figure FDA0002430709330000046
i={1,2,3,...,N},NBS表示坏种子集数量;
⑤实现帯有文献特征集个性化向量的Anti-TrustRank算法;将坏种子集向量BS、初始化后的信任指数向量Dr、常量参数μ=0.85代入Anti-TrustRank算法公式,迭代计算Anti-TrustRank值;
Figure FDA0002430709330000051
t表示迭代次数,
Figure FDA0002430709330000052
t和
Figure FDA0002430709330000053
参数含义同上;
Drj(t)表示顶点vj的第t次Anti-TrustRank值,Dri(t-1)表示顶点vi第t-1次AntiTrustRank值;
⑥得到文献的不信任指数;将算法公式20次以上迭代后,每个文献的信任指数会逐渐收敛,直至稳定。
5.根据权利要求1所述方法,其特征在于:
综合计算部分;使用TrustRank算法的结果和Anti-TrustRank算法的结果,输出文献的影响力大小;
Figure FDA0002430709330000054
β和γ为三个阻尼系数,在综合指标中所占的比重,其中α=0.5,β=-0.5,r=0.45,i={1,2,3,...,N}。
CN201710587023.0A 2017-07-18 2017-07-18 一种基于信誉度的引文网络学术影响力评价排序方法 Withdrawn - After Issue CN107391659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710587023.0A CN107391659B (zh) 2017-07-18 2017-07-18 一种基于信誉度的引文网络学术影响力评价排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710587023.0A CN107391659B (zh) 2017-07-18 2017-07-18 一种基于信誉度的引文网络学术影响力评价排序方法

Publications (2)

Publication Number Publication Date
CN107391659A CN107391659A (zh) 2017-11-24
CN107391659B true CN107391659B (zh) 2020-05-22

Family

ID=60339420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710587023.0A Withdrawn - After Issue CN107391659B (zh) 2017-07-18 2017-07-18 一种基于信誉度的引文网络学术影响力评价排序方法

Country Status (1)

Country Link
CN (1) CN107391659B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949172B (zh) * 2017-12-15 2022-12-27 深圳市腾讯计算机系统有限公司 社交账号影响力评价方法、装置及存储介质
CN109272228B (zh) * 2018-09-12 2022-03-15 石家庄铁道大学 基于科研团队合作网络的科研影响力分析方法
CN109376218B (zh) * 2018-09-14 2020-12-11 大连理工大学 一种基于级联的论文影响力评估方法
CN110942082B (zh) * 2019-03-27 2022-04-05 南京邮电大学 一种人才价值评估方法
CN111223533B (zh) * 2019-12-24 2024-02-13 深圳市联影医疗数据服务有限公司 一种医疗数据检索方法及系统
CN111949771A (zh) * 2020-08-25 2020-11-17 上海交通大学 基于互强化框架和排序学习的学术文献未来影响力动态排序方法及系统
CN112286988B (zh) * 2020-10-23 2023-07-25 平安科技(深圳)有限公司 医疗文献排序方法、装置、电子设备及存储介质
CN112540990B (zh) * 2020-12-08 2023-04-07 浙江工业大学 基于引用网络时间信息的排序方法、装置和存储介质
CN112883147A (zh) * 2021-01-15 2021-06-01 上海柏观数据科技有限公司 一种基于知识关联的论文引用关联指标评估方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887460A (zh) * 2010-07-14 2010-11-17 北京大学 一种文献质量评估方法及应用
CN102298579A (zh) * 2010-06-22 2011-12-28 北京大学 面向科技文献的论文、作者和期刊排序模型及排序方法
CN106650276A (zh) * 2016-12-29 2017-05-10 大连理工大学 一种基于学术大数据的学者影响力评估方法
CN106776567A (zh) * 2016-12-22 2017-05-31 金蝶软件(中国)有限公司 一种互联网大数据分析提取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150149380A1 (en) * 2013-11-23 2015-05-28 Saagar Sunil Kulkarni Method and System for College Matching

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298579A (zh) * 2010-06-22 2011-12-28 北京大学 面向科技文献的论文、作者和期刊排序模型及排序方法
CN101887460A (zh) * 2010-07-14 2010-11-17 北京大学 一种文献质量评估方法及应用
CN106776567A (zh) * 2016-12-22 2017-05-31 金蝶软件(中国)有限公司 一种互联网大数据分析提取方法及系统
CN106650276A (zh) * 2016-12-29 2017-05-10 大连理工大学 一种基于学术大数据的学者影响力评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Combating Web Spam with TrustRank;ZOLTAN G et al.;《Proceeding of the 30th VLDB conference》;20041231;第576-587页 *

Also Published As

Publication number Publication date
CN107391659A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN107391659B (zh) 一种基于信誉度的引文网络学术影响力评价排序方法
CN108509551B (zh) 一种基于Spark环境下的微博网络关键用户挖掘系统及方法
CN110097125B (zh) 一种基于嵌入表示的跨网络账户关联方法
Zhou et al. Userrec: A user recommendation framework in social tagging systems
CN105005589B (zh) 一种文本分类的方法和装置
KR100963623B1 (ko) 시맨틱 웹 자원의 랭킹처리방법
CN106991127B (zh) 一种基于拓扑特征扩展的知识主题短文本层次分类方法
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN103064903B (zh) 图片检索方法和装置
CN104008165A (zh) 一种基于网络拓扑结构和节点属性的社团检测方法
CN105975596A (zh) 一种搜索引擎查询扩展的方法及系统
CN101986299A (zh) 基于超图的多任务个性化网络服务方法
CN106708953A (zh) 基于离散粒子群优化的局部社区检测协同过滤推荐方法
CN108415913A (zh) 基于不确定邻居的人群定向方法
CN106789338B (zh) 一种在动态大规模社交网络中发现关键人物的方法
CN106127506A (zh) 一种基于主动学习解决商品冷启动问题的推荐方法
CN109446420A (zh) 一种跨域协同过滤方法和系统
Caruana et al. Mining citizen science data to predict orevalence of wild bird species
Huang et al. Identifying influential individuals in microblogging networks using graph partitioning
Deng et al. Credit distribution and influence maximization in online social networks using node features
CN103383685A (zh) 一种基于用户点击数据的关键词属性量化方法及装置
CN110717043A (zh) 基于网络表示学习训练的学术团队构建方法
Deng et al. Credit distribution for influence maximization in online social networks with node features 1
CN112800111A (zh) 一种基于训练数据挖掘的位置预测方法
CN107562871A (zh) 基于社会资本价值排序的社交网络影响力用户发现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
AV01 Patent right actively abandoned
AV01 Patent right actively abandoned
AV01 Patent right actively abandoned

Granted publication date: 20200522

Effective date of abandoning: 20200608

AV01 Patent right actively abandoned

Granted publication date: 20200522

Effective date of abandoning: 20200608