CN107391659B - 一种基于信誉度的引文网络学术影响力评价排序方法 - Google Patents
一种基于信誉度的引文网络学术影响力评价排序方法 Download PDFInfo
- Publication number
- CN107391659B CN107391659B CN201710587023.0A CN201710587023A CN107391659B CN 107391659 B CN107391659 B CN 107391659B CN 201710587023 A CN201710587023 A CN 201710587023A CN 107391659 B CN107391659 B CN 107391659B
- Authority
- CN
- China
- Prior art keywords
- value
- seed
- documents
- algorithm
- pagerank
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn - After Issue
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
- G06F16/3323—Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于信誉度的引文网络学术影响力评价排序方法属于学术影响力评价技术领域,结合引文网络的特征,本发明根据文章背景信息定义一系列规则,改进TrustRank算法和Anti‑TrustRank算法选取种子集机制,循环迭代计算网络节点的信誉值和非信誉值,最后综合两者的结果给出评分。根据最终综合信誉值的降序排序结果,获取并输出引文网络中科学文献的学术影响力排序。本发明旨在提供一种合理的、公正的评价方法,能够对文献的影响力准确地评价,从而评选出某一学科内高质量的论文资料。科研人员也能快速地查找文献资料和把握当前研究的热门方向,将更多的时间分配在科学理论研究上。本发明的研究对于认识引文网络的结构和传播特性以及文献影响力评价具有重要的理论意义。
Description
技术领域
本发明属于学术影响力评价技术领域,涉及一种引文网络中基于文献信誉度的学术影响力分析与排序方法。
背景技术
科学文献是传递知识的重要载体,对科学技术的发展起到了巨大的促进作用。科研成果的不断发表,文献间不断增长的引证关系构成了一个大规模的复杂网络——引文网络。从事科研工作的人越来越多,每年发表的文献也呈上升趋势,这在促进科学进步的同时也带来了许多问题,文献质量良莠不齐。科学文献包含论文、期刊、会议和专利等出版物,对于科学技术的进步,科学家科研基金的申请是个重要的评判依据。因此如何识别高质量的文章成为了重要课题。
概况的说,文献影响力评价通常采用两种方法,一种是基于文献计量学方法,另一种是基于引证网络拓扑结构模型的数据挖掘算法。传统的基于统计的方法,如统计文章被引用次数,作者每年发表文章数目等。另一种基于引证网络拓扑结构的方法,本质是依据网页间的链接关系对网页的重要性进行计算。如将衡量搜索引擎旳检索结果网页质量的指标PageRank,应用于引文网络。PageRank算法为马尔科夫过程,描述随机游走者利用信息传递机制在网络中随机游走的过程。但是前两种方法只考虑节点的入度,即被引用次数,忽略了节点的出度即此篇文章发出的引用是否合理及有参考价值。忽略了著作者为了提高排名而不断自引,以及和合作者大量互引现象,当一篇原本质量水平一般的文章被引用了很多的次数,就会获得很高的排名和得分,这种恶意活动(Malicious Activity),给合理公正评价提出了严峻挑战。
虽然文献包含丰富的信息,但是现有引文网络数据对于文献特征并没有完全的表示,更多是利用文章的引证关系把文献铺设成一个网络。网络结构通常具有正、负特性,顶点间通过有向边的调用关系,完成一种有目的的指向和表达。以往的方法只考虑节点的入链次数,基于无标记网络链接关系的迭代排序方法具有很大的局限性忽略了节点的出度即此篇文章发出的引用是否合理及有参考价值。一篇文章的灵感往往是作者广泛阅读前人相关研究的基础上形成的,再结合自身的创造性和主观能动性开展新的研究。所以引文网络中引用与被引用的交互行为,反应了作者对其它文章的参考价值和信任程度。由于科学文献包含丰富的背景信息(Background Information),如期刊、会议和作者以及出版时间等,权威性的作者更喜欢向影响因子高的权威性期刊投递论文,论文质量也一直成为基金申请、职位晋升的重要参考标准。我们试图寻找真正有影响力有意义的文章作为repute信誉节点,同时找到质量一般但却试图不断通过自引以及它引的文章列为不受信节点,迭代查找的方式识别网络中的节点再试图合理评价。
TrustRank是由斯坦福大学和雅虎公司为应对网络作弊提出的搜索引擎排序算法。众所周知,万维网中存在大量虚假网页同时发出指向一个目标网页链接,以致目标网页骗过那些单纯统计网页入链的搜索引擎,从而帮助目标网页获得较高的排名,人工识别这种作弊行为准确率高却效率低下,另外需要消耗大量的时间金钱成本。故TrustRank算法采用半人工的方式,预先确定一部分种子集,好的信誉的网页指向的网页通常是可信的,再利用评价公式进行迭代,一定步长后算法趋于稳定。与TrustRank算法相对应的是Anti-TrustRank算法,该算法反其道而行之,选取不受信节点为种子集,迭代计算网页的不受信值,好网页往往有较低的不受信值,引文网络与万维网有着相似的链接结构,同时引文网络有着更加鲜明的特征属性。根据网络节点的期刊作者会议等背景信息(BackgroundInformation),我们可以充分评估它的信誉值,并选取作为种子集,并且利用网络拓扑结构对信誉进行扩散,最后根据特征种子集来评价文献的学术影响力。因此,我们提出了一种新的引文网络科学文献评价方法,该算法结合引文网络特点,要考虑到该页面所在站点的信任指数和权威性,引文网络普遍存在恶意活动,也能提供一种文献质量的排名公平合理的排序方法。
发明内容
本发明的旨在提供一种引文网络中科学文献学术影响力的质量评价及排序方法,能够提高科学文献学术影响力排序的准确率和公平性,以合理评估研究者的科研成果质量及帮助用户找到高质量的论文。
本发明的是通过下述技术方案实现的:
一种基于信誉度论文引文网络学术影响力评价排序方法,其具体操作步骤为:
1≤i,j≤n,如果顶点vi指向vi的有向边存在,则边元素ei,j为1;若顶点vi指向vi的有向边不存在,则边元素ei,j为0。提取出引证数据的局部特征,表示顶点vi的出链数量,表示顶点vi的入链数量;表示顶点vi的出链指向的顶点集合,表示顶点vi的入链指向的顶点集合。
(二)其次,种子集选取机制
利用PageRank算法和Inverse PageRank算法求解每个节点的初始信誉值和非信誉值,结合JCR分区信息,分区越高的论文节点,视作可信度越大,分区越低的节点可信度越低。如1区有最高的可信度为4。
好种子集选取:使用PageRank算法对论文进行初步评价,根据评价值对论文进行降序排列,选取top-k种子集根据文章背景信息进行判断,再结合ASE算法扩充好种子集;
坏种子集选取使用Inverse PageRank算法对论文进行初步评价,根据评价值对论文进行降序排列,选取top-k种子集根据文章背景信息进行判断,再结合ASE算法扩充坏种子集;
(三)然后,信任值计算
然后通过模拟随机游走模型和随机跳跃过程,根据TrustRank和Anti-TrustRank算法分别计算每个节点的信任值Tri和不信任值Dri,分别表示论文节点vi的信任值和不信任值。
根据文献得信任值和不信任值综合计算每个论文节点的综合评分。ReputeRank公式为:
ReputeRanki为论文节点vi的最后评分值,0≤ReputeRanki≤1。
(四)根据最终综合信誉值的降序排序结果,获取并输出引文网络中科学文献的学术影响力排序。
好种子集选取过程——TrustRank算法的种子集选取部分;
①使用PageRank算法对数据集进行处理;
PageRank公式如下:需要迭代计算,让网络中的每个节点PageRank值趋于稳定,即P={P1,P2,P3,...,PN}
i,j∈{1,2...N},t表示迭代循环次数,Pj(t)表示顶点vj的第t次PageRank值,Pi(t-1)表示顶点vi第t-1次PageRank值,Pi∈[0,1],t∈{1,2...30},循环计算30次后,每个顶点PageRank值趋于稳定;c为阻尼系数,在指标中所占的比重,c∈[0,1],在此计算时候选取c=0.85,边元素i={1,2,3,...,N},j={1,2,3,...,N}.
②对文献的P值从大到小排序;文献的PageRank值反映了文献被选为种子文献的“期望值”,通过从大到小排序,挑选出PageRank值大的文献作为初始好种子集;
③设置种子集的大小L,选取前L个文献作为种子文献;
④对种子集文献评价;根据文献发表刊物的影响力因子和刊物的分区情况;例如,可以将文献发表期刊的影响因子低于1或者JCR分区在3区以下的文献默认设置为低质量、低影响力文献,高于1或者分区在3区以上的文献默认设置为高质量、高影响力文献;将文献背景信息信息好的高PageRank评分的节点列为好种子集合标记为GS,其它文献节点标记为未知节点集合US;如下为JCR分区评分;
⑤结合ASE算法扩充好种子集;根据上一步得到的好种子集GS,若是有5个以上好种子指向一个未知的种子,则将未知种子从未知种子集US提取到好种子集合GS中。
坏种子集选取过程——Anti-TrustRank算法的种子集选取部分
①使用Inverse PageRank算法对数据集进行处理;
Inverse PageRank公式如下:需要迭代计算,让网络中的每个节点InversePageRank值趋于稳定,即IP={IP1,IP2,IP3,...,IPN}.IPi∈[0,1].
i,j∈{1,2...N},t表示迭代循环次数,IPj(t)表示顶点vj的第t次InversePageRank值,IPi(t-1)表示顶点vi的第t-1次Inverse PageRank值,t∈{1,2...30},循环计算30次后,每个顶点Inverse PageRank值趋于稳定;c为阻尼系数,在指标中所占的比重,c∈[0,1],在此计算时候选取c=0.85.当vi顶点的入度数为0的时候,防止分母不能为0,故设置防止程序报错;边元素i={1,2,3,...,N},j={1,2,3,...,N}.
②对文献的IP值从大到小排序;文献的Inverse PageRank值反映了文献被选为种子文献的“期望值”,通过从大到小排序,挑选出Inverse PageRank值大的文献作为初始坏种子集;
③设置种子集的大小M,选取前M个文献作为种子文献;种子集的数量需要根据引文网络的规模大小来设置,
④对种子集文献评价;将文献背景信息信息不好的的Inverse PageRank评分的节点列为坏种子集合标记为BS,其它文献节点标记为未知节点集合US;如下为JCR分区评分;
⑤结合ASE算法扩充坏种子集;根据上一步得到的坏种子集BS,若是有多个坏种子指向一个未知的种子,则将未知种子从未知种子集US提取到坏种子集合BS中。
(三)信任值计算中
(1)TrustRank算法实现部分:
①初始化每篇论文信任评分,令各节点的初始信任值等于前面求出的PageRank值,即Tr=P.初始化信任好种子集向量GS;i={1,2,3,...,N},j={1,2,3,...,N},NGS表示好种子集数量;
②实现帯有文献特征集个性化向量的TrustRank算法;将种子集向量GS、初始化后的信任指数向量Tr、常量参数ω=0.85代入TrustRank算法公式,迭代计算TrustRank值;
Trj(t)表示顶点vj的第t次TrustRank值,Tri(t-1)表示顶点vi第t-1次TrustRank值.
③得到文献的信任指数;将算法公式20次以上迭代后,每个文献的信任指数会逐渐收敛,直至稳定。
Anti-TrustRank算法的实现部分
⑤实现帯有文献特征集个性化向量的Anti-TrustRank算法;将坏种子集向量BS、初始化后的信任指数向量Dr、常量参数μ=0.85代入Anti-TrustRank算法公式,迭代计算Anti-TrustRank值;
Drj(t)表示顶点vj的第t次Anti-TrustRank值,Dri(t-1)表示顶点vi第t-1次AntiTrustRank值.
⑥得到文献的不信任指数;将算法公式20次以上迭代后,每个文献的信任指数会逐渐收敛,直至稳定。
(四)综合计算部分;使用TrustRank算法的结果和Anti-TrustRank算法的结果,输出文献的影响力大小;
结合引文网络的特征,根据文章背景信息定义一系列规则,改进TrustRank算法和Anti-TrustRank算法选取种子集机制,循环迭代计算网络节点的信誉值和非信誉值,最后综合两者的结果给出评分。
根据最终综合信誉值的降序排序结果,获取并输出引文网络中科学文献的学术影响力排序。
科学文献质量评价算法模型是解决一个NP完全问题.本发明旨在提供一种合理的、公正的评价方法,能够对文献的影响力准确地评价,从而评选出某一学科内高质量的论文资料。科研人员也能快速地查找文献资料和把握当前研究的热门方向,将更多的时间分配在科学理论研究上。本发明的研究对于认识引文网络的结构和传播特性以及文献影响力评价具有重要的理论意义,对认识科学技术发展和文献检索也具有重要的实践价值。
附图说明
图1示出了根据本发明技术方案的基于信誉度的引文网络文献学术影响力排序方法的流程示意图;
图2示出了根据本发明技术方案的基于信誉度的引文网络文献学术影响力排序方法结构示意图;
图3排名Top-k JCR 4区以上的SCI文章数量百分比
具体实施方式
选取数据集为KDD cup引文网络数据集,网址:http://www.cs.cornell.edu/projects/kddcup/datasets.html
包括:(1992-2003)年的文章,txt格式,论文29,555篇,引用关系352,807条边,期刊来源:Physical Review Letters,Physical Letters B,Physical Report,PhysicalReview D等。
(一)首先,构建引文网络模型.
加载数据集。引文网络的数据集通常包括文献的引用关系、文献的摘要、文献的具体内容等可以用于理论研究的信息。加载数据集的过程,就是利用文献的引用关系,形成引文网络的过程。一般的引文网络都是采用关系矩阵来表示,当数据集中数据量非常庞大时,关系矩阵明显转变成了稀疏矩阵。
论文为顶点,论文间的引用关系为边。论文引用图G=(V,E)是一个有向图,V代表节点集{v1,v2,v3...vN},有N个顶点,E代表边集,边元素1≤i,j≤N,如果顶点vi指向vj的有向边存在,则边元素ei,j为1;若顶点vi指向vj的有向边不存在,则边元素ei,j为0。提取出引证数据的局部特征,表示顶点vi的出链数量,表示顶点vi的入链数量;表示顶点的vi出链指向的顶点集合,表示顶点vi的入链指向的顶点集合。
(二)种子集选取
1.好种子集选取过程——TrustRank算法的种子集选取部分。
⑥使用PageRank算法对数据集进行处理。
PageRank公式如下:需要迭代计算,让网络中的每个节点PageRank值趋于稳定,即P={P1,P2,P3,...,PN}
i,j∈{1,2...N},t表示迭代循环次数,Pj(t)表示顶点vj的第t次PageRank值,Pi(t-1)表示顶点vi第t-1次PageRank值,Pi∈[0,1],t∈{1,2...30},循环计算30次后,每个顶点PageRank值趋于稳定;c为阻尼系数,在指标中所占的比重,c∈[0,1],在此计算时候选取c=0.85,边元素i={1,2,3,...,N},j={1,2,3,...,N}.
⑦对文献的P值从大到小排序。文献的PageRank值反映了文献被选为种子文献的“期望值”,通过从大到小排序,可以选出合适的种子文献。挑选出PageRank值大的文献作为初始好种子集。
⑧设置种子集的大小L,选取前L个文献作为种子文献。种子集的数量需要根据引文网络的规模大小来设置,本文使用到的数据集包含2万多个文献,将种子集的大小设置为200。
⑨对种子集文献评价。种子集的评价过程在整个算法中是最花时间的。在改进之前,人工标注种子集,对这L篇文献进行资料分析,判断这些文献的好坏。改进之后,在评价种子集文献质量的时候,只需要根据文献发表刊物的影响力因子和刊物的分区情况。例如,可以将文献发表期刊的影响因子低于1或者JCR分区在3区以下的文献默认设置为低质量、低影响力文献,高于1或者分区在3区以上的文献默认设置为高质量、高影响力文献。此步可以将文献背景信息信息好的高PageRank评分的节点列为好种子集合(Good Seeds)标记为GS,其它文献节点标记为未知节点集合(Unknown Seeds)US。如下为JCR分区评分。
⑩结合ASE算法扩充好种子集。根据上一步得到的好种子集GS,若是有5个以上好种子指向一个未知的种子,则将未知种子从未知种子集US提取到好种子集合GS中。
2.坏种子集选取过程——Anti-TrustRank算法的种子集选取部分
①使用Inverse PageRank算法对数据集进行处理。
Inverse PageRank公式如下:需要迭代计算,让网络中的每个节点InversePageRank值趋于稳定,即IP={IP1,IP2,IP3,...,IPN}.IPi∈[0,1].
i,j∈{1,2...N},t表示迭代循环次数,IPj(t)表示顶点vj的第t次InversePageRank值,IPi(t-1)表示顶点vi的第t-1次Inverse PageRank值,t∈{1,2...30},循环计算30次后,每个顶点Inverse PageRank值趋于稳定;c为阻尼系数,在指标中所占的比重,c∈[0,1],在此计算时候选取c=0.85.当vi顶点的入度数为0的时候,防止分母不能为0,故设置防止程序报错。边元素i={1,2,3,...,N},j={1,2,3,...,N}.
②对文献的IP值从大到小排序。文献的Inverse PageRank值反映了文献被选为种子文献的“期望值”,通过从大到小排序,可以选出合适的种子文献。挑选出InversePageRank值大的文献作为初始坏种子集。
③设置种子集的大小M,选取前M个文献作为种子文献。种子集的数量需要根据引文网络的规模大小来设置,本文使用到的数据集包含2万多个文献,将M的大小设置为200。
④对种子集文献评价。对文献评价,根据前M个种子文献,根据文献背景信息,人工标注坏种子集。评价并选取坏种子的过程与算法选取好种子集部分有着些许的不同。通常,在引文网络数据集中,挑选好种子文献比较容易,然而,选取坏种子文献却比较困难。在逆链接的引文网路中PageRank高的文献不一定就是低质量、低影响力的文献。本文在选取坏种子文献时,参考JCR分区特点,从非SCi中选取,同时针对期刊有大量出度链接,少量入度链接即很少被引用的普通期刊文章视作坏种子集。此步将文献背景信息信息不好的的Inverse PageRank评分的节点列为坏种子集合(Bad Seeds)标记为BS,其它文献节点标记为未知节点集合(Unknown Seeds)US。如下为JCR分区评分。
⑤结合ASE算法扩充坏种子集。根据上一步得到的坏种子集BS,若是有多个坏种子指向一个未知的种子,则将未知种子从未知种子集US提取到坏种子集合BS中。
(三)信任值计算
(2)TrustRank算法实现部分
⑦初始化每篇论文信任评分,令各节点的初始信任值等于前面求出的PageRank值,即Tr=P.初始化信任好种子集向量GS。i={1,2,3,...,N},j={1,2,3,...,N},NGS表示好种子集数量。
⑧实现帯有文献特征集个性化向量的TrustRank算法。将种子集向量GS、初始化后的信任指数向量Tr、常量参数ω=0.85代入TrustRank算法公式,迭代计算TrustRank值。
Trj(t)表示顶点vj的第t次TrustRank值,Tri(t-1)表示顶点vi第t-1次TrustRank值.
⑨得到文献的信任指数。将算法公式20多次迭代后,每个文献的信任指数会逐渐收敛,直至稳定。
(3)Anti-TrustRank算法的实现部分
实现帯有文献特征集个性化向量的Anti-TrustRank算法。将坏种子集向量BS、初始化后的信任指数向量Dr、常量参数μ=0.85代入Anti-TrustRank算法公式,迭代计算Anti-TrustRank值。
Drj(t)表示顶点vj的第t次Anti-TrustRank值,Dri(t-1)表示顶点vi第t-1次AntiTrustRank值.
(四)综合计算部分。综合计算将会使用TrustRank算法的结果和Anti-TrustRank算法的结果,根据改进策略中的综合影响力评价公式,输出文献的影响力大小。
β和γ为三个阻尼系数,在综合指标中所占的比重,其中,0≤α≤1,-1≤β≤0,0≤r≤1-α,经试验,α=0.5,β=-0.5,r=0.45,识别JCR分区高的文章效果较好。i={1,2,3,...,N}
实验结果
在前100篇文献中,识别出sci2区以上文献88篇,准确率高达88%。与其他方法相比,在识别高水平文章上面有明显优势。
Claims (5)
1.一种基于信誉度论文引文网络学术影响力评价排序方法,其特征在于,具体操作步骤为:
1≤i,j≤n,如果顶点vi指向vi的有向边存在,则边元素ei,j为1;若顶点vi指向vi的有向边不存在,则边元素ei,j为0;提取出引证数据的局部特征,表示顶点vi的出链数量,表示顶点vi的入链数量;Vi out表示顶点vi的出链指向的顶点集合,Vi in表示顶点vi的入链指向的顶点集合;
(二)其次,种子集选取机制
好种子集选取:使用PageRank算法对论文进行初步评价,根据评价值对论文进行降序排列,选取top-k种子集根据文章背景信息进行判断,再结合ASE算法扩充好种子集;
坏种子集选取使用Inverse PageRank算法对论文进行初步评价,根据评价值对论文进行降序排列,选取top-k种子集根据文章背景信息进行判断,再结合ASE算法扩充坏种子集;
(三)然后,信任值计算
然后通过模拟随机游走模型和随机跳跃过程,根据TrustRank和Anti-TrustRank算法分别计算每个节点的信任值Tri和不信任值Dri,分别表示论文节点vi的信任值和不信任值;
根据文献得信任值和不信任值综合计算每个论文节点的综合评分;ReputeRank公式为:
ReputeRanki为论文节点vi的最后评分值,0≤ReputeRanki≤1;
(四)根据最终综合信誉值的降序排序结果,获取并输出引文网络中科学文献的学术影响力排序;
好种子集选取过程——TrustRank算法的种子集选取部分;
①使用PageRank算法对数据集进行处理;
PageRank公式如下:需要迭代计算,让网络中的每个节点PageRank值趋于稳定,即P={P1,P2,P3,...,PN}
i,j∈{1,2...N},t表示迭代循环次数,Pj(t)表示顶点vj的第t次PageRank值,Pi(t-1)表示顶点vi第t-1次PageRank值,Pi∈[0,1],t∈{1,2...30},循环计算30次后,每个顶点PageRank值趋于稳定;c为阻尼系数,在指标中所占的比重,c∈[0,1],在此计算时候选取c=0.85,边元素i={1,2,3,...,N},j={1,2,3,...,N}.
②对文献的P值从大到小排序;文献的PageRank值反映了文献被选为种子文献的“期望值”,通过从大到小排序,挑选出PageRank值大的文献作为初始好种子集;
③设置种子集的大小L,选取前L个文献作为种子文献;
④对种子集文献评价;根据文献发表刊物的影响力因子和刊物的分区情况;将文献发表期刊的影响因子低于1或者JCR分区在3区以下的文献默认设置为低质量、低影响力文献,高于1或者分区在3区以上的文献默认设置为高质量、高影响力文献;将文献背景信息信息好的高PageRank评分的节点列为好种子集合标记为GS,其它文献节点标记为未知节点集合US;如下为JCR分区评分;
⑤结合ASE算法扩充好种子集;根据上一步得到的好种子集GS,若是有5个以上好种子指向一个未知的种子,则将未知种子从未知种子集US提取到好种子集合GS中。
2.根据权利要求1所述方法,其特征在于:
坏种子集选取过程——Anti-TrustRank算法的种子集选取部分
①使用Inverse PageRank算法对数据集进行处理;
Inverse PageRank公式如下:需要迭代计算,让网络中的每个节点Inverse PageRank值趋于稳定,即IP={IP1,IP2,IP3,...,IPN}.IPi∈[0,1].
i,j∈{1,2...N},t表示迭代循环次数,IPj(t)表示顶点vj的第t次Inverse PageRank值,IPi(t-1)表示顶点vi的第t-1次Inverse PageRank值,t∈{1,2...30},循环计算30次后,每个顶点Inverse PageRank值趋于稳定;c为阻尼系数,在指标中所占的比重,c∈[0,1],在此计算时候选取当vi顶点的入度数为0的时候,防止分母不能为0,故设置防止程序报错;边元素
②对文献的IP值从大到小排序;文献的Inverse PageRank值反映了文献被选为种子文献的“期望值”,通过从大到小排序,挑选出Inverse PageRank值大的文献作为初始坏种子集;
③设置种子集的大小M,选取前M个文献作为种子文献;种子集的数量需要根据引文网络的规模大小来设置,
④对种子集文献评价;将文献背景信息信息不好的的Inverse PageRank评分的节点列为坏种子集合标记为BS,其它文献节点标记为未知节点集合US;如下为JCR分区评分;
⑤结合ASE算法扩充坏种子集;根据上一步得到的坏种子集BS,若是有多个坏种子指向一个未知的种子,则将未知种子从未知种子集US提取到坏种子集合BS中。
3.根据权利要求1所述方法,其特征在于,
(三)信任值计算中
(1)TrustRank算法实现部分:
①初始化每篇论文信任评分,令各节点的初始信任值等于前面求出的PageRank值,即Tr=P.初始化信任好种子集向量GS;i={1,2,3,...,N},j={1,2,3,...,N},NGS表示好种子集数量;
②实现帯有文献特征集个性化向量的TrustRank算法;将种子集向量GS、初始化后的信任指数向量Tr、常量参数ω=0.85代入TrustRank算法公式,迭代计算TrustRank值;
Trj(t)表示顶点vj的第t次TrustRank值,Tri(t-1)表示顶点vi第t-1次TrustRank值.
③得到文献的信任指数;将算法公式20次以上迭代后,每个文献的信任指数会逐渐收敛,直至稳定。
4.根据权利要求1所述方法,其特征在于,
(三)信任值计算中Anti-TrustRank算法的实现部分
⑤实现帯有文献特征集个性化向量的Anti-TrustRank算法;将坏种子集向量BS、初始化后的信任指数向量Dr、常量参数μ=0.85代入Anti-TrustRank算法公式,迭代计算Anti-TrustRank值;
Drj(t)表示顶点vj的第t次Anti-TrustRank值,Dri(t-1)表示顶点vi第t-1次AntiTrustRank值;
⑥得到文献的不信任指数;将算法公式20次以上迭代后,每个文献的信任指数会逐渐收敛,直至稳定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710587023.0A CN107391659B (zh) | 2017-07-18 | 2017-07-18 | 一种基于信誉度的引文网络学术影响力评价排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710587023.0A CN107391659B (zh) | 2017-07-18 | 2017-07-18 | 一种基于信誉度的引文网络学术影响力评价排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107391659A CN107391659A (zh) | 2017-11-24 |
CN107391659B true CN107391659B (zh) | 2020-05-22 |
Family
ID=60339420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710587023.0A Withdrawn - After Issue CN107391659B (zh) | 2017-07-18 | 2017-07-18 | 一种基于信誉度的引文网络学术影响力评价排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107391659B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109949172B (zh) * | 2017-12-15 | 2022-12-27 | 深圳市腾讯计算机系统有限公司 | 社交账号影响力评价方法、装置及存储介质 |
CN109272228B (zh) * | 2018-09-12 | 2022-03-15 | 石家庄铁道大学 | 基于科研团队合作网络的科研影响力分析方法 |
CN109376218B (zh) * | 2018-09-14 | 2020-12-11 | 大连理工大学 | 一种基于级联的论文影响力评估方法 |
CN110942082B (zh) * | 2019-03-27 | 2022-04-05 | 南京邮电大学 | 一种人才价值评估方法 |
CN111223533B (zh) * | 2019-12-24 | 2024-02-13 | 深圳市联影医疗数据服务有限公司 | 一种医疗数据检索方法及系统 |
CN111949771A (zh) * | 2020-08-25 | 2020-11-17 | 上海交通大学 | 基于互强化框架和排序学习的学术文献未来影响力动态排序方法及系统 |
CN112286988B (zh) * | 2020-10-23 | 2023-07-25 | 平安科技(深圳)有限公司 | 医疗文献排序方法、装置、电子设备及存储介质 |
CN112540990B (zh) * | 2020-12-08 | 2023-04-07 | 浙江工业大学 | 基于引用网络时间信息的排序方法、装置和存储介质 |
CN112883147A (zh) * | 2021-01-15 | 2021-06-01 | 上海柏观数据科技有限公司 | 一种基于知识关联的论文引用关联指标评估方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887460A (zh) * | 2010-07-14 | 2010-11-17 | 北京大学 | 一种文献质量评估方法及应用 |
CN102298579A (zh) * | 2010-06-22 | 2011-12-28 | 北京大学 | 面向科技文献的论文、作者和期刊排序模型及排序方法 |
CN106650276A (zh) * | 2016-12-29 | 2017-05-10 | 大连理工大学 | 一种基于学术大数据的学者影响力评估方法 |
CN106776567A (zh) * | 2016-12-22 | 2017-05-31 | 金蝶软件(中国)有限公司 | 一种互联网大数据分析提取方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150149380A1 (en) * | 2013-11-23 | 2015-05-28 | Saagar Sunil Kulkarni | Method and System for College Matching |
-
2017
- 2017-07-18 CN CN201710587023.0A patent/CN107391659B/zh not_active Withdrawn - After Issue
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298579A (zh) * | 2010-06-22 | 2011-12-28 | 北京大学 | 面向科技文献的论文、作者和期刊排序模型及排序方法 |
CN101887460A (zh) * | 2010-07-14 | 2010-11-17 | 北京大学 | 一种文献质量评估方法及应用 |
CN106776567A (zh) * | 2016-12-22 | 2017-05-31 | 金蝶软件(中国)有限公司 | 一种互联网大数据分析提取方法及系统 |
CN106650276A (zh) * | 2016-12-29 | 2017-05-10 | 大连理工大学 | 一种基于学术大数据的学者影响力评估方法 |
Non-Patent Citations (1)
Title |
---|
Combating Web Spam with TrustRank;ZOLTAN G et al.;《Proceeding of the 30th VLDB conference》;20041231;第576-587页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107391659A (zh) | 2017-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391659B (zh) | 一种基于信誉度的引文网络学术影响力评价排序方法 | |
CN108509551B (zh) | 一种基于Spark环境下的微博网络关键用户挖掘系统及方法 | |
CN110097125B (zh) | 一种基于嵌入表示的跨网络账户关联方法 | |
Zhou et al. | Userrec: A user recommendation framework in social tagging systems | |
CN105005589B (zh) | 一种文本分类的方法和装置 | |
KR100963623B1 (ko) | 시맨틱 웹 자원의 랭킹처리방법 | |
CN106991127B (zh) | 一种基于拓扑特征扩展的知识主题短文本层次分类方法 | |
CN105893609A (zh) | 一种基于加权混合的移动app推荐方法 | |
CN103064903B (zh) | 图片检索方法和装置 | |
CN104008165A (zh) | 一种基于网络拓扑结构和节点属性的社团检测方法 | |
CN105975596A (zh) | 一种搜索引擎查询扩展的方法及系统 | |
CN101986299A (zh) | 基于超图的多任务个性化网络服务方法 | |
CN106708953A (zh) | 基于离散粒子群优化的局部社区检测协同过滤推荐方法 | |
CN108415913A (zh) | 基于不确定邻居的人群定向方法 | |
CN106789338B (zh) | 一种在动态大规模社交网络中发现关键人物的方法 | |
CN106127506A (zh) | 一种基于主动学习解决商品冷启动问题的推荐方法 | |
CN109446420A (zh) | 一种跨域协同过滤方法和系统 | |
Caruana et al. | Mining citizen science data to predict orevalence of wild bird species | |
Huang et al. | Identifying influential individuals in microblogging networks using graph partitioning | |
Deng et al. | Credit distribution and influence maximization in online social networks using node features | |
CN103383685A (zh) | 一种基于用户点击数据的关键词属性量化方法及装置 | |
CN110717043A (zh) | 基于网络表示学习训练的学术团队构建方法 | |
Deng et al. | Credit distribution for influence maximization in online social networks with node features 1 | |
CN112800111A (zh) | 一种基于训练数据挖掘的位置预测方法 | |
CN107562871A (zh) | 基于社会资本价值排序的社交网络影响力用户发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
AV01 | Patent right actively abandoned | ||
AV01 | Patent right actively abandoned | ||
AV01 | Patent right actively abandoned |
Granted publication date: 20200522 Effective date of abandoning: 20200608 |
|
AV01 | Patent right actively abandoned |
Granted publication date: 20200522 Effective date of abandoning: 20200608 |