CN105740452A - 基于PageRank和时间衰减的科技文献重要度评价方法 - Google Patents

基于PageRank和时间衰减的科技文献重要度评价方法 Download PDF

Info

Publication number
CN105740452A
CN105740452A CN201610076847.7A CN201610076847A CN105740452A CN 105740452 A CN105740452 A CN 105740452A CN 201610076847 A CN201610076847 A CN 201610076847A CN 105740452 A CN105740452 A CN 105740452A
Authority
CN
China
Prior art keywords
scientific
technical literature
value
time
author
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610076847.7A
Other languages
English (en)
Other versions
CN105740452B (zh
Inventor
李玉鑑
张甫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201610076847.7A priority Critical patent/CN105740452B/zh
Publication of CN105740452A publication Critical patent/CN105740452A/zh
Application granted granted Critical
Publication of CN105740452B publication Critical patent/CN105740452B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为基于PageRank和时间衰减的科技文献重要度评价方法,将与科技文献相关的引用科技文献、作者、发表会议/期刊等影响因子共同构建科技文献的链接网络。基本思想:将与科技文献相关的会议/期刊—发表年份、发表年份—科技文献、科技文献—科技文献、科技文献—作者的关系网络转换成有向图,然后基于该有向图计算每个节点的PageRank值,对科技文献和科技文献引用链接进行时间衰减处理,“引用”时间发生时间越近,权值越高,最后根据得到的权威值进行加权处理对科技文献进行权威值排序,从而提高了计算科技文献权威值的可靠性与准确性,可以使用户检索目标科技文献时,在搜索结果数量大的情况下迅速地找到最有权威的科技文献。

Description

基于PageRank和时间衰减的科技文献重要度评价方法
技术领域
本发明属于数据挖掘领域,涉及一种基于PageRank和时间衰减的科技文献重要度评价方法。
背景技术
随着数字化信息资源的迅速发展,大量的数字资源不断涌现,科技文献(科技论文)作为科研成果的载体是科研人员重要的学习和参考资料。科技文献检索系统是科研人员常用的文献检索工具,然而面对海量的科技文献资源,用户要获取全面的、满意的科技文献变得更加困难。为了提供用户科技文献检索的满意度,将系统返回的科技文献按重要度高低排序后显示给检索者是一个非常重要的问题,这将改善检索服务质量。
PageRank算法最早是由搜索引擎公司Google提出的链接分析算法。PageRank算法的核心思想是网页间PageRank权威值的传递与再分配,A网页发出指向B网页的链接相当于A对B的重要性投了一票,B网页得到的票数(超链接)越多说明其重要性得到了越多的网页认可。除此之外,PageRank算法还会考虑链入网页的重要程序(权威值),也就是说,A网页的重要程度(权威值)越高,它对其他网页投票(超链接)的权重就越高。
目前对科技文献重要度的评价方法通常是使用引文分析中的评价方法,即根据文献的被引用次数来判断一篇科技文献重要度的高低。这种评价方法有明显的缺点:没有考虑到不同引用之间的差异;没有考虑到科技文献年龄的影响;没有考虑到期刊影响因子的影响;没有考虑到作者权威的影响。科技文献链接网络与网页链接网络十分相似,它们都是由节点和节点间的链接组成,可以通过网络中的现有的链接来分析节点的价值。将PageRank和时间衰减应用在科技文献重要度评价方法中,引入引用科技文献次数、作者、发表会议/期刊等影响因子,构建科技文献的网络链接,对文献质量进行评价,既能减少文献的检索数量,又能满足用户对文献质量的要求,同时也能在一定程序上优化web信息搜索领域。
发明内容
本发明提供一种基于PageRank和时间衰减的科技文献重要度评价方法,将与科技文献相关的引用科技文献、作者、发表会议/期刊等影响因子共同构建科技文献的链接网络。
本发明方法的基本原理:本发明将与科技文献相关的会议/期刊—发表年份、发表年份—科技文献、科技文献—科技文献、科技文献—作者的关系网络转换成有向图,然后基于该有向图计算每个节点的PageRank值,对科技文献和科技文献引用链接进行时间衰减处理,“引用”时间发生时间越近,权值越高,最后根据得到的权威值进行加权处理对科技文献进行权威值排序。
一种基于PageRank和时间衰减的科技文献重要度评价方法,其特征在于包括以下步骤:
步骤一:收集科技文献数据集,所述科技文献数据集包括科技文献的会议/期刊信息、发表年份信息、科技文献信息及作者信息。
步骤二:构建会议/期刊—发表年份、发表年份—科技文献、科技文献—科技文献、科技文献—作者的邻接关系。
步骤三:基于PageRank和时间衰减的科技文献链接网络结构的定义:
定义基于PageRank和时间衰减的科技文献链接网络结构的有向图为G<V,E>,V是节点(顶点)集,该网络中含有的节点有会议/期刊(Conference,简称“c”)、发表年份(Year,简称“y”)、科技文献(Paper,简称“p”)、作者(Author,简称“a”);E是边(弧)集,E={<v,w>|v,w∈V},<v,w>表示从v到w的一条边(弧),代表节点之间的权威值传递方向及传递权威值的比例。会议/期刊与发表年份之间的链接关系:<c,y>和<y,c>;发表年份与科技文献之间的链接关系:<y,p>和<p,y>;科技文献与科技文献之间的链接关系:<p,p>;科技文献与作者之间的链接关系:<p,a>和<a,p>;
步骤四:连接数据库逐个打开数据库中的信息表,读出基本节点信息(节点ID、节点名称、节点链接状况等),对于读取进来的每个数据元组的数据都需要先进行判断,如果哈希表内已经存在其对应的节点,便直接将该元组的信息整合进节点信息内,而如果不存在对应节点则创立新节点并存入内存中,按步骤三的结构定义构建科技文献链接网络;
步骤五:根据构建的基于科技文献和时间衰减的链接网络,将PageRank公式应用到科技文献链接网络的权威值计算中,前半部分表示节点的固有价值,后半部分表示邻接节点传递给它的权威值。d表示衰减因子,0<d<1,一般可取值为0.85,它决定了一个节点固有权威值和通过被转移获得的权威值所占的比重;
(1)PR(c)表示会议/期刊的权威值,计算公式如下所示:
P R ( c ) = ( 1 - d ) + d * &Sigma; y &Element; B y P R ( y ) N ( y ) * t y c - - - ( 1 )
PR(y)表示发表年份的权威值,N(y)表示该发表年份对应的会议/期刊的总数,By表示会议/期刊对应的发表年份集,tyc表示发表年份的权威值传递给会议/期刊的转移比例,tyc表示发表年份的权威值传递给会议/期刊的转移比例,0<tyc<1,一般可取值为0.3;
(2)PR(y)表示发表年份的权威值,计算公式如下所示:
P R ( y ) = ( 1 - d ) + d * ( &Sigma; c &Element; B c P R ( c ) N ( c ) * t c y + &Sigma; p &Element; B p P R ( p ) * t p y ) - - - ( 2 )
PR(c)表示发表的会议/期刊的权威值,N(c)表示会议/期刊对应的发表年份的总数,PR(p)表示科技文献p的权威值,Bc表示发表年份对应的会议/期刊集,Bp表示发表年份对应的科技文献集,tcy表示会议/期刊的权威值传递给发表年份的转移比例,tpy表示科技文献的权威值传递给发表年份的转移比例,tpy表示科技文献的权威值传递给发表年份的转移比例,0<tcy,tpy<1,tcy一般可取值为0.3,tpy一般可取值为0.1;
(3)PR(p)表示科技文献p的权威值,wvp表示科技文献v将自身的权威值传递给被引文献p时的传递权重,其计算公式如下:
W v p = 1 X p + b &Sigma; p = 1 n 1 X p + b - - - ( 3 )
其中Xp是科技文献p被引用时的年龄,Xp=yv-yp+1,yv是科技文献v的发表年份,yp是科技文献p的发表年份,n是科技文献v所引用的科技文献总数。b是一个平滑因子,用于调整不同年龄的被引用科技文献获得的权重大小,使年龄很小的被引用的科技文献不会获得过多的权值,对于老化快的文献,b应取较小的值,对老化慢的科技文献,b应取较大的值,计算机类科技文献一般取b=5;
科技文献p的权威值PR(p)计算公式如下:
P R ( p ) = ( 1 - d ) + d * ( P R ( v ) * W v p + &Sigma; a &Element; B a P R ( a ) N ( a ) * t a p + &Sigma; y &Element; B y P R ( y ) N ( y ) * t y p ) - - - ( 4 )
令p、v表示科技文献,PR(v)是科技文献v的权威值,其中科技文献v引用了科技文献p,Bv是引用科技文献p的文献集,Ba是科技文献的作者集,By是科技文献的发表年份集,tap表示作者的权威值传递给科技文献的转移比例,typ表示发表年份传递给科技文献的转移比例,0<tap,typ<1,tap一般可取值为0.2,typ一般可取值为0.3;
(4)PR(a)表示作者的权威值,计算公式如下所示:
P R ( a ) = ( 1 - d ) + d * &Sigma; p &Element; B p P R ( p ) N ( p ) * t p a - - - ( 5 )
PR(p)表示科技文献p的权威值,N(p)表示科技文献对应的作者的总数,Bp表示作者对应的科技文献集,tpa表示科技文献的权威值传递给作者的转移比例,tpa表示科技文献的权威值传递给作者的转移比例,0<tpa<1,一般可取值为0.2;
(5)经过多次迭代之后,科技文献链接网络中节点的PR值趋近于固定值时输出结果,即得到与科技文献相关的会议/期刊、发表年份、科技文献及作者的PR值;
步骤六:综上一篇科技文献的权威值由会议/期刊、发表年份、科技文献及作者的权威值加权计算的公式如下:
N R ( u ) = &alpha; * &Sigma; a &Element; B a P R ( a ) + &beta; * &Sigma; v &Element; B p P R ( p ) + &gamma; * P R ( c ) + &delta; * P R ( y ) - - - ( 6 )
其中:α+β+χ+δ=1,α、β、χ、δ代表贡献给科技文献u的百分比,0<α,β,χ,δ<1,一般α、β、χ、δ分别取值为0.4、0.3、0.2、0.1;其中PR(a)表示作者的权威值,Ba表示科技文献p的作者总数,PR(p)表示科技文献p被引用的参考文献的权威值,Bp表示科技文献p被引用的科技文献总数,PR(c)表示会议/期刊的权威值,PR(y)表示发表年份的权威值;
步骤七:结果排序输出,将权威值排序,得到节点即科技文献的排序列表,权威越大,表示该科技文献越权威。
本发明与现有技术相比,具有以下明显的优势和有益效果:
本发明应用PageRank和时间衰减构建科技文献的链接网络时引入了与科技文献相关的四类节点:会议/期刊(Conference,简称“c”)、发表年份(Year,简称“y”)、科技文献(Paper,简称“p”)、作者(Author,简称“a”),同时基于科技文献的年龄进行权重分配,从而提高了计算科技文献权威值的可靠性与准确性,可以使用户检索目标科技文献时,在搜索结果数量大的情况下迅速地找到最有权威的科技文献。
附图说明
图1为本发明所涉及的科技文献节点构建的网络链接关系结构示意图。
图2为本发明提供的基于PageRank和时间衰减的科技文献链接网络的构建流程图。
图3为本发明四类数据节点权威值转移比例示意图。
图4为本发明提供的基于PageRank和时间衰减的科技文献链接网络算法的流程图。
具体实施方式
下面结合相关附图对本发明进行解释和阐述:
一种基于PageRank和时间衰减的科技文献重要度评价算法的流程图如附图4所示,其特征在于包括以下步骤:
步骤一:收集科技文献数据集,包括科技文献的会议/期刊信息、发表年份信息、科技文献信息及作者信息。
步骤二:构建会议/期刊—发表年份、发表年份—科技文献、科技文献—科技文献、科技文献—作者的邻接关系。
步骤三:定义基于PageRank和时间衰减的科技文献链接网络结构。
步骤四:反复执行数据读取方法,从每个图表中读出基本节点信息(节点ID、节点名称、节点链接状况等)生成基本节点图,按照附图2的步骤构建科技文献链接网络。
步骤五:根据构建的基于PageRank和时间衰减的科技文献链接网络,采用时间衰减的PageRank链接分析方法计算各个节点的权威值。
步骤六:对步骤五得到的四类节点的权威值进行加权处理。
步骤七:结果排序输出,将权威值(按公式计算得出)按照排序进行输出。
下面给出一个应用本发明对科技文献重要度进行计算的实例。
本发明采用的数据集是DBLP数据库,DBLP是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统按年代列出了作者的科研成果,包括国际期刊和会议等公开发表的论文。选取的数据集如下表1所示:包含了DBLP数据库中的1936年~2004年发表的论文,共有519931篇论文、
363329个引用链接、341623位作者。
表1实验数据集
发表年份 论文数量 引用链接 作者
1936年~2004年 519931篇 363329个 341623位
根据公式(4)计算科技文献重要度,输入题名为“DatabaseSupport”的查询,从中选取10条记录的标题、得分情况及排名,如下表2所示:
表2基于PageRank算法的科技文献权威值
根据本发明基于时间衰减的方法计算科技文献重要度,输入题名为“DatabaseSupport”的查询,从中选取10条记录的标题、得分情况及排名,如下表3所示:
表3本方法基于PageRank和时间衰减的科技文献权威值
比较表2和表3会发现:科技文献的排名发生了变化,发表在1997年的科技文献200750因为发表时间比较近,其排名由表2中的第9位上升至表3中的5位。发表在1994年的科技文献123524因为发表时间比较近,其排名上升至表3中的前2位。发表在1988年的科技文献111626因为发表时间较早,其排名由表2中的第5位下降至表3中的第9位。
根据公式(1)计算出的会议/期刊的权威值,从中选取PR较高的10条记录,如下表4所示:
表4本方法会议/期刊的权威值
在2014年计算机刊物SCI影响因子排名中,CognitiveScience影响因子1.38排名135,IBMSystemsJournal影响因子0.48排名635,AustralianComputerJournal影响因子0.17排名951,AdvancesinComputers:0.52排名594,表明该方法基本能反应会议/期刊的影响因子排序。
根据公式(5)计算出的作者的权威值,从中选取PR较高的10条记录,如下表5所示:
表5本方法作者的权威值
作者ID 作者姓名 作者PR值 排名
538713 GrzegorzRozenberg 2.537 1
849791 Bill Hancock 2.261 2
546939 Micha Sharir 2.209 3
556395 Kang G.Shin 2.122 4
543130 Joseph Y.Halpern 2.076 5
543364 Hermann A.Maurer 2.01 6
570184 Sudhakar M.Reddy 1.983 7
835577 Diane Crawford 1.917 8
542206 Kurt Mehlhorn 1.913 9
571653 Christos H.Papadimitriou 1.867 10
作者GrzegorzRozenberg排名在第一位,该作者总共发表了294篇科技文献,位居发表科技文献总数的第四位,作者SudhakarM.Reddy排名在第七位,该作者总共发表了229篇科技文献,作者BillHancock排名在第二位,该作者总共发表了161篇科技文献,因为作者BillHancock发表在了比较权威的期刊上,导致排名发生了变化。
由实验结果可知,本发明实现的基于PageRank和时间衰减的科技文献重要度评价方法,使得排名的变化更加符合用户的检索要求。由此可见在考虑了科技文献的会议/期刊、发表年份、被引用科技文献的权威、作者及时间因素后,本发明的评价算法更好的反应出科技文献的重要度,能够帮助用户在较短的时间内找到最新的、最权威的研究成果。

Claims (1)

1.一种基于PageRank和时间衰减的科技文献重要度评价方法,其特征在于:该方法包括以下步骤:
步骤一:收集科技文献数据集,包括科技文献的会议/期刊信息、发表年份信息、科技文献信息及作者信息;
步骤二:构建会议/期刊—发表年份、发表年份—科技文献、科技文献—科技文献、科技文献—作者的邻接关系;
步骤三:基于PageRank和时间衰减的科技文献链接网络结构的定义:
定义基于PageRank和时间衰减的科技文献链接网络结构的有向图为G<V,E>,V是节点(顶点)集,该网络中含有的节点有会议/期刊(Conference,简称“c”)、发表年份(Year,简称“y”)、科技文献(Paper,简称“p”)、作者(Author,简称“a”);E是边(弧)集,E={<v,w>|v,w∈V},<v,w>表示从v到w的一条边(弧),代表节点之间的权威值传递方向及传递权威值的比例;会议/期刊与发表年份之间的链接关系:<c,y>和<y,c>;发表年份与科技文献之间的链接关系:<y,p>和<p,y>;科技文献与科技文献之间的链接关系:<p,p>;科技文献与作者之间的链接关系:<p,a>和<a,p>;
步骤四:连接数据库逐个打开数据库中的信息表,读出基本节点信息(节点ID、节点名称、节点链接状况等),对于读取进来的每个数据元组的数据都需要先进行判断,如果哈希表内已经存在其对应的节点,便直接将该元组的信息整合进节点信息内,而如果不存在对应节点则创立新节点并存入内存中,按步骤三的结构定义构建科技文献链接网络;
步骤五:根据构建的科技文献链接网络,将PageRank公式应用到科技文献链接网络的权威值计算中,前半部分表示节点的固有价值,后半部分表示邻接节点传递给它的权威值;d表示衰减因子,0<d<1,一般可取值为0.85,它决定了一个节点固有权威值和通过被转移获得的权威值所占的比重;
(1)PR(c)表示会议/期刊的权威值,计算公式如下所示:
P R ( c ) = ( 1 - d ) + d * &Sigma; y &Element; B y P R ( y ) N ( y ) * t y c - - - ( 1 )
PR(y)表示发表年份的权威值,N(y)表示该发表年份对应的会议/期刊的总数,By表示会议/期刊对应的发表年份集,tyc表示发表年份的权威值传递给会议/期刊的转移比例,0<tyc<1,一般可取值为0.3;
(2)PR(y)表示发表年份的权威值,计算公式如下所示:
P R ( y ) = ( 1 - d ) + d * ( &Sigma; c &Element; B c P R ( c ) N ( c ) * t c y + &Sigma; p &Element; B p P R ( p ) * t p y ) - - - ( 2 )
PR(c)表示发表的会议/期刊的权威值,N(c)表示会议/期刊对应的发表年份的总数,PR(p)表示科技文献p的权威值,Bc表示发表年份对应的会议/期刊集,Bp表示发表年份对应的科技文献集,tcy表示会议/期刊的权威值传递给发表年份的转移比例,tpy表示科技文献的权威值传递给发表年份的转移比例,0<tcy,tpy<1,tcy一般可取值为0.3,tpy一般可取值为0.1;
(3)PR(p)表示科技文献p的权威值,wvp表示科技文献v将自身的权威值传递给被引文献p时的传递权重,其计算公式如下:
W v p = 1 X p + b &Sigma; p = 1 n 1 X p + b - - - ( 3 )
其中Xp是科技文献p被引用时的年龄,Xp=yv-yp+1,yv是科技文献v的发表年份,yp是科技文献p的发表年份,n是科技文献v所引用的科技文献总数;b是一个平滑因子,用于调整不同年龄的被引用科技文献获得的权重大小,使年龄很小的被引用的科技文献不会获得过多的权值,对于老化快的文献,b应取较小的值,对老化慢的科技文献,b应取较大的值,计算机类科技文献一般取b=5;
科技文献p的权威值PR(p)计算公式如下:
P R ( p ) = ( 1 - d ) + d * ( P R ( v ) * W v p + &Sigma; a &Element; B a P R ( a ) N ( a ) * t a p + &Sigma; y &Element; B y P R ( y ) N ( y ) * t y p ) - - - ( 4 )
令p、v表示科技文献,PR(v)是科技文献v的权威值,其中科技文献v引用了科技文献p,Bv是引用科技文献p的文献集,Ba是科技文献的作者集,By是科技文献的发表年份集,tap表示作者的权威值传递给科技文献的转移比例,typ表示发表年份传递给科技文献的转移比例,0<tap,typ<1,tap一般可取值为0.2,typ一般可取值为0.3;
(4)PR(a)表示作者的权威值,计算公式如下所示:
P R ( a ) = ( 1 - d ) + d * &Sigma; p &Element; B p P R ( p ) N ( p ) * t p a - - - ( 5 )
PR(p)表示科技文献p的权威值,N(p)表示科技文献对应的作者的总数,Bp表示作者对应的科技文献集,tpa表示科技文献的权威值传递给作者的转移比例,0<tpa<1,取值为0.2;
(5)经过多次迭代之后,科技文献链接网络中节点的PR值趋近于固定值时输出结果,即得到与科技文献相关的会议/期刊、发表年份、科技文献及作者的PR值;
步骤六:综上一篇科技文献的权威值由会议/期刊、发表年份、科技文献及作者的权威值加权计算的公式如下:
N R ( u ) = &alpha; * &Sigma; a &Element; B a P R ( a ) + &beta; * &Sigma; v &Element; B p P R ( p ) + &gamma; * P R ( c ) + &delta; * P R ( y ) - - - ( 6 )
其中:α+β+χ+δ=1,α、β、χ、δ代表贡献给科技文献u的百分比,0<α,β,χ,δ<1,一般α、β、χ、δ分别取值为0.4、0.3、0.2、0.1;PR(a)表示作者的权威值,Ba表示科技文献p的作者总数,PR(p)表示科技文献p被引用的参考文献的权威值,Bp表示科技文献p被引用的科技文献总数,PR(c)表示会议/期刊的权威值,PR(y)表示发表年份的权威值;
步骤七:结果排序输出,将NR值排序,得到节点即科技文献的排序列表,NR值越大,表示该科技文献越权威。
CN201610076847.7A 2016-02-03 2016-02-03 基于PageRank和时间衰减的科技文献重要度评价方法 Expired - Fee Related CN105740452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610076847.7A CN105740452B (zh) 2016-02-03 2016-02-03 基于PageRank和时间衰减的科技文献重要度评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610076847.7A CN105740452B (zh) 2016-02-03 2016-02-03 基于PageRank和时间衰减的科技文献重要度评价方法

Publications (2)

Publication Number Publication Date
CN105740452A true CN105740452A (zh) 2016-07-06
CN105740452B CN105740452B (zh) 2019-04-19

Family

ID=56245833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610076847.7A Expired - Fee Related CN105740452B (zh) 2016-02-03 2016-02-03 基于PageRank和时间衰减的科技文献重要度评价方法

Country Status (1)

Country Link
CN (1) CN105740452B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484839A (zh) * 2016-10-08 2017-03-08 大连理工大学 一种基于学术大数据的期刊影响力评估方法
CN108021628A (zh) * 2017-11-22 2018-05-11 华南理工大学 一种科技主题的管理系统
CN108920692A (zh) * 2018-07-13 2018-11-30 北京市科学技术情报研究所 一种基于论文引用关系的作者排序方法
CN110011862A (zh) * 2019-04-23 2019-07-12 深圳大学 基于时间平衡的网络节点识别方法、装置及计算机设备
CN110163526A (zh) * 2019-02-26 2019-08-23 国网吉林省电力有限公司 一种用于电网调控仿真培训的评价系统及计算方法
CN110275955A (zh) * 2019-06-21 2019-09-24 中国科学院计算机网络信息中心 文本类型的识别方法、装置、存储介质和处理器
CN110955749A (zh) * 2019-10-24 2020-04-03 浙江工业大学 一种论文关注度的预测方法
CN112286988A (zh) * 2020-10-23 2021-01-29 平安科技(深圳)有限公司 医疗文献排序方法、装置、电子设备及存储介质
CN112732947A (zh) * 2019-10-28 2021-04-30 航天信息股份有限公司 一种基于PageRank算法的论文排序方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5594897A (en) * 1993-09-01 1997-01-14 Gwg Associates Method for retrieving high relevance, high quality objects from an overall source
CN101477536A (zh) * 2008-12-30 2009-07-08 华中科技大学 基于关联网络的科技文献实体综合排序方法
CN102298579A (zh) * 2010-06-22 2011-12-28 北京大学 面向科技文献的论文、作者和期刊排序模型及排序方法
CN102831134A (zh) * 2011-12-16 2012-12-19 中国科学技术信息研究所 一种新型的中文科技文献半自动标引方法
CN104133843A (zh) * 2014-06-25 2014-11-05 福州大学 科技文献异构网络中节点的学术影响力协同排序方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5594897A (en) * 1993-09-01 1997-01-14 Gwg Associates Method for retrieving high relevance, high quality objects from an overall source
CN101477536A (zh) * 2008-12-30 2009-07-08 华中科技大学 基于关联网络的科技文献实体综合排序方法
CN102298579A (zh) * 2010-06-22 2011-12-28 北京大学 面向科技文献的论文、作者和期刊排序模型及排序方法
CN102831134A (zh) * 2011-12-16 2012-12-19 中国科学技术信息研究所 一种新型的中文科技文献半自动标引方法
CN104133843A (zh) * 2014-06-25 2014-11-05 福州大学 科技文献异构网络中节点的学术影响力协同排序方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李慧: "一种基于PageRank的文献重要度计算方法", 《电子商务》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484839A (zh) * 2016-10-08 2017-03-08 大连理工大学 一种基于学术大数据的期刊影响力评估方法
CN108021628B (zh) * 2017-11-22 2021-12-21 华南理工大学 一种科技主题的管理系统
CN108021628A (zh) * 2017-11-22 2018-05-11 华南理工大学 一种科技主题的管理系统
CN108920692A (zh) * 2018-07-13 2018-11-30 北京市科学技术情报研究所 一种基于论文引用关系的作者排序方法
CN108920692B (zh) * 2018-07-13 2019-06-21 北京市科学技术情报研究所 一种基于论文引用关系的作者排序方法
CN110163526A (zh) * 2019-02-26 2019-08-23 国网吉林省电力有限公司 一种用于电网调控仿真培训的评价系统及计算方法
CN110011862A (zh) * 2019-04-23 2019-07-12 深圳大学 基于时间平衡的网络节点识别方法、装置及计算机设备
CN110011862B (zh) * 2019-04-23 2022-03-11 深圳大学 基于时间平衡的网络节点识别方法、装置及计算机设备
CN110275955A (zh) * 2019-06-21 2019-09-24 中国科学院计算机网络信息中心 文本类型的识别方法、装置、存储介质和处理器
CN110955749A (zh) * 2019-10-24 2020-04-03 浙江工业大学 一种论文关注度的预测方法
CN112732947A (zh) * 2019-10-28 2021-04-30 航天信息股份有限公司 一种基于PageRank算法的论文排序方法及设备
WO2021179687A1 (zh) * 2020-10-23 2021-09-16 平安科技(深圳)有限公司 医疗文献排序方法、装置、电子设备及存储介质
CN112286988A (zh) * 2020-10-23 2021-01-29 平安科技(深圳)有限公司 医疗文献排序方法、装置、电子设备及存储介质
CN112286988B (zh) * 2020-10-23 2023-07-25 平安科技(深圳)有限公司 医疗文献排序方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN105740452B (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN105740452A (zh) 基于PageRank和时间衰减的科技文献重要度评价方法
Harter A probabilistic approach to automatic keyword indexing. Part II. An algorithm for probabilistic indexing
Robertson On GMAP: and other transformations
US6289342B1 (en) Autonomous citation indexing and literature browsing using citation context
Sparck Jones Search term relevance weighting given little relevance information
US20020169770A1 (en) Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
Salton The state of retrieval system evaluation
AU2005203238B2 (en) Phrase-based searching in an information retrieval system
AU2005203239B2 (en) Phrase-based indexing in an information retrieval system
CN102054006B (zh) 一种从海量数据中提取有效信息的方法及装置
CN101606149B (zh) 用于数据的分类过滤的方法
Lakkaraju et al. Document similarity based on concept tree distance
WO2008021561A2 (en) Joint optimization of wrapper generation and template detection
CN101281519A (zh) 一种评价网络资源价值的方法及其在搜索引擎领域的应用
Hawking et al. Relevance weighting using distance between term occurrences
CN110569273A (zh) 一种基于相关性排序的专利检索系统及方法
CN104834736A (zh) 构建索引库的方法、装置及检索的方法、装置和系统
CN101706812A (zh) 一种文档的检索方法和装置
CN102750380B (zh) 一种结合差异特征分布与链接特征的网页排序方法
Qu et al. Improvement of text feature selection method based on tfidf
Smith Classifying links for substantive web impact factors
CN103823847A (zh) 一种关键词的扩充方法及装置
CN111651477A (zh) 基于语义相似度的多源异构商品一致性判别方法和装置
Geleijnse et al. Web-Based Artist Categorization.
Keskustalo et al. The effects of relevance feedback quality and quantity in interactive relevance feedback: A simulation based on user modeling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190419

Termination date: 20220203

CF01 Termination of patent right due to non-payment of annual fee