CN108920692A - 一种基于论文引用关系的作者排序方法 - Google Patents

一种基于论文引用关系的作者排序方法 Download PDF

Info

Publication number
CN108920692A
CN108920692A CN201810769333.9A CN201810769333A CN108920692A CN 108920692 A CN108920692 A CN 108920692A CN 201810769333 A CN201810769333 A CN 201810769333A CN 108920692 A CN108920692 A CN 108920692A
Authority
CN
China
Prior art keywords
author
paper
group
authority
auth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810769333.9A
Other languages
English (en)
Other versions
CN108920692B (zh
Inventor
李辉
吴晨生
靳晓宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SCIENCE AND TECHNOLOGY INFORMATION INSTITUTE
Original Assignee
BEIJING SCIENCE AND TECHNOLOGY INFORMATION INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SCIENCE AND TECHNOLOGY INFORMATION INSTITUTE filed Critical BEIJING SCIENCE AND TECHNOLOGY INFORMATION INSTITUTE
Priority to CN201810769333.9A priority Critical patent/CN108920692B/zh
Publication of CN108920692A publication Critical patent/CN108920692A/zh
Application granted granted Critical
Publication of CN108920692B publication Critical patent/CN108920692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于论文引用关系的作者排序方法,包括如下步骤:首先,在论文数据库中选定论文群体范围,获取引用关系以及作者信息;其次,依据论文群体中论文的相互引用关系及作者信息构建初始论文引用网络模型;再次,标定初始论文引用属性,建立自引修订引用系数,生成排除自引的论文他引网络;然后,将论文他引网络通过线性映射生成作者引用网络;最后,采用递归的方式逐层筛选作者引用网络,将每层筛选出的作者组成新的作者群体,并进行降序排列,之后输出排序结果。本发明提供的论文作者排序方法易于实施,且可有效排除论文自引和低质低效的他引干扰,便于使用者进行作者排序研究。

Description

一种基于论文引用关系的作者排序方法
技术领域
本发明涉及论文检索技术领域,具体地说,涉及一种基于论文引用关系的作者排序方法。
背景技术
科学计量学认为,论文之间的引用和被引用关系能够反应学术传播规律,被引用多次的论文或者作者在学术传播过程中具有相当大的贡献,在一个特定的学科和技术领域中,科学家影响力的计量排序问题,常被简单、定量地转化为作者与其论文被引次数的关系。这种方法虽然简便快捷,但存在缺陷,问题在于该方法未对施引论文作者加以区分。一般论文引用分为自我引用(自引)和他人的引用(他引)两种,论文作者可以在后续的文章都多次引用之前自己发布的论文,这种行为产生的论文引用量模糊了作者的影响力。同时,领域内的权威作者对其所在的研究领域非常熟悉,他们又能够鉴别出该领域的优秀作者和优秀论文,被一般作者、优秀作者、权威作者的引用情况在被引次数统计中并未区别对待,不能完全体现作者的重要性。
有鉴于此,特提出本发明。
发明内容
本发明旨在提供一种基于论文引用关系的作者排序方法,较为快捷并准确地实现了论文作者的排序过程,以便使用者甄选出影响力较大的作者。
为实现上述目的,本发明具体采用如下技术方案:
本发明提供了一种基于论文引用关系的作者排序方法,包括如下步骤:
首先,在论文数据库中选定论文群体范围,获取引用关系以及作者信息;
其次,依据论文群体中论文的相互引用关系及作者信息构建初始论文引用网络模型;
再次,标定初始论文引用属性,建立自引修订引用系数,生成排除自引的论文他引网络;
然后,将论文他引网络通过线性映射生成作者引用网络;
最后,采用递归的方式逐层筛选作者引用网络,将每层筛选出的作者组成新的作者群体,进行降序排列,之后输出排序结果。
上述方法中,在论文网络映射生成作者引用网络前,先排除论文引用次数中的自引,克服了自引在作者评价中的干扰。之后,采用层层剥离的方式排除作者引用次数统计中低质低效的他引干扰,依据论文间的引用次数,综合考虑论文自引干扰和分等级作者引用等因素,对论文引用次数进行统计修订,提高了作者排序方式的科学性。其中,作者群体可以是按照主题、领域、学科和/或年代划定范围,也可以是按照设定的检索策略划定范围,也可以是数据库中的全部论文。
根据上述方法,所述初始引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个论文节点和|E|=M条边所组成的一个有向网络;其中,G代表论文群体中论文以及论文间引用关系的集合,V代表论文群体G中的论文集合,E代表论文群体G中论文间的引用关系。
根据上述方法,为构建论文引用网络模型,引入论文引用变量ei,j,ei,j代表论文群体G中论文vi与论文vj的引用关系,若论文vi被论文vj引用,则ei,j等于1;若论文vi未被论文vj引用,则ei,j等于0,其中i≥1,j≥1;在论文群体G中以第i篇论文为节点的被引次数通过引用变量ei,j累加得到,则建立第i篇论文在论文群体G中的被引次数关系式为
上述方法中,构建论文引用网络,论文为顶点,论文引用关系为边;论文群体G=(V,E)是由|V|=N个节点和|E|=M条边所组成的一个有向网络:
其中,
i≥1,j≥1,如果顶点vi指向vj的有向边存在,即论文vi被论文vj引用,则边元素为1;若顶点vi指向vj的有向边不存在,即论文vi未被论文vj引用,则边元素为0。
根据上述方法,所述生成排除自引的论文他引网络包括如下步骤:
标定论文引用属性,若论文vi被论文vj引用,当论文vi与论文vj中没有相同作者,则该次引用为他引;当论文vi与论文vj中至少有一个相同作者,则该次引用为自引。
根据上述方法,为标定论文引用属性,引入自引系数λi,j,若论文vi与被引论文vj为自引关系,则λi,j等于0;若论文vi与被引论文vj为他引关系,则λi,j等于1;其中,i≥1,j≥1。
上述方法中,标定论文引用属性,即判定该次引用是自引还是他引;若一篇论文与该论文引用的作者没有相同作者,则该次引用称为他引,若两篇论文有共同的作者,即至少有一个作者相同,则该次引用称为自引。
根据上述方法,论文vi被论文vj引用且为自引,则引用系数ei,j与自引系数λi.j的乘积为0;论文vi被论文vj引用且为他引,则引用变量ei,j与自引系数λi.j的乘积为1;通过对引用变量ei,j与自引系数λi.j的乘积相累加,排除了第i篇论文在初始引用网络模型中的自引用关系,则建立第i篇论文在论文群体中的自引修订引用次数公式为其中,i≥1,j≥1。
根据上述方法,依据自引修订引用次数为生成排除自引的论文他引网络模型G'=(V',E');G'=(V',E')是由|V'|=N个节点和|E'|=M'条边所组成的一个有向网络。
根据上述方法,将论文他引网络通过线性映射生成作者引用网络,作者为顶点,作者引用关系为边;作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络;其中,Gauth.代表作者群体中作者以及作者间引用关系的集合,Vauth.代表作者群体Gauth.中的作者集合,Eauth.代表作者群体Gauth.中作者间的引用关系;
引入作者引用变量代表作者群体Gauth.中作者与作者的引用关系,若作者发表的某一篇论文被作者发表的某一篇论文引用,记为1,是作者指向作者有向边数量之和,即作者发表论文被作者引用次数总和,记为m;若作者发表的论文未被作者发表的论文引用,则记为0;
在作者群体Gauth.中作者i的被引次数通过引用变量累加得到,则建立作者i在作者群体Gauth.中的被引次数关系式为作者可以多次被作者引用,作者也可以引用作者
上述方法中,作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络:
其中,并且,i≥1,j≥1。
根据上述方法,通过筛选引用网络中的边缘性节点缩小作者群体,引入被引次数设定值k,k依次由小到大取值,采用递归的方式逐层筛选作者,将每层筛选出的作者组成新的作者群体,并进行降序排列,直至输出全部的排序结果,其中,k为整数,且k≥0;
当第k层筛选的初始作者群体为Gauth.,k时,Gauth.,k中含有个节点,即含有个作者,条引用关系,作者i在作者群体Gauth.,k中的被引次数关系式为
采用递归筛选的方式缩小Gauth.,k的范围,筛选出Gauth.,k中被引次数等于k的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续筛选出不大于k的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为形成第k+1层的初始作者群体,即记作Gauth.,k+1
每层递归筛选的作者组成第k层作者群体筛选后的作者群体Gauth.,k+1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth. ,k+1中的被引次数关系式为其中,k、q为整数,且k≥0,q≥1。
上述方法中,首先筛选作者引用网络Gauth.中引用次数不大于k的所有作者及其引用关系;如果在剩下的节点中仍有引用次数不大于k的节点,那么就继续筛选这些节点,直至群体中剩下的作者被引用次数大于k,依次取k=0,1,2,3,.....。
根据上述方法,筛选引用网络中的作者节点时,以作者群体Gauth.为初始作者群体,Gauth.,0=Gauth.采用递归的方式逐层筛选作者群体,将每层筛选出的作者组成新的作者群体,并进行降序排列,之后输出排序结果,具体包括以下步骤:
S1.k=0,筛选出Gauth.,0中被引次数等于0的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选等于0的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为其中记作Gauth.,1,k=0层筛选出的作者组成作者群体作者群体缩小为Gauth.,1,Gauth.,1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,1中的被引次数关系式为其中,q为整数,且q≥1;
S2.k=1,筛选出Gauth.,1中被引次数等于1的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选不大于1的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为其中记作Gauth.,2,k=1层筛选出的作者组成作者群体作者群体缩小为Gauth.,2,Gauth.,2中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,2中的被引次数关系式为其中,q为整数,且q≥1;
S3.k=2,筛选出Gauth.,2中被引次数等于2的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选不大于2的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为其中记作Gauth.,3,k=2层筛选出的作者组成作者群体作者群体缩小为Gauth.,3,Gauth.,3中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,3中的被引次数关系式为其中,q为整数,且q≥1;
S4.依照步骤S1-S3,继续递归筛选边缘性作者节点,当k=n时,筛选出Gauth.,n中被引次数等于n的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选不大于n的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为其中记作Gauth.,n+1,k=n层筛选出的作者组成作者群体为作者群体缩小为Gauth.,n+1,Gauth.,n+1含有作者数量为个,其中n、q为整数,且n≥0,q≥1;
S5.当时,终止筛选作者节点,输出作者群体排序结果,其中排序结果为:
为便于理解,如下表1中列出了各步骤统一使用的主要数学符号及其含义:表1:主要数学符号及其含义一览表
本发明的有益效果为:
1.本发明提供的算法模型,在由论文网络映射生成作者引用网络前,先排除论文引用次数中的自引,克服了自引在作者评价中的干扰,再在采用层层剥离的方式排除作者引用次数统计中低质低效的他引干扰;这种依据论文间的引用次数,综合考虑论文自引干扰和分等级作者引用等因素,对论文引用次数进行统计修订,提高了作者排序的科学性;
2.本发明提供的算法模型根据论文作者情况不统计作者自引,再根据施引论文的他引情况映射生成作者引用次数,然后通过修订作者的引用次数,递归地筛选作者群体。这种修订论文引用次数的方式和分等级处理作者引用关系,使得采用论文引用次数来评估论文作者能力的方法更加合理;
3.本发明提供的算法模型数据来源于论文数据库,信息源稳定准确,数据真实可靠;
4.本发明提供的算法模型时间复杂度低,根据初始论文群体的选定范围进行统计且计算,使得普通科研工作者或文献研究工作者也能完成作者排序的统计计算工作。
附图说明
图1为本发明的作者排序方法的流程示意图。
图2为本发明生成作者引用网络的示意图。
图3为本发明中递归筛选作者引用网络中的边缘性节点至结果收敛的示意图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明的实施方式作进一步的详细描述。
实施例1
本实施例中,如图1所示,提供了一种基于论文引用关系的作者排序方法,包括如下步骤:
S1.在论文数据库中选定论文群体范围,获取引用关系以及作者信息;
S2.依据论文群体中论文的相互引用关系及作者信息构建初始论文引用网络模型;
本实施例中,步骤S2所述初始引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个论文节点和|E|=M条边所组成的一个有向网络;其中,G代表论文群体中论文以及论文间引用关系的集合,V代表论文群体G中的论文集合,E代表论文群体G中论文间的引用关系。
本实施例中,为构建步骤S2中的论文引用网络模型,引入论文引用变量ei,j,ei,j代表论文群体G中论文vi与论文vj的引用关系,若论文vi被论文vj引用,则ei,j等于1;若论文vi未被论文vj引用,则ei,j等于0,其中i≥1,j≥1;在论文群体G中以第i篇论文为节点的被引次数通过引用变量ei,j累加得到,则建立第i篇论文在论文群体G中的被引次数关系式为
本实施例中,构建论文引用网络,论文为顶点,论文引用关系为边;论文群体G=(V,E)是由|V|=N个节点和|E|=M条边所组成的一个有向网络:
其中,
i≥1,j≥1,如果顶点vi指向vj的有向边存在,即论文vi被论文vj引用,则边元素为1;若顶点vi指向vj的有向边不存在,即论文vi未被论文vj引用,则边元素为0。
S3.标定初始论文引用属性,建立自引修订引用系数,生成排除自引的论文他引网络;
本实施例中,步骤S3中所述生成排除自引的论文他引网络包括如下步骤:
首先,标定论文引用属性,即判定该次引用是自引还是他引;若一篇论文与该论文引用的作者没有相同作者,则该次引用称为他引,若两篇论文有共同的作者,即至少有一个作者相同,则该次引用称为自引。即为,若论文vi被论文vj引用,当论文vi与论文vj中没有相同作者,则该次引用为他引;当论文vi与论文vj中至少有一个相同作者,则该次引用为自引。
然后,为标定论文引用属性,引入自引系数λi,j,若论文vi与被引论文vj为自引关系,则λi,j等于0;若论文vi与被引论文vj为他引关系,则λi,j等于1;其中,i≥1,j≥1。本实施例中,论文vi被论文vj引用且为自引,则引用系数ei,j与自引系数λi.j的乘积为0;论文vi被论文vj引用且为他引,则引用变量ei,j与自引系数λi.j的乘积为1;通过对引用变量ei,j与自引系数λi.j的乘积相累加,排除了第i篇论文在初始引用网络模型中的自引用关系,则建立第i篇论文在论文群体中的自引修订引用次数公式为其中,i≥1,j≥1。
最后,依据自引修订引用次数为生成排除自引的论文他引网络模型G'=(V',E');G'=(V',E')是由|V'|=N个节点和|E'|=M'条边所组成的一个有向网络。
S4.将论文他引网络通过线性映射生成作者引用网络;
本实施例中,如图2所示,首先将论文他引网络通过线性映射生成作者引用网络,作者为顶点,作者引用关系为边;作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络;其中,Gauth.代表作者群体中作者以及作者间引用关系的集合,Vauth.代表作者群体Gauth.中的作者集合,Eauth.代表作者群体Gauth.中作者间的引用关系;
然后,引入作者引用变量代表作者群体Gauth.中作者与作者的引用关系,若作者发表的某一篇论文被作者发表的某一篇论文引用,记为1,是作者指向作者有向边数量之和,即作者发表论文被作者引用次数总和,记为m;若作者发表的论文未被作者发表的论文引用,则记为0;
最后,在作者群体Gauth.中作者i的被引次数通过引用变量累加得到,则建立作者i在作者群体Gauth.中的被引次数关系式为作者可以多次被作者引用,作者也可以引用作者
本实施例中,作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络:
其中,并且,i≥1,j≥1。
S5.采用递归的方式逐层筛选作者引用网络,将每层筛选出的作者组成新的作者群体,进行降序排列,之后输出排序结果。
本实施例中,首先通过筛选引用网络中的边缘性节点缩小作者引用网络,引入被引次数设定值k,k依次由小到大取值,采用递归的方式逐层筛选作者群体,将每层筛选出的作者组成新的作者群体,并进行降序排列,直至输出全部的排序结果,其中,k为整数,且k≥0;当第k层筛选的初始作者群体为Gauth.,k时,Gauth.,k中含有个节点,即含有个作者,条引用关系,作者i在作者群体Gauth.,k中的被引次数关系式为
然后,采用递归的方式缩小Gauth.,k的范围,筛选出Gauth.,k中被引次数等于k的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选不大于k的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为形成第k+1层的初始作者群体,即记作Gauth.,k+1;每层递归筛选的作者组成第k层作者群体筛选后的作者群体Gauth.,k+1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth. ,k+1中的被引次数关系式为其中,k、q为整数,且k≥0,q≥1。
本实施例中,首先去除作者引用网络Gauth.中引用次数不大于k的所有作者及其引用关系;如果在剩下的节点中仍有引用次数不大于k的节点,那么就继续筛选这些节点,直至群体中剩下的作者被引用次数大于k,依次取k=0,1,2,3,.....。
本实施例中,如图3所示,进一步说明通过筛选边缘性节点缩小作者引用网络范围的流程,筛选引用网络中的边缘性节点时,以作者群体Gauth.为初始作者群体,Gauth.,0=Gauth.采用递归的方式逐层筛选作者群体的,当将每层筛选出的作者组成新的作者群体,并进行降序排列,之后输出排序结果,具体包括以下步骤:
S51.图3中的圆点为论文作者节点,在k=0层,筛选出Gauth.,0中被引次数等于0的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选等于0的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为其中记作Gauth.,1,k=0层筛选出的作者组成作者群体作者群体缩小为Gauth.,1,Gauth.,1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,1中的被引次数关系式为其中,q为整数,且q≥1;
S52.图3中的圆点为论文作者节点,在k=1层,筛选出Gauth.,1中被引次数等于1的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选不大于1的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为其中记作Gauth,2,k=1层筛选出的作者组成作者群体作者群体缩小为Gauth.,2,Gauth.,2中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,2中的被引次数关系式为其中,q为整数,且q≥1;
S53.图3中的圆点为论文作者节点,在k=2层,筛选出Gauth.,2中被引次数Ei auth.,2等于2的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选不大于2的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为其中记作Gauth,3,k=2层筛选出的作者组成作者群体作者群体缩小为Gauth.,3,Gauth.,3中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,3中的被引次数关系式为其中,q为整数,且q≥1;
S54.依照步骤S51-S53(图3中未显示),继续递归筛选边缘性作者,当k=n时,筛选出Gauth.,n中自引修订引用次数等于n的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选不大于n的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为其中记作Gauth.,n+1,k=n层筛选出的作者组成作者群体为作者群体缩小为Gauth.,n+1,Gauth.,n+1含有作者数量为个,其中n、q为整数,且n≥0,q≥1;
S55.当时,终止筛选作者节点,输出作者群体排序结果,其中排序结果为:
本实施例中,构建主题为马克思的作者引用网络,首先选定论文群体主题为马克思的论文,含有论文17260篇以及14981名作者;根据作者引用属性,依据自引修订引用次数删除初始引用网络模型中的自引用关系,生成排除自引的论文他引网络模型G'=(V',E'),之后将论文他引网络通过线性映射生成作者引用网络Gauth.=(Vauth.,Eauth.);然后递归地筛选作者群体中的边缘性节点,最后获得马克思领域作者的排序。
本实施例中,构建主题为航空航天的作者引用网络,首先选定论文群体主题为航空航天的论文,含有论文20781篇以及48619名作者;依据自引修订引用次数删除初始引用网络模型中的自引用关系,生成排除自引的论文他引网络模型G'=(V',E'),之后将论文他引网络通过线性映射生成作者引用网络Gauth.=(Vauth.,Eauth.);然后递归地筛选作者群体中的边缘性节点,最后收敛结果获得航空航天领域作者的排序。
本实施例中,在论文网络映射生成作者引用网络前,先排除论文引用次数中的自引,克服了自引在作者评价中的干扰,再采用层层剥离的方式排除作者引用次数统计中低质低效的他引干扰,依据论文间的引用次数,综合考虑论文自引干扰和分等级作者引用等因素,对论文引用次数进行统计修订,提高了作者排序的科学性。其中,论文群体可以是按照主题、领域、学科和/或年代划定范围,也可以是按照设定的检索策略划定范围,也可以是数据库中的全部论文。
上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。

Claims (10)

1.一种基于论文引用关系的作者排序方法,其特征在于,包括如下步骤:
首先,在论文数据库中选定论文群体范围,获取引用关系以及作者信息;
其次,依据论文群体中论文的相互引用关系及作者信息构建初始论文引用网络模型;
再次,标定初始论文引用属性,建立自引修订引用系数,生成排除自引的论文他引网络;
然后,将论文他引网络通过线性映射生成作者引用网络;
最后,采用递归的方式逐层筛选作者引用网络,将每层筛选出的作者组成新的作者群体,进行降序排列,之后输出排序结果。
2.根据权利要求1所述的基于论文引用关系的作者排序方法,其特征在于,所述初始引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个论文节点和|E|=M条边所组成的一个有向网络;其中,G代表论文群体中论文以及论文间引用关系的集合,V代表论文群体G中的论文集合,E代表论文群体G中论文间的引用关系。
3.根据权利要求2所述的基于论文引用关系的作者排序方法,其特征在于,为构建论文引用网络模型,引入论文引用变量ei,j,ei,j代表论文群体G中论文vi与论文vj的引用关系,若论文vi被论文vj引用,则ei,j等于1;若论文vi未被论文vj引用,则ei,j等于0,其中i≥1,j≥1;在论文群体G中以第i篇论文为节点的被引次数通过引用变量ei,j累加得到,则建立第i篇论文在论文群体G中的被引次数关系式为
4.根据权利要求1~3任意一项所述的基于论文引用关系的作者排序方法,其特征在于,所述生成排除自引的论文他引网络包括如下步骤:
标定论文引用属性,若论文vi被论文vj引用,当论文vi与论文vj中没有相同作者,则该次引用为他引;当论文vi与论文vj中至少有一个相同作者,则该次引用为自引。
5.根据权利要求4所述的基于论文引用关系的作者排序方法,其特征在于,为标定论文引用属性,引入自引系数λi,j,若论文vi与被引论文vj为自引关系,则λi,j等于0;若论文vi与被引论文vj为他引关系,则λi,j等于1;其中,i≥1,j≥1。
6.根据权利要求3或5所述的基于论文引用关系的作者排序方法,其特征在于,论文vi被论文vj引用且为自引,则引用系数ei,j与自引系数λi.j的乘积为0;论文vi被论文vj引用且为他引,则引用变量ei,j与自引系数λi.j的乘积为1;通过对引用变量ei,j与自引系数λi.j的乘积相累加,排除了第i篇论文在初始引用网络模型中的自引用关系,则建立第i篇论文在论文群体中的自引修订引用次数公式为其中,i≥1,j≥1。
7.根据权利要求6所述的基于论文引用关系的作者排序方法,其特征在于,依据自引修订引用次数为生成排除自引的论文他引网络模型G'=(V',E');G'=(V',E')是由|V'|=N个节点和|E'|=M'条边所组成的一个有向网络。
8.根据权利要求1~7任意一项所述的基于论文引用关系的作者排序方法,其特征在于,将论文他引网络通过线性映射生成作者引用网络,作者为顶点,作者引用关系为边;作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络;其中,Gauth.代表作者群体中作者以及作者间引用关系的集合,Vauth.代表作者群体Gauth.中的作者集合,Eauth.代表作者群体Gauth.中作者间的引用关系;
引入作者引用变量 代表作者群体Gauth.中作者与作者的引用关系,若作者发表的某一篇论文被作者发表的某一篇论文引用,记为1,是作者指向作者有向边数量之和,即作者发表论文被作者引用次数总和,记为m;若作者发表的论文未被作者发表的论文引用,则记为0;
在作者群体Gauth.中作者i的被引次数通过引用变量累加得到,则建立作者i在作者群体Gauth.中的被引次数关系式为作者可以多次被作者引用,作者也可以引用作者
9.根据权利要求1~8任意一项所述的基于论文引用关系的作者排序方法,其特征在于,引入被引次数设定值k,k依次由小到大取值,采用递归的方式逐层筛选作者,将每层筛选出的作者组成新的作者群体,并进行降序排列,直至输出全部的排序结果,其中,k为整数,且k≥0;
当第k层筛选的初始作者群体为Gauth.,k时,Gauth.,k中含有个节点,即含有个作者,条引用关系,作者i在作者群体Gauth.,k中的被引次数关系式为
采用递归筛选的方式缩小Gauth.,k的范围,筛选出Gauth.,k中被引次数等于k的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续筛选出不大于k的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为形成第k+1层的初始作者群体,即记作Gauth.,k+1
每层递归筛选的作者组成作者群体筛选后的作者群体Gauth.,k+1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth. ,k+1中的被引次数关系式为其中,k、q为整数,且k≥0,q≥1。
10.根据权利要求1~9任意一项所述的基于论文引用关系的作者排序方法,其特征在于,筛选引用网络中的边缘性节点时,以作者群体Gauth.为初始作者群体,Gauth.,0=Gauth.采用递归的方式逐层筛选作者群体的范围,将每层筛选出的作者组成新的作者群体,并进行降序排列,之后输出排序结果,具体包括以下步骤:
S1.k=0,筛选出Gauth.,0中被引次数等于0的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选等于0的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为其中记作Gauth.,1,k=0层筛选出的作者组成作者群体作者群体缩小为Gauth.,1,Gauth.,1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,1中的被引次数关系式为其中,q为整数,且q≥1;
S2.k=1,筛选出Gauth.,1中被引次数等于1的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选不大于1的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为其中记作Gauth.,2,k=1层筛选出的作者组成作者群体作者群体缩小为Gauth.,2,Gauth.,2中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,2中的被引次数关系式为其中,q为整数,且q≥1;
S3.k=2,筛选出Gauth.,2中被引次数等于2的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选不大于2的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为其中记作Gauth.,3,k=2层筛选出的作者组成作者群体作者群体缩小为Gauth.,3,Gauth.,3中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,3中的被引次数关系式为其中,q为整数,且q≥1;
S4.依照步骤S1-S3,继续递归筛选边缘性作者节点,当k=n时,筛选出Gauth.,n中被引次数等于n的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选不大于n的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归筛选,直至生成作者群体作者i在作者群体中的被引次数关系式为其中记作Gauth.,n+1,k=n层筛选出的作者组成作者群体为作者群体缩小为Gauth.,n+1,Gauth.,n+1含有作者数量为个,其中n、q为整数,且n≥0,q≥1;
S5.当时,终止筛选作者节点,输出作者群体排序结果,其中排序结果为:
CN201810769333.9A 2018-07-13 2018-07-13 一种基于论文引用关系的作者排序方法 Active CN108920692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810769333.9A CN108920692B (zh) 2018-07-13 2018-07-13 一种基于论文引用关系的作者排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810769333.9A CN108920692B (zh) 2018-07-13 2018-07-13 一种基于论文引用关系的作者排序方法

Publications (2)

Publication Number Publication Date
CN108920692A true CN108920692A (zh) 2018-11-30
CN108920692B CN108920692B (zh) 2019-06-21

Family

ID=64411720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810769333.9A Active CN108920692B (zh) 2018-07-13 2018-07-13 一种基于论文引用关系的作者排序方法

Country Status (1)

Country Link
CN (1) CN108920692B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275955A (zh) * 2019-06-21 2019-09-24 中国科学院计算机网络信息中心 文本类型的识别方法、装置、存储介质和处理器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298579A (zh) * 2010-06-22 2011-12-28 北京大学 面向科技文献的论文、作者和期刊排序模型及排序方法
CN105740452A (zh) * 2016-02-03 2016-07-06 北京工业大学 基于PageRank和时间衰减的科技文献重要度评价方法
CN106126732A (zh) * 2016-07-04 2016-11-16 中南大学 基于兴趣相似模型的作者影响力传播能力预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298579A (zh) * 2010-06-22 2011-12-28 北京大学 面向科技文献的论文、作者和期刊排序模型及排序方法
CN105740452A (zh) * 2016-02-03 2016-07-06 北京工业大学 基于PageRank和时间衰减的科技文献重要度评价方法
CN106126732A (zh) * 2016-07-04 2016-11-16 中南大学 基于兴趣相似模型的作者影响力传播能力预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李勇 等: "基于PageRank的机构科研影响力评价", 《医学信息杂志》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275955A (zh) * 2019-06-21 2019-09-24 中国科学院计算机网络信息中心 文本类型的识别方法、装置、存储介质和处理器

Also Published As

Publication number Publication date
CN108920692B (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN109002524B (zh) 一种基于论文引用关系的黄金引用作者排序方法
WO2016101628A1 (zh) 一种数据建模中的数据处理方法及装置
CN108846056A (zh) 一种科技成果评审专家推荐方法及装置
CN107451894A (zh) 数据处理方法、装置和计算机可读存储介质
Hou et al. Hierarchical equations of motion for an impurity solver in dynamical mean-field theory
CN108334580A (zh) 一种结合链接和属性信息的社区发现方法
CN109189926A (zh) 一种科技论文语料库的构建方法
CN110019421A (zh) 一种基于数据特征片段的时间序列数据分类方法
CN109241278A (zh) 科研知识管理方法及系统
CN107705213A (zh) 一种静态社交网络的重叠社团发现方法
KR20180086084A (ko) 인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치
CN108920692B (zh) 一种基于论文引用关系的作者排序方法
CN111126865A (zh) 一种基于科技大数据的技术成熟度判断方法和系统
CN107818328A (zh) 结合局部信息的不完整数据相似性刻画方法
CN108563786A (zh) 文本分类和展示方法、装置、计算机设备及存储介质
Sugianto et al. K-Means Algorithm For Clustering Poverty Data in Bangka Belitung Island Province
CN110990662B (zh) 一种基于引文网络与科研合作网络的领域专家遴选方法
CN111078859B (zh) 一种基于引用次数的作者推荐方法
CN108763328B (zh) 一种基于黄金引用算法的论文推荐方法
Satco Continuous dependence results for set-valued measure differential problems
CN108470251A (zh) 基于平均互信息的社区划分质量评价方法及系统
CN109063023B (zh) 一种基于论文引用关系的黄金引用作者发现方法
CN110750572A (zh) 一种科技成果启发式评价的自适应方法和装置
CN108615056A (zh) 一种基于可分解评分函数的树增强朴素贝叶斯分类方法
CN110019370B (zh) 流式大数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant