CN109002524A - 一种基于论文引用关系的黄金引用作者排序方法 - Google Patents
一种基于论文引用关系的黄金引用作者排序方法 Download PDFInfo
- Publication number
- CN109002524A CN109002524A CN201810769031.1A CN201810769031A CN109002524A CN 109002524 A CN109002524 A CN 109002524A CN 201810769031 A CN201810769031 A CN 201810769031A CN 109002524 A CN109002524 A CN 109002524A
- Authority
- CN
- China
- Prior art keywords
- author
- paper
- group
- authority
- auth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于论文引用关系的黄金引用作者排序方法,包括如下步骤:首先,在论文数据库中选定论文群体范围,获取引用关系以及作者信息;其次,依据论文群体中论文的相互引用关系及作者信息构建初始论文引用网络模型;再次,标定初始论文引用属性,建立自引修订引用系数,生成排除自引的论文他引网络;然后,将论文他引网络通过线性映射生成作者引用网络;最后,采用递归删除的方式缩小作者引用网络的范围,直至结果收敛,输出得到黄金引用作者,计算作者重要度参数并排序。本发明提供的论文作者排序方法易于实施,且可有效排除论文自引和低质低效的他引干扰,以帮助研究者快速地准确地为作者重要程度排序。
Description
技术领域
本发明涉及论文检索技术领域,具体地说,涉及一种基于论文引用关系的黄金引用作者排序方法。
背景技术
科学计量学认为,论文之间的引用和被引用关系能够反应学术传播规律,被引用多次的论文或者作者在学术传播过程中具有相当大的贡献,因此对引文网络中论文或作者被引次数的分析有利于科研工作者或文献研究工作者找到某一领域或学科的核心论文和核心作者。
现有技术中,基于作者在合作网络的节点指标的核心作者排序方法受采集技术限制,检索不全面或信息源不准确会导致合作网络无法反映真实情况。基于论文引用次数提出了h指数、g指数,用于评估研究人员的学术产出数量与学术产出水平,没有综合考虑作者自引和施引作者水平差异,而不能完全体现作者的重要性。
有鉴于此,特提出本发明。
发明内容
本发明旨在提供一种基于论文引用关系的黄金引用作者排序方法,较为快捷并且准确地实现了论文作者的发现过程,以便使用者甄选出影响力较大的作者。
为实现上述目的,本发明具体采用如下技术方案:
本发明提供了一种基于论文引用关系的黄金引用作者排序方法,包括如下步骤:
首先,在论文数据库中选定论文群体范围,获取引用关系以及作者信息;
其次,依据论文群体中论文的相互引用关系及作者信息构建初始论文引用网络模型;
再次,标定初始论文引用属性,建立自引修订引用系数,生成排除自引的论文他引网络;
然后,将论文他引网络通过线性映射生成作者引用网络;
最后,采用递归删除的方式缩小作者引用网络的范围,直至结果收敛,输出得到黄金引用作者,计算作者重要度参数并排序。
上述方法中,在论文网络映射生成作者引用网络前,先排除论文引用次数中的自引,克服了自引在作者评价中的干扰。之后,采用层层剥离的方式排除作者引用次数统计中低质低效的他引干扰,依据论文间的引用次数,综合考虑论文自引干扰和分等级作者引用等因素,对论文引用次数进行统计修订,提高了黄金引用作者识别的准确性。在此基础上,为了更好地研究作者的重要性,引入作者重要度参数,根据黄金引用作者被引用的迭代层数及黄金引用作者在作者引用网络中的核心位置,计算作者重要度参数并排序。其中,作者群体可以是按照主题、领域、学科和/或年代划定范围,也可以是按照设定的检索策略划定范围,也可以是数据库中的全部论文。
根据上述方法,所述初始引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个论文节点和|E|=M条边所组成的一个有向网络;其中,G代表论文群体中论文以及论文间引用关系的集合,V代表论文群体G中的论文集合,E代表论文群体G中论文间的引用关系。
根据上述方法,为构建论文引用网络模型,引入论文引用变量ei,j,ei,j代表论文群体G中论文vi与论文vj的引用关系,若论文vi被论文vj引用,则ei,j等于1;若论文vi未被论文vj引用,则ei,j等于0,其中i≥1,j≥1;在论文群体G中以第i篇论文为节点的被引次数通过引用变量ei,j累加得到,则建立第i篇论文在论文群体G中的被引次数关系式为
上述方法中,构建论文引用网络,论文为顶点,论文引用关系为边;论文群体G=(V,E)是由|V|=N个节点和|E|=M条边所组成的一个有向网络:
其中,
i≥1,j≥1,如果顶点vi指向vj的有向边存在,即论文vi被论文vj引用,则边元素为1;若顶点vi指向vj的有向边不存在,即论文vi未被论文vj引用,则边元素为0。
根据上述方法,所述生成排除自引的论文他引网络包括如下步骤:
标定论文引用属性,若论文vi被论文vj引用,当论文vi与论文vj中没有相同作者,则该次引用为他引;当论文vi与论文vj中至少有一个相同作者,则该次引用为自引。
根据上述方法,为标定论文引用属性,引入自引系数λi,j,若论文vi与被引论文vj为自引关系,则λi,j等于0;若论文vi与被引论文vj为他引关系,则λi,j等于1;其中,i≥1,j≥1。
上述方法中,标定论文引用属性,即判定该次引用是自引还是他引;若一篇论文与该论文引用的作者没有相同作者,则该次引用称为他引,若两篇论文有共同的作者,即至少有一个作者相同,则该次引用称为自引。
根据上述方法,论文vi被论文vj引用且为自引,则引用系数ei,j与自引系数λi.j的乘积为0;论文vi被论文vj引用且为他引,则引用变量ei,j与自引系数λi.j的乘积为1;通过对引用变量ei,j与自引系数λi.j的乘积相累加,排除了第i篇论文在初始引用网络模型中的自引用关系,则建立第i篇论文在论文群体中的自引修订引用次数公式为其中,i≥1,j≥1。
根据上述方法,依据自引修订引用次数为生成排除自引的论文他引网络模型G'=(V',E');G'=(V',E')是由|V'|=N个节点和|E'|=M'条边所组成的一个有向网络。
根据上述方法,将论文他引网络通过线性映射生成作者引用网络,作者为顶点,作者引用关系为边;作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络;其中,Gauth.代表作者群体中作者以及作者间引用关系的集合,Vauth.代表作者群体Gauth.中的作者集合,Eauth.代表作者群体Gauth.中作者间的引用关系;
引入作者引用变量代表作者群体Gauth.中作者与作者的引用关系,若作者发表的某一篇论文被作者发表的某一篇论文引用,记为1,是作者指向作者有向边数量之和,即作者发表论文被作者引用次数总和,记为m;若作者发表的论文未被作者发表的论文引用,则记为0;
在作者群体Gauth.中作者i的被引次数通过引用变量累加得到,则建立作者i在作者群体Gauth.中的被引次数关系式为作者可以多次被作者引用,作者也可以引用作者
提取出作者引用网络的局部特征,表示作者节点的出链指向的节点集合,即作者的施引作者集合。
上述方法中,作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络:其中,并且,i≥1,j≥1。
根据上述方法,递归删除引用网络中的边缘性节点以缩小作者引用网络的范围,同时引入作者节点的被引次数设定值k,k依次由小到大取值,直至结果收敛,输出得到黄金引用作者,其中,k为整数,且k≥0;
当第k层筛选的初始作者群体为Gauth.,k时,Gauth.,k中含有个节点,即含有个作者,条引用关系,作者i在作者群体Gauth.,k中的被引次数关系式为施引作者集合为
采用递归的方式缩小Gauth.,k的范围,删除Gauth.,k中被引次数等于k的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于k的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且形成第k+1层的初始作者群体,即记作Gauth.,k+1;
每层递归删除的作者组成第k层作者群体删除后的作者群体Gauth.,k+1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth. ,k+1中的被引次数关系式为且作者i在作者群体Gauth.,k+1中的施引作者集合为其中,k、q为整数,且k≥0,q≥1;
作者群体Gauth.,k+1中含有的个作者即为黄金引用作者,之后对黄金引用作者计算作者重要度参数并排序,其中,k为整数,且k≥0。
上述方法中,首先去除作者引用网络Gauth.中引用次数小于k的所有作者及其引用关系;如果在剩下的节点中仍有引用次数小于k的节点,那么就继续删除这些节点,直至群体中剩下的作者被引用次数不小于k,依次取k=0,1,2,3,.....;k取的最大值是递归删除边缘性节点的终止条件。在上述各次删除节点的过程中,计算得出作者重要度参数根据该参数对黄金引用作者进行计算排序。
根据上述方法,删除引用网络中的边缘性节点时,以作者群体Gauth.为初始作者群体,Gauth.,0=Gauth.,采用递归删除的方式逐层缩小作者群体的范围,当k大于或等于n时,终止删除作者节点,作者群体收敛,根据作者重要度参数得到黄金引用作者的排序,其中n为整数,且n≥0,具体包括以下步骤:
S1.k=0,删除Gauth.,0中被引次数等于0的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中等于0的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth. ,1,k=0层删除的作者组成作者群体作者群体缩小为Gauth.,1,Gauth.,1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,1中的被引次数关系式为作者i在作者群体Gauth.,1中的施引作者集合为其中,q为整数,且q≥1;
S2.k=1,删除Gauth.,1中被引次数等于1的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于1的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,2,k=1层删除的作者组成作者群体作者群体缩小为Gauth.,2,Gauth.,2中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,2中的被引次数关系式为作者i在作者群体Gauth.,2中的施引作者集合为其中,q为整数,且q≥1;
S3.k=2,删除Gauth.,2中被引次数等于2的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于2的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,3,k=2层删除的作者组成作者群体作者群体缩小为Gauth.,3,Gauth.,3中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,3中的被引次数关系式为作者i在作者群体Gauth.,3中的施引作者集合为其中,q为整数,且q≥1;
S4.依照步骤S1-S3,继续递归删除边缘性作者,当k=n时,删除Gauth.,n中被引次数等于n的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于n的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,n+1,k=n层删除的作者组成作者群体为作者群体缩小为Gauth.,n+1,作者i在作者群体Gauth.,n+1中的施引作者集合为Gauth.,n+1含有作者数量为个,即为黄金引用作者,之后对黄金引用作者计算作者重要度参数并排序,其中,k为整数,且k≥0其中n、q为整数,且n≥0,q≥1;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0。
根据上述方法,递归地删除作者后,群体被缩小成该作者群体视为不可压缩的作者群体,所含作者即黄金引用作者。
为便于理解,如下表1中列出了各步骤统一使用的主要数学符号及其含义:
表1:主要数学符号及其含义一览表
本发明的有益效果为:
1.本发明提供的算法模型,在由论文网络映射生成作者引用网络前,先排除论文引用次数中的自引,克服了自引在作者评价中的干扰,再在采用层层剥离的方式排除作者引用次数统计中低质低效的他引干扰;这种依据论文间的引用次数,综合考虑论文自引干扰和分等级作者引用等因素,对论文引用次数进行统计修订,提高了黄金引用作者识别的准确性;
2.本发明提供的算法模型根据论文作者情况不统计作者自引,再根据施引论文的他引情况映射生成作者引用次数,然后通过修订作者的引用次数,递归地缩小作者群体。这种修订论文引用次数的方式和分等级处理作者引用关系,使得采用论文引用次数来评估论文作者能力的方法更加合理;
3.本发明提供的算法模型数据来源于论文数据库,信息源稳定准确,数据真实可靠;
4.本发明提供的算法模型时间复杂度低,根据初始论文群体的选定范围进行统计且计算,使得普通科研工作者或文献研究工作者也能完成黄金引用作者的统计计算工作;
5.本发明提供的算法模型综合考虑了作者节点本身及其施引作者节点在群体中具有的位置特点,作为黄金引用作者排序的依据,使得排序方法更准确。
附图说明
图1为本发明的黄金引用作者排序方法的流程示意图。
图2为本发明中包括详细步骤的黄金引用作者发现方法的流程示意图。
图3为本发明将论文他引网络通过线性映射生成作者引用网络的示意图。
图4为本发明中递归删除作者引用网络中的边缘性节点至结果收敛的示意图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明的实施方式作进一步的详细描述。
实施例1
本实施例中,如图1和图2所示,提供了一种基于论文引用关系的黄金引用作者排序方法,包括如下步骤:
S1.在论文数据库中选定论文群体范围,获取引用关系以及作者信息;
S2.依据论文群体中论文的相互引用关系及作者信息构建初始论文引用网络模型;
本实施例中,步骤S2所述初始引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个论文节点和|E|=M条边所组成的一个有向网络;其中,G代表论文群体中论文以及论文间引用关系的集合,V代表论文群体G中的论文集合,E代表论文群体G中论文间的引用关系。
本实施例中,为构建步骤S2中的论文引用网络模型,引入论文引用变量ei,j,ei,j代表论文群体G中论文vi与论文vj的引用关系,若论文vi被论文vj引用,则ei,j等于1;若论文vi未被论文vj引用,则ei,j等于0,其中i≥1,j≥1;在论文群体G中以第i篇论文为节点的被引次数通过引用变量ei,j累加得到,则建立第i篇论文在论文群体G中的被引次数关系式为
本实施例中,构建论文引用网络,论文为顶点,论文引用关系为边;论文群体G=(V,E)是由|V|=N个节点和|E|=M条边所组成的一个有向网络:
其中,
i≥1,j≥1,如果顶点vi指向vj的有向边存在,即论文vi被论文vj引用,则边元素为1;若顶点vi指向vj的有向边不存在,即论文vi未被论文vj引用,则边元素为0。
S3.标定初始论文引用属性,建立自引修订引用系数,生成排除自引的论文他引网络;
本实施例中,步骤S3中所述生成排除自引的论文他引网络包括如下步骤:
首先,标定论文引用属性,即判定该次引用是自引还是他引;若一篇论文与该论文引用的作者没有相同作者,则该次引用称为他引,若两篇论文有共同的作者,即至少有一个作者相同,则该次引用称为自引。即为,若论文vi被论文vj引用,当论文vi与论文vj中没有相同作者,则该次引用为他引;当论文vi与论文vj中至少有一个相同作者,则该次引用为自引。
然后,为标定论文引用属性,引入自引系数λi,j,若论文vi与被引论文vj为自引关系,则λi,j等于0;若论文vi与被引论文vj为他引关系,则λi,j等于1;其中,i≥1,j≥1。本实施例中,论文vi被论文vj引用且为自引,则引用系数ei,j与自引系数λi.j的乘积为0;论文vi被论文vj引用且为他引,则引用变量ei,j与自引系数λi.j的乘积为1;通过对引用变量ei,j与自引系数λi.j的乘积相累加,排除了第i篇论文在初始引用网络模型中的自引用关系,则建立第i篇论文在论文群体中的自引修订引用次数公式为其中,i≥1,j≥1。
最后,依据自引修订引用次数为生成排除自引的论文他引网络模型G'=(V',E');G'=(V',E')是由|V'|=N个节点和|E'|=M'条边所组成的一个有向网络。
S4.将论文他引网络通过线性映射生成作者引用网络;
本实施例中,如图3所示,首先将论文他引网络通过线性映射生成作者引用网络,作者为顶点,作者引用关系为边;作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络;其中,Gauth.代表作者群体中作者以及作者间引用关系的集合,Vauth.代表作者群体Gauth.中的作者集合,Eauth.代表作者群体Gauth.中作者间的引用关系;
然后,引入作者引用变量代表作者群体Gauth.中作者与论作者的引用关系,若作者发表的某一篇论文被作者发表的某一篇论文引用,记为1,是作者指向作者有向边数量之和,即作者发表论文被作者引用次数总和,记为m;若作者发表的论文未被作者发表的论文引用,则记为0;
最后,在作者群体Gauth.中作者i的被引次数通过引用变量累加得到,则建立作者i在作者群体Gauth.中的被引次数关系式为作者可以多次被作者引用,作者也可以引用作者
提取出作者引用网络的局部特征,表示作者节点的出链指向的节点集合,即作者的施引作者集合。
本实施例中,作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络:
其中,并且,i≥1,j≥1。
S5.采用递归删除的方式缩小作者引用网络的范围,直至结果收敛,输出得到黄金引用作者,计算作者重要度参数并排序。
本实施例中,首先通过删除引用网络中的边缘性节点缩小作者引用网络的范围,同时引入作者节点的被引次数设定值k,k依次由小到大取值,直至结果收敛,输出得到黄金引用作者,其中,k为整数,且k≥0;当第k层筛选的初始作者群体为Gauth.,k时,Gauth.,k中含有个节点,即含有个作者,条引用关系,作者i在作者群体Gauth.,k中的被引次数关系式为施引作者集合为
然后,采用递归的方式缩小Gauth.,k的范围,删除Gauth.,k中被引次数等于k的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于k的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且形成第k+1层的初始作者群体,即记作Gauth.,k+1;每层递归删除的作者组成第k层作者群体删除后的作者群体Gauth.,k+1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,k+1中的被引次数关系式为且作者i在作者群体Gauth.,k+1中的施引作者集合为其中,k、q为整数,且k≥0,q≥1;
作者群体Gauth.,k+1中含有的个作者即为黄金引用作者,之后对黄金引用作者计算作者重要度参数并排序,其中,k为整数,且k≥0。
本实施例中,首先去除作者引用网络Gauth.中引用次数小于k的所有作者及其引用关系;如果在剩下的节点中仍有引用次数小于k的节点,那么就继续删除这些节点,直至群体中剩下的作者被引用次数不小于k,依次取k=0,1,2,3,.....;k取的最大值是递归删除边缘性节点的终止条件。
本实施例中,如图4所示,进一步说明通过删除边缘性节点缩小作者引用网络范围的流程,删除引用网络中的边缘性节点时,以作者群体Gauth.为初始作者群体,Gauth.,0=Gauth.,当k大于或等于n时,终止删除作者节点,作者群体收敛,根据作者重要度参数得到黄金引用作者的排序,其中n为整数,且n≥0,具体包括以下步骤:
S51.图4中的圆点为论文作者节点,在k=0层,删除Gauth.,0中被引次数等于0的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中等于0的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,1,k=0层删除的作者组成作者群体作者群体缩小为Gauth.,1,Gauth.,1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,1中的被引次数关系式为作者i在作者群体Gauth.,1中的施引作者集合为其中,q为整数,且q≥1;
S52.图4中的圆点为论文作者节点,在k=1层,删除Gauth.,1中被引次数等于1的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于1的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,2,k=1层删除的作者组成作者群体作者群体缩小为Gauth.,2,Gauth.,2中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,2中的被引次数关系式为作者i在作者群体Gauth.,2中的施引作者集合为其中,q为整数,且q≥1;
S53.图4中的圆点为论文作者节点,在k=2层,删除Gauth.,2中被引次数等于2的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于2的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,3,k=2层删除的作者组成作者群体作者群体缩小为Gauth.,3,Gauth.,3中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,3中的被引次数关系式为作者i在作者群体Gauth.,3中的施引作者集合为其中,q为整数,且q≥1;
S54.依照步骤S51-S53(图4中未显示),继续递归删除边缘性作者,当k=n时,删除Gauth.,n中自引修订引用次数等于n的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于n的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,n+1,k=n层删除的作者组成作者群体为作者群体缩小为Gauth.,n+1,作者i在作者群体Gauth.,n+1中的施引作者集合为Gauth.,n+1含有作者数量为个,即为黄金引用作者,之后对黄金引用作者计算作者重要度参数并排序,其中,k为整数,且k≥0,其中n、q为整数,且n≥0,q≥1;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0。
本实施例中,构建主题为马克思的作者引用网络,首先选定论文群体主题为马克思的论文,含有论文17260篇以及14981名作者;根据作者引用属性,依据自引修订引用次数删除初始引用网络模型中的自引用关系,生成排除自引的论文他引网络模型G'=(V',E'),之后将论文他引网络通过线性映射生成作者引用网络Gauth.=(Vauth.,Eauth.);然后递归地删除作者群体中的边缘性节点,最后收敛结果获得114个马克思领域黄金引用作者,计算黄金作者的作者重要度参数Xi,并输出黄金作者排序结果。
本实施例中,构建主题为航空航天的作者引用网络,首先选定论文群体主题为航空航天的论文,含有论文20781篇以及48619名作者;依据自引修订引用次数删除初始引用网络模型中的自引用关系,生成排除自引的论文他引网络模型G'=(V',E'),之后将论文他引网络通过线性映射生成作者引用网络Gauth.=(Vauth.,Eauth.);然后递归地删除作者群体中的边缘性节点,最后收敛结果获得1,052个航空航天领域黄金引用作者,计算黄金作者的作者重要度参数Xi,并输出黄金作者排序结果。
本实施例中,在论文网络映射生成作者引用网络前,先排除论文引用次数中的自引,克服了自引在作者评价中的干扰,再采用层层剥离的方式排除作者引用次数统计中低质低效的他引干扰,依据论文间的引用次数,综合考虑论文自引干扰和分等级作者引用等因素,对论文引用次数进行统计修订,提高了黄金引用作者识别的准确性。综合考虑黄金引用作者自身及其施引作者在群体中所处的位置,作为黄金引用作者排序的依据,使得排序方法更准确。其中,论文群体可以是按照主题、领域、学科和/或年代划定范围,也可以是按照设定的检索策略划定范围,也可以是数据库中的全部论文。
上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。
Claims (10)
1.一种基于论文引用关系的黄金引用作者排序方法,其特征在于,包括如下步骤:
首先,在论文数据库中选定论文群体范围,获取引用关系以及作者信息;
其次,依据论文群体中论文的相互引用关系及作者信息构建初始论文引用网络模型;
再次,标定初始论文引用属性,建立自引修订引用系数,生成排除自引的论文他引网络;
然后,将论文他引网络通过线性映射生成作者引用网络;
最后,采用递归删除的方式缩小作者引用网络的范围,直至结果收敛,输出得到黄金引用作者,计算作者重要度参数并排序。
2.根据权利要求1所述的基于论文引用关系的黄金引用作者排序方法,其特征在于,所述初始引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个论文节点和|E|=M条边所组成的一个有向网络;其中,G代表论文群体中论文以及论文间引用关系的集合,V代表论文群体G中的论文集合,E代表论文群体G中论文间的引用关系。
3.根据权利要求2所述的基于论文引用关系的黄金引用作者排序方法,其特征在于,为构建论文引用网络模型,引入论文引用变量ei,j,ei,j代表论文群体G中论文vi与论文vj的引用关系,若论文vi被论文vj引用,则ei,j等于1;若论文vi未被论文vj引用,则ei,j等于0,其中i≥1,j≥1;在论文群体G中以第i篇论文为节点的被引次数通过引用变量ei,j累加得到,则建立第i篇论文在论文群体G中的被引次数关系式为
4.根据权利要求1~3任意一项所述的基于论文引用关系的黄金引用作者排序方法,其特征在于,所述生成排除自引的论文他引网络包括如下步骤:
标定论文引用属性,若论文vi被论文vj引用,当论文vi与论文vj中没有相同作者,则该次引用为他引;当论文vi与论文vj中至少有一个相同作者,则该次引用为自引。
5.根据权利要求4所述的基于论文引用关系的黄金引用作者排序方法,其特征在于,为标定论文引用属性,引入自引系数λi,j,若论文vi与被引论文vj为自引关系,则λi,j等于0;若论文vi与被引论文vj为他引关系,则λi,j等于1;其中,i≥1,j≥1。
6.根据权利要求3或5所述的基于论文引用关系的黄金引用作者排序方法,其特征在于,论文vi被论文vj引用且为自引,则引用系数ei,j与自引系数λi.j的乘积为0;论文vi被论文vj引用且为他引,则引用变量ei,j与自引系数λi.j的乘积为1;通过对引用变量ei,j与自引系数λi.j的乘积相累加,排除了第i篇论文在初始引用网络模型中的自引用关系,则建立第i篇论文在论文群体中的自引修订引用次数公式为其中,i≥1,j≥1。
7.根据权利要求6所述的基于论文引用关系的黄金引用作者排序方法,其特征在于,依据自引修订引用次数为生成排除自引的论文他引网络模型G'=(V',E');G'=(V',E')是由|V'|=N个节点和|E'|=M'条边所组成的一个有向网络。
8.根据权利要求1~7任意一项所述的基于论文引用关系的黄金引用作者排序方法,其特征在于,将论文他引网络通过线性映射生成作者引用网络,作者为顶点,作者引用关系为边;作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络;其中,Gauth.代表作者群体中作者以及作者间引用关系的集合,Vauth.代表作者群体Gauth.中的作者集合,Eauth.代表作者群体Gauth.中作者间的引用关系;
引入作者引用变量 代表作者群体Gauth.中作者与作者的引用关系,若作者发表的某一篇论文被作者发表的某一篇论文引用,记为1,是作者指向作者有向边数量之和,即作者发表论文被作者引用次数总和,记为m;若作者发表的论文未被作者发表的论文引用,则记为0;
在作者群体Gauth.中作者i的被引次数通过引用变量累加得到,则建立作者i在作者群体Gauth.中的被引次数关系式为作者可以多次被作者引用,作者也可以引用作者
提取出作者引用网络的局部特征,表示作者节点的出链指向的节点集合,即作者的施引作者集合。
9.根据权利要求1~8任意一项所述的基于论文引用关系的黄金引用作者排序方法,其特征在于,递归删除引用网络中的边缘性节点以缩小作者引用网络的范围,同时引入作者节点的被引次数设定值k,k依次由小到大取值,直至结果收敛,输出得到黄金引用作者,其中,k为整数,且k≥0;
当第k层筛选的初始作者群体为Gauth.,k时,Gauth.,k中含有个节点,即含有个作者,条引用关系,作者i在作者群体Gauth.,k中的被引次数关系式为施引作者集合为
采用递归的方式缩小Gauth.,k的范围,删除Gauth.,k中被引次数等于k的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于k的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且形成第k+1层的初始作者群体,即记作Gauth.,k+1;
每层递归删除的作者组成第k层作者群体删除后的作者群体Gauth.,k+1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth. ,k+1中的被引次数关系式为且作者i在作者群体Gauth.,k+1中的施引作者集合为其中,k、q为整数,且k≥0,q≥1;
作者群体Gauth.,k+1中含有个作者,即为黄金引用作者,计算作者重要度参数并排序,其中,k为整数,且k≥0。
10.根据权利要求1~9任意一项所述的基于论文引用关系的黄金引用作者排序方法,其特征在于,删除引用网络中的边缘性节点时,以作者群体Gauth.为初始作者群体,Gauth.,0=Gauth.,采用递归删除的方式逐层缩小作者群体的范围,当k大于和/或等于n时,终止删除作者节点,作者群体收敛,根据作者重要度参数得到黄金引用作者的排序,其中n为整数,且n≥0,具体包括以下步骤:
S1.k=0,删除Gauth.,0中被引次数等于0的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中等于0的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth. ,1,k=0层删除的作者组成作者群体作者群体缩小为Gauth.,1,Gauth.,1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,1中的被引次数关系式为作者i在作者群体Gauth.,1中的施引作者集合为其中,q为整数,且q≥1;
S2.k=1,删除Gauth.,1中被引次数等于1的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于1的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,2,k=1层删除的作者组成作者群体作者群体缩小为Gauth.,2,Gauth.,2中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,2中的被引次数关系式为作者i在作者群体Gauth.,2中的施引作者集合为其中,q为整数,且q≥1;
S3.k=2,删除Gauth.,2中被引次数等于2的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于2的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,3,k=2层删除的作者组成作者群体作者群体缩小为Gauth.,3,Gauth.,3中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,3中的被引次数关系式为作者i在作者群体Gauth.,3中的施引作者集合为其中,q为整数,且q≥1;
S4.依照步骤S1-S3,继续递归删除边缘性作者,当k=n时,删除Gauth.,n中被引次数等于n的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于n的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,n+1,k=n层删除的作者组成作者群体为作者群体缩小为Gauth.,n+1,作者i在作者群体Gauth.,n+1中的施引作者集合为Gauth.,n+1含有作者数量为个,即为黄金引用作者,之后对黄金引用作者计算作者重要度参数并排序,其中,k为整数,且k≥0,其中n、q为整数,且n≥0,q≥1;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth. ,n,其中n为整数,且n≥0;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810769031.1A CN109002524B (zh) | 2018-07-13 | 2018-07-13 | 一种基于论文引用关系的黄金引用作者排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810769031.1A CN109002524B (zh) | 2018-07-13 | 2018-07-13 | 一种基于论文引用关系的黄金引用作者排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109002524A true CN109002524A (zh) | 2018-12-14 |
CN109002524B CN109002524B (zh) | 2019-06-14 |
Family
ID=64599701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810769031.1A Active CN109002524B (zh) | 2018-07-13 | 2018-07-13 | 一种基于论文引用关系的黄金引用作者排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109002524B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990662A (zh) * | 2019-11-22 | 2020-04-10 | 北京市科学技术情报研究所 | 一种基于引文网络与科研合作网络的领域专家遴选方法 |
CN111046165A (zh) * | 2019-11-22 | 2020-04-21 | 北京市科学技术情报研究所 | 一种基于引用次数的文献推荐方法 |
CN111078859A (zh) * | 2019-11-22 | 2020-04-28 | 北京市科学技术情报研究所 | 一种基于引用次数的作者推荐方法 |
CN111078873A (zh) * | 2019-11-22 | 2020-04-28 | 北京市科学技术情报研究所 | 一种基于引文网络与科研合作网络的领域专家遴选方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298579A (zh) * | 2010-06-22 | 2011-12-28 | 北京大学 | 面向科技文献的论文、作者和期刊排序模型及排序方法 |
CN103729432A (zh) * | 2013-12-27 | 2014-04-16 | 河海大学 | 一种引文数据库中主题文献学术影响力的分析与排序方法 |
CN104657488A (zh) * | 2015-03-05 | 2015-05-27 | 中南大学 | 一种基于引用传播网络的作者影响力计算方法 |
CN106126732A (zh) * | 2016-07-04 | 2016-11-16 | 中南大学 | 基于兴趣相似模型的作者影响力传播能力预测方法 |
-
2018
- 2018-07-13 CN CN201810769031.1A patent/CN109002524B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298579A (zh) * | 2010-06-22 | 2011-12-28 | 北京大学 | 面向科技文献的论文、作者和期刊排序模型及排序方法 |
CN103729432A (zh) * | 2013-12-27 | 2014-04-16 | 河海大学 | 一种引文数据库中主题文献学术影响力的分析与排序方法 |
CN104657488A (zh) * | 2015-03-05 | 2015-05-27 | 中南大学 | 一种基于引用传播网络的作者影响力计算方法 |
CN106126732A (zh) * | 2016-07-04 | 2016-11-16 | 中南大学 | 基于兴趣相似模型的作者影响力传播能力预测方法 |
Non-Patent Citations (1)
Title |
---|
李勇 等: "基于PageRank的机构科研影响力评价", 《医学信息学杂志》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990662A (zh) * | 2019-11-22 | 2020-04-10 | 北京市科学技术情报研究所 | 一种基于引文网络与科研合作网络的领域专家遴选方法 |
CN111046165A (zh) * | 2019-11-22 | 2020-04-21 | 北京市科学技术情报研究所 | 一种基于引用次数的文献推荐方法 |
CN111078859A (zh) * | 2019-11-22 | 2020-04-28 | 北京市科学技术情报研究所 | 一种基于引用次数的作者推荐方法 |
CN111078873A (zh) * | 2019-11-22 | 2020-04-28 | 北京市科学技术情报研究所 | 一种基于引文网络与科研合作网络的领域专家遴选方法 |
CN111046165B (zh) * | 2019-11-22 | 2021-02-09 | 北京市科学技术情报研究所 | 一种基于引用次数的文献推荐方法 |
CN111078859B (zh) * | 2019-11-22 | 2021-02-09 | 北京市科学技术情报研究所 | 一种基于引用次数的作者推荐方法 |
CN110990662B (zh) * | 2019-11-22 | 2021-06-04 | 北京市科学技术情报研究所 | 一种基于引文网络与科研合作网络的领域专家遴选方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109002524B (zh) | 2019-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109002524B (zh) | 一种基于论文引用关系的黄金引用作者排序方法 | |
CN103729432B (zh) | 一种引文数据库中主题文献学术影响力的分析与排序方法 | |
CN104102745B (zh) | 基于局部最小边的复杂网络社团挖掘方法 | |
CN104050242B (zh) | 基于最大信息系数的特征选择、分类方法及其装置 | |
CN108334580A (zh) | 一种结合链接和属性信息的社区发现方法 | |
CN111078873B (zh) | 一种基于引文网络与科研合作网络的领域专家遴选方法 | |
CN106844665A (zh) | 一种基于引用关系分布式表达的论文推荐方法 | |
Mock | A Classification Channel Links in Stream Networks | |
CN109241278A (zh) | 科研知识管理方法及系统 | |
CN107705213A (zh) | 一种静态社交网络的重叠社团发现方法 | |
CN106789338A (zh) | 一种在动态大规模社交网络中发现关键人物的方法 | |
CN108491891A (zh) | 一种基于决策树局部相似性的多源在线迁移学习方法 | |
CN103679269A (zh) | 基于主动学习的分类器样本选择方法及其装置 | |
CN108470251A (zh) | 基于平均互信息的社区划分质量评价方法及系统 | |
CN108920692B (zh) | 一种基于论文引用关系的作者排序方法 | |
CN110990662B (zh) | 一种基于引文网络与科研合作网络的领域专家遴选方法 | |
CN109063023B (zh) | 一种基于论文引用关系的黄金引用作者发现方法 | |
CN111078859B (zh) | 一种基于引用次数的作者推荐方法 | |
CN108763328B (zh) | 一种基于黄金引用算法的论文推荐方法 | |
CN107273971A (zh) | 基于神经元显著性的前馈神经网络结构自组织方法 | |
CN110750572A (zh) | 一种科技成果启发式评价的自适应方法和装置 | |
Phadatare et al. | Uncertain data mining using decision tree and bagging technique | |
JP4125951B2 (ja) | テキスト自動分類方法及び装置並びにプログラム及び記録媒体 | |
CN109918473B (zh) | 数学公式相似度的测量方法及其测量系统 | |
CN105550745A (zh) | 基于主动学习的madaline神经网络样本选择方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |