CN109063023A - 一种基于论文引用关系的黄金引用作者发现方法 - Google Patents
一种基于论文引用关系的黄金引用作者发现方法 Download PDFInfo
- Publication number
- CN109063023A CN109063023A CN201810769032.6A CN201810769032A CN109063023A CN 109063023 A CN109063023 A CN 109063023A CN 201810769032 A CN201810769032 A CN 201810769032A CN 109063023 A CN109063023 A CN 109063023A
- Authority
- CN
- China
- Prior art keywords
- author
- group
- authors
- paper
- auth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 title claims abstract description 34
- 239000010931 gold Substances 0.000 title claims abstract description 34
- 229910052737 gold Inorganic materials 0.000 title claims abstract description 34
- 238000012217 deletion Methods 0.000 claims abstract description 43
- 230000037430 deletion Effects 0.000 claims abstract description 43
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 239000000463 material Substances 0.000 claims description 10
- 239000004973 liquid crystal related substance Substances 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 2
- 230000002950 deficient Effects 0.000 abstract 1
- 230000007717 exclusion Effects 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及论文检索技术领域,具体地说,涉及一种基于论文引用关系的黄金引用作者发现方法,包括如下步骤:首先,在论文数据库中选定论文群体范围,获取引用关系以及作者信息;其次,依据论文群体中论文的相互引用关系及作者信息构建初始论文引用网络模型;再次,标定初始论文引用属性,建立自引修订引用系数,生成排除自引的论文他引网络;然后,将论文他引网络通过线性映射生成作者引用网络;最后,采用递归删除的方式缩小作者引用网络的范围,直至结果收敛,输出得到黄金引用作者。本发明提供的论文作者发现方法易于实施,且可有效排除论文自引和低质低效的他引干扰,以帮助研究者快速地准确地识别出黄金引用作者。
Description
技术领域
本发明涉及论文检索技术领域,具体地说,涉及一种基于论文引用关系的黄金引用作者发现方法。
背景技术
论文是科技人才科研成果产出的重要形式之一,在科技人才评价中,发表论文的数量与水平是科技人才评价中的重要依据与内容。而随着技术发展速度逐渐加快,时至今日,人类产生的所有印刷材料的数据量早已超过200PB,面对如此海量的数据,想要从中检索出较为重要的文献及相关信息变得愈发困难。
一般认为论文被引数量与作者的影响力呈正相关关系,被引用量越大说明论文作者的影响力越大。虽然这种方法简单快速,但不是十分合理,原因在于论文引用包括作者在后来的论文中自我引用(自引)和他人的引用(他引)两种,以论文引用进行论文作者科技成果评价时,广受诟病的行为就是不去除论文自引,这种行为生成了较大的论文引用量,模糊了论文作者的影响力。因此,应将以“论文引用次数”来评价论文作者的现状,改为以“论文他引次数”来评价论文作者。
此外,施引论文的作者是有等级区别的,但一般作者、优秀作者、权威作者的引用情况,在基于论文引用次数进行论文作者评价时,并没有加以区分;同时领域内的权威作者对其所在的研究领域非常熟悉,他们又能够鉴别出该领域的优秀作者和优秀论文,因此面对这类权威作者文献的引用关系时,更应当加以区别对待。
有鉴于此,特提出本发明。
发明内容
本发明旨在提供一种基于论文引用关系的黄金引用作者发现方法,较为快捷并且准确地实现了论文作者的发现过程,以便使用者甄选出影响力较大的作者。
为实现上述目的,本发明具体采用如下技术方案:
本发明提供了一种基于论文引用关系的黄金引用作者发现方法,包括如下步骤:
首先,在论文数据库中选定论文群体范围,获取引用关系以及作者信息;
其次,依据论文群体中论文的相互引用关系及作者信息构建初始论文引用网络模型;
再次,标定初始论文引用属性,建立自引修订引用系数,生成排除自引的论文他引网络;
然后,将论文他引网络通过线性映射生成作者引用网络;
最后,采用递归删除的方式缩小作者引用网络的范围,直至结果收敛,输出得到黄金引用作者。
上述方法中,在论文网络映射生成作者引用网络前,先排除论文引用次数中的自引,克服了自引在作者评价中的干扰。之后,采用层层剥离的方式排除作者引用次数统计中低质低效的他引干扰,依据论文间的引用次数,综合考虑论文自引干扰和分等级作者引用等因素,对论文引用次数进行统计修订,提高了黄金引用作者识别的准确性。其中,作者群体可以是按照主题、领域、学科和/或年代划定范围,也可以是按照设定的检索策略划定范围,也可以是数据库中的全部论文。
根据上述方法,所述初始引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个论文节点和|E|=M条边所组成的一个有向网络;其中,G代表论文群体中论文以及论文间引用关系的集合,V代表论文群体G中的论文集合,E代表论文群体G中论文间的引用关系。
根据上述方法,为构建论文引用网络模型,引入论文引用变量ei,j,ei,j代表论文群体G中论文vi与论文vj的引用关系,若论文vi被论文vj引用,则ei,j等于1;若论文vi未被论文vj引用,则ei,j等于0,其中i≥1,j≥1;在论文群体G中以第i篇论文为节点的被引次数通过引用变量ei,j累加得到,则建立第i篇论文在论文群体G中的被引次数关系式为
上述方法中,构建论文引用网络,论文为顶点,论文引用关系为边;论文群体G=(V,E)是由|V|=N个节点和|E|=M条边所组成的一个有向网络:
其中,
i≥1,j≥1,如果顶点vi指向vj的有向边存在,即论文vi被论文vj引用,则边元素为1;若顶点vi指向vj的有向边不存在,即论文vi未被论文vj引用,则边元素为0。
根据上述方法,所述生成排除自引的论文他引网络包括如下步骤:
标定论文引用属性,若论文vi被论文vj引用,当论文vi与论文vj中没有相同作者,则该次引用为他引;当论文vi与论文vj中至少有一个相同作者,则该次引用为自引。
根据上述方法,为标定论文引用属性,引入自引系数λi,j,若论文vi与被引论文vj为自引关系,则λi,j等于0;若论文vi与被引论文vj为他引关系,则λi,j等于1;其中,i≥1,j≥1。
上述方法中,标定论文引用属性,即判定该次引用是自引还是他引;若一篇论文与该论文引用的作者没有相同作者,则该次引用称为他引,若两篇论文有共同的作者,即至少有一个作者相同,则该次引用称为自引。
根据上述方法,论文vi被论文vj引用且为自引,则引用系数ei,j与自引系数λi.j的乘积为0;论文vi被论文vj引用且为他引,则引用变量ei,j与自引系数λi.j的乘积为1;通过对引用变量ei,j与自引系数λi.j的乘积相累加,排除了第i篇论文在初始引用网络模型中的自引用关系,则建立第i篇论文在论文群体中的自引修订引用次数公式为其中,i≥1,j≥1。
根据上述方法,依据自引修订引用次数为生成排除自引的论文他引网络模型G'=(V',E');G'=(V',E')是由|V'|=N个节点和|E'|=M'条边所组成的一个有向网络。
根据上述方法,将论文他引网络通过线性映射生成作者引用网络,作者为顶点,作者引用关系为边;作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络;其中,Gauth.代表作者群体中作者以及作者间引用关系的集合,Vauth.代表作者群体Gauth.中的作者集合,Eauth.代表作者群体Gauth.中作者间的引用关系;
引入作者引用变量代表作者群体Gauth.中作者与作者的引用关系,若作者发表的某一篇论文被作者发表的某一篇论文引用,记为1,是作者指向作者有向边数量之和,即作者发表论文被作者引用次数总和,记为m;若作者发表的论文未被作者发表的论文引用,则记为0;
在作者群体Gauth.中作者i的被引次数通过引用变量累加得到,则建立作者i在作者群体Gauth.中的被引次数关系式为作者可以多次被作者引用,作者也可以引用作者
上述方法中,作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络:
其中,并且,i≥1,j≥1。
根据上述方法,通过删除引用网络中的边缘性节点缩小作者引用网络的范围,引入被引次数设定值k,k依次由小到大取值,采用递归的方式逐层缩小作者群体的范围,直至结果收敛,其中,k为整数,且k≥0;
当第k层筛选的初始作者群体为Gauth.,k时,Gauth.,k中含有个节点,即含有个作者,条引用关系,作者i在作者群体Gauth.,k中的被引次数关系式为
采用递归的方式缩小Gauth.,k的范围,删除Gauth.,k中被引次数等于k的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于k的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且形成第k+1层的初始作者群体,即记作Gauth.,k+1;
每层递归删除的作者组成第k层作者群体删除后的作者群体Gauth.,k+1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth. ,k+1中的被引次数关系式为且其中,k、q为整数,且k≥0,q≥1。
上述方法中,首先去除作者引用网络Gauth.中引用次数不大于k的所有作者及其引用关系;如果在剩下的节点中仍有引用次数不大于k的节点,那么就继续删除这些节点,直至群体中剩下的作者被引用次数大于k,依次取k=0,1,2,3,.....;k取的最大值是递归删除边缘性节点的终止条件。
根据上述方法,删除引用网络中的边缘性节点时,以作者群体Gauth.为初始作者群体,Gauth.,0=Gauth.,采用递归删除的方式逐层缩小作者群体的范围,当k≥n时,终止删除作者节点,作者群体收敛,得出黄金引用作者,其中n为整数,且n≥0,具体包括以下步骤:
S1.k=0,删除Gauth.,0中被引次数等于0的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中等于0的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,1,k=0层删除的作者组成作者群体作者群体缩小为Gauth.,1,Gauth.,1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,1中的被引次数关系式为其中,q为整数,且q≥1;
S2.k=1,删除Gauth.,1中被引次数等于1的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于1的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,2,k=1层删除的作者组成作者群体作者群体缩小为Gauth.,2,Gauth.,2中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,2中的被引次数关系式为其中,q为整数,且q≥1;
S3.k=2,删除Gauth.,2中被引次数等于2的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于2的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth. ,3,k=2层删除的作者组成作者群体作者群体缩小为Gauth.,3,Gauth.,3中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,3中的被引次数关系式为其中,q为整数,且q≥1
S4.依照步骤S1-S3,继续递归删除边缘性作者,当k=n时,删除Gauth.,n中被引次数等于n的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于n的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,n+1,k=n层删除的作者组成作者群体为作者群体缩小为Gauth.,n+1,Gauth.,n+1含有作者数量为个,即为黄金引用作者,其中n、q为整数,且n≥0,q≥1;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0。
根据上述方法,递归地删除作者后,群体被缩小成该作者群体视为不可压缩的作者群体,所含作者即黄金引用作者。
为便于理解,如下表1中列出了各步骤统一使用的主要数学符号及其含义:
表1:主要数学符号及其含义一览表
本发明的有益效果为:
1.本发明提供的算法模型,在由论文网络映射生成作者引用网络前,先排除论文引用次数中的自引,克服了自引在作者评价中的干扰;
2.本发明提供的算法模型,采用层层剥离的方式排除作者引用次数统计中低质低效的他引干扰;
3.本发明提供的算法模型,依据论文间的引用次数,综合考虑论文自引干扰和分等级作者引用等因素,对论文引用次数进行统计修订,提高了黄金引用作者识别的准确性;
4.本发明提供的算法模型根据论文作者情况不统计作者自引,再根据施引论文的他引情况映射生成作者引用次数,然后通过修订作者的引用次数,递归地缩小作者群体。这种修订论文引用次数的方式和分等级处理作者引用关系,使得采用论文引用次数来评估论文作者能力的方法更加合理;
5.本发明提供的算法模型时间复杂度低,根据初始论文群体的选定范围进行统计且计算,使得普通科研工作者或文献研究工作者也能完成黄金引用作者的统计计算工作。
附图说明
图1为本发明的黄金引用作者发现方法的流程示意图。
图2为本发明中包括详细步骤的黄金引用作者发现方法的流程示意图。
图3为本发明生成作者引用网络的示意图。
图4为本发明中递归删除作者引用网络中的边缘性节点至结果收敛的示意图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明的实施方式作进一步的详细描述。
实施例1
本实施例中,如图1和图2所示,提供了一种基于论文引用关系的黄金引用作者发现方法,包括如下步骤:
S1.在论文数据库中选定论文群体范围,获取引用关系以及作者信息;
S2.依据论文群体中论文的相互引用关系及作者信息构建初始论文引用网络模型;
本实施例中,步骤S2所述初始引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个论文节点和|E|=M条边所组成的一个有向网络;其中,G代表论文群体中论文以及论文间引用关系的集合,V代表论文群体G中的论文集合,E代表论文群体G中论文间的引用关系。
本实施例中,为构建步骤S2中的论文引用网络模型,引入论文引用变量ei,j,ei,j代表论文群体G中论文vi与论文vj的引用关系,若论文vi被论文vj引用,则ei,j等于1;若论文vi未被论文vj引用,则ei,j等于0,其中i≥1,j≥1;在论文群体G中以第i篇论文为节点的被引次数通过引用变量ei,j累加得到,则建立第i篇论文在论文群体G中的被引次数关系式为
本实施例中,构建论文引用网络,论文为顶点,论文引用关系为边;论文群体G=(V,E)是由|V|=N个节点和|E|=M条边所组成的一个有向网络:
其中,
i≥1,j≥1,如果顶点vi指向vj的有向边存在,即论文vi被论文vj引用,则边元素为1;若顶点vi指向vj的有向边不存在,即论文vi未被论文vj引用,则边元素为0。
S3.标定初始论文引用属性,建立自引修订引用系数,生成排除自引的论文他引网络;
本实施例中,步骤S3中所述生成排除自引的论文他引网络包括如下步骤:
首先,标定论文引用属性,即判定该次引用是自引还是他引;若一篇论文与该论文引用的作者没有相同作者,则该次引用称为他引,若两篇论文有共同的作者,即至少有一个作者相同,则该次引用称为自引。即为,若论文vi被论文vj引用,当论文vi与论文vj中没有相同作者,则该次引用为他引;当论文vi与论文vj中至少有一个相同作者,则该次引用为自引。
然后,为标定论文引用属性,引入自引系数λi,j,若论文vi与被引论文vj为自引关系,则λi,j等于0;若论文vi与被引论文vj为他引关系,则λi,j等于1;其中,i≥1,j≥1。本实施例中,论文vi被论文vj引用且为自引,则引用系数ei,j与自引系数λi.j的乘积为0;论文vi被论文vj引用且为他引,则引用变量ei,j与自引系数λi.j的乘积为1;通过对引用变量ei,j与自引系数λi.j的乘积相累加,排除了第i篇论文在初始引用网络模型中的自引用关系,则建立第i篇论文在论文群体中的自引修订引用次数公式为其中,i≥1,j≥1。
最后,依据自引修订引用次数为生成排除自引的论文他引网络模型G'=(V',E');G'=(V',E')是由|V'|=N个节点和|E'|=M'条边所组成的一个有向网络。
S4.将论文他引网络通过线性映射生成作者引用网络;
本实施例中,如图3所示,首先将论文他引网络通过线性映射生成作者引用网络,作者为顶点,作者引用关系为边;作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络;其中,Gauth.代表作者群体中作者以及作者间引用关系的集合,Vauth.代表作者群体Gauth.中的作者集合,Eauth.代表作者群体Gauth.中作者间的引用关系;
然后,引入作者引用变量 代表作者群体Gauth.中作者与作者的引用关系,若作者发表的某一篇论文被作者发表的某一篇论文引用,记为1,是作者指向作者有向边数量之和,即作者发表论文被作者引用次数总和,记为m;若作者发表的论文未被作者发表的论文引用,则记为0;
最后,在作者群体Gauth.中作者i的被引次数通过引用变量累加得到,则建立作者i在作者群体Gauth.中的被引次数关系式为作者可以多次被作者引用,作者也可以引用作者
本实施例中,作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络:
其中,并且,i≥1,j≥1。
S5.采用递归删除的方式缩小作者引用网络的范围,直至结果收敛,输出得到黄金引用作者。
本实施例中,首先通过删除引用网络中的边缘性节点缩小作者引用网络的范围,引入被引次数设定值k,k依次由小到大取值,采用递归的方式逐层缩小作者群体的范围,直至结果收敛,其中,k为整数,且k≥0;当第k层筛选的初始作者群体为Gauth.,k时,Gauth.,k中含有个节点,即含有个作者,条引用关系,作者i在作者群体Gauth.,k中的被引次数关系式为
然后,采用递归的方式缩小Gauth.,k的范围,删除Gauth.,k中被引次数等于k的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于k的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且形成第k+1层的初始作者群体,即记作Gauth.,k+1;每层递归删除的作者组成第k层作者群体删除后的作者群体Gauth.,k+1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,k+1中的被引次数关系式为且其中,k、q为整数,且k≥0,q≥1。
本实施例中,首先去除作者引用网络Gauth.中引用次数不大于k的所有作者及其引用关系;如果在剩下的节点中仍有引用次数不大于k的节点,那么就继续删除这些节点,直至群体中剩下的作者被引用次数大于k,依次取k=0,1,2,3,.....;k取的最大值是递归删除边缘性节点的终止条件。
本实施例中,如图4所示,进一步说明通过删除边缘性节点缩小作者引用网络范围的流程,删除引用网络中的边缘性节点时,以作者群体Gauth.为初始作者群体,Gauth.,0=Gauth.,采用递归删除的方式逐层缩小作者群体的范围,当k大于或等于n时,终止删除作者节点,作者群体收敛,得出黄金引用作者,其中n为整数,且n≥0,具体包括以下步骤:
S51.图4中的圆点为论文作者节点,在k=0层,删除Gauth.,0中被引次数等于0的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中等于0的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,1,k=0层删除的作者组成作者群体作者群体缩小为Gauth.,1,Gauth.,1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,1中的被引次数关系式为其中,q为整数,且q≥1;
S52.图4中的圆点为论文作者节点,在k=1层,删除Gauth.,1中被引次数等于1的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于1的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,2,k=1层删除的作者组成作者群体作者群体缩小为Gauth.,2,Gauth.,2中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,2中的被引次数关系式为其中,q为整数,且q≥1;
S53.图4中的圆点为论文作者节点,在k=2层,删除Gauth.,2中被引次数等于2的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于2的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,3,k=2层删除的作者组成作者群体作者群体缩小为Gauth.,3,Gauth.,3中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,3中的被引次数关系式为其中,q为整数,且q≥1;
S54.依照步骤S51-S53(图4中未显示),继续递归删除边缘性作者,当k=n时,删除Gauth.,n中自引修订引用次数等于n的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于n的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,n+1,k=n层删除的作者组成作者群体为作者群体缩小为Gauth.,n+1,Gauth.,n+1含有作者数量为个,即为黄金引用作者,其中n、q为整数,且n≥0,q≥1;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0。
本实施例中,构建主题为马克思的作者引用网络,首先选定论文群体主题为马克思的论文,含有论文17260篇以及14981名作者;根据作者引用属性,依据自引修订引用次数删除初始引用网络模型中的自引用关系,生成排除自引的论文他引网络模型G'=(V',E'),之后将论文他引网络通过线性映射生成作者引用网络Gauth.=(Vauth.,Eauth.);然后递归地删除作者群体中的边缘性节点,最后收敛结果获得114个马克思领域黄金引用作者。
本实施例中,构建主题为航空航天的作者引用网络,首先选定论文群体主题为航空航天的论文,含有论文20781篇以及48619名作者;依据自引修订引用次数删除初始引用网络模型中的自引用关系,生成排除自引的论文他引网络模型G'=(V',E'),之后将论文他引网络通过线性映射生成作者引用网络Gauth.=(Vauth.,Eauth.);然后递归地删除作者群体中的边缘性节点,最后收敛结果获得1,052个航空航天领域黄金引用作者。
本实施例中,在论文网络映射生成作者引用网络前,先排除论文引用次数中的自引,克服了自引在作者评价中的干扰,再采用层层剥离的方式排除作者引用次数统计中低质低效的他引干扰,依据论文间的引用次数,综合考虑论文自引干扰和分等级作者引用等因素,对论文引用次数进行统计修订,提高了黄金引用作者识别的准确性。其中,论文群体可以是按照主题、领域、学科和/或年代划定范围,也可以是按照设定的检索策略划定范围,也可以是数据库中的全部论文。
上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。
Claims (10)
1.一种基于论文引用关系的黄金引用作者发现方法,其特征在于,包括如下步骤:
首先,在论文数据库中选定论文群体范围,获取引用关系以及作者信息;
其次,依据论文群体中论文的相互引用关系及作者信息构建初始论文引用网络模型;
再次,标定初始论文引用属性,建立自引修订引用系数,生成排除自引的论文他引网络;
然后,将论文他引网络通过线性映射生成作者引用网络;
最后,采用递归删除的方式缩小作者引用网络的范围,直至结果收敛,输出得到黄金引用作者。
2.根据权利要求1所述的基于论文引用关系的黄金引用作者发现方法,其特征在于,所述初始引用网络模型为:G=(V,E),G=(V,E)是由|V|=N个论文节点和|E|=M条边所组成的一个有向网络;其中,G代表论文群体中论文以及论文间引用关系的集合,V代表论文群体G中的论文集合,E代表论文群体G中论文间的引用关系。
3.根据权利要求2所述的基于论文引用关系的黄金引用作者发现方法,其特征在于,为构建论文引用网络模型,引入论文引用变量ei,j,ei,j代表论文群体G中论文vi与论文vj的引用关系,若论文vi被论文vj引用,则ei,j等于1;若论文vi未被论文vj引用,则ei,j等于0,其中i≥1,j≥1;在论文群体G中以第i篇论文为节点的被引次数通过引用变量ei,j累加得到,则建立第i篇论文在论文群体G中的被引次数关系式为
4.根据权利要求1~3任意一项所述的基于论文引用关系的黄金引用作者发现方法,其特征在于,所述生成排除自引的论文他引网络包括如下步骤:
标定论文引用属性,若论文vi被论文vj引用,当论文vi与论文vj中没有相同作者,则该次引用为他引;当论文vi与论文vj中至少有一个相同作者,则该次引用为自引。
5.根据权利要求4所述的基于论文引用关系的黄金引用作者发现方法,其特征在于,为标定论文引用属性,引入自引系数λi,j,若论文vi与被引论文vj为自引关系,则λi,j等于0;若论文vi与被引论文vj为他引关系,则λi,j等于1;其中,i≥1,j≥1。
6.根据权利要求3或5所述的基于论文引用关系的黄金引用作者发现方法,其特征在于,论文vi被论文vj引用且为自引,则引用系数ei,j与自引系数λi.j的乘积为0;论文vi被论文vj引用且为他引,则引用变量ei,j与自引系数λi.j的乘积为1;通过对引用变量ei,j与自引系数λi.j的乘积相累加,排除了第i篇论文在初始引用网络模型中的自引用关系,则建立第i篇论文在论文群体中的自引修订引用次数公式为其中,i≥1,j≥1。
7.根据权利要求6所述的基于论文引用关系的黄金引用作者发现方法,其特征在于,依据自引修订引用次数为生成排除自引的论文他引网络模型G'=(V',E');G'=(V',E')是由|V'|=N个节点和|E'|=M'条边所组成的一个有向网络。
8.根据权利要求1~7任意一项所述的基于论文引用关系的黄金引用作者发现方法,其特征在于,将论文他引网络通过线性映射生成作者引用网络,作者为顶点,作者引用关系为边;作者群体Gauth.=(Vauth.,Eauth.)是由|Vauth.|=Nauth.个节点和|Eauth.|=Mauth.条边所组成的一个有向网络;其中,Gauth.代表作者群体中作者以及作者间引用关系的集合,Vauth.代表作者群体Gauth.中的作者集合,Eauth.代表作者群体Gauth.中作者间的引用关系;
引入作者引用变量代表作者群体Gauth.中作者与作者的引用关系,若作者发表的某一篇论文被作者发表的某一篇论文引用,记为1,是作者指向作者有向边数量之和,即作者发表论文被作者引用次数总和,记为m;若作者发表的论文未被作者发表的论文引用,则记为0;
在作者群体Gauth.中作者i的被引次数通过引用变量累加得到,则建立作者i在作者群体Gauth.中的被引次数关系式为作者可以多次被作者引用,作者也可以引用作者
9.根据权利要求1~8任意一项所述的基于论文引用关系的黄金引用作者发现方法,其特征在于,通过删除引用网络中的边缘性节点缩小作者引用网络的范围,引入被引次数设定值k,k依次由小到大取值,采用递归的方式逐层缩小作者群体的范围,直至结果收敛,其中,k为整数,且k≥0;
当第k层筛选的初始作者群体为Gauth.,k时,Gauth.,k中含有个节点,即含有个作者,条引用关系,作者i在作者群体Gauth.,k中的被引次数关系式为
采用递归的方式缩小Gauth.,k的范围,删除Gauth.,k中被引次数等于k的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于k的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且形成第k+1层的初始作者群体,即记作Gauth.,k+1;
每层递归删除的作者组成第k层作者群体删除后的作者群体Gauth.,k+1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth. ,k+1中的被引次数关系式为且其中,k、q为整数,且k≥0,q≥1。
10.根据权利要求1~9任意一项所述的基于论文引用关系的黄金引用作者发现方法,其特征在于,删除引用网络中的边缘性节点时,以作者群体Gauth.为初始作者群体,Gauth.,0=Gauth.,采用递归删除的方式逐层缩小作者群体的范围,当k≥n时,终止删除作者节点,作者群体收敛,得出黄金引用作者,其中n为整数,且n≥0,具体包括以下步骤:
S1.k=0,删除Gauth.,0中被引次数等于0的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中等于0的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth. ,1,k=0层删除的作者组成作者群体作者群体缩小为Gauth.,1,Gauth.,1中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,1中的被引次数关系式为其中,q为整数,且q≥1;
S2.k=1,删除Gauth.,1中被引次数等于1的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于1的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,2,k=1层删除的作者组成作者群体作者群体缩小为Gauth.,2,Gauth.,2中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,2中的被引次数关系式为其中,q为整数,且q≥1;
S3.k=2,删除Gauth.,2中被引次数等于2的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于2的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,3,k=2层删除的作者组成作者群体作者群体缩小为Gauth.,3,Gauth.,3中含有个节点,即含有个作者,条边,作者i在作者群体Gauth.,3中的被引次数关系式为其中,q为整数,且q≥1;
S4.依照步骤S1-S3,继续递归删除边缘性作者,当k=n时,删除Gauth.,n中被引次数等于n的作者及其引用关系,生成作者群体作者i在作者群体中的被引次数关系式为继续删除中不大于n的作者及其引用关系,并生成作者群体作者i在作者群体中的被引次数关系式为继续递归删除,直至生成作者群体作者i在作者群体中的被引次数关系式为且其中记作Gauth.,n+1,k=n层删除的作者组成作者群体为作者群体缩小为Gauth.,n+1,Gauth.,n+1含有作者数量为个,即为黄金引用作者,其中n、q为整数,且n≥0,q≥1;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth. ,n,其中n为整数,且n≥0;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0;
优选的,不大于某一设定值时,终止删除作者节点,作者群体收敛为Gauth.,n,其中n为整数,且n≥0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810769032.6A CN109063023B (zh) | 2018-07-13 | 2018-07-13 | 一种基于论文引用关系的黄金引用作者发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810769032.6A CN109063023B (zh) | 2018-07-13 | 2018-07-13 | 一种基于论文引用关系的黄金引用作者发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109063023A true CN109063023A (zh) | 2018-12-21 |
CN109063023B CN109063023B (zh) | 2019-06-11 |
Family
ID=64816488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810769032.6A Active CN109063023B (zh) | 2018-07-13 | 2018-07-13 | 一种基于论文引用关系的黄金引用作者发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063023B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883147A (zh) * | 2021-01-15 | 2021-06-01 | 上海柏观数据科技有限公司 | 一种基于知识关联的论文引用关联指标评估方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298579A (zh) * | 2010-06-22 | 2011-12-28 | 北京大学 | 面向科技文献的论文、作者和期刊排序模型及排序方法 |
CN103729432A (zh) * | 2013-12-27 | 2014-04-16 | 河海大学 | 一种引文数据库中主题文献学术影响力的分析与排序方法 |
CN104657488A (zh) * | 2015-03-05 | 2015-05-27 | 中南大学 | 一种基于引用传播网络的作者影响力计算方法 |
CN106126732A (zh) * | 2016-07-04 | 2016-11-16 | 中南大学 | 基于兴趣相似模型的作者影响力传播能力预测方法 |
-
2018
- 2018-07-13 CN CN201810769032.6A patent/CN109063023B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298579A (zh) * | 2010-06-22 | 2011-12-28 | 北京大学 | 面向科技文献的论文、作者和期刊排序模型及排序方法 |
CN103729432A (zh) * | 2013-12-27 | 2014-04-16 | 河海大学 | 一种引文数据库中主题文献学术影响力的分析与排序方法 |
CN104657488A (zh) * | 2015-03-05 | 2015-05-27 | 中南大学 | 一种基于引用传播网络的作者影响力计算方法 |
CN106126732A (zh) * | 2016-07-04 | 2016-11-16 | 中南大学 | 基于兴趣相似模型的作者影响力传播能力预测方法 |
Non-Patent Citations (1)
Title |
---|
李勇 等: "基于PageRank的机构科研影响力评价", 《医学信息学杂志》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883147A (zh) * | 2021-01-15 | 2021-06-01 | 上海柏观数据科技有限公司 | 一种基于知识关联的论文引用关联指标评估方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109063023B (zh) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109002524B (zh) | 一种基于论文引用关系的黄金引用作者排序方法 | |
Baeumer et al. | Tempered stable Lévy motion and transient super-diffusion | |
Chen et al. | Painlevé IV and degenerate Gaussian unitary ensembles | |
Nasution | Social network extraction based on Web: 1. Related superficial methods | |
JP7347179B2 (ja) | ウェブページ内容を抽出する方法、装置及びコンピュータプログラム | |
Aronshtam et al. | The threshold for d‐collapsibility in random complexes | |
Vizuete et al. | The Laplacian spectrum of large graphs sampled from graphons | |
Korycki et al. | Streaming decision trees for lifelong learning | |
Basor et al. | Some multidimensional integrals in number theory and connections with the Painlevé V equation | |
WO2016006276A1 (ja) | インデックス生成装置及びインデックス生成方法 | |
CN109063023B (zh) | 一种基于论文引用关系的黄金引用作者发现方法 | |
Ercolani | Caustics, counting maps and semi-classical asymptotics | |
Liao et al. | Sig‐Wasserstein GANs for conditional time series generation | |
CN108763328B (zh) | 一种基于黄金引用算法的论文推荐方法 | |
Unger et al. | A survey on innovative graph-based clustering algorithms | |
CN108920692B (zh) | 一种基于论文引用关系的作者排序方法 | |
Kulkarni et al. | Answering range queries under local differential privacy | |
McCaughan et al. | Multiplexed gradient descent: Fast online training of modern datasets on hardware neural networks without backpropagation | |
Wang et al. | Community detection in dynamic networks using constraint non-negative matrix factorization | |
Zhang et al. | A post-pruning decision tree algorithm based on Bayesian | |
Ayyer et al. | Exponential decay of correlations for randomly chosen hyperbolic toral automorphisms | |
Quanrud | Spectral sparsification of metrics and kernels | |
Clark et al. | Moments of the inverse participation ratio for the Laplacian on finite regular graphs | |
Dideriksen et al. | iVAE-GAN: Identifiable VAE-GAN Models for Latent Representation Learning | |
Zadeh et al. | Random manhattan indexing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |