CN104657488B

CN104657488B - 一种基于引用传播网络的作者影响力计算方法

Info

Publication number: CN104657488B
Application number: CN201510097738.9A
Authority: CN
Inventors: 龙军; 刘旭; 黄芳; 赵贵虎
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2015-03-05
Filing date: 2015-03-05
Publication date: 2016-03-02
Anticipated expiration: 2035-03-05
Also published as: CN104657488A

Abstract

本发明公开了一种基于引用传播网络的作者影响力计算方法，包括以下步骤：步骤1：建立引用关系网络和同事关系网络：基于论文公共信息数据库构造作者引用关系网络和同事关系网络；步骤2：建立引用传播网络：引用传播网络为作者引用关系网络和同事关系网络的融合网络；步骤3：基于引用传播网络计算作者的影响力Influence：计算公式为该基于引用传播网络的作者影响力计算方法得到的作者影响力指标更合理，且易于实施，计算简便。

Description

一种基于引用传播网络的作者影响力计算方法

技术领域

本发明涉及一种基于引用传播网络的作者影响力计算方法。

背景技术

近年来，分析与评估人或事的的影响力是社会关系网络理论与方法应用研究中的热点问题。对作者的影响力评估便是其中之一。传统的方法一般从作者发文数量，总被引用次数，被引用文章篇数等来度量。这些方法简单快速，但也十分粗糙，暗藏着不公平、不合理，使得评估结果备受争议。作者发文的数量固然能够在一定程度上反应其学术能力，然其发文质量也应该加以权衡。

传统的作者影响力评估方法一般从以下儿个方面来衡量：(1)用影响因子的概念来评定杂志的影响力，即用某杂志近两年发表的论文被引用的次数和该杂志近两年发表的论文总数的比值来确定杂志的影响因子，然而，这种通过度量杂志影响因子，从杂志整体质量侧面来度量论文质量去评估作者影响力的方法缺乏时效性。(2)将PageRank算法引入到论文引用网络中对论文以及期刊进行影响力评分从而对作者的影响力进行分析。一篇论文的PageRank值是由所有引用它的其他文章的重要性经过递归算法得到的，但是，新发表论文通常比旧论文应该更有创新性，虽然其被引用次数暂时不会很多，新论文的影响权重一般应比旧论文的影响权重更大。PageRank算法忽略了新论文的创新性价值，并且在大规模的引用网络中以递归思想为核心的PageRank算法的时间复杂度很高。另外，当某作者发表的论文不仅被与其近关系作者引用，同时还被与其关系远的作者引用，说明其影响力是很大的。所以，论文的影响力因素还应该考虑引用与被引用作者之间的关系的强弱和关系远近，这些都是以论文为主体的引用网络忽略了作者关系，这是传统的随机游走模型算法所欠缺的。

因此，有必要设计一种基于引用传播网络的作者影响力计算方法。

发明内容

本发明所要解决的技术问题是提供一种基于引用传播网络的作者影响力计算方法，该基于引用传播网络的作者影响力计算方法得到的作者影响力指标更合理，且易于实施，计算简便。

发明的技术解决方案如下：

一种基于引用传播网络的作者影响力计算方法，包括以下步骤：

步骤1：建立引用关系网络和同事关系网络：基于论文公共信息数据库构造作者引用关系网络和同事关系网络；

步骤2：建立引用传播网络：

引用传播网络为作者引用关系网络和同事关系网络的融合网络；

首先以引用关系网络为基础，遍历分析引用关系，然后，获取存在引用关系的作者之间存在的同事关系，按照引用关系双方的同事关系远近，计算引用传播网络中作者的引用传播距离；并整合到引用关系的属性值中，得到引用传播网络；

引用关系的属性值包括(1)作者k和j之间的引用传播距离值、(2)作者k和j之间的存在的论文引用记录以及(3)每一次引用的属性，即该次引用是自引用还是非自引用；

步骤3：基于引用传播网络计算作者的影响力Influence：

计算公式为

Influence = Σ (\frac{D_{sr}}{D_{s \max}} Σλi);

其中，λi为引用变量，若引用关系为自引用，则记λi为0.5，反之记为1；

D_sr表示在引用传播网络中作者引用关系的传播距离；

D_smax表示在引用传播网络中所有作者引用关系的传播距离中的最大值。

在论文公共信息数据库中提取论文信息，论文信息包括论文名、作者、作者机构、发表时间和参考文献，采用Neo4j图数据库进行存储获取的所述论文信息；若一篇文章与该文章引用的文章没有相同的作者，则该次引用为非自引用，若该2篇文章有共同的作者，即至少有一个作者相同，则该次引用为自引用；

通过以下cypher语句求得A和B两个作者之间的最短路径；

Startn＝node(“A”)，m＝node(“B”)matchp＝shortestPath(n-[r：coWorkRelation*..]-m)returnp；

p为最短路径；

如果最短路径p存在，则该2个作者在同事关系网络中的关系最短路径距离长度sprDistance＝p.length；

如果求得的最短路径不存在，即两作者之间在同事关系网络中不存在可达路径，那么记sprDistance＝-1；

最终形成作者关系距离关系表；

对作者关系距离关系表中的数据进行以下修正：

对取值为-1的所有sprDistance进行修正，即将-1修正为D_smax+1，D_smax为网络中的最大传播距离值，修正之后D_smax+1为整个网络中的最大传播距离值；公式

Influence = Σ (\frac{D_{sr}}{D_{s \max}} Σλi)

中的D_smax为修正后的值。

本发明的技术构思说明：

事实上，利用关系远近强弱来分析其他行为权重的思想在其它领域已有相关研究。如有研究通过建立了一个基于交易反馈系统和社会关系网络的团购推荐模型。以电商购物网络为主体，结合买家的社会关系网络，根据买家的朋友的关系强度，联合其朋友团购商品的交易反馈信息评分，度量商品推荐信任度，给予买家值得信任的团购推荐。该方法在一定程度上降低了反馈信息中商业间谍虚假评论对团购推荐值的影响，通过买家的社会关系网络，与买家关系近的其他买家的购物反馈评分获得更高的推荐权重，给予买家值得信任的团购推荐。其通过买家与朋友社会关系强度度量推荐信任值的方法，在通过作者引用关系评估作者影响力分析方法中值得借鉴。

作者的影响力应该从其发文的数量和质量两方面来度量。而文章的质量则应该考虑引文作者与撰写作者的关系远近：文章被与其作者关系越远的作者引用，其传播影响力越强。因此，本文综合分析引用次数和引用传播权重等因素，提出一种基于引用传播网络的作者影响力计算方法。

作者学术影响力传播网络是异质多样性关系网络。网络中包括，作者，论文，机构等节点，以及时间，不同关系类型，传播距离等属性。传统的异质多样性网络，是多种关系网络的集合。例如学术关系网络包括：作者和论文之间存在撰写关系，论文和论文之间存在引用关系，作者和机构之间有从属关系，作者和作者之间构成合著关系。在这些关系网络中，有多样的的节点类型和多元化的关系类型，网络结构抽象复杂，遍历计算，分析挖掘的复杂程度高。

因此，本发明提出一种基于引用传播网络的作者影响力分析算法，将论文引用网络和作者论文之间的撰写网络转换为作者与作者之间的引用关系网络；将作者机构从属关系网络，转换为作者与作者之间的同事关系网络。再通过融合引用关系网络和同事关系网络，建模引用传播网络。在引用传播网络的基础上综合分引用传播权重得到包含引用传播权重的影响力因子。从而更加准确快速，合理有效的对作者影响力进行测算。

论文公共信息数据库通常记录了论文的一些详细信息，如：论文名称，作者，作者所属机构，发表时间，参考文献，等。当前主流的论文数据库，甚至对文章的共引文献，同被引文献，引证文献，二级参考文献，二级引证文献等各个属性都有一定程度的挖掘分析。然而这些信息并没能形成一套系统的，可以更方便，直观的供研究者进行研究的数据模型。因此，本发明在论文公共信息数据库中提取论文名，作者，作者机构，发表时间，参考文献，等基本的论文信息，采用Neo4j图数据库进行存储。例如：从论文公共信息中整理得到的论文信息记录如下：

表1论文信息记录表

将上述论文信息存入到Neo4j数据库中，其在数据库中的数据表现为从节点类型，同时在论文信息中抽取出作者信息和机构信息分别存储为主节点类型和从节点类型。然后根据论文信息中的参考文献，建立论文之间的引用关系网络。并将论文作者，是否自引用，引用时间(引用时间即为引文的发表时间)等信息，当作关系属性存入论文引用网络，如下表所示：“算法a”引用“算法b”，且两篇文章没有相同的撰写作者，因此这种引用为非自引用关系，此处记录flag＝0；而“算法a”引用“算法c”，两文有共同的作者“张三”，则该次引用为自引用，则记录为flag＝1；

引用关系属性表示为表格形式如下所示：

表2论文引用关系网络关系信息详情

论文引用关系示意图如图1所示。

然后，由作者和论文之间的撰写网络，结合上述表格表示的论文引用网络，进行转换，得到作者之间的引用关系。建立作者之间的引用关系网络；作者引用关系信息数据表示为表3所示，detail信息中包含了构成作者引用关系的所有论文引用信息。

表3作者引用网络关系信息详情

作者引用关系网络的建立过示意图如图2所示。

接着，根据作者与机构之间的从属网络进行超图转换，建立作者之间的同事关系网络，关系信息数据表示为表格形式如下所示：

表4作者同事关系网络关系信息详情

如上表所示：“李四”和“张三”之间，因为二者都曾经在“精英大学”工作，于是构成了二者之间的同事关系，将所有作者的该类情况都遍历分析一遍，即建立了作者同事关系网络。由作者-机构从属关系网络转换为作者同事关系网络过程示意如图3所示。

步骤2的具体步骤为：

首先遍历作者引用关系网络，如：得到作者“王二”和作者“李四”之间引用关系R_authorCite；获取构成二人之间引用关系的详情“detail”信息内容为“{sourceFile：″算法a″，targetFile：″算法b″，flag：0，citeTime：″2012/1/1″}”和“{sourceFile：″算法a″，targetFile：″算法c″，flag：1，citeTime：″2012/1/1″}”。

然后再获取作者“王二”到作者“李四”在同事关系网络中的关系最短路径距离长度；本发明采用的是Neo4j数据库对网络节点和关系进行存储，可以通过以下cypher语句求得最短路径：

Startn＝node(“王二”)，m＝node(“李四”)matchp＝shortestPath(n-[r：coWorkRelation*..]-m)returnp

遍历所求最短路径的组成节点，计算节点数，求得最短距离，即“王二”与“李四”在同事关系网络中的关系最短路径距离长度sprDistance＝p.length。如果求得的最短路径p不存在，即两作者之间在同事关系网络中不存在可达路径，那么记sprDistance＝-1。

最后，融合作者引用关系网络和同事关系网络的融合网络，即在引用关系属性中融入同事关系距离，同构成作者引用关系的论文引用详情“detail”信息综合起来，建立引用传播网络，其引用传播关系信息数据表示为表格形式如下所示：

表5引用传播网络关系信息详情

融合引用关系网络和同事关系网络，即以引用网络为基础，将存在引用关系的作者之间的同事关系距离融合到引用网络中，生成引用传播网络。建立引用传播网络示意图如图3所示：其中xi表示引用关系的详情，yi表示同事关系的详情。

步骤3的具体步骤为：

整合计算修正的作者影响力：分析作者的论文自引用，引用次数和引用传播距离等情况，分别计算各对作者引用关系的引用传播权重，在求和各对引用关系的引用传播权重，计算作者引用传播影响力Influence。例如作者“李四”的影响力表示为引用了“李四”的全部引用关系权重和，即得到作者基于引用传播网的的引用影响力。计算公式如下：

Influence = Σ (\frac{D_{sr}}{D_{s \max}} Σλi)

其中D_sr表示在引用传播网络中作者引用关系的传播距离sprDistance。而根据本发明的思想，论文被越远关系的作者引用，其传播影响力越大。D_sr/D_smax是对引用传播距离进行归一化处理，方便不同规模的引用传播网络之间算得的作者影响力具有可比性。特别说明：当sprDistance＝-1时，表示作者“李四”和作者A_x是不可到达的，那么该两者之间的传播距离为其所在关系网络中的最大传播距离值加1。式中λi为引用变量，若引用关系为自引用，则记λi为0.5，反之记为1，∑λi记录构成作者引用关系的多次论文引用关系引用加权和，所加权重即为引用变量的值。这样所求得的Influence即为本发明所提出的基于引用传播网络的作者影响力。

引用传播网络中作者之间的引用关系为：R_spr(sourceAuthor，targetAuthor，detail{{sourcePaper，targetPaper，citeTime，isSelfCite}}，sprDistance)。其中sourceAuthor表示引文作者，targetAuthor表示论文作者，detail中包含构成论文作者和引文作者引用关系的详细信息：sourcePaper为引文，targetPaper为论文，citeTime为引用时间，isSelfCite为是否为自引用标识，sprDistance为引用传播距离。

然后，分析作者的论文自引用，引用次数和引用传播距离等情况，得到影响力传播因子，计算作者影响力度量值Influence。例如作者“李四”的影响力表示为引用了“李四”的全部引用关系权重和，即得到作者修正的引用影响力。计算公式如下：

Influence = Σ (\frac{D_{sr}}{D_{s \max}} Σλi)

其中D_sr表示在引用传播网络中作者引用关系的传播距离sprDistance。D_smax表示在引用传播网络中所有作者引用关系的传播距离的最大值。而根据本发明的思想，论文被越远关系的作者引用，其传播影响力越大。D_srD_smax是对引用传播距离进行归一化处理，方便不同规模的引用传播网络之间算得的作者影响力具有可比性。特别说明：当sprDistance＝-1时，表示作者“李四”和作者A_x是不可到达的，那么该两者之间的传播距离为其所在关系网络中的最大传播距离值加1。式中λi为引用变量，若引用关系为自引用，则记λi为0.5，反之记为1。该计算公式表明，作者“李四”的影响力，是多位引用“李四”论文的作者与“李四”之间的引用传播权重之和。上式所求得的Influence即为本发明所提出的基于引用传播网络的作者影响力计算值。

有益效果：

本发明针对传统作者影响力分析算法的缺陷，提出一种基于引用传播网络的作者影响力计算方法，分析计算论文作者的影响力，改良传统方法中的不足。如：

(1)H因子，W因子以被引文章的数量来衡量作者影响力粗糙不准确；

(2)作者发表论文所在杂志的IF影响因子，侧面衡量作者影响力，缺乏时效性；

(3)PageRank算法通过所有引用某篇文章的的其他文章的重要性经过递归计算求得，时间复杂度高，且随引用关系网络规模的增大，成倍增长；

传统的作者影响力分析方法，忽略了论文作者和引文作者之间的学术关系。实质上论文作者和引文作者的关系远近是分析作者影响力中长期忽略的问题。当下主流的论文数据库，一般都只考虑自引用对于影响力评估的影响，但实际上，自引用是本发明提出通过虑论文作者和引文作者的关系远近分析作者影响力的方法的一种特例。自引用即关系近的作者之间发生了引用行为，这种近关系的引用行为，对于引用权重的评分相对获取较低的权重。本发明提出一种基于引用传播网络的作者影响力计算方法，挖掘建立引用传播网络，综合考虑被引次数，自引用权重和传播权重，准确，实时，快速的对作者影响力进行分析。

本发明的方法首先通过分析挖掘论文公共信息数据库，将提取到的作者论文撰写网络，论文引用网络和同事关系网络进行分析转换，得到作者引用关系网络和作者同事关系网络。并通过建模融合这两种关系网络得到作者引用传播网络。然后在此引用传播网络的基础上，综合分析作者的论文自引用，引用次数和引用传播距离等情况，得到影响力传播因子，计算作者影响力度量值。

该方法在分析计算作者影响力的过程中，综合考虑了作者论文被引用次数和引用作者与被测算作者的关系距离等因素对作者影响力的影响；在很大程度上消除了包括自引用，“近亲”引用对作者影响力评估带来的不公平，不合理现象。有效的解决了作者影响力评估过程中存在的分歧与不公，以及在算法时间复杂度与实时计算上得到了很大程度的优化。

相比于传统的影响力分析算法，本发明提出的方法综合考虑作者论文被引用次数，自引用次数，以及引用作者之间的关系远近，从“质”和“量”的层面更全面的计算作者影响力。降低了“近亲”引用现象的学术造假的影响。

相较于H因子，W因子等粗粒度的分析作者影响力，不能细致的区分不同作者的学术能力情况。本发明提出的方法，能准确的计算作者的影响力，更公平的给作者论文被引用情况评分。

相较于PageRank，HITS算法等递归算法，执行时间复杂度高的弊端，本发明提出的作者影响力计算方法，算法时间复杂度低，能更快速，准确的计算作者影响力。

附图说明

图1为论文引用关系示意图；

图2为作者引用关系网络建模示意图；

图3为作者同事关系网络建立过程示意图；

图4为建立引用传播网络示意图；

图5为作者引用关系示意图

图6为作者同事关系网络拓扑图

图7为主流程图；

图8为基于时态引用传播网络的作者影响力测度流程图；

图9为实施例流程图。

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明：

实施例1：一种基于引用传播网络的作者影响力计算方法，包括以下步骤：步骤1：建立引用关系网络和同事关系网络：基于论文公共信息数据库构造作者引用关系网络和同事关系网络；

步骤2：建立引用传播网络：

步骤3：基于引用传播网络计算作者的影响力Influence：

计算公式为

Influence = Σ (\frac{D_{sr}}{D_{s \max}} Σλi);

D_sr表示在引用传播网络中作者引用关系的传播距离；

在论文公共信息数据库中提取论文信息，论文信息包括论文名、作者、作者机构、发表时间和参考文献，采用Neo4i图数据库进行存储获取的所述论文信息；若一篇文章与该文章引用的文章没有相同的作者，则该次引用为非自引用，若该2篇文章有共同的作者，即至少有一个作者相同，则该次引用为自引用；

通过以下cypher语句求得A和B两个作者之间的最短路径；

p为最短路径；

最终形成作者关系距离关系表；

对作者关系距离关系表中的数据进行以下修正：

Influence = Σ (\frac{D_{sr}}{D_{s \max}} Σλi)

中的D_smax为修正后的值。

本发明的主要步骤如下：

作者引用关系网络和同事关系网络的建立

首先，从论文公共数据库中提取论文信息，整理成EXCEL形式导入数据库。论文信息包括：论文名称，作者，作者所属机构，发表时间，参考文献，等。下表为实施例导入的从公共论文信息数据库中提取出的数据信息：

表6论文信息记录表

然后，根据论文信息中的参考文献情况，建立论文引用网络，下表为所建论文引用网络的论文引用关系的矩阵表现形式。

	算法1	算法2	算法3	算法4
					算法1	flag：0，2014/1/1	flag：1，2014/1/1	flag：0，2014/1/1
算法2			flag：0，2009/1/1	flag：1，2009/1/1
					算法3			flag：1，2000/1/1
算法4

表7论文引用关系网络关系信息详情

表格内容可以表示论文之间的引用关系r_{算法1-＞算法2}＝{flag：0，2014/1/1}。其值记录论文引用关系属性，即：算法1引用算法2，是发生在引用时间为2014年1月1日的常规引用(非自引用)。判断是否为自引用，依据为：论文撰写者至少一位作者是被引文的撰写者，那么该次论文引用为自引用。反之，为非自引用。

再结合作者论文撰写网络进行分析转换，建立作者与引文作者之间的作者引用关系网络，并存入数据库中。

以计算作者“老三”对于“老六”的引用关系为例。“老三”于2014年1月1日，在“算法1”一文中分别引用了“老六”的文章“算法3”和“算法4”，且对于“算法3”的引用为自引用。图5为作者引用关系示意图。

下表为本实施例的作者引用关系关系网络的矩阵表现形式。其中矩阵内的值为构成作者引用关系的论文引用信息：如：“老大”与“老四”之间表格内r_{算法1-＞算法} ₂表示：构成作者“老大”与“老四”引用关系是由“算法1”引用“算法2”的论文引用关系构成的；若作者引用关系由他们所撰写的多篇论文之间的引用关系构成的，多篇论文引用信息用逗号开表示。

表8作者引用关系网络关系属性详情

最后根据作者与机构之间的从属关系网络进行超图转置，再挖掘分析作者之间存在的同事关系，在同一机构工作过的作者之间建立同事关系，最终完成作者之间同事关系网络的建立。其同事关系网络结构可视化展示图参见图6.

引用传播网络的建立

融合作者引用关系网络和同事关系网络，即实现引用关系和学术关系融合到引用传播网络的建模。

首先，在作者引用关系网络中获取作者之间的引用关系。如表8中描述的作者引用关系网络的矩阵表示，根据作者引用关系的节点对，计算两作者在同事关系网络中的最短距离。如计算作者“李四”与“王二”在同事关系网络中的最短距离，在Neo4j图数据库中可用cypher查询语句求得二人之间的最短路径：

Startn＝node(“老大”)，m＝node(“李三”)matchp＝shortestPath(n-[r：coWorkRelation*..]-m)returnp

遍历所求最短路径p的组成节点，计算节点数，求得最短距离p.length，即“老大”与“三”在同事关系网络中的关系最短路径距离长度sprDistance＝p.length＝2。如果二人之间是不可达的，如“老三”与“老二”之间没有连通路径的，即最短路径p不存在，那么记sprDistance＝-1。

通过上述步骤计算作者同事关系网络中的作者之间最短关系距离，结果如下表所示：

表9作者关系距离关系表

然后，最后，融合作者引用关系网络和同事关系网络，即将求得的同事关系距离Co-workDistance(此处以同事关系距离作为引用传播距离sprDistance)与引用传播距与构成作者引用关系的论文引用详情“detail”信息综合起来，建立引用传播网络，网络中的引用传播关系的矩阵表现形式如下表所示：

表10作者引用传播网络关系详情表

作者影响力的计算

基于时态引用传播网络的作者影响力测度方法，测算过程如下：

首先，对引用关系的传播距离预处理。若作者之间sprDis为-1，即有引用关系的作者之间在作者同事关系网络中是不可达的。则处理方式为：在同事关系网络中不可达作者之间的传播距离为网络中的最大传播距离值加1：

D_si＝D_smax+1

因此，本例中Dsr＝-1的情况，全部修正为sprDis＝4。根据引用关系传播距离预处理结果如下表：

表11作者引用关系传播权重表

然后，对传播距离做归一化处理，处理公式如下：

D_{si}^{'} = \frac{D_{si}}{D_{s \max}}

根据上述公示，得到归一化后的传播权重如下表所示：

表12归一化处理后的传播权重表

接着，计算作者的影响力。根据本发明提出的作者影响力计算公式：

Influence = Σ (\frac{D_{sr}}{D_{s \max}} Σλi)

需分别计算没对作者引用关系关系之间的引用传播影响力，如：计算作者“老五”对于“老大”的引用传播影响力力过程如下：

同理，根据公式可算得其他作者之间的引用关系传播影响权重：如表13所示：

表13修正的引用影响力权重表

最后，作者的引用影响力为该作者对引用传播网络中其他作者的引用影响力之和。因此，以计算网络中作者“老大”的引用影响力为例，先找出引用传播网络中的全部引用对象为“老大”关系。将这些关系的修正的引用影响力累加，即“老大”在引用传播网络中的引用影响力。计算如下：

Influence_(老大)＝∑W_mi

＝W_{m(老二-＞老大)}+W_{m(老三-＞老大)}+W_{m(老四-＞老大)}+W_{m(老五-＞老大)}

＝0.5+0.25+0.25+0.25

＝1.25

同理，可计算引用传播网络中其他的作者影响力，过程如下：

Influence_(老二)＝∑W_mi＝0

Influence_(老三)＝∑W_mi＝0

Influence_(老四)＝∑W_mi

＝W_{m(老大-＞老四)}+W_{m(老二-＞老四)}+W_{m(老三-＞老四)}

＝0.25+1.+0.5

＝1.75

Influence_(老五)＝∑W_mi

＝W_{m(老大-＞老五)}+W_{m(老二-＞老五)}+W_{m(老三-＞老五)}+W_{m(老四-＞老五)}+W_{m(老六-＞老五)}

＝0.625+2+0.5+0.125+0.25

＝3.5

Influence_(老六)＝∑W_mi

＝W_{m(老大-＞老六)}+W_{m(老二-＞老六)}+W_{m(老三-＞老六)}+W_{m(老四-＞老六)}+W_{m(老五-＞老六)}

＝0.5+1.5+1.125+0.75+0.75

＝4.625

传统的作者影响力评估指标，一般基于作者论文的总被引次数，评价作者影响力。如万方数据库，统计作者总发文量，总被引次数，自引用次数，H因子等测算方式对作者影响力进行评价。忽略引用作者双方的关系远近和强弱，造成影响力分析评价的不准确，不合理。本发明提出的传播影响力因子对作者论文的引用的传播价值表现为：被越远关系的作者引用，其学术影响力的传播范围越广，影响力越大。对比传统影响力评估方法和本发明提出的传播网络的作者影响力测度方法，结果如下表所示：

表14作者影响力评估对比表

如上表所示，相较于传统影响力计算方法，如H指数，算得的作者“老大”，“老四”，“老五”的H指数都为1，而根据各个作者的论文被引用的具体情况，虽然“老大”的被引用次数(1.5)多于“老四”的被引用次数(1)，但是引用“老四”论文的作者，与老四之间的关系距离远，避开了“近亲”引用的情况，其引用传播范围更广，所以综合的传播影响力得分高于“老大”。根据本发明提出的作者影响力度量方法，我们综合考虑引文次数，自引用情况，引用作者之间的关系远近，从作者论文的“质”和“量”两个层门全面的分析计算作者影响力。作者论文被引用次数越多，自引用次数越少，引用作者双方的关系距离越远，作者的影响力越大。

Claims

1.一种基于引用传播网络的作者影响力计算方法，其特征在于，包括以下步骤：

步骤2：建立引用传播网络：

步骤3：基于引用传播网络计算作者的影响力Influence：

计算公式为

I n f l u e n c e = Σ (\frac{D_{s r}}{D_{s m a x}} Σ λ i);

D_sr表示在引用传播网络中作者引用关系的传播距离；

D_smax表示在引用传播网络中所有作者引用关系的传播距离中的最大值；

在论文公共信息数据库中提取论文信息，论文信息包括论文名、作者、作者机构、发表时间和参考文献，采用Neo4j图数据库进行存储获取的所述论文信息；

若一篇文章与该文章引用的文章没有相同的作者，则该次引用为非自引用，若该2篇文章有共同的作者，即至少有一个作者相同，则该次引用为自引用；

通过以下cypher语句求得A和B两个作者之间的最短路径；

Startn＝node(“A”)，m＝node(“B”)matchp＝shortestPath(n-[r:coWorkRelation*..]-m)returnp；

p为最短路径；

最终形成作者关系距离关系表；

对作者关系距离关系表中的数据进行以下修正：

I n f l u e n c e = Σ (\frac{D_{s r}}{D_{s m a x}} Σ λ i)

中的D_smax为修正后的值。