CN109376236A

CN109376236A - 一种基于聚类分析的学术论文作者权重分析方法

Info

Publication number: CN109376236A
Application number: CN201810845723.XA
Authority: CN
Inventors: 陆遥; 王天辰
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2019-02-22
Anticipated expiration: 2038-07-27
Also published as: CN109376236B

Abstract

本发明涉及学术论文作者的权重分析，更具体地，涉及一种基于聚类分析的学术论文作者权重分析方法。本发明的评分算法中第一作者评分加入了作者引用关系网络G，使用node2vec对作者引用关系网络G进行建模得到作者的词向量表达，再使用引用关系和节点间余弦相似度对学者学术评分进行加权，得到最终评分；后经实验论证发现本文得到的评分指标在和h‑index有较高相关性的同时，能一定程度上弱化h‑index的部分缺陷；并且再根据作者的词向量表达进行聚类，从而得到作者所属类别以及各个类别的中心，即将作者划分到不同细分领域。通过比较作者的向量和各个聚类中心的距离，计算在各个领域内的相对评分。

Description

一种基于聚类分析的学术论文作者权重分析方法

技术领域

本发明涉及学术论文作者的权重分析，更具体地，涉及一种基于聚类分析的学术论文作者权重分析方法。

背景技术

当前对学者学术水平评价指标主要采用h-index算法，h-index的成功在于该指数构建上的一个基本假设，即认为论文的水平可以很大程度上反映学者的学术水平，且学者发表的论文质量的重要程度应当高于其发表的论文的数量的重要程度。h-index的成功正是建立在这样有洞察力的基础上，可是由于其相对简单的设计使得该方法有一部分天然缺陷，比如说对时间变量不敏感，无法检测考虑到学者随时间变化的活跃程度；对作者在论文中的署名次序不敏感，无法分别一篇论文中作者的贡献大小(这点对学者学术权重评价有重要意义)；对不同领域的评分取值无法统一，往往会出现在一个领域学者普遍h-index值都偏高，一个领域学者普遍h-index偏低的情况，这样在跨领域的作者评价问题中就会造成很大误差。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于聚类分析的学术论文作者权重分析方法。

为解决上述技术问题，本发明采用的技术方案是：

一种基于聚类分析的学术论文作者权重分析方法，具体包括以下步骤：

S1：获取数据库中的作者论文相关数据；

S2：根据作者论文引用关系构建作者引用关系数据；

S3：对步骤S1中输入的所有论文使用提出的计算单篇论文评分的方法进行评分；

S4：对步骤S2中的引用关系是用networkx模块构建作者引用关系网络G；

S5：使用步骤S3中计算得到的论文评分和步骤S4中的作者引用关系网络G，对不同作者的分数求和得到作者第一评分；

步骤S5具体包括：针对论文a和论文b，可以定义两者的影响关系为：

当论文a引用论文b时，σ(a，b)＝1，否则σ(a，b)＝0；其中y_a，y_b是论文a和b的发表时间，当一篇论文引用多篇论文时，论文a的评分应当是：

另外，为了在一篇文章中体现出不同作者的贡献程度的不同，我们依照作者的名称排序，给予不同的作者不同的作者第一评分Sx，具体公式如下

其中，求和符号右边的式子代表了论文a的第n个作者的评分，r是作者重要性的衰减系数设定为0.7，Ω_i是作者i发表的文章的集合；

S6：对步骤S4中得到的作者引用关系网络G使用node2vec进行计算，得到作者的词向量表达f(v_i)；

S7：对由步骤S5中所得的作者第一评分S_i和步骤S6中作者词向量表达进行作者评分的更新，得到作者第二评分S_ii，更新公式为：

S_ii＝S_i+∑_j|f(v_i)，f(v_j)|_d*S_j*r；

其中，这里j取作者引用关系网络G中所有指向节点i的节点，意味着作者j引用了作者i，|x，y|_d使用的余弦相似性，f(v_i)是作者i的node2vec后的词向量表达，r为缩小系数；

S8：对得到的作者词向量表达进行KMeans聚类，得到不同的研究领域和各个领域的中心学者，并且将各个作者都划分到若干个不同的领域k1，k2，k3；

S9：使用各个作者的词向量和各个聚类中心比较余弦相似性，计算得到作者在特定领域内的相对评分。

与现有技术相比，本发明的有益效果是：

本发明解决了h-index的部分缺陷，主要解决了h-index对时间变量不敏感，无法检测考虑到学者随时间变化的活跃程度；其次解决了对作者在论文中的署名次序不敏感，无法分别一篇论文中作者的贡献大小的问题；另外，解决了对不同领域的评分取值无法统一，往往会出现在一个领域学者普遍h-index值得偏高，一个领域学者普遍h-index偏低而造成的跨领域的作者评价问题中就会造成很大误差的问题。这些问题在特定场景中不能忽略，因此有必要提出新的评价指标用于合理公正的评价学者的实际学术水平。

本发明的评分算法所需要的信息仅需要学者发表的论文，通过论文构建起来的数据库就可以得到学者间的相互引用网络而不需要添加其他信息，在这一点上信息的获取就变的相对容易。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

实施例

图1为本发明一种基于聚类分析的学术论文作者权重分析方法的第一实施例，一种基于聚类分析的学术论文作者权重分析方法包括以下步骤：

S1：获取数据库中的作者论文相关数据。

S2：根据作者论文引用关系构建作者引用关系数据。

S3：对步骤S1中输入的所有论文使用提出的计算单篇论文评分的方法进行评分。

S4：对步骤S2中的引用关系是用networkx模块构建作者引用关系网络G。

依照作者的名称排序，给予不同的作者不同的作者第一评分S_i，具体公式如下

其中，求和符号右边的式子代表了论文a的第n个作者的评分，r是作者重要性的衰减系数设定为0.7，Ω_i是作者i发表的文章的集合。

S6：对步骤S4中得到的作者引用关系网络G使用node2vec进行计算，得到作者的词向量表达f(v_i)。

S7：对由步骤S5中所得的作者第一评分Si和步骤S6中作者词向量表达进行作者评分的更新，得到作者第二评分S_ii，更新公式为：

S_ii＝S_i+∑_j|f(v_i)，f(v_j)|_d*S_j*r；

其中，这里j取作者引用关系网络G中所有指向节点i的节点，意味着作者j引用了作者i，|x，y|_d使用的余弦相似性，f(v_i)是作者i的node2vec后的词向量表达，r为缩小系数。

在本实施例中，步骤S1至步骤S7为第一个阶段：学者绝对学术评分计算。这一阶段的任务是计算出学者的绝对评分，即不分领域对其分数进行考量。首先从记录有论文详细信息的数据库中抽取出作者姓名，作者次序，文章发表年份，文章的引用信息；利用上面的信息首先根据本发明的算法计算出各个论文中不同作者在当前的相互引用关系，从中抽取出作者间的引用关系，得到作者引用关系网络G，其中作者引用关系网络G中的节点代表学者，每条边代表一个引用关系，比如说有边a-＞b，则代表作者a引用作者b。对作者引用关系网络G使用node2vec计算出学者的向量表达，利用引用关系对上面得到的作者评分进行加权，得到更新后的学者评分。

在本实施例中，步骤S8至S9为第二个阶段：学者在各细分领域的相对学术评分计算。这一阶段的任务主要是根据node2vec计算出的作者聚类结果进行不同领域内的学者学术评分计算。首先是通过KMeans算法对学者向量进行聚类，得到聚类中心和各个作者的类别。其中聚类中心即代表了在某个领域最有代表性的学者，为了计算学者在领域内的相对评分，本发明使用的方法是比较聚类中心和需要计算评分的学者的相似程度，再通过加权计算出需要计算评分的作者在某个领域内的评分。这样做的目的主要是消除h-index这种统一评分中在不同领域造成的评分取值区间差异过大的问题，并且给一个学者在不同领域的评分同样在现实中有广泛的应用场景。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于聚类分析的学术论文作者权重分析方法，其特征在于，具体包括以下步骤：

S1：获取数据库中的作者论文相关数据；

S2：根据作者论文引用关系构建作者引用关系数据；

S_ii＝S_i+∑_j|f(v_i)，f(v_j)|_d*S_j*r；

其中，这里j取作者引用关系网络G中所有指向节点i的节点，意味着作者j引用了作者i，|x，y|_d使用的余弦相似性，i(v_i)是作者i的node2vec后的词向量表达，r为缩小系数；