CN109376236A - 一种基于聚类分析的学术论文作者权重分析方法 - Google Patents
一种基于聚类分析的学术论文作者权重分析方法 Download PDFInfo
- Publication number
- CN109376236A CN109376236A CN201810845723.XA CN201810845723A CN109376236A CN 109376236 A CN109376236 A CN 109376236A CN 201810845723 A CN201810845723 A CN 201810845723A CN 109376236 A CN109376236 A CN 109376236A
- Authority
- CN
- China
- Prior art keywords
- author
- paper
- scoring
- term vector
- scholar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims description 6
- 238000011160 research Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及学术论文作者的权重分析,更具体地,涉及一种基于聚类分析的学术论文作者权重分析方法。本发明的评分算法中第一作者评分加入了作者引用关系网络G,使用node2vec对作者引用关系网络G进行建模得到作者的词向量表达,再使用引用关系和节点间余弦相似度对学者学术评分进行加权,得到最终评分;后经实验论证发现本文得到的评分指标在和h‑index有较高相关性的同时,能一定程度上弱化h‑index的部分缺陷;并且再根据作者的词向量表达进行聚类,从而得到作者所属类别以及各个类别的中心,即将作者划分到不同细分领域。通过比较作者的向量和各个聚类中心的距离,计算在各个领域内的相对评分。
Description
技术领域
本发明涉及学术论文作者的权重分析,更具体地,涉及一种基于聚类分析的学术论文作者权重分析方法。
背景技术
当前对学者学术水平评价指标主要采用h-index算法,h-index的成功在于该指数构建上的一个基本假设,即认为论文的水平可以很大程度上反映学者的学术水平,且学者发表的论文质量的重要程度应当高于其发表的论文的数量的重要程度。h-index的成功正是建立在这样有洞察力的基础上,可是由于其相对简单的设计使得该方法有一部分天然缺陷,比如说对时间变量不敏感,无法检测考虑到学者随时间变化的活跃程度;对作者在论文中的署名次序不敏感,无法分别一篇论文中作者的贡献大小(这点对学者学术权重评价有重要意义);对不同领域的评分取值无法统一,往往会出现在一个领域学者普遍h-index值都偏高,一个领域学者普遍h-index偏低的情况,这样在跨领域的作者评价问题中就会造成很大误差。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于聚类分析的学术论文作者权重分析方法。
为解决上述技术问题,本发明采用的技术方案是:
一种基于聚类分析的学术论文作者权重分析方法,具体包括以下步骤:
S1:获取数据库中的作者论文相关数据;
S2:根据作者论文引用关系构建作者引用关系数据;
S3:对步骤S1中输入的所有论文使用提出的计算单篇论文评分的方法进行评分;
S4:对步骤S2中的引用关系是用networkx模块构建作者引用关系网络G;
S5:使用步骤S3中计算得到的论文评分和步骤S4中的作者引用关系网络G,对不同作者的分数求和得到作者第一评分;
步骤S5具体包括:针对论文a和论文b,可以定义两者的影响关系为:
当论文a引用论文b时,σ(a,b)=1,否则σ(a,b)=0;其中ya,yb是论文a和b的发表时间,当一篇论文引用多篇论文时,论文a的评分应当是:
另外,为了在一篇文章中体现出不同作者的贡献程度的不同,我们依照作者的名称排序,给予不同的作者不同的作者第一评分Sx,具体公式如下
其中,求和符号右边的式子代表了论文a的第n个作者的评分,r是作者重要性的衰减系数设定为0.7,Ωi是作者i发表的文章的集合;
S6:对步骤S4中得到的作者引用关系网络G使用node2vec进行计算,得到作者的词向量表达f(vi);
S7:对由步骤S5中所得的作者第一评分Si和步骤S6中作者词向量表达进行作者评分的更新,得到作者第二评分Sii,更新公式为:
Sii=Si+∑j|f(vi),f(vj)|d*Sj*r;
其中,这里j取作者引用关系网络G中所有指向节点i的节点,意味着作者j引用了作者i,|x,y|d使用的余弦相似性,f(vi)是作者i的node2vec后的词向量表达,r为缩小系数;
S8:对得到的作者词向量表达进行KMeans聚类,得到不同的研究领域和各个领域的中心学者,并且将各个作者都划分到若干个不同的领域k1,k2,k3;
S9:使用各个作者的词向量和各个聚类中心比较余弦相似性,计算得到作者在特定领域内的相对评分。
与现有技术相比,本发明的有益效果是:
本发明解决了h-index的部分缺陷,主要解决了h-index对时间变量不敏感,无法检测考虑到学者随时间变化的活跃程度;其次解决了对作者在论文中的署名次序不敏感,无法分别一篇论文中作者的贡献大小的问题;另外,解决了对不同领域的评分取值无法统一,往往会出现在一个领域学者普遍h-index值得偏高,一个领域学者普遍h-index偏低而造成的跨领域的作者评价问题中就会造成很大误差的问题。这些问题在特定场景中不能忽略,因此有必要提出新的评价指标用于合理公正的评价学者的实际学术水平。
本发明的评分算法所需要的信息仅需要学者发表的论文,通过论文构建起来的数据库就可以得到学者间的相互引用网络而不需要添加其他信息,在这一点上信息的获取就变的相对容易。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例
图1为本发明一种基于聚类分析的学术论文作者权重分析方法的第一实施例,一种基于聚类分析的学术论文作者权重分析方法包括以下步骤:
S1:获取数据库中的作者论文相关数据。
S2:根据作者论文引用关系构建作者引用关系数据。
S3:对步骤S1中输入的所有论文使用提出的计算单篇论文评分的方法进行评分。
S4:对步骤S2中的引用关系是用networkx模块构建作者引用关系网络G。
S5:使用步骤S3中计算得到的论文评分和步骤S4中的作者引用关系网络G,对不同作者的分数求和得到作者第一评分;
步骤S5具体包括:针对论文a和论文b,可以定义两者的影响关系为:
当论文a引用论文b时,σ(a,b)=1,否则σ(a,b)=0;其中ya,yb是论文a和b的发表时间,当一篇论文引用多篇论文时,论文a的评分应当是:
依照作者的名称排序,给予不同的作者不同的作者第一评分Si,具体公式如下
其中,求和符号右边的式子代表了论文a的第n个作者的评分,r是作者重要性的衰减系数设定为0.7,Ωi是作者i发表的文章的集合。
S6:对步骤S4中得到的作者引用关系网络G使用node2vec进行计算,得到作者的词向量表达f(vi)。
S7:对由步骤S5中所得的作者第一评分Si和步骤S6中作者词向量表达进行作者评分的更新,得到作者第二评分Sii,更新公式为:
Sii=Si+∑j|f(vi),f(vj)|d*Sj*r;
其中,这里j取作者引用关系网络G中所有指向节点i的节点,意味着作者j引用了作者i,|x,y|d使用的余弦相似性,f(vi)是作者i的node2vec后的词向量表达,r为缩小系数。
在本实施例中,步骤S1至步骤S7为第一个阶段:学者绝对学术评分计算。这一阶段的任务是计算出学者的绝对评分,即不分领域对其分数进行考量。首先从记录有论文详细信息的数据库中抽取出作者姓名,作者次序,文章发表年份,文章的引用信息;利用上面的信息首先根据本发明的算法计算出各个论文中不同作者在当前的相互引用关系,从中抽取出作者间的引用关系,得到作者引用关系网络G,其中作者引用关系网络G中的节点代表学者,每条边代表一个引用关系,比如说有边a->b,则代表作者a引用作者b。对作者引用关系网络G使用node2vec计算出学者的向量表达,利用引用关系对上面得到的作者评分进行加权,得到更新后的学者评分。
S8:对得到的作者词向量表达进行KMeans聚类,得到不同的研究领域和各个领域的中心学者,并且将各个作者都划分到若干个不同的领域k1,k2,k3;
S9:使用各个作者的词向量和各个聚类中心比较余弦相似性,计算得到作者在特定领域内的相对评分。
在本实施例中,步骤S8至S9为第二个阶段:学者在各细分领域的相对学术评分计算。这一阶段的任务主要是根据node2vec计算出的作者聚类结果进行不同领域内的学者学术评分计算。首先是通过KMeans算法对学者向量进行聚类,得到聚类中心和各个作者的类别。其中聚类中心即代表了在某个领域最有代表性的学者,为了计算学者在领域内的相对评分,本发明使用的方法是比较聚类中心和需要计算评分的学者的相似程度,再通过加权计算出需要计算评分的作者在某个领域内的评分。这样做的目的主要是消除h-index这种统一评分中在不同领域造成的评分取值区间差异过大的问题,并且给一个学者在不同领域的评分同样在现实中有广泛的应用场景。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (1)
1.一种基于聚类分析的学术论文作者权重分析方法,其特征在于,具体包括以下步骤:
S1:获取数据库中的作者论文相关数据;
S2:根据作者论文引用关系构建作者引用关系数据;
S3:对步骤S1中输入的所有论文使用提出的计算单篇论文评分的方法进行评分;
S4:对步骤S2中的引用关系是用networkx模块构建作者引用关系网络G;
S5:使用步骤S3中计算得到的论文评分和步骤S4中的作者引用关系网络G,对不同作者的分数求和得到作者第一评分;
步骤S5具体包括:针对论文a和论文b,可以定义两者的影响关系为:
当论文a引用论文b时,σ(a,b)=1,否则σ(a,b)=0;其中ya,yb是论文a和b的发表时间,当一篇论文引用多篇论文时,论文a的评分应当是:
依照作者的名称排序,给予不同的作者不同的作者第一评分Si,具体公式如下
其中,求和符号右边的式子代表了论文a的第n个作者的评分,r是作者重要性的衰减系数设定为0.7,Ωi是作者i发表的文章的集合;
S6:对步骤S4中得到的作者引用关系网络G使用node2vec进行计算,得到作者的词向量表达f(vi);
S7:对由步骤S5中所得的作者第一评分Si和步骤S6中作者词向量表达进行作者评分的更新,得到作者第二评分Sii,更新公式为:
Sii=Si+∑j|f(vi),f(vj)|d*Sj*r;
其中,这里j取作者引用关系网络G中所有指向节点i的节点,意味着作者j引用了作者i,|x,y|d使用的余弦相似性,i(vi)是作者i的node2vec后的词向量表达,r为缩小系数;
S8:对得到的作者词向量表达进行KMeans聚类,得到不同的研究领域和各个领域的中心学者,并且将各个作者都划分到若干个不同的领域k1,k2,k3;
S9:使用各个作者的词向量和各个聚类中心比较余弦相似性,计算得到作者在特定领域内的相对评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810845723.XA CN109376236B (zh) | 2018-07-27 | 2018-07-27 | 一种基于聚类分析的学术论文作者权重分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810845723.XA CN109376236B (zh) | 2018-07-27 | 2018-07-27 | 一种基于聚类分析的学术论文作者权重分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109376236A true CN109376236A (zh) | 2019-02-22 |
CN109376236B CN109376236B (zh) | 2021-10-26 |
Family
ID=65404311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810845723.XA Expired - Fee Related CN109376236B (zh) | 2018-07-27 | 2018-07-27 | 一种基于聚类分析的学术论文作者权重分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109376236B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113015971A (zh) * | 2019-05-17 | 2021-06-22 | 爱酷赛股份有限公司 | 聚类分析方法、聚类分析系统及聚类分析程序 |
CN116993177A (zh) * | 2023-07-19 | 2023-11-03 | 上交所技术有限责任公司 | 一种基于引用时间差和社群分类的专利评价方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050071311A1 (en) * | 2003-09-30 | 2005-03-31 | Rakesh Agrawal | Method and system of partitioning authors on a given topic in a newsgroup into two opposite classes of the authors |
CN102609546A (zh) * | 2011-12-08 | 2012-07-25 | 清华大学 | 一种学术期刊论文作者信息挖掘方法及系统 |
CN104657488A (zh) * | 2015-03-05 | 2015-05-27 | 中南大学 | 一种基于引用传播网络的作者影响力计算方法 |
CN106227835A (zh) * | 2016-07-25 | 2016-12-14 | 中南大学 | 基于二分网络图层次聚类的团队研究方向挖掘方法 |
CN106778011A (zh) * | 2016-12-29 | 2017-05-31 | 大连理工大学 | 一种基于学术异构网络的学者影响力评估方法 |
-
2018
- 2018-07-27 CN CN201810845723.XA patent/CN109376236B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050071311A1 (en) * | 2003-09-30 | 2005-03-31 | Rakesh Agrawal | Method and system of partitioning authors on a given topic in a newsgroup into two opposite classes of the authors |
CN102609546A (zh) * | 2011-12-08 | 2012-07-25 | 清华大学 | 一种学术期刊论文作者信息挖掘方法及系统 |
CN104657488A (zh) * | 2015-03-05 | 2015-05-27 | 中南大学 | 一种基于引用传播网络的作者影响力计算方法 |
CN106227835A (zh) * | 2016-07-25 | 2016-12-14 | 中南大学 | 基于二分网络图层次聚类的团队研究方向挖掘方法 |
CN106778011A (zh) * | 2016-12-29 | 2017-05-31 | 大连理工大学 | 一种基于学术异构网络的学者影响力评估方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113015971A (zh) * | 2019-05-17 | 2021-06-22 | 爱酷赛股份有限公司 | 聚类分析方法、聚类分析系统及聚类分析程序 |
CN116993177A (zh) * | 2023-07-19 | 2023-11-03 | 上交所技术有限责任公司 | 一种基于引用时间差和社群分类的专利评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109376236B (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6846469B2 (ja) | インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 | |
Zandbergen | A comparison of address point, parcel and street geocoding techniques | |
CN104881689B (zh) | 一种多标签主动学习分类方法及系统 | |
Yue et al. | The local colocation patterns of crime and land-use features in Wuhan, China | |
CN109543722A (zh) | 一种基于情感分析模型的情感趋势预测方法 | |
CN102054029A (zh) | 一种基于社会网络和人名上下文的人物信息消歧处理方法 | |
CN109992784B (zh) | 一种融合多模态信息的异构网络构建和距离度量方法 | |
Yeow et al. | Point-of-Interest (POI) data validation methods: An urban case study | |
CN110472061A (zh) | 一种基于短文本相似度计算的知识图谱融合方法 | |
CN105825430A (zh) | 一种基于异构社会网络的检测方法 | |
Du et al. | How do vegetation density and transportation network density affect crime across an urban central-peripheral gradient? A case study in Kitchener—Waterloo, Ontario | |
CN109376236A (zh) | 一种基于聚类分析的学术论文作者权重分析方法 | |
Razek et al. | Text-based intelligent learning emotion system | |
CN107491729A (zh) | 基于余弦相似度激活的卷积神经网络的手写数字识别方法 | |
CN103473416B (zh) | 蛋白质相互作用的模型建立方法和装置 | |
CN106203165B (zh) | 基于可信云计算的信息大数据分析支撑方法 | |
Kudryavtseva et al. | Modeling cluster development using programming methods: Case of Russian arctic regions | |
Zhang et al. | Recognition method of new address elements in Chinese address matching based on deep learning | |
CN108536825A (zh) | 一种识别房源数据是否重复的方法 | |
CN110992194A (zh) | 一种基于含属性的多进程采样图表示学习模型的用户参考指数算法 | |
CN111277433A (zh) | 基于属性网络表征学习的网络服务异常检测方法及装置 | |
CN110362828A (zh) | 网络资讯风险识别方法及系统 | |
CN113779520B (zh) | 基于多层属性分析的跨空间目标虚拟身份关联方法 | |
CN113779432B (zh) | 一种本地化机构搜索的方法、电子设备和存储介质 | |
US8548988B2 (en) | System and method for comparing universities based on their university model graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211026 |