CN109086399B - 一种综合贡献度分析与一体可视化表现方法 - Google Patents
一种综合贡献度分析与一体可视化表现方法 Download PDFInfo
- Publication number
- CN109086399B CN109086399B CN201810852235.1A CN201810852235A CN109086399B CN 109086399 B CN109086399 B CN 109086399B CN 201810852235 A CN201810852235 A CN 201810852235A CN 109086399 B CN109086399 B CN 109086399B
- Authority
- CN
- China
- Prior art keywords
- author
- contribution degree
- equal
- node
- comprehensive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种综合贡献度分析与一体可视化表现方法,本发明首先通过获取初始文献数据集;计算作者综合贡献度,绘制作者节点图,节点面积用于表现作者贡献度;统计合作强度,绘制合作关系,线粗用于表现合作强度;使用阈值,忽略非关键信息;计算机构综合贡献度,绘制机构背景图,机构区域面积用于表现机构贡献度;按主要机构进行聚类簇,移动归入相应的机构背景中。本发明通过对作者和机构进行综合贡献度评价,并将作者发文贡献、机构发文贡献、作者和机构合作研究情况等诸多信息在一张图上进行展示,能够简化多图对照使用方式,实现综合性的一体可视化信息表现。
Description
技术领域
本发明主要涉及文献计量学、数据可视化等领域。
背景技术
文献计量学在20世界70年代兴起以来,经过多年发展,已公认为图书情报领域内最活跃的一个分支学科,是科学描述学科结构、特征、发展规律的重要手段,体现了当代学科分析、管理定量化的趋势。文献计量学通过对某研究领域文献数量、作者、机构、内容及相互引用方面的变化关系进行定量分析、定量评价,结合特定专业领域知识,进行综合的定性分析和预测,追踪该领域的产生、发展、分化、相互渗透的情况及其动向,观测研究领域的内部结构变更情况等一系列潜在的动态趋势,从而帮助了解研究领域发展情况,把握发展趋势。
近年来,伴随着大数据相关的文本挖掘、数据挖掘、社会网络以及数据可视化技术的不断发展,为文献计量学研究注入了新的活力,文献计量已经与整个科技科研活动、学科发展的评价研究融合在一起,成为科学学中定量化分析研究的有力工具和重要组成部分。
在一般的文献计量学方法中,特定领域作者、机构发文数量以及相互合作情况,是其中要分析和评估的重要内容,广泛用于学科领域评价、影响力评估、趋势跟踪、研究动向等应用场合。研究中需要从作者发文数量、机构发文数量、作者合作情况、机构合作情况等多个方面来分别进行分析,并对每个方面分别绘制图或表来进行可视化表现,通过多个图表综合对照来反映分析结果,在撰写结论时需要占据较大的篇幅,使用起来不够方便。随着数据分析与可视化表现技术的发展,如何对信息进行综合评价、用最少的图表来表现更多的信息,一直是数据分析评估与可视化表现领域不断探索的重点,在文献计量学领域,对传统的图表信息进行合并评价与一体化展示也是一项积极而有意义的研究创新工作。
发明内容
本发明的优点在于:针对现有技术的上述问题,提供一种综合贡献度分析与一体可视化表现方法,通过对作者和机构进行综合贡献度评价,并将作者发文贡献、机构发文贡献、作者和机构合作研究情况等诸多信息在一张图上进行一体可视化表现,避免了多图表对照的不便,对于综合反映定量分析结论,具有极大的便利性和独特的良好效果。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种综合贡献度分析与一体可视化表现方法,实施步骤包括:
步骤1、获取初始文献数据集;
步骤2、计算作者综合贡献度,绘制作者节点图;
步骤3、统计合作强度,绘制合作关系图;
步骤4、忽略非关键信息;
步骤5、计算机构综合贡献度,绘制机构背景图;
步骤6、按主要机构进行分簇;
其中步骤1获取初始文献数据集具体包括:
步骤11、确定采集条件,包括搜索领域及搜索关键词,
步骤12、根据采集条件进行搜索,采集指定条件的文献数据,
步骤13、获取包括发文作者、发文机构、影响因子的文献数据集,记录所述文献数据集总数为n,整个数据集涉及发文作者总数为m,涉及发文机构总数为g;
其中步骤2计算作者综合贡献度,绘制作者节点图具体包括:
步骤21、计算有p个发文作者的文献中排名第i(i=1,2,…,p)的作者单篇文献作者贡献度为
第一作者贡献度最高,占比50%以上,其他作者贡献度按排序依次递减。由于可以保证在不考虑影响因子等因素下,每篇文献的贡献度总量是相同,避免重复计算;
步骤22、将整个数据集中第k(k∈[1,m])个作者在第j(j∈[1,n])篇文献中根据其排名i计算的作者贡献度记为
步骤23、考虑文献影响因子因素,将第k(k∈[1,m]个作者在所有文献中作者综合贡献度计算为其中I(j)为第j篇文献的影响因子;
步骤24、绘制包含m个圆形节点的作者节点图,以节点大小来表现作者综合贡献度大小,以作者名为节点添加标签;
其中步骤3统计合作强度,绘制合作关系图具体包括:
两个作者k,l(k,l∈[1,m])在第j(j∈[1,n])篇文献中出现,则为1次合作,记为作者k,l的合作强度记为如果E(k,l)>0,则在图中节点k,l之间添加连接线,E(k,l)大小以连接线粗细表示;
其中步骤4忽略非关键信息具体包括:
步骤41、设定非关键信息忽略阈值为c,
步骤42、从图中删除Z(k)≤c的作者,同时删除与所述作者关联合作关系,并删除图中节点数量为1的连通子图;
其中步骤5计算机构综合贡献度,绘制机构背景图具体包括:
步骤51、计算有p个发文机构的文献中排名第i(i=1,2,…,p)的机构单篇文献机构贡献度为
排名第一机构贡献度最高,占比50%以上,其他机构贡献度按排序依次递减。由于可以保证在不考虑影响因子等因素下,每篇文献的机构贡献度总量是相同,避免重复计算。
步骤52、将整个数据集中第h(h∈[1,g])个机构在第j(j∈[1,n])篇文献中根据其排名i计算的机构贡献度记为
步骤53、考虑文献影响因子因素,将第h(h∈[1,g]个机构在所有文献中机构综合贡献度计算为其中I(j)为第j篇文献的影响因子。
步骤54、按Y(h)大小对机构进行下降排序,根据需求选择排名前t名(t为大于等于1小于等于g的自然数)的机构,绘制机构背景图,以背景图形的面积表示Y(h)大小,以机构名为机构背景区域添加标签;
其中步骤6按主要机构进行分簇具体包括:
步骤61、确定作者所在主要机构:同一作者出现在不同机构中时,以出现次数最多的机构,作为该作者的主要机构信息,按主要机构信息对作者节点进行分簇;
步骤62、根据分簇对作者节点进行位置上的相对移动,不改变节点之间的连接关系,保留跨簇节点之间的连接关系;
步骤63、将有对应机构的各簇作者节点,移入相应的机构背景图中,分散放置。
进一步的,所述的步骤1获取初始文献数据集包括:
步骤14、对数据进行整理和清洗,例如信息不完全的文献数据不列入统计文献数据集。
进一步的,所述步骤41设定非关键信息忽略阈值c为0.5。
附图说明
图1是本发明实施例方法的流程图。
图2是本发明实施例方法作者合作关系初始图
图3是本发明实施例方法最终生成的一体可视化图。
具体实施方式
下面以一组体系工程方面的文献数据集的分析处理和可视化表现为例,对本发明的综合贡献度分析与一体可视化表现方法进行进一步的详细说明。整体流程如图1所示。
1)获取初始文献数据集,进行整理、清洗。
从CNKI(China National Knowledge Infrastructure)期刊全文数据库和重要会议数据库中,采用组合关键字检索、筛选,获取“体系工程”方面的文献信息514篇,经剔除重复和去除信息全题录等,保留信息完整的文献464篇。对研究机构进行名称辨识和归并处理,本实施例中涉及研究机构108个,作者797人。数据集包含标题、作者、研究机构等,并使用CNKI官方提供的文献影响因子信息。
2)计算作者综合贡献度,绘制作者节点图。
本实施例中最多署名文献包含7个作者,使用公式逐篇计算p个发文作者中每人分配到的贡献度。
记第k(k∈[1,m])个作者在第j(j∈[1,n])篇文献中根据其排名i计算的作者贡献度为
考虑影响因子,计算作者的综合贡献度
本实施例中最大作者贡献度为7.57,最小作者贡献度为0.03,绝大部分作者贡献度很小。这也符合根据洛特卡定律,发表1篇文章的作者数量约占所有作者数量的60%以上,影响力较大的核心作者数量占比很小。绘制包含797作者的节点图,以节点大小来表现作者综合贡献度大小,以作者名作为节点标签。
3)统计合作强度,绘制合作关系。
两个作者k,l(k,l∈[1,m])在第j(j∈[1,n])篇文献中合作出现,则记E(k,l,j)=1。本实施例中2个以上作者合作发文共396篇。
统计每两个作者之间的合作强度
共有1206组E(k,l)>0,对应在图中添加1206条无向连接。如图2所示,构成的图中包含157个连通子图,其中最大连通子图含121个节点,大部分连通子图节点很少。E(k,l)>2的边有144条,在图中以线粗表示E(k,l)大小。图中关系节点和关系较多,显得比较杂乱。
4)忽略非关键信息。
由于大部分节点的Z(k)很小,大部分边的E(k,l)较小。考虑到需要重点显示贡献比较大、合作比较多的情况,因此本步骤忽略掉一部分非关键信息。
本实施例中取阈值c=0.5,从图中删除Z(k)≤0.5的作者节点,并删除与之关联合作关系。阈值取0.5时,基本上可以忽略掉大量的排名靠后、出现次数少的合作作者。在用于分析的数据集很庞大时,为了凸显主要因素,则需要忽略掉更多非关键信息,可以根据需要增大忽略阈值。
由于节点数为1的连通子图不存在合作关系,因此也忽略掉,从图中删除。
5)计算机构综合贡献度,绘制机构背景图。
使用公式逐篇计算有p个发文机构中每个合作研究机构分配到的贡献度。
排名第一机构贡献度最高,占比50%以上,其他机构贡献度按排序依次递减。由于可以保证在不考虑影响因子等因素下,每篇文献的机构贡献度总量是相同,避免重复计算。
记第h(h∈[1,g])个机构在第j(j∈[1,n])篇文献中根据其排名i计算的机构贡献度为
考虑文献影响因子因素,计算机构的综合贡献度
按Y(h)大小对机构进行下降排序,本实施例中最大机构贡献度为97.05,其中前7名的综合贡献度较大。
以上仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明创造的保护范围之内。
Claims (3)
1.一种综合贡献度分析与一体可视化表现方法,其特征在于,包括以下步骤:
步骤1、获取初始文献数据集;
步骤2、计算作者综合贡献度,绘制作者节点图;
步骤3、统计合作强度,绘制合作关系图;
步骤4、忽略非关键信息;
步骤5、计算机构综合贡献度,绘制机构背景图;
步骤6、按机构进行分簇;
其中所述的步骤1获取初始文献数据集具体包括:
步骤11、确定采集条件,包括搜索领域及搜索关键词,
步骤12、根据采集条件进行搜索,采集指定条件的文献数据,
步骤13、获取包括发文作者、发文机构、影响因子的文献数据集,记录所述文献数据集总数为n,整个数据集涉及发文作者总数为m,涉及发文机构总数为g;
其中所述的步骤2计算作者综合贡献度绘制作者节点图具体包括:
步骤21、计算有p个发文作者的文献中排名第i的作者单篇文献作者贡献度为其中i为大于等于1且小于等于p的整数;
步骤22、将整个数据集中第k个作者在第j篇文献中根据其排名i计算的作者贡献度记为其中k为大于等于1且小于等于m的整数,j为大于等于1且小于等于n的整数;
步骤23、考虑文献影响因子因素,将第k个作者在所有文献中作者综合贡献度计算为其中I(j)为第j篇文献的影响因子;
步骤24、绘制包含m个圆形节点的作者节点图,以节点大小来表现作者综合贡献度大小,以作者名为节点添加标签;
其中所述的步骤3统计合作强度绘制合作关系图具体包括:
两个作者k,l在第j篇文献中出现,则为1次合作,记为作者k,l的合作强度记为 如果E(k,l)>0,则在图中节点k,l之间添加连接线,E(k,l)大小以连接线粗细表示,其中l为大于等于1且小于等于m的整数;
其中所述的步骤4忽略非关键信息具体包括:
步骤41、设定非关键信息忽略阈值为c,
步骤42、从图中删除Z(k)≤c的作者,同时删除与所述作者关联合作关系,并删除图中节点数量为1的连通子图;
其中所述的步骤5计算机构综合贡献度绘制机构背景图具体包括:
步骤51、计算有p个发文机构的文献中排名第i的机构单篇文献机构贡献度为
步骤52、将整个数据集中第h个机构在第j篇文献中根据其排名i计算的机构贡献度记为其中h为大于等于1且小于等于g的整数,j为大于等于1且小于等于n的整数;
步骤53、考虑文献影响因子因素,将第h个机构在所有文献中机构综合贡献度计算为其中I(j)为第j篇文献的影响因子;
步骤54、按Y(h)大小对机构进行下降排序,根据需求选择排名前t名的机构,绘制机构背景图,以背景图形的面积表示Y(h)大小,以机构名为机构背景区域添加标签,其中t为大于等于1且小于等于g的整数;
其中所述的步骤6按机构进行分簇具体包括:
步骤61、确定作者所在机构:同一作者出现在不同机构中时,以出现次数最多的机构,作为该作者的机构信息,按机构信息对作者节点进行分簇;
步骤62、根据分簇对作者节点进行位置上的相对移动,不改变节点之间的连接关系,保留跨簇节点之间的连接关系;
步骤63、将有对应机构的各簇作者节点,移入相应的机构背景图中,分散放置。
2.根据权利要求1所述的一种综合贡献度分析与一体可视化表现方法,其特征在于,所述的步骤1获取初始文献数据集包括:
步骤14、对数据进行整理和清洗。
3.根据权利要求1所述的一种综合贡献度分析与一体可视化表现方法,其特征在于,其中步骤41设定非关键信息忽略阈值c为0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810852235.1A CN109086399B (zh) | 2018-07-30 | 2018-07-30 | 一种综合贡献度分析与一体可视化表现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810852235.1A CN109086399B (zh) | 2018-07-30 | 2018-07-30 | 一种综合贡献度分析与一体可视化表现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109086399A CN109086399A (zh) | 2018-12-25 |
CN109086399B true CN109086399B (zh) | 2019-09-10 |
Family
ID=64833376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810852235.1A Active CN109086399B (zh) | 2018-07-30 | 2018-07-30 | 一种综合贡献度分析与一体可视化表现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109086399B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829634B (zh) * | 2019-01-18 | 2021-02-26 | 北京工业大学 | 一种自适应的高校专利科研团队识别方法 |
CN111581463A (zh) * | 2020-03-31 | 2020-08-25 | 广州地理研究所 | 论文合作网络的构建方法、装置及设备 |
CN112819313A (zh) * | 2021-01-27 | 2021-05-18 | 上海哔哩哔哩科技有限公司 | 目标图像生成方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020302A (zh) * | 2012-12-31 | 2013-04-03 | 中国科学院自动化研究所 | 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统 |
CN104063634A (zh) * | 2014-06-27 | 2014-09-24 | 沈阳龙天科技有限公司 | 多人共同内容创作中版权的处理方法 |
CN104331473A (zh) * | 2014-11-03 | 2015-02-04 | 同方知网(北京)技术有限公司 | 一种基于知网节的学术知识获取方法及系统 |
CN104636424A (zh) * | 2014-12-02 | 2015-05-20 | 南昌大学 | 一种基于图谱分析构建文献综述框架的方法 |
CN106095934A (zh) * | 2016-06-12 | 2016-11-09 | 广东工业大学 | 一种计算多署名学术论文作者分值的方法 |
CN106408190A (zh) * | 2016-09-20 | 2017-02-15 | 浙江工业大学 | 一种基于文件关联网络的软件项目核心开发者评判方法 |
CN107967292A (zh) * | 2017-10-16 | 2018-04-27 | 西安交通大学医学院第附属医院 | 一种用于定量表示对论文贡献程度的方法和系统 |
-
2018
- 2018-07-30 CN CN201810852235.1A patent/CN109086399B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020302A (zh) * | 2012-12-31 | 2013-04-03 | 中国科学院自动化研究所 | 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统 |
CN104063634A (zh) * | 2014-06-27 | 2014-09-24 | 沈阳龙天科技有限公司 | 多人共同内容创作中版权的处理方法 |
CN104331473A (zh) * | 2014-11-03 | 2015-02-04 | 同方知网(北京)技术有限公司 | 一种基于知网节的学术知识获取方法及系统 |
CN104636424A (zh) * | 2014-12-02 | 2015-05-20 | 南昌大学 | 一种基于图谱分析构建文献综述框架的方法 |
CN106095934A (zh) * | 2016-06-12 | 2016-11-09 | 广东工业大学 | 一种计算多署名学术论文作者分值的方法 |
CN106408190A (zh) * | 2016-09-20 | 2017-02-15 | 浙江工业大学 | 一种基于文件关联网络的软件项目核心开发者评判方法 |
CN107967292A (zh) * | 2017-10-16 | 2018-04-27 | 西安交通大学医学院第附属医院 | 一种用于定量表示对论文贡献程度的方法和系统 |
Non-Patent Citations (3)
Title |
---|
measuring author contributions to the mediawiki;Gokhan Akcapinar deng;《IADIS International Conference WWW/Internet 2010》;20090930;103-107 * |
国内网络学习空间的研究现状及发展趋势——基于CiteSpace可视化知识图谱的计量分析;杜亮亮 等;《软件导刊.教育技术》;20180723;第17卷(第7期);摘要,第1-2节 * |
科技期刊合著论文作者署名及排序;陈希宁 等;《中国科技期刊研究》;20020915;405-407 * |
Also Published As
Publication number | Publication date |
---|---|
CN109086399A (zh) | 2018-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | A bibliometric analysis of topic modelling studies (2000–2017) | |
Aria et al. | bibliometrix: An R-tool for comprehensive science mapping analysis | |
Wan et al. | Aminer: Search and mining of academic social networks | |
Müller et al. | Overview of the ImageCLEF 2012 medical image retrieval and classiFIcation tasks. | |
Lim et al. | Business intelligence and analytics: Research directions | |
CN109086399B (zh) | 一种综合贡献度分析与一体可视化表现方法 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
Åström | The visibility of information science and library science research in bibliometric mapping of the LIS field | |
Brown et al. | A 60-year bibliographic review of the Journal of Advertising Research: Perspectives on trends in authorship, influences, and research impact | |
JP2008117010A (ja) | 文書作成支援装置、文書作成支援システム | |
CN103678325A (zh) | 一种用于提供与初始页面相对应的浏览页面的方法和设备 | |
JP6663005B2 (ja) | インターネットコンテンツ提供サーバ及びその方法が具現化されたコンピュータで判読できる記録媒体 | |
Liu et al. | Exploring topical lead-lag across corpora | |
Xuemei et al. | Applications and researches of geographic information system technologies in bibliometrics | |
Barbosa et al. | Returners and explorers dichotomy in web browsing behavior—a human mobility approach | |
Kucher et al. | Analysis of VINCI 2009-2017 proceedings | |
Aboubakr et al. | On improving toll accuracy for covid-like epidemics in underserved communities using user-generated data | |
Teixeira et al. | SKYNET: An R package for generating air passenger networks for urban studies | |
Czubryt et al. | Q-Eclat: vertical mining of interesting quantitative patterns | |
Rauch et al. | Knowminer search-a multi-visualisation collaborative approach to search result analysis | |
Tsui | The digital humanities as an emerging field in China | |
Zhang et al. | Research of personalized information service based on association rules | |
Darmont et al. | Processing and managing complex data for decision support | |
Ou | Data structuring and effective retrieval in the mining of web sequential characteristic | |
Liang et al. | Evolution of information systems research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |