CN110941662A - 科研合作关系的图示化方法、系统、存储介质、及终端 - Google Patents

科研合作关系的图示化方法、系统、存储介质、及终端 Download PDF

Info

Publication number
CN110941662A
CN110941662A CN201910779243.2A CN201910779243A CN110941662A CN 110941662 A CN110941662 A CN 110941662A CN 201910779243 A CN201910779243 A CN 201910779243A CN 110941662 A CN110941662 A CN 110941662A
Authority
CN
China
Prior art keywords
researcher
information
researchers
research
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910779243.2A
Other languages
English (en)
Inventor
刘晋元
朱悦
徐旻昕
潘永春
王茜
胡寅骏
王旭阳
张著先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Science And Technology Development Co Ltd
Shanghai R&d Public Service Platform Management Center
Original Assignee
Shanghai Science And Technology Development Co Ltd
Shanghai R&d Public Service Platform Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Science And Technology Development Co Ltd, Shanghai R&d Public Service Platform Management Center filed Critical Shanghai Science And Technology Development Co Ltd
Publication of CN110941662A publication Critical patent/CN110941662A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本申请提供科研合作关系的图示化方法、系统、存储介质、及终端,本申请对研究者工作机构及研究者名进行了标准化处理,使得展示效果更贴近实际情况;进一步地,通过整合论文的发文信息,可以获得研究者的迁徙途径;还可通过二维热力图进一步了解研究者研究方向的变化,并对比指定研究者研究方向上的微观差别,以满足精准挖掘科研人才等需求。

Description

科研合作关系的图示化方法、系统、存储介质、及终端
技术领域
本申请涉及科研技术领域,特别是涉及科研合作关系的图示化方法、系统、存储介质、 及终端。
背景技术
随着大数据时代的到来,文献数据、专利数据等海量文本数据被广泛应用于学术界和工 业界;另一方面,人工智能技术、知识图谱工程学科的发展,也提升了人物信息的搜索和匹 配的精确程度。
但是,现存的人物关系图谱工具中,侧重于科研方向的工具较少,且存在如下三点的局 限性:合作关系不明确、缺少地理信息、缺少时间维度。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供科研合作关系的图示化方法、系 统、存储介质、及终端,用于解决现有技术中的问题。
为实现上述目的及其他相关目的,本申请的第一方面提供一种科研合作关系的图示化方 法,其包括:对不同表述的研究者信息进行统一化处理,并确定对象研究者的科研迁徙路径; 获取与所述对象研究者关联的合作研究者信息和/或潜在合作研究者信息;获取对象研究者所 在工作机构的位置信息;以所述对象研究者为中心构建关系网络图,其图示化的信息包括所 述对象研究者的基本信息、科研迁徙路径信息、与其关联的合作研究者信息和/或潜在合作研 究者信息、以及所在机构的位置信息中的任一种或多种组合。
于本申请的第一方面的一些实施例中,所述方法还包括:利用文献数据提取所述对象研 究者的研究方向关键词;根据对象研究者的研究方向关键词,构建用于表示该对象研究者在 一段预设时间内研究方向变化的热力图。
于本申请的第一方面的一些实施例中,对不同表述的研究者信息进行统一化处理,并确 定对象研究者的科研迁徙路径,其方式包括:通过研究者的唯一标识对研究者进行聚合;根 据研究方向的相似度对聚合后的研究者进行二次聚合。
于本申请的第一方面的一些实施例中,所述方法包括:根据研究者的离散数据集合,利 用话题模型计算每个研究者的话题概率分布;根据研究者的话题概率分布,计算各研究者对 之间研究方向的相似度;将满足相似度要求的研究者对作为候补,并计算候补研究者对中研 究者姓名之间的字符串相似度并根据相似度判断研究者对是否可以进行合并;利用文献数据 中的关键词数据,对是否将研究者进行合并做补充判断;根据文献发布时间标注研究者的职 业路径点,据以获得研究者的科研迁徙路径。
于本申请的第一方面的一些实施例中,所述方法包括:根据合著者与对象研究者共同发 文的数量在对象研究者所有发文数量中的占比来确定与对象研究者的合作研究者;和/或,根 据研究者之间的研究方向相似度来确定与对象研究者的潜在合作研究者。
于本申请的第一方面的一些实施例中,所述方法包括:利用关系图插件展示对象研究者 的关系网络图,其包括:利用可视化插件绘制对象研究者节点,并绘制对象研究者的合作研 究者节点和/或潜在合作研究者节点,从而形成对象研究者的关系图谱;采用不同的连接标示 连接对象研究者与合作研究者、潜在合作研究者之间的节点。
于本申请的第一方面的一些实施例中,所述方法包括:利用词向量模型将研究方向关键 词进行向量化处理,并利用降维模型将多维词向量降维至二维词向量;以所述二维词向量为 坐标,并以研究方向关键词的词频作为热力图热度的依据,据以构建二维热力图。
为实现上述目的及其他相关目的,本申请的第二方面提供一种科研合作关系的图示化系 统,其包括:路径确定模块,用于对不同表述的研究者信息进行统一化处理,并确定对象研 究者的科研迁徙路径;合作信息获取模块,用于获取与所述对象研究者关联的合作研究者信 息和/或潜在合作研究者信息;位置信息获取模块,用于获取对象研究者所在工作机构的位置 信息;图示化模块,用于以所述对象研究者为中心构建关系网络图,其图示化的信息包括所 述对象研究者的基本信息、科研迁徙路径信息、与其关联的合作研究者信息和/或潜在合作研 究者信息、以及所在机构的位置信息中的任一种或多种组合。
为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其 上存储有计算机程序,所述计算机程序被处理器执行时实现所述科研合作关系的图示化方法。
为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处理器 及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机 程序,以使所述终端执行所述科研合作关系的图示化方法。
如上所述,本申请的科研合作关系的图示化方法、系统、存储介质、及终端,具有以下 有益效果:本申请对研究者工作机构及研究者名进行了标准化处理,使得展示效果更贴近实 际情况;进一步地,通过整合论文的发文信息,可以获得研究者的迁徙途径;还可通过二维 热力图进一步了解研究者研究方向的变化,并对比指定研究者研究方向上的微观差别,以满 足精准挖掘科研人才等需求。
附图说明
图1显示为本申请一实施例中科研合作关系的图示化方法的流程示意图。
图2显示为本申请一实施例中科研合作关系的图示化方法的流程示意图。
图3显示为本申请一实施例中科研合作关系的图示化方法的流程示意图。
图4显示为本申请一实施例中获取合作研究者和/或潜在合作研究者的流程示意图。
图5A显示为本申请一实施例中关系图谱的示意图。
图5B显示为本申请一实施例中关系图谱的示意图。
图6显示为本申请一实施例中科研合作关系的图示化方法的流程示意图。
图7显示为本申请一实施例中热力图的示意图。
图8显示为本申请一实施例中科研合作关系的图示化的示意图。
图9显示为本申请一实施例中电子终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露 的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加 以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精 神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征 可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解, 还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、 电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的 范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并 非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元 件或特征与另一元件或特征的关系。
在本申请中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固 定”、“固持”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一 体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接 相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理 解上述术语在本申请中的具体含义。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述 的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、 元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或” 被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C” 意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功 能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
知识图谱是一种用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示 知识及它们之间的相互联系的图谱。人物关系图谱则是一种用于系统性描述人物关系的图谱。 现存的人物关系图谱工具中,侧重于科研方向的工具较少,且存在如下三点的局限性:合作 关系不明确、缺少地理信息、缺少时间维度。
鉴于这些存在于现有技术中的问题,本申请提供科研合作关系的图示化方法、系统、存 储介质、及终端,用于解决上述难题。本申请的主要思想旨在对研究者工作机构及研究者名 进行了标准化处理,使得展示效果更贴近实际情况;进一步地,通过整合论文的发文信息, 可以获得研究者的迁徙途径;还可通过二维热力图进一步了解研究者研究方向的变化,并对 比指定研究者研究方向上的微观差别,以满足精准挖掘科研人才等需求。下文,将对本申请 的技术方案做进一步的解释与说明。
如图1所示展示本申请一实施例中科研合作关系的图示化方法的流程示意图。于本实施 例中,所述研合作关系的图示化方法包括步骤S1、步骤S2、步骤S3、以及步骤S4。
需说明的是,本实施例提供的图示化方法可应用于控制器,例如:ARM控制器、FPGA控制器、SoC控制器、DSP控制器、或者MCU控制器等等。该方法也可应用于包括存储器、 存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克 风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备,以及外部端口等组件的计算机; 所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人 数字助理(Personal Digital Assistant,简称PDA)等个人电脑。该方法还可应用于服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以由分布的或 集中的服务器集群构成。
步骤S1:对不同表述的研究者信息进行统一化处理,并确定对象研究者的科研迁徙路径。
本实施例中所述的研究者主要是指科研合作相关人物图谱中的着力于科研研究的专业 人员,例如:高校教师、在校学生、大学教授、专家学者、海外科研人员、研发专员、院士 等等,或者还可以是以团体为单位的研究团队、研究组织等等。
具体地,利用ORCID(开放研究者与贡献者身份识别码)、文献数据,将指向同一研究 者实体的不同表述统一成<研究者现役工作机构的标准名,研究者标准名>元组,并记录其多 种表达方式的历史记录。
需说明的是,国际上很多的研究机构、非盈利组织等推出了一些人名标识系统,希望通 过作者唯一标识符来解决作者的区分和识别问题。这些标识符中,ORCID能够实现不同系统 之间数据交互和相互贯通,将同一科研工作者在不同系统中的科研产出进行关联和汇聚,可 以有限改善现有的科研生态系统。科研工作者的名字具有多样性,在科研成果发表过程中会 遇到科研工作者的名字重名、同一个科研工作者有几个名字、翻译的前后顺序问题、西方名 字缩写、同音字或形近字的名字,这些问题导致了科研工作者的唯一性被混淆、属性信息失 真。因此,为了准确地关联科研工作者的标识与其发表的作品,同时在最大程度上促进科研 成果归属的组织和规范,汤森路透集团和自然出版集团等全球性学术出版机构于2009年11 月发起了ORCID项目。
在一实施例中,对不同表述的研究者信息进行统一化处理,并确定对象研究者的科研迁 徙路径,其具体可由图2所展示的分步骤S11和S12实现。
步骤S11:通过研究者的唯一标识对研究者进行聚合。
步骤S12:根据研究方向的相似度对聚合后的研究者进行二次聚合,其主要由图3所展 示的分步骤S121~S125实现。
步骤S121:根据研究者的离散数据集合,利用话题模型计算每个研究者的话题概率分布。 也即,将聚合后的研究者的摘要文本集合视作文档,利用话题模型计算每个研究者话题的概 率分布。例如:本实施例使用Apache 2.0License的开源工具PLDA+计算每篇论文的话题概 率分布。
所述话题模型Topic Model(LDA)认为一个离散数据集合,例如文档集合或者图片集 合,是由隐含在数据集合背后的topic set生成的,这个set中的每一个topic都是词的概率分 布。对于文档中的每一篇文档,先抽取一个topics proportion\theta,然后对于这个文档中的每 一个词的位置w_i,LDA先从\theta中选择一个topic,然后再从这个topic对应的词分布中选 择一个词去填充,按照上述步骤直到整个文档集合产生完毕。
需说明的是,本实施例中的话题模型可采用无监督、无层次结构的话题模型,例如PLSA、 LDA、Correlated Topic Model、PAM、或者Concept Topic Model等模型;或者也可采用无监 督、有层次结构的话题模型,例如HLDA、HDP、或者HPAM等模型;或者也可采用有监督、 无层次结构的话题模型,例如S-LDA、Disc-LDA、MM-LDA、Author-Model、Labeled LDA、PLDA等模型;或者还可采用有监督、有层次结构的话题模型,例如hLLDA、HSLDA等模 型,本实施例并无限定。
步骤S122:根据研究者话题的概率分布,计算各研究者对之间研究方向的相似度。相似 度可通过JSD(Jensen-Shannon Divergence)算出,其计算公式如下文的公式1)所示:
Figure BDA0002176051070000061
其中,P和Q分别为比较对象的两个专家的话题分布向量,
Figure BDA0002176051070000062
KL(P||M)为P到 M的KL散度。
步骤S123:将满足相似度要求的研究者对作为候补,并计算候补研究者对中研究者姓名 之间的字符串相似度并根据相似度判断研究者对是否可以进行合并。
具体地,可将相似度大于预设阈值(如选用0.3)的研究者对作为候补,计算研究者姓 名之间的字符串相似度并根据相似度判断研究者对是否可以进行合并,例如,研究者对候补 中Jaro-Winkler相似比大于0.9的研究者对可以进行合并。需要说明的是,在进行英文姓名的 字符串相似度计算的过程中至少应考虑以下处理:统一英文姓名大小写,删除连字符,尝试 交换姓和名的顺序选出相似度最大的一对。
步骤S124:利用文献数据中的关键词(Keywords)数据,对是否将研究者进行合并做 补充判断,其根据下文的公式2)进行补充判断:
Figure BDA0002176051070000063
其中,P和Q分别为比较对象的两个专家的研究方向关键词集合且P为集合元素较少的一 方,sim(p,q)为p和q两个元素的语义相似度,可通过应用基于维基百科或文献资料预训练的 词向量模型(以下简称“预训练模型”)获得。本实施例中将利用公式2)所得到的计算结果 大于阈值0.5视为可进行合并的依据,但本申请并不以阈值0.5为限。
需注意的是,在实际操作过程中,选用word2vec等无法对应OOV(集外词,即词汇表里不存在的词汇)的词向量模型时,应先考虑进行分词后再适用模型,如分词后依然不存在与模型的词汇表中则舍弃关键词以确保该算法驱动的程序能够正常运行。
步骤S125:根据文献发布时间标注研究者的职业路径点,据以获得研究者的科研迁徙路 径。例如:通过论文发表的时间,给研究者工作过的机构标注上年份,以获得研究者的科研 迁徙路径。
步骤S2:获取与所述对象研究者关联的合作研究者信息和/或潜在合作研究者信息,其可 具体由图4所展示的分步骤S21和S22实现。
步骤S21:根据合著者与对象研究者共同发文的数量在对象研究者所有发文数量中的占 比来确定与对象研究者的合作研究者。
具体地,抽取与对象研究者有合作关系的研究者实体(以下简称为“合作研究者”,有共 同发文的研究者则称为“合著者”)。具体而言,可通过计算合著者与对象研究者共同发文的 数量在对象研究者所有发文数量中的占比来筛选(例如,大于10%);优选的,可通过卡方检 验来判定对象研究者和合著者是否为合作关系。
步骤S22:根据研究者之间的研究方向相似度来确定与对象研究者的潜在合作研究者。
具体地,抽取与对象研究者有潜在合作关系(即研究方向一致)的研究者,可以通过步 骤S121-S122中的方法计算出研究者之间的研究方向相似度来实现;优选地,可以通过S124 中的方法对潜在合作关系的判定进行补充。需注意的是,与S12步骤不同,该步骤中S124 步骤不是S121-S122的验证而是补充,以此来确保抽取出来的潜在合作关系研究者的覆盖率。
步骤S3:获取对象研究者所在工作机构的位置信息。
在一些实施例中,可利用网页爬虫爬取研究者的工作机构的官方主页(可借助百度搜索 等有标识官方主页的搜索引擎),并利用正则表达式或者HTML解析工具抽取官方主页上的 工作机构的位置信息。较为优选地,部分中国的高校、科研机构都挂有事业单位表示证书, 可通过爬取包含有网站标识管理服务平台地址所指向的URL抽取结构化的地址信息,例如: 标识证书基本信息-基本职能-机构地址对应栏位的值。
在一些实施例中,可利用地图工具获取工作机构的位置信息。例如:通过百度地图API (适合中国范围的机构)和Bing Map API等来获取研究者所在工作机构的位置信息。
步骤S4:以所述对象研究者为中心构建关系网络图,其图示化的信息包括所述对象研究 者的基本信息、科研迁徙路径信息、与其关联的合作研究者信息和/或潜在合作研究者信息、 以及所在机构的位置信息中的任一种或多种组合。
具体地,根据用户输入的研究者姓名展示研究者的关系网络,并将步骤S2中获取的研究 者关系类型、关系强度用不同的标识方式(例如:采用S3中获取的研究者关系根据其关系类 型、关系强度用)进行图示化表示。另外,所述关系网络图还显性或隐性地图示化研究者的 科研迁徙路径,例如:当鼠标悬停或点击研究者时,显示研究者的科研迁徙路径。需注意的 是,当输入的研究者姓名存在歧义(即存在同名同姓的研究者)时,可提供用户选择研究者 的工作机构以便区分。
为便于本领域技术人员理解,现结合图5A和图5B对本实施例中的关系图谱做进一步的 解释与说明。
如图5A所示,本实施例的关系图谱具有如下多个功能:首先,对象研究者关联有合作 研究者A和合作研究者B,图中用较粗的连接线将对象研究者与合作研究者A和合作研究者 B相连。对象研究者还关联有潜在合作研究者C,图中用较细的连接线将对象研究者与潜在 合作研究者C相连。其次,对象研究者和合作研究者以及对象研究者和潜在合作研究者之间 可采用不同颜色的连接线相连,以更加直观地突出关系图谱中节点之间的关联关系。再者, 各节点的大小与该节点所对应主体的发表论文数相关联,节点面积越大表示发表的论文数越 多,反之则越少。最后,合作研究者、潜在合作研究者之间有合作、潜在合作关系的参照对 象研究者与合作研究者、潜在合作研究者之间的关系用弧线进行连接。
如图5B所示,本实施例的关系图谱还具有如下功能:当使用者点击、靠近、或者将鼠 标悬停于节点时,关系图谱在该节点附件显示该节点的科研迁徙路径,从而供使用者一目了 然地掌握该节点所对应主体的职业发展历程。
在一些实施例中,所述方法包括利用关系图插件(例如ECHARTS关系图或者WebVOWL 关系图等等)采取如下各个分步骤实现。
步骤S51:利用可视化插件绘制对象研究者节点,并绘制对象研究者的合作研究者节点 和/或潜在合作研究者节点,从而形成对象研究者的关系图谱。
需说明的是,为便于区分,关系图谱中三种类型的节点(即对象研究者、合作研究者、 潜在合作研究者)优选采用不同的颜色进行绘制加以区分。根据发表论文的m商(h指数变 体,通过h指数除以论文作者第一篇文章以来的年数)调整研究者节点的大小。另外,将既 是合作研究者又是潜在合作研究者的研究者算作是合作研究者来进行绘制。
步骤S52:采用不同的连接标示连接对象研究者与合作研究者、潜在合作研究者之间的 节点,例如用弧线连接对象研究者与合作研究者、潜在合作研究者之间的节点,根据研究者 之间的关系类型(合作研究者还是潜在合作研究者)来控制弧线的颜色,根据步骤S21中合 作研究者在对象研究者中的占比和步骤S22中研究者之间的研究方向相似度控制弧线的粗细 程度。
步骤S53:合作研究者与潜在合作研究者之间有类似于合作和潜在合作关系的参照S53 用弧线进行连接。
步骤S54:为各研究者的节点增加鼠标悬停和/或鼠标点击事件。当发生前述事件时,将 步骤S125中获得的科研迁徙路径通过网页飘窗的形式向用户展示。具体而言,可采用以下两 种方式的一种进行展示。
方式1)直接以列表形式展示,列表的内容包括:专家工作过的机构名称,机构所在城 市,专家在机构工作的起止年份(通过标注年份的最大最小值获得)。
方式2)通过动态变化的地图来进行展示,例如:把标注年份当作时间轴,根据年份在 飘窗的标题上显示年份和工作机构,突出机构所在的省份或国家,淡化其余省份或国家(例 如:将机构所在的省份或国家高亮,其余省份或国家则为灰色,机构地址为空值时,则将地 图上所有省份或国家保持灰色。)
如图6所示,展示本申请一实施例中科研合作关系的图示化方法的流程示意图。于本实 施例中,所述科研合作关系的图示化方法包括步骤S61、步骤S62、步骤S63、步骤S64、步 骤S65、以及步骤S66。
步骤S61:对不同表述的研究者信息进行统一化处理,并确定对象研究者的科研迁徙路 径。
步骤S62:获取与所述对象研究者关联的合作研究者信息和/或潜在合作研究者信息。
步骤S63:获取对象研究者所在工作机构的位置信息。
步骤S64:以所述对象研究者为中心构建关系网络图,其图示化的信息包括所述对象研 究者的基本信息、科研迁徙路径信息、与其关联的合作研究者信息和/或潜在合作研究者信息、 以及所在机构的位置信息中的任一种或多种组合。
需说明的是,本实施例中步骤S61~S64的实施方式与上文中步骤S1~S4的实施方式类似, 故不再赘述。
步骤S65:利用文献数据提取所述对象研究者的研究方向关键词。
具体地,将Bi-Normal Separation得分大于0.5的特征词视为研究者的特征关键词。 Bi-Normal Separation的计算公式如下文的公式3)所示:
Figure BDA0002176051070000091
其中,w为所有研究者研究方向关键词集合中的关键词,P(w|c)为单词w在研究者c的研 究方向关键词中出现的概率,F(x)为标准正态分布的累积概率函数。
步骤S66:根据对象研究者的研究方向关键词,构建用于表示该对象研究者在一段预设 时间内研究方向变化的热力图。具体地,可采取图6所展示的分步骤实现绘制带有时间轴的 研究方向热力图。
步骤S661:利用词向量模型将研究方向关键词进行向量化处理,并利用降维模型将多维 词向量降维至二维词向量。
具体地,在用户勾选若干个研究者并进入研究方向对比页面后,先利用预训练模型对所 勾选研究者的所有研究方向关键词进行向量化,然后利用降维算法将多维向量降维至二维。 关键词向量的降维算法例如可采用t-SNE算法,t-SNE算法是一种用于挖掘高维数据的非线 性降维算法,它将多维数据映射到适合于人类观察的两个或多个维度。在t-SNE算法可在处 理高维数据时避免绘制很多探索性的数据分析图,提升计算效率。
步骤S662:以所述二维词向量为坐标,并以研究方向关键词的词频作为热力图热度的依 据,据以构建二维热力图。将降维后的二维关键词向量当作二维坐标,关键词的词频作为热 力图热度的依据,绘制二维热力图,并在相应位置标注上关键词。热力图的形成可以使用外 部插件,如heatmap.js和ECHARTS的Heatmap等。
在一些实施例中,热力图的构建还包括如下多个步骤。
步骤S663:将研究方向关键词的二维词向量以散点的形式标注到热力图上。需注意的是, 不同研究者的特征关键词应使用不同研究进行标注;还需要注意的是,为了方便用户理解, 应通过位置的小幅度平移合理排布错开散点所在位置;研究方向关键词超过5个时,可优先 显示步骤S125中抽取的特征关键词(研究者的特征关键词为研究方向关键词的子集)。
步骤S664:当用户移动页面上时间轴的年份时,根据研究者在时间轴所示年份时的关键 词向量更新散点所在位置,以示当时研究者的研究方向。
为便于本领域技术人员理解,现以图7所展示的本申请在一实施例中的热力图作为示意 来进行解释说明。在图7中,以“2009年~2019年”为时间跨度,分别研究了研究者A和研 究者B在这一时间段内的研究方向变化。本实施例中的研究方向包括:自动问答、特征提取、 自然语言处理、文本挖掘、深度学习、神经网络、机器学习、数据挖掘等等。研究者A和研 究者B的研究方向有相同之处也有不同之处,各研究者在不同时间段内的研究方向也有所不 同,各个研究方向在当时的研究热度也有不同。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算 机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序 在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟 或者光盘等各种可以存储程序代码的介质。
如图8所示,展示本申请一实施例中科研合作关系的图示化系统的结构示意图。所述系 统包括:路径确定模块81、合作信息获取模块82、位置信息获取模块83、以及图示化模块 84。
路径确定模块81用于对不同表述的研究者信息进行统一化处理,并确定对象研究者的科 研迁徙路径。合作信息获取模块82用于获取与所述对象研究者关联的合作研究者信息和/或 潜在合作研究者信息。位置信息获取模块83用于获取对象研究者所在工作机构的位置信息。 图示化模块84用于以所述对象研究者为中心构建关系网络图,其图示化的信息包括所述对象 研究者的基本信息、科研迁徙路径信息、与其关联的合作研究者信息和/或潜在合作研究者信 息、以及所在机构的位置信息中的任一种或多种组合。
在一些实施例中,所述系统还包括关键词提取模块85和热力图构建模块86。关键词提 取模块85用于利用文献数据提取所述对象研究者的研究方向关键词。热力图构建模块86用 于根据对象研究者的研究方向关键词,构建用于表示该对象研究者在一段预设时间内研究方 向变化的热力图。
需要说明的是,本实施例中科研合作关系的图示化系统的实施方式与上文中科研合作关 系的图示化方法的实施方式类似,故不再赘述。另外,应理解以上装置的各个模块的划分仅 仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理 上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形 式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。
如图9所示,展示本申请实施例提供的再一种电子终端的结构示意图。本实例提供的电 子终端,包括:处理器91、存储器92、收发器93;存储器92通过系统总线与处理器91和收发器93连接并完成相互间的通信,存储器92用于存储计算机程序,收发器93用于与外部设备通信连接,处理器91用于运行计算机程序,使电子终端执行如上科研合作关系的图示化 方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称 PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该 系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示, 但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备 (例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁 盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、 网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现 场可编程门阵列(Field-Programmable GateArray,简称FPGA)或者其他可编程逻辑器件、分 立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本申请提供科研合作关系的图示化方法、系统、存储介质、及终端,本申请 对研究者工作机构及研究者名进行了标准化处理,使得展示效果更贴近实际情况;进一步地, 通过整合论文的发文信息,可以获得研究者的迁徙途径;还可通过二维热力图进一步了解研 究者研究方向的变化,并对比指定研究者研究方向上的微观差别,以满足精准挖掘科研人才 等需求。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技 术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡 所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等 效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (10)

1.一种科研合作关系的图示化方法,其特征在于,包括:
对不同表述的研究者信息进行统一化处理,并确定对象研究者的科研迁徙路径;
获取与所述对象研究者关联的合作研究者信息和/或潜在合作研究者信息;
获取对象研究者所在工作机构的位置信息;
以所述对象研究者为中心构建关系网络图,其图示化的信息包括所述对象研究者的基本信息、科研迁徙路径信息、与其关联的合作研究者信息和/或潜在合作研究者信息、以及所在机构的位置信息中的任一种或多种组合。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用文献数据提取所述对象研究者的研究方向关键词;
根据对象研究者的研究方向关键词,构建用于表示该对象研究者在一段预设时间内研究方向变化的热力图。
3.根据权利要求1所述的方法,其特征在于,对不同表述的研究者信息进行统一化处理,并确定对象研究者的科研迁徙路径,其方式包括:
通过研究者的唯一标识对研究者进行聚合;
根据研究方向的相似度对聚合后的研究者进行二次聚合。
4.根据权利要求3所述的方法,其特征在于,所述方法包括:
根据研究者的离散数据集合,利用话题模型计算每个研究者的话题概率分布;
根据研究者的话题概率分布,计算各研究者对之间研究方向的相似度;
将满足相似度要求的研究者对作为候补,并计算候补研究者对中研究者姓名之间的字符串相似度并根据相似度判断研究者对是否可以进行合并;
利用文献数据中的关键词数据,对是否将研究者进行合并做补充判断;
根据文献发布时间标注研究者的职业路径点,据以获得研究者的科研迁徙路径。
5.根据权利要求1所述的方法,其特征在于,包括:
根据合著者与对象研究者共同发文的数量在对象研究者所有发文数量中的占比来确定与对象研究者的合作研究者;和/或
根据研究者之间的研究方向相似度来确定与对象研究者的潜在合作研究者。
6.根据权利要求5所述的方法,其特征在于,所述方法包括:利用关系图插件展示对象研究者的关系网络图,其包括:
利用可视化插件绘制对象研究者节点,并绘制对象研究者的合作研究者节点和/或潜在合作研究者节点,从而形成对象研究者的关系图谱;
采用不同的连接标示连接对象研究者与合作研究者、潜在合作研究者之间的节点。
7.根据权利要求2所述的方法,其特征在于,所述方法包括:
利用词向量模型将研究方向关键词进行向量化处理,并利用降维模型将多维词向量降维至二维词向量;
以所述二维词向量为坐标,并以研究方向关键词的词频作为热力图热度的依据,据以构建二维热力图。
8.一种科研合作关系的图示化系统,其特征在于,包括:
路径确定模块,用于对不同表述的研究者信息进行统一化处理,并确定对象研究者的科研迁徙路径;
合作信息获取模块,用于获取与所述对象研究者关联的合作研究者信息和/或潜在合作研究者信息;
位置信息获取模块,用于获取对象研究者所在工作机构的位置信息;
图示化模块,用于以所述对象研究者为中心构建关系网络图,其图示化的信息包括所述对象研究者的基本信息、科研迁徙路径信息、与其关联的合作研究者信息和/或潜在合作研究者信息、以及所在机构的位置信息中的任一种或多种组合。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述科研合作关系的图示化方法。
10.一种电子终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至7中任一项所述科研合作关系的图示化方法。
CN201910779243.2A 2019-06-24 2019-08-22 科研合作关系的图示化方法、系统、存储介质、及终端 Pending CN110941662A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910548824 2019-06-24
CN2019105488245 2019-06-24

Publications (1)

Publication Number Publication Date
CN110941662A true CN110941662A (zh) 2020-03-31

Family

ID=69905721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910779243.2A Pending CN110941662A (zh) 2019-06-24 2019-08-22 科研合作关系的图示化方法、系统、存储介质、及终端

Country Status (1)

Country Link
CN (1) CN110941662A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639192A (zh) * 2020-05-12 2020-09-08 新奥数能科技有限公司 一种获取能流图的方法、装置、可读介质及电子设备
CN112164435A (zh) * 2020-10-14 2021-01-01 上海妙一生物科技有限公司 信息匹配方法、装置、设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011065630A1 (ko) * 2009-11-24 2011-06-03 한국과학기술정보연구원 연구자의 연구정보 분석 장치 및 그 방법 그리고 방법에 관한 컴퓨터가 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
CN102609546A (zh) * 2011-12-08 2012-07-25 清华大学 一种学术期刊论文作者信息挖掘方法及系统
CN106021424A (zh) * 2016-05-13 2016-10-12 南京邮电大学 一种文献作者重名检测方法
CN106227835A (zh) * 2016-07-25 2016-12-14 中南大学 基于二分网络图层次聚类的团队研究方向挖掘方法
CN106649373A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 热力图显示方法及装置
CN106909680A (zh) * 2017-03-03 2017-06-30 中国科学技术信息研究所 一种基于知识组织语义关系的科技专家信息聚合方法
CN108897860A (zh) * 2018-06-29 2018-11-27 中国科学技术信息研究所 信息推送方法、装置、电子设备及计算机可读存储介质
CN109359249A (zh) * 2018-09-29 2019-02-19 清华大学 基于学者科研成果挖掘的学者精准定位方法及装置
CN109726280A (zh) * 2018-12-29 2019-05-07 北京邮电大学 一种针对同名学者的排歧方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011065630A1 (ko) * 2009-11-24 2011-06-03 한국과학기술정보연구원 연구자의 연구정보 분석 장치 및 그 방법 그리고 방법에 관한 컴퓨터가 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
CN102609546A (zh) * 2011-12-08 2012-07-25 清华大学 一种学术期刊论文作者信息挖掘方法及系统
CN106649373A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 热力图显示方法及装置
CN106021424A (zh) * 2016-05-13 2016-10-12 南京邮电大学 一种文献作者重名检测方法
CN106227835A (zh) * 2016-07-25 2016-12-14 中南大学 基于二分网络图层次聚类的团队研究方向挖掘方法
CN106909680A (zh) * 2017-03-03 2017-06-30 中国科学技术信息研究所 一种基于知识组织语义关系的科技专家信息聚合方法
CN108897860A (zh) * 2018-06-29 2018-11-27 中国科学技术信息研究所 信息推送方法、装置、电子设备及计算机可读存储介质
CN109359249A (zh) * 2018-09-29 2019-02-19 清华大学 基于学者科研成果挖掘的学者精准定位方法及装置
CN109726280A (zh) * 2018-12-29 2019-05-07 北京邮电大学 一种针对同名学者的排歧方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639192A (zh) * 2020-05-12 2020-09-08 新奥数能科技有限公司 一种获取能流图的方法、装置、可读介质及电子设备
CN112164435A (zh) * 2020-10-14 2021-01-01 上海妙一生物科技有限公司 信息匹配方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
US11816100B2 (en) Dynamically materialized views for sheets based data
US11086894B1 (en) Dynamically updated data sheets using row links
US11775859B2 (en) Generating feature vectors from RDF graphs
US11966419B2 (en) Systems and methods for combining data analyses
Hoch et al. Geolinguistics: The incorporation of geographic information systems and science
Ignatov et al. Can triconcepts become triclusters?
DE112018005616T5 (de) Blockweise extraktion von dokumentmetadaten
JP2016534475A (ja) スマート検索絞り込み
CN110612522A (zh) 实体模型的建立
EP3732587A1 (en) Systems and methods for context-independent database search paths
WO2019110654A1 (en) Systems and methods for querying databases using interactive search paths
Osińska et al. New methods for visualization and improvement of classification schemes: the case of computer science
CN110941662A (zh) 科研合作关系的图示化方法、系统、存储介质、及终端
CN115017315A (zh) 一种前沿主题识别方法、系统及计算机设备
Roith et al. Supporting the building design process with graph-based methods using centrally coordinated federated databases
Herr et al. The NIH visual browser: An interactive visualization of biomedical research
CN113407678A (zh) 知识图谱构建方法、装置和设备
Olanrewaju et al. Dfam: A distributed feedback analysis mechanism for knowledge based educational big data
CN112214615A (zh) 基于知识图谱的政策文件处理方法、装置和存储介质
Cooper et al. Knowledge-based fast web query engine using NoSQL
Kawan et al. Multiclass Resume Categorization Using Data Mining
CN103810242A (zh) 创新经纬网及文献位置自动识别系统及方法
US20230259539A1 (en) System and method for automatically extracting and visualizing topics and information from large unstructured text database
US11500933B2 (en) Techniques to generate and store graph models from structured and unstructured data in a cloud-based graph database system
Salvador et al. A Cloud-based Exploration of Open Data: Promoting Transparency and Accountability of the Federal Government of Australia.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200331