CN108304380A - 一种融合学术影响力的学者人名消除歧义的方法 - Google Patents

一种融合学术影响力的学者人名消除歧义的方法 Download PDF

Info

Publication number
CN108304380A
CN108304380A CN201810067134.3A CN201810067134A CN108304380A CN 108304380 A CN108304380 A CN 108304380A CN 201810067134 A CN201810067134 A CN 201810067134A CN 108304380 A CN108304380 A CN 108304380A
Authority
CN
China
Prior art keywords
node
scholar
academic
document
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810067134.3A
Other languages
English (en)
Other versions
CN108304380B (zh
Inventor
邓辉舫
李超然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810067134.3A priority Critical patent/CN108304380B/zh
Publication of CN108304380A publication Critical patent/CN108304380A/zh
Application granted granted Critical
Publication of CN108304380B publication Critical patent/CN108304380B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合学术影响力的学者人名消除歧义的方法,该方法是将消歧数据子集和源数据集依据其合著及引用关系构建社交网络,根据网络关系计算消歧数据子集中各个节点的影响力;在消歧数据子集内部根据节点关系分别构建学者与学者,学者与文献,文献与文献,三个网络关系,使用基于排序的损失函数,并结合节点影响力相似度在多个网络中联合学习学者节点间的相似度;基于节点相似度和节点影响力构造聚类函数,从而实现较好的消歧效果。本发明在保护个人隐私的同时克服学术数据中的信息缺失问题,充分利用社交网络特征,融合节点影响力与节点相似度,有效提升学者人名消歧效果。

Description

一种融合学术影响力的学者人名消除歧义的方法
技术领域
本发明涉及实体消歧的技术领域,尤其是指一种融合学术影响力的学者人名消除歧义的方法。
背景技术
如今绝大多数学术资料均以电子资源形式存储于网络数据库中,科研活动越来越依赖于文献系统,通过文献系统可以获取学者信息和研究文献。学者人名歧义包括:(1)相同学者名在不同文献中记录形式不同;(2)不同学者在文献中名字相同。由于可能存在大量同名学者,且在科技文献中存在简写形式,维护这些数据的文献服务器可能会将多个学者的文献错误聚合,其信息的准确性将直接影响人们学术活动的有效性,因此文献资源面临着严峻的学者人名消歧问题。高效准确的学者名称消歧有助于正确组织文献及学者信息,方便用户获取所需资源,在实际应用中有重要意义。
学者人名消歧属于实体消歧领域的一个分支,现有工作包含基于监督学习的消歧方法和无监督式的消歧方法,目标是建立文献与现实中实体的对应关系。基于监督学习的方法是指,根据人工标注的数据,主要包括学者名字、文献标题、出版地点、研究领域、电子邮件等属性信息,生成分类模型,用其判断相同学者名字是否属于同一个学者实体。但数字文献信息繁多且存在信息缺失、信息错误的问题,需要大量数据标注和清洗,成本较高。无监督名称消歧方法是将记录划分为几个群组,使得每个群组包含来自唯一实体的记录。其方法是利用属性计算记录间的相似度,根据相似度进行聚类。但由于属性相似度约束往往较弱,且难以客观判定区分实体的相似度阈值,消歧准确率往往较低。另一方面,学者数据挖掘涉及学者个人隐私,如何在保护学者隐私的前提下进行人名消歧也是这一领域的一个重要问题。
学者的学术影响力是衡量科研主体的工作质量和重要性的重要指标,现有的学者影响力评估方法大多基于学者相关文献的引用次数,通过学者间合著关系及文献间引用关系构成网络进行学术影响力评估。常用的方式是采用搜索引擎中PageRank方法,对文献及学者重要性进行排序,同时考虑节点间相似度对学术影响力传播的影响进行学术影响力评估。学者的学术影响力是学者之间很有区分度的一个特征,然而现有的学者人名消歧方法多是从学者单个节点角度出发,根据单个节点的特征,而没有从网络全局出发考虑学者的学术影响力。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种融合学术影响力的学者人名消除歧义的方法,在保护个人隐私的同时克服学术数据中的信息缺失问题,充分利用社交网络特征,融合节点学术影响力与节点相似度,有效提升学者人名消歧效果。
为实现上述目的,本发明所提供的技术方案为:一种融合学术影响力的学者人名消除歧义的方法,该方法是以实现将待消歧人名与学者实体准确对应为目标,通过融合学者学术影响力,改进相似度计算模型,提出增强的学术影响力计算模型,而后通过改进网络结构、模型聚类函数和模型组合,以达到更高的消歧准确率;其包括以下步骤:
步骤S1、将学者数据集合U按名字分组得到n个名字组A,根据文献将每个名字组划分为m个学者实体节点a;
步骤S2、根据步骤S1划分结果,对每个组A,分别在组内学者实体节点与U中名字组节点间通过合作关系建立合作关系网络G;
步骤S3、对于每个组A,结合节点相似度和自身重要性,在合作网络G上计算A中各个学者实体节点a基于特征集F的学术影响力
步骤S4、使用网络嵌入匿名图方法,结合步骤S3所得节点的学术影响力,得到文献矩阵D,根据D计算得到名字组内学者实体节点a带学术影响力约束的相似度Sa
步骤S5、利用步骤S4所得相似度,重复步骤S1~S3重新计算学术影响力,得到学者实体节点a基于学术影响力相似度的新的学术影响力其中S表示该节点带学术影响力约束的相似度;
步骤S6、根据节点学术影响力的差异和相似度得到聚类函数C,使用凝聚层次聚类算法得到消歧结果。
在步骤S1中,数据集合U中包含待消歧的各个同名学者名字组A,U={A1,A2,...,An},其中Ai为U中第i个名字组,包含Ai所对应学者人名的所著文献属性及其合著者信息;对于所得到的每个名字组,以文献来区分学者实体,将组中每个文献中的待消歧学者名字作为一个学者实体;假设名字组Ai中有m篇文献,则将该名字组划分为m个学者实体aij,即Ai={ai1,ai2,...,aim},其中0<i≤n,0<j≤m。
在步骤S2中,将步骤S1中所得每一个名字组A中的学者实体节点a,与A在数据集合U上的补集CUA中的各个名字组节点间建立合作关系网络G=(A∪CUA,E),其中,E为网络中边的集合,表示节点间的合作关系,各实体节点与名字组节点分别通过合著关系和引用关系构成边,合著关系为双向边,引用关系为单向边。
在步骤S3中,根据步骤S2所得的合作网络,在包含学者和文献特征的数据集上采用细粒度特征的学术影响力评估算法,结合自身重要性和影响概率构建基于特征集F的学术影响力;F为从待消歧数据集合U中选取的特征集F={f1,f2,...,fn},其中,fn表示F中第n个特征;分别为节点a和A定义一组特征强度向量其中:
a、节点的自身重要性Iout为节点基于角色的重要性,以特征强度来度量,其关系表示为其中n为特征数量,fi表示在第i个特征上的强度;
b、节点间的影响概率由直接影响即节点相似度和间接影响即公共边数量构成;其关系为其中q为直接影响在影响概率中所占比例;结合节点的自身重要性Iout,及其邻居节点的影响概率节点的初始学术影响力II表示如下:
其中p为自身重要性在初始学术影响力中所占的比例,N表示计算节点对象的邻居节点集合,节点a和A的邻居节点集合分别表示为Na和NA
假设节点以一定概率相互传播;节点间的学术影响力贡献IF表示如下:
其中为运算目标节点的邻居节点A的学术影响力,为节点间的传播概率,节点a对A的传播概率表示为节点A对a的传播概率表示为 初始时,IF=II
迭代计算节点的学术影响力,得到实体节点a较理想的学术影响力,表示为
在步骤S4中,对于每一个名字组内的节点,根据其合作关系构建学者-学者网络Gpp、学者-文献网络Gpd、文献-文献网络Gdd,文献用d表示,dk表示文献集合D中第k篇文献,三个网络如下:
Gpp=(Ax,Epp)
式中,Ax为合著者集合,Epp为网络中的边的集合,表示学者间的合著关系;
Gpd=(A∪D,Epd)
式中,A为学者名字组,D为该名字组中学者所著文献集合,Epd为学者与文献间边的集合,表示学者实体a与文献d的关系,a∈A,d∈D;若学者实体aij著有文献dk,则aij与dk间存在边aij∈Ai
Gdd=(D,Edd)
式中,D表示文献,Edd为文献间边的集合,表示文献与文献的关系,若第i篇文献di与和第j篇文献dj相似,则di与dj间存在边eij∈Edd;相似性定义包含根据学者-学者、学者-文献网络关系所形成的合作交集、下一跳邻居交集及节点学术影响力的相似度:定义为文献di的合著者集合,为包含中所有学者邻居的扩展集合,其中表示合著者b在网络Gpp中与邻居集合的相似性;
文献di与dj间相似度其密切程度其中为di的转置。以文献矩阵D来区分各实体节点的概率 分别为正负训练集,找到使得P(>|D)最大的文献矩阵D:
表示由文献di组成的矩阵在N×k维空间R的转置,其中1<i≤N;根据D得到节点a的相似度表达Sa
在步骤S5中,重复步骤S1~S3,在步骤S3中,利用步骤S4所得实体节点a的相似度Sa重新计算节点的影响概率,其中,λ为归一化因子,结合自身重要性和节点相似度,得到名字节点a基于学术影响力相似度的新的学术影响力其中S表示该节点带学术影响力约束的相似度。
在步骤S6中,将步骤S4所得文献矩阵D和步骤S5所得节点学术影响力作为输入,以节点属性相似度Sa和节点学术影响力的乘积构成聚类函数C,节点aij的聚类函数表示为取阈值θ,若节点aij与节点aik聚类结果的距离满足则两节点属于同一学者实体,并将其合并为一个新组,得到y个新组,假设原始有n个分组,名字组Ai有x个节点,通过对Ai进行消歧后的消歧结果为n+x-1+y-1,即此时的名字组数。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明在节点相似度计算中加入了节点学术影响力约束,考虑节点间拓扑特征的同时,通过节点学术影响力的相似性约束来提升节点相似度计算的准确性。
2、本发明结合多网络联合嵌入方法所得相似度来计算增强的节点学术影响力,将普通基于特征相似度的学术影响力扩展为融合学术影响力相似度的节点学术影响力,削弱了单纯考虑特征相似度时节点特征信息稀疏的影响,并提升了对特征信息的容错性。
3、本发明使用融合了增强的节点学术影响力和相似度的聚类算法进行学者人名消歧,既考虑了节点相似性,也加入节点间的相互影响,因此,融合了学术影响力的消歧算法更能有效的区分不同节点,具有更高的消歧准确率。
附图说明
图1是本发明的方法流程图。
图2是本发明的逻辑结构图。
图3是本发明发明内容具体步骤中学术影响力计算的结构图。
图4是本发明具体实施方式中学术影响力计算的节点合作关系图。
图5是本发明具体实施方式中相似度计算的学者-学者合作关系图。
图6是本发明具体实施方式中相似度计算的学者-文献关系图。
图7是本发明具体实施方式中相似度计算的文献-文献关系图。
图8是本发明具体实施方式中相似度计算的逻辑图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的融合学术影响力的学者人名消除歧义的方法,主要是将待消歧数据子集和源数据集依据其合著及引用关系构建社交网络,根据网络关系计算待消歧数据子集中各个节点的学术影响力;在待消歧数据子集内部根据节点关系分别构建学者与学者,学者与文献,文献与文献,三个网络关系,使用基于排序的损失函数,并结合节点学术影响力相似度在多个网络中联合学习学者节点间的相似度;基于节点相似度和节点学术影响力构造聚类函数,从而实现较好的消歧效果。
如图1和图2所示,上述方法包括以下步骤:
S1、将学者数据集合U按名字分组得到n个名字组A,根据文献将每个名字组划分为m个学者实体a;
S2、根据步骤S1划分结果,对每个组A,分别在组内学者实体节点与U中名字组节点间通过合作关系建立合作关系网络G;
S3、对于每个组A,结合节点相似度和自身重要性,在合作网络G上计算A中各个学者实体节点a基于特征集F的学术影响力
S4、使用网络嵌入匿名图方法,结合步骤S3所得节点的学术影响力,得到文献矩阵D,根据D计算得到名字组内学者实体节点a带学术影响力约束的相似度Sa
S5、利用步骤S4所得相似度,重复步骤S1~S3重新计算学术影响力,得到学者实体节点a基于学术影响力相似度的新的学术影响力其中S表示该节点带学术影响力约束的相似度;
S6、根据节点学术影响力的差异和相似度得到聚类函数C,使用凝聚层次聚类算法得到消歧结果。
步骤S1的具体实施方式是:将实际学术数据集Arnetminer作为U,U中包含待消歧的名字组A,U={A1,A2,..Ai.,An},Ai表示U中第i个名字组,包含Ai对应学者人名所著的所有文献属性及其合著者信息;如U={Ajay Gupta,Alok Gupta,...},文件Ajay Gupta是名字为Ajay Gupta的学者所著文献的集合,其中包含文献的标题,出版时间,出版社,合著者等信息;对每个名字组Ai,以文献来区分学者实体,即每篇文献对应一个学者实体;以名字组A1为消歧案例对象,假设A1中有m篇文献,则A1={a11,a12,..a1j.,a1m},其中a1j为A1中第j个学者实体,0<j≤m;
步骤S2的具体实施方式是:将步骤S1中所得名字组A1中的所有学者实体,与A1在数据集合U上的补集CUA1中的各个名字组Ai间建立合作关系网络G1=(A1∪CUA1,E),E为网络中边的集合,表示节点间的合作关系,如图4学术影响力计算的节点合作关系图所示,节点间分别通过合著关系和引用关系构成有向边,合著关系为双向边,引用关系为单向边;如a11和a12与A2间都存在边,则节点a11与a12存在一条公共边。
步骤S3的具体实施方式是:根据步骤S2所得的合作网络,采用细粒度特征的学术影响力评估算法,如图3所示,结合自身重要性和影响概率构建基于特征集F的学术影响力;从待消歧数据集合U中选取特征集F;为每个节点定义一组特征强度向量fk的值表示节点a在第k个特征上的强度,我们取5个特征,即n=5。其中,影响概率由直接影响和间接影响构成。
在网络G1=(A1∪CUA1,E)中,名字组A1中第j个节点a1j的特征强度向量 表示节点a1j在第k个特征上的强度。对于节点间的每一条边e(a1j,Ai)∈E,Ai∈CUA1,节点间的链接强度为其中:
自身重要性为节点基于角色的重要性,以特征强度来度量,我们选取5个特征,即此处n=5,则节点a1j的自身重要性
节点Ai与a1j间的影响概率由直接影响和间接影响构成,各占比重分别取值0.5,该影响概率为直接影响为基于相似度的影响,节点Ai与a1j间的特征相似度为各个特征相似度s的整合,即其中sk表示与Ai在第k个特征上的相似度。该直接影响 为节点a1j与Ai间的链接强度;间接影响由公共边数量决定;结合自身重要性和影响概率,各占比重分别取值0.5,节点a1j的初始学术影响力为:
(为a1j的邻居节点Ai的集合)
节点Ai到a1j的学术影响力传播概率可以表示为 值越大表示传播的概率越大;节点Ai对a1j的贡献:(初始时,);同理可得节点Ai的邻居对其影响力贡献迭代得到Ai新的影响力其中Ag为U中Ai的邻居节点;
迭代计算节点的学术影响力,得到实体节点a1j较理想的最终学术影响力
步骤S4的具体实施方式是:对于每一个名字组,根据组内节点合作关系构建学者-学者Gpp、学者-文献Gpd、文献-文献Gdd三个网络并结合节点学术影响力提取相似文献矩阵,文献用d表示,dk表示文献集合D中第k篇文献,各网络结构分别如图5、图6、图7所示,逻辑图如图8所示,其中:
Gpp=(Ax,Epp)
式中,Ax为合著者集合,Epp为网络中的边的集合,表示学者间的合著关系;若节点a1j与Ai存在一次合著关系,则存在边边的权重为1;
Gpd=(A∪D,Epd)
式中,A表示学者名字组,D为该名字组中学者所著文献集合,Epd为学者与文献间边的集合,表示学者a与文献d的关系,a∈A,d∈D;若学者aij著有文献dk,则aij与dk间存在边此处权重wij为1,aij∈Ai
Gdd=(D,Edd)
式中,D为文献集合,Epd为文献间边的集合,表示文献与文献的关系,文献用d表示,若第i篇文献di与和第j篇文献dj相似,则di与dj间存在边eij∈Edd;相似性定义包含根据学者-学者、学者-文献网络关系所形成的合作交集、下一跳邻居交集及节点学术影响力的相似度:定义为文献di的合著者集合,中所有学者邻居的扩展集合,则其中表示b在网络Gpp中的邻居集合相似性;
文献di与dj间相似度其密切程度 为di所构成向量的转置。以文献矩阵D来区分各个人名节点的概率其中分别为正负训练集,找到能够使得P(>|D)最大的文献矩阵D:
表示由文献di,1<i≤N组成的矩阵在N×k维空间R的转置,根据D得到节点aij的相似度表达
步骤S5的具体实施方式是:重复步骤S1~S3,在步骤S3中,利用步骤S4所得相似度重新计算节点aij的影响概率,其中,λ为归一化因子,结合自身重要性和节点相似度,得到名字节点aij基于学术影响力相似度的新的学术影响力其中S表示带学术影响力约束的相似度,计算对象为aij时,S代表Saij
步骤S6的具体实施方式是:将步骤S4所得文献矩阵D和步骤S5所得作为输入,以节点相似度和节点学术影响力的乘积构成聚类函数C,节点aij的聚类函数表示为取阈值θ,若节点a11与节点a12聚类结果的距离满足则两节点属于同一学者实体,并将其合并为一个新组,得到y个新组,假设原始有n个分组,名字组Ai有x个节点,通过对Ai进行消歧后的消歧结果为n+x-1+y-1,即此时的名字组数。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (7)

1.一种融合学术影响力的学者人名消除歧义的方法,其特征在于:该方法是以实现将待消歧人名与学者实体准确对应为目标,通过融合学者影响力,改进相似度计算模型,提出增强的影响力计算模型,而后通过改进网络结构、模型聚类函数和模型组合,以达到更高的消歧准确率;其包括以下步骤:
步骤S1、将学者数据集合U按名字分组得到n个名字组A,根据文献将每个名字组划分为m个学者实体节点a;
步骤S2、根据步骤S1划分结果,对每个组A,分别在组内学者实体节点与U中名字组节点间通过合作关系建立合作关系网络G;
步骤S3、对于每个组A,结合节点相似度和自身重要性,在合作网络G上计算A中各个学者实体节点a基于特征集F的学术影响力
步骤S4、使用网络嵌入匿名图方法,结合步骤S3所得节点的学术影响力,得到文献矩阵D,根据D计算得到名字组内学者实体节点a带学术影响力约束的相似度Sa
步骤S5、利用步骤S4所得相似度,重复步骤S1~S3重新计算学术影响力,得到学者实体节点a基于学术影响力相似度的新的学术影响力其中S表示该节点带学术影响力约束的相似度;
步骤S6、根据节点学术影响力的差异和相似度得到聚类函数C,使用凝聚层次聚类算法得到消歧结果。
2.根据权利要求1所述的一种融合学术影响力的学者人名消除歧义的方法,其特征在于:在步骤S1中,数据集合U中包含待消歧的各个同名学者名字组A,U={A1,A2,...,An},其中Ai为U中第i个名字组,包含Ai所对应学者人名的所著文献属性及其合著者信息;对于所得到的每个名字组,以文献来区分学者实体,将组中每个文献中的待消歧学者名字作为一个学者实体;假设名字组Ai中有m篇文献,则将该名字组划分为m个学者实体aij,即Ai={ai1,ai2,...,aim},其中0<i≤n,0<j≤m。
3.根据权利要求1所述的一种融合学术影响力的学者人名消除歧义的方法,其特征在于:在步骤S2中,将步骤S1中所得每一个名字组A中的学者实体节点a,与A在数据集合U上的补集CUA中的各个名字组节点间建立合作关系网络G=(A∪CUA,E),其中,E为网络中边的集合,表示节点间的合作关系,各实体节点与名字组节点分别通过合著关系和引用关系构成边,合著关系为双向边,引用关系为单向边。
4.根据权利要求1所述的一种融合学术影响力的学者人名消除歧义的方法,其特征在于:在步骤S3中,根据步骤S2所得的合作网络,在包含学者和文献特征的数据集上采用细粒度特征的学术影响力评估算法,结合自身重要性和影响概率构建基于特征集F的学术影响力;F为从待消歧数据集合U中选取的特征集F={f1,f2,...,fn},其中,fn表示F中第n个特征;分别为节点a和A定义一组特征强度向量其中:
a、节点的自身重要性Iout为节点基于角色的重要性,以特征强度来度量,其关系表示为其中n为特征数量,fi表示在第i个特征上的强度;
b、节点间的影响概率由直接影响即节点相似度和间接影响即公共边数量构成;其关系为其中q为直接影响在影响概率中所占比例;结合节点的自身重要性Iout,及其邻居节点的影响概率节点的初始学术影响力II表示如下:
其中p为自身重要性在初始学术影响力中所占的比例,N表示计算节点对象的邻居节点集合,节点a和A的邻居节点集合分别表示为Na和NA
假设节点以一定概率相互传播;节点间的学术影响力贡献IF表示如下:
其中为运算目标节点的邻居节点A的学术影响力,为节点间的传播概率,节点a对A的传播概率表示为节点A对a的传播概率表示为 初始时,IF=II
迭代计算节点的学术影响力,得到实体节点a较理想的学术影响力,表示为
5.根据权利要求1所述的一种融合学术影响力的学者人名消除歧义的方法,其特征在于:在步骤S4中,对于每一个名字组内的节点,根据其合作关系构建学者-学者网络Gpp、学者-文献网络Gpd、文献-文献网络Gdd,文献用d表示,dk表示文献集合D中第k篇文献,三个网络如下:
Gpp=(Ax,Epp)
式中,Ax为合著者集合,Epp为网络中的边的集合,表示学者间的合著关系;
Gpd=(A∪D,Epd)
式中,A为学者名字组,D为该名字组中学者所著文献集合,Epd为学者与文献间边的集合,表示学者实体a与文献d的关系,a∈A,d∈D;若学者实体aij著有文献dk,则aij与dk间存在边aij∈Ai
Gdd=(D,Edd)
式中,D表示文献,Edd为文献间边的集合,表示文献与文献的关系,若第i篇文献di与和第j篇文献dj相似,则di与dj间存在边eij∈Edd;相似性定义包含根据学者-学者、学者-文献网络关系所形成的合作交集、下一跳邻居交集及节点学术影响力的相似度:定义为文献di的合著者集合,为包含中所有学者邻居的扩展集合,其中表示合著者b在网络Gpp中与邻居集合的相似性;
文献di与dj间相似度其密切程度其中为di的转置,以文献矩阵D来区分各实体节点的概率 分别为正负训练集,找到使得P(>|D)最大的文献矩阵D:
表示由文献di组成的矩阵在N×k维空间R的转置,其中1<i≤N;根据D得到节点a的相似度表达Sa
6.根据权利要求1所述的一种融合学术影响力的学者人名消除歧义的方法,其特征在于:在步骤S5中,重复步骤S1~S3,在步骤S3中,利用步骤S4所得实体节点a的相似度Sa重新计算节点的影响概率,其中,λ为归一化因子,结合自身重要性和节点相似度,得到名字节点a基于学术影响力相似度的新的学术影响力其中S表示该节点带学术影响力约束的相似度。
7.根据权利要求1所述的一种融合学术影响力的学者人名消除歧义的方法,其特征在于:在步骤S6中,将步骤S4所得文献矩阵D和步骤S5所得节点学术影响力作为输入,以节点属性相似度Sa和节点学术影响力的乘积构成聚类函数C,节点aij的聚类函数表示为取阈值θ,若节点aij与节点aik聚类结果的距离满足则两节点属于同一学者实体,并将其合并为一个新组,得到y个新组,假设原始有n个分组,名字组Ai有x个节点,通过对Ai进行消歧后的消歧结果为n+x-1+y-1,即此时的名字组数。
CN201810067134.3A 2018-01-24 2018-01-24 一种融合学术影响力的学者人名消除歧义的方法 Expired - Fee Related CN108304380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810067134.3A CN108304380B (zh) 2018-01-24 2018-01-24 一种融合学术影响力的学者人名消除歧义的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810067134.3A CN108304380B (zh) 2018-01-24 2018-01-24 一种融合学术影响力的学者人名消除歧义的方法

Publications (2)

Publication Number Publication Date
CN108304380A true CN108304380A (zh) 2018-07-20
CN108304380B CN108304380B (zh) 2020-09-22

Family

ID=62866231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810067134.3A Expired - Fee Related CN108304380B (zh) 2018-01-24 2018-01-24 一种融合学术影响力的学者人名消除歧义的方法

Country Status (1)

Country Link
CN (1) CN108304380B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102393A (zh) * 2018-08-15 2018-12-28 阿里巴巴集团控股有限公司 训练和使用关系网络嵌入模型的方法及装置
CN109492027A (zh) * 2018-11-05 2019-03-19 南京邮电大学 一种基于弱可信数据的跨社群潜在人物关系分析方法
CN109726280A (zh) * 2018-12-29 2019-05-07 北京邮电大学 一种针对同名学者的排歧方法及装置
CN110020433A (zh) * 2019-04-01 2019-07-16 中科天玑数据科技股份有限公司 一种基于企业关联关系的工商高管人名消歧方法
CN110197084A (zh) * 2019-06-12 2019-09-03 上海联息生物科技有限公司 基于可信计算及隐私保护的医疗数据联合学习系统及方法
CN110942082A (zh) * 2019-03-27 2020-03-31 南京邮电大学 一种人才价值评估方法
CN110990524A (zh) * 2019-10-24 2020-04-10 清华大学 基于可靠信息库的学术成果机构命名排歧方法及装置
CN111191466A (zh) * 2019-12-25 2020-05-22 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN111680498A (zh) * 2020-05-18 2020-09-18 国家基础地理信息中心 实体消歧方法、装置、存储介质及计算机设备
CN112463977A (zh) * 2020-10-22 2021-03-09 三盟科技股份有限公司 基于知识图谱的社区挖掘方法、系统、计算机及存储介质
CN112487825A (zh) * 2020-11-30 2021-03-12 北京航空航天大学 一种人才信息数据库消歧系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法
CN104636426A (zh) * 2014-12-22 2015-05-20 河海大学 科研机构学术影响力的多因素综合定量分析与排序方法
CN104933111A (zh) * 2015-06-03 2015-09-23 中南大学 一种基于学术关系网络的专家学术距离评估方法
US9183290B2 (en) * 2007-05-02 2015-11-10 Thomas Reuters Global Resources Method and system for disambiguating informational objects
EP3113093A1 (en) * 2015-06-30 2017-01-04 ResearchGate GmbH Author disambiguation and publication assignment
CN106294677A (zh) * 2016-08-04 2017-01-04 浙江大学 一种面向英文文献中中国作者的姓名消歧方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183290B2 (en) * 2007-05-02 2015-11-10 Thomas Reuters Global Resources Method and system for disambiguating informational objects
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法
CN104636426A (zh) * 2014-12-22 2015-05-20 河海大学 科研机构学术影响力的多因素综合定量分析与排序方法
CN104933111A (zh) * 2015-06-03 2015-09-23 中南大学 一种基于学术关系网络的专家学术距离评估方法
EP3113093A1 (en) * 2015-06-30 2017-01-04 ResearchGate GmbH Author disambiguation and publication assignment
CN106294677A (zh) * 2016-08-04 2017-01-04 浙江大学 一种面向英文文献中中国作者的姓名消歧方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHRIS W. MUELDER ET.AL: "A Visual Analytics Approach to Author Name Disambiguation", 《2016 IEEE/ACM 3RD INTERNATIONAL CONFERENCE ON BIG DATA COMPUTING, APPLICATIONS AND TECHNOLOGIES》 *
刘京旋等: "学术网络中科研人员影响力分析方法研究", 《情报工程》 *
宋文强: "科技文献作者重名消歧与实体链接", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102393A (zh) * 2018-08-15 2018-12-28 阿里巴巴集团控股有限公司 训练和使用关系网络嵌入模型的方法及装置
CN109102393B (zh) * 2018-08-15 2021-06-29 创新先进技术有限公司 训练和使用关系网络嵌入模型的方法及装置
CN109492027A (zh) * 2018-11-05 2019-03-19 南京邮电大学 一种基于弱可信数据的跨社群潜在人物关系分析方法
CN109726280B (zh) * 2018-12-29 2021-05-14 北京邮电大学 一种针对同名学者的排歧方法及装置
CN109726280A (zh) * 2018-12-29 2019-05-07 北京邮电大学 一种针对同名学者的排歧方法及装置
CN110942082A (zh) * 2019-03-27 2020-03-31 南京邮电大学 一种人才价值评估方法
CN110942082B (zh) * 2019-03-27 2022-04-05 南京邮电大学 一种人才价值评估方法
CN110020433A (zh) * 2019-04-01 2019-07-16 中科天玑数据科技股份有限公司 一种基于企业关联关系的工商高管人名消歧方法
CN110020433B (zh) * 2019-04-01 2023-04-18 中科天玑数据科技股份有限公司 一种基于企业关联关系的工商高管人名消歧方法
CN110197084A (zh) * 2019-06-12 2019-09-03 上海联息生物科技有限公司 基于可信计算及隐私保护的医疗数据联合学习系统及方法
CN110990524A (zh) * 2019-10-24 2020-04-10 清华大学 基于可靠信息库的学术成果机构命名排歧方法及装置
CN111191466A (zh) * 2019-12-25 2020-05-22 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN111680498A (zh) * 2020-05-18 2020-09-18 国家基础地理信息中心 实体消歧方法、装置、存储介质及计算机设备
CN111680498B (zh) * 2020-05-18 2023-04-07 国家基础地理信息中心 实体消歧方法、装置、存储介质及计算机设备
CN112463977A (zh) * 2020-10-22 2021-03-09 三盟科技股份有限公司 基于知识图谱的社区挖掘方法、系统、计算机及存储介质
CN112487825A (zh) * 2020-11-30 2021-03-12 北京航空航天大学 一种人才信息数据库消歧系统

Also Published As

Publication number Publication date
CN108304380B (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN108304380A (zh) 一种融合学术影响力的学者人名消除歧义的方法
CN108492200B (zh) 一种基于卷积神经网络的用户属性推断方法和装置
Sun et al. Mining heterogeneous information networks: principles and methodologies
CN104731962B (zh) 一种社交网络中基于相似社团的好友推荐方法及系统
Salter-Townshend et al. Review of statistical network analysis: models, algorithms, and software
Wang et al. Effective lossless condensed representation and discovery of spatial co-location patterns
Dominguez-Sal et al. A discussion on the design of graph database benchmarks
Lu et al. PHA: A fast potential-based hierarchical agglomerative clustering method
CN104881689B (zh) 一种多标签主动学习分类方法及系统
CN106156286A (zh) 面向专业文献知识实体的类型抽取系统及方法
CN107609469B (zh) 社会网络关联用户挖掘方法及系统
Li et al. Social influence based community detection in event-based social networks
Sun et al. Co-evolution of multi-typed objects in dynamic star networks
Kumar et al. An upper approximation based community detection algorithm for complex networks
Zhu et al. HUNA: A method of hierarchical unsupervised network alignment for IoT
Li et al. Efficient community detection with additive constrains on large networks
Li et al. Efficient community detection in heterogeneous social networks
Sewell Model-based edge clustering
CN109949010A (zh) 基于信息系统整合的大数据的医院高层次人才测评系统
Liang et al. Region2vec: Community detection on spatial networks using graph embedding with node attributes and spatial interactions
Lee et al. Benchmarking community detection methods on social media data
Yue et al. Probabilistic linguistic multi-criteria decision-making based on double information under imperfect conditions
Li et al. An efficient semi-supervised community detection framework in social networks
Chakraborty et al. Ensemble detection and analysis of communities in complex networks
Yang et al. Exploring the roles of cannot-link constraint in community detection via Multi-variance Mixed Gaussian Generative Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200922