CN104111973B - 一种学者重名的消歧方法及其系统 - Google Patents

一种学者重名的消歧方法及其系统 Download PDF

Info

Publication number
CN104111973B
CN104111973B CN201410269979.2A CN201410269979A CN104111973B CN 104111973 B CN104111973 B CN 104111973B CN 201410269979 A CN201410269979 A CN 201410269979A CN 104111973 B CN104111973 B CN 104111973B
Authority
CN
China
Prior art keywords
document
disambiguation
scholar
classification
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410269979.2A
Other languages
English (en)
Other versions
CN104111973A (zh
Inventor
程学旗
陈忠祥
郭嘉丰
曹雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201410269979.2A priority Critical patent/CN104111973B/zh
Publication of CN104111973A publication Critical patent/CN104111973A/zh
Application granted granted Critical
Publication of CN104111973B publication Critical patent/CN104111973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了本发明提供一种学者重名的消歧方法,包括:分类模型建立步骤和迭代消歧步骤;其中,分类模型建立步骤为基于异质学术网络数据,通过标注获取标注数据集,并基于标注数据集,构建文档对二元分类的训练数据集,并基于训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;迭代消歧步骤为基于二元分类模型,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。本发明还公开了一种学者重名的消歧系统。

Description

一种学者重名的消歧方法及其系统
技术领域
本发明涉及实体消歧领域,特别是涉及一种面向学术领域的学者重名消除歧义的方法及其系统。
背景技术
文献系统是科研人员从事研究工作的重要工具。通过文献系统,科研人员可以全面获取文献和学者信息,了解相关研究的最新进展,进而开拓思路并提高研究水平。然而,目前文献系统中普遍存在一个重要问题,即学者重名问题。学者重名现象主要包括:(1)不同的学者具有相同名字(2)同一个学者名字在不同的文献中具有不同的表现形式。例如在万方文献系统中查询“王伟”,会返回几千条学者信息。而中国学者在发表外文文献时重名问题尤为突出,同样是“Wei Wang”,可能对应“王伟”、“王维”和“汪玮”等多达几十种的中文名称形式。另外在英文文献中存在缩写形式,“Wei Wang”也可以表示成“W.Wang”,更是加剧了重名现象的严重性。学者重名现象的存在,影响到论文隶属性的判断,即具有相同作者名字的论文是否隶属于同一个真实的学者,进而会严重影响到文献系统检索的准确性和基于学者层面进行分析评价的效果。因而,对学者重名进行有效的消歧,不但能够增强文献系统的规范化程度和提高系统服务水平,而且可以广泛的应用在科技评价、学术研究和科技管理中,帮助科研人员更有效的获取和了解学者信息。
学者重名消歧隶属于实体消歧领域,而实体消歧问题广泛存在于很多知识管理应用中,包括数字图书馆、社交网络分析、专家分析检索和舆情分析等。很多研究者针对学者重名问题展开深入的研究,提出了不同的解决方法。根据采用的方法可以分为:基于人工方式的消歧方法、监督式学习的消歧方法和无监督式学习的消歧方法。
基于人工方式的消歧方法,即通过人工辨识方式来判断具有相同作者名字的论文是否隶属于同一个真实的学者。这种方法在数据量少的情况下具有较高的可靠性;然而人工辨识的方式效率偏低,已经不再满足论文和学者数量的快速增长。目前更多采用的是基于学习的自动方法。
监督式学习的消歧方法,基于根据人工标注好的训练数据集合,创建学习模式,生成相应的分类模型;然后利用该分类模型判别具有相同作者名字的论文是否隶属于同一个真实的学者。然而在实际系统中,所面临一个重要问题就是信息稀疏性。譬如在文献系统中,学者的Email、主页和引文等重要信息常常是缺失的。这种信息稀疏性导致分类模型常常达不到预期效果,因而给学者重名消歧问题带来了巨大的挑战。
无监督式学习的消歧方法,基本思路是根据记录的属性特征,计算两个记录之间的相似度;然后利用聚类算法,得到最终的消歧结果,即哪些名字对应同一个真实的学者。无监督的消歧方法主要有基于经典聚类算法,包括层次聚类和谱聚类等,另外还有基于图分割或者图聚类方法来进行消歧。无监督的消歧方法因为不需要人工标注训练数据,通常具有较好的实用性。然而无监督式方法一般需要预先指定聚团的数目,而对于消歧问题而言,实体的聚团数目通常是不可预知的,因此给学者重名消歧问题带来很大的困难。
发明内容
本发明所要解决的技术问题在于提供一种学者重名的消歧方法及其系统,以克服学术数据中可能存在的信息稀缺问题以及现有技术中需要预先指定聚团数目的问题。
为达上述目的,本发明提供一种学者重名的消歧方法,其特征在于,包括:
分类模型建立步骤:基于异质学术网络数据,通过标注获取标注数据集,基于所述标注数据集,构建文档对二元分类的训练数据集,并基于所述训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;
迭代消歧步骤:基于所述二元分类模型,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。
上述学者重名的消歧方法,其特征在于,所述分类模型建立步骤还包括:
文档对特征提取步骤:提取所述文档对的特征,所述特征包含固有特征和关系特征。
上述学者重名的消歧方法,其特征在于,所述迭代消歧步骤还包括:
文档对构建步骤:基于所述待消歧的数据集,根据消歧的学术人名,获取该名字对应的文档候选集,建立所述文档候选集的文档对关系图,并获取所述文档对的特征;
迭代分类步骤:基于所述文档对的特征,利用所述文档对二元分类模型,预测二元分类的结果,获取初始分类信息,根据所述初始分类信息,经过反复迭代,生成所述文档对的二元分类;
合并处理步骤:基于所述文档对的二元分类进行合并处理,根据所述文档对的二元分类预测结果进行合并或不做操作,得到最终的聚团,每个所述聚团对应一个真实学者,实现学者重名的消歧处理。
上述学者重名的消歧方法,其特征在于,所述迭代分类步骤还包括:
特征值计算步骤:根据所述分类结果和所述文档对之间的关系,重新计算所述文档对的关系特征值,并更新所述文档对特征值;
分类结果获取步骤:对更新特征值后的所述文档对重新进行分类预测,获得新的分类结果。
本发明还提供一种学者重名的消歧系统,采用如上述的学者重名的消歧方法,其特征在于,包括:
分类模型建立模块:基于异质学术网络数据,通过标注获取标注数据集,基于所述标注数据集,构建文档对二元分类的训练数据集,并基于所述训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;
迭代消歧模块:基于所述二元分类模型,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。
上述学者重名的消歧系统,其特征在于,所述系统还包括:
数据预处理模块:用于生成待消歧的数据集合;
消歧后处理模块:用于将所述迭代消歧步骤生成的聚团进行相应的融合处理。
上述学者重名的消歧系统,其特征在于,所述分类模型建立模块还包括:
文档对特征提取模块:提取所述文档对的特征,所述特征包含固有特征和关系特征。
上述学者重名的消歧系统,其特征在于,所述迭代消歧模块还包括:
文档对构建模块:基于所述待消歧的数据集,根据消歧的学术人名,获取该名字对应的文档候选集,建立所述文档候选集的文档对关系图,并获取所述文档对的特征;
迭代分类模块:基于所述文档对的特征,利用所述文档对二元分类模型,预测二元分类的结果,获取初始分类信息,根据所述初始分类信息,经过反复迭代,生成所述文档对的二元分类;
合并处理模块:基于所述文档对的二元分类进行合并处理,根据所述文档对的二元分类预测结果进行合并或不做操作,得到最终的聚团,每个所述聚团对应一个真实学者,实现学者重名的消歧处理。
上述学者重名的消歧系统,其特征在于,所述迭代分类模块还包括:
特征值计算模块:根据所述分类结果和所述文档对之间的关系,重新计算所述文档对的关系特征值,并更新所述文档对特征值;
分类结果获取模块:对更新特征值后的所述文档对重新进行分类预测,获得新的分类结果。
上述学者重名的消歧系统,其特征在于,所述数据预处理模块还包括:
候选名字集合生成模块:对所述待消歧的学者名字进行变形处理,生成候选名字集合;
候选文档集合生成模块:根据所述候选名字集合,搜索相关所述候选名字的论文,生成候选文档集合;
文档特征提取模块:针对所述候选文档进行特征提取。
与现有技术相比,本发明的有益技术效果在于,本发明提供的一种基于集体分类的学者重名消歧方法,该方法基于对人工方式进行消歧的观察。当采用人工方式进行消歧时,人们会判断两篇文档是否隶属于一个真实学者。通常容易判断的文档对会首先被确认,然后利用已经完成的判断结果,帮助较难判断的文档对进行确认。在这个过程中之前的判断结果可能会被纠正,直到最终获得全部结果。
本发明与现有的消歧方法相比,具有如下方面优点:
1、相比于聚类方法,本发明方法能够避免预先指定聚团数目的问题。因为在二元分类预测之后,聚团的数目能够自动确定;
2、在消歧过程中能够灵活包含文档对的多种特征,包括固有特征和关系特征;
3、集体推理(collective inference)中能够有效的利用文档对之间的关系,解决消歧中遇到的信息稀缺的问题。
附图说明
图1为本发明方法流程示意图;
图2为本发明方法详细流程示意图;
图3为本发明方法实施例流程示意图;
图4为本发明具体实施例分类模型建立步骤示意图;
图5为本发明实施例包含同一人名的四篇文档构建的文档对关系图;
图6为本发明具体实施例迭代消歧步骤示意图;
图7为本发明消歧系统示意图;
图8为本发明消歧系统详细示意图;
图9为本发明系统具体实施例示意图。
其中,附图标记:
1 数据预处理模块 2 分类模型建立模块
3 迭代消歧模块 4 消歧后处理模块
11 候选名字集合生成模块 12 候选文档集合生成模块
13 文档特征提取模块
21 文档对特征提取模块
31 文档对构建模块
32 迭代分类模块 33 合并处理模块
321 特征值计算模块 322 分类结果获取模块
10 数据预处理模块 20 迭代消歧模块
30 消歧后处理模块 40 分类模型建立模块
S1~S2、S21~S23、S221~S222、S100~S200、S101~S103、S201~S203:本发明各实施例的施行步骤
具体实施方式
下面给出本发明的具体实施方式,结合图示对本发明做出了详细描述。
本发明将学者重名消歧问题转化成为集体分类问题(CollectiveClassification)。充分利用异质学术网络数据,抽取学者信息特征,不仅包括学者的主页、邮箱和工作机构等信息,同时也考虑了所发表的论文标题、关键词、摘要以及相关期刊会议等信息;利用人工标注的训练数据集,采用监督式学习方法得到分类模型,基于该分类模型采用迭代分类算法来实现学者重名消歧。集体分类方法有效的解决了信息稀疏性的问题,因而具有较高的准确率和召回率,同时也避免了无监督式学习方法所带来的聚团数目难以指定的问题。
图1为本发明方法流程示意图,如图1所示,一种学者重名的消歧方法,包括:
分类模型建立步骤S1:基于异质学术网络数据,通过标注获取标注数据集,基于标注数据集,构建文档对二元分类的训练数据集,并基于训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;
迭代消歧步骤S2:基于二元分类模型,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理。
其中,分类模型建立步骤S1还包括:
文档对特征提取步骤S11:提取所述文档对的特征,所述特征包含固有特征和关系特征。
其中,迭代消歧步骤S2还包括:
文档对构建步骤S21:基于所述待消歧的数据集,根据消歧的学术人名,获取该名字对应的文档候选集,建立所述文档候选集的文档对关系图,并获取所述文档对的特征;
迭代分类步骤S22:基于所述文档对的特征,利用所述文档对二元分类模型,预测二元分类的结果,获取初始分类信息,根据所述初始分类信息,经过反复迭代,生成所述文档对的二元分类;
合并处理步骤S23:基于所述文档对的二元分类进行合并处理,根据所述文档对的二元分类预测结果进行合并或不做操作,得到最终的聚团,每个所述聚团对应一个真实学者,实现学者重名的消歧处理。
其中,如图2所示,迭代分类步骤S22还包括:
特征值计算步骤S221:根据所述分类结果和所述文档对之间的关系,重新计算所述文档对的关系特征值,并更新所述文档对特征值;
分类结果获取步骤S222:对更新特征值后的所述文档对重新进行分类预测,获得新的分类结果。
以下结合附图和具体实施对本发明进行详细描述,但不作为对本发明的限定。
图3为本发明方法实施例流程示意图,如图3所示,描述了基于集体分类的学者重名消歧方法的流程图。该流程首先根据异质学术网络数据,构建消歧数据集,并通过人工标注得到标注数据集。其次利用所述标注数据集,进行文档对分类模型的训练。最后在获得分类模型后,对重名学者通过迭代消歧算法进行消歧处理。具体步骤如下:
本发明提供了一种学者重名消歧方法,包括:
步骤S100:根据异质学术网络数据,并采用人工标注方式得到标注数据集,基于标注数据集构建文档对二元分类的训练数据集,并基于该数据集进行模型训练,得到文档对二元分类模型。
步骤S200:针对需要消歧的数据集实施消歧处理。利用步骤S100中得到的文档对二元分类模型作为本地分类器,采用迭代分类算法进行迭代判别,对需要消歧的数据集实施消歧。
上述方法中,步骤S100根据异质学术网络数据,构建学者重名消歧数据集,并通过人工标注实现该数据集的标注,获得标注数据集。
文献记录是文献系统中的基本资源对象,每个文献记录一般会包含作者、标题、期刊会议、日期、引文、作者单位和邮箱等属性特征。从文献系统中选择一组学者名字,例如“Wei Wang”和“Michael I.Jordan”等。针对每个名字,从文献系统中获取以该名字为作者的文献记录集合。针对每个文献记录集合,采用人工方式进行标注,即隶属于同一个真实学者的文献记录子集作为一个聚团;并赋予该聚团一个标号,即每个聚团标号对应于一个真实的学者。通过上述方式,得到人工标注数据集。
上述方法中,所述步骤S100包括以下步骤:
步骤S101,根据异质学术网络数据,构建学者重名消歧数据集,并采用人工标注方式得到标注数据集。
步骤S102,根据所述标注数据集构建文档对二元分类的训练数据集。
从标注数据集中任意选择一组作者名字及其所对应的文献记录集合。然后从中任意选择具有相同作者名字的两个文档组成一个文档对。如果两个文档具有相同的聚团标号,则赋予该文档对标号为“1”,即正例;如果两个文档具有不同的聚团标号,则该文档对赋予标号“-1”,即负例;针对每个文档对,提取关于文档对的特征。重复上述步骤,直到生成用于文档对二元分类训练的训练数据集。其中每个文档对的特征,包含文档对自身的固有特征,以及利用文档对之间的关系信息计算得到的关系特征。
步骤S103:根据所述训练数据集,采用分类算法进行二元分类模型训练,获得用于集体分类的本地分类器。
所述步骤S200包括以下步骤:
步骤S201:针对需要消歧的数据集,根据消歧的学术人名,获取该名字对应的文档候选集,即以该人名为作者的文献文档。对所述学术人名,构建文档对关系图。通过预处理获得各个文档对的固有特征。
步骤S202:迭代分类算法。首先,以各个文档对特征作为输入,利用本地分类器,预测其二元分类的结果,从而获得初始的分类信息。之后,反复执行以下迭代步骤直至结束。根据前一步已知的分类结果和文档对之间的关系,重新计算各个文档对的关系特征的值。对更新特征值后的文档对重新进行分类预测,获得新的分类结果。在具体实施中,终止条件包括迭代步数达到给定的上界值,或者文档对的预测结果与上一轮完全一致;
步骤S203:合并处理。初始时,每个文档分别对应一个聚团。根据文档对的预测结果,若预测结果为“+1”,则合并两个文档所在的聚团,生成新的聚团;若预测结果为“-1”,则不做操作。遍历所有文档对的预测结果,并进行上述处理,最终生成聚团。每个聚团对应一个真实学者,从而实现学者重名消歧。
图4为本发明具体实施例分类模型建立步骤示意图,该步骤的详细过程如图4所示。
步骤S100:根据异质学术网络数据,构建学者重名消歧数据集。实验中的学者重名消歧数据集来源于社会化学术系统“学术圈”。该数据集包括需要进行消歧的75个学者人名,以及对应的4429篇文章。
步骤S122:给定的标注数据集,假设包含M个学者人名,A={a1,a2,a3,..,aM}。对于每个人名am∈A,各个人名包含的具体实体数目以及该人名下的各个文档与实体的对应关系均为已知。在训练集的构建过程中,对于每个人名am∈A,我们构建对应的文档对关系图其中,每个结点的特征根据节点自身的属性和已知的邻居的标记计算获得。从而,获得训练数据集
具体地,对于文档对关系图,G={V,E,X,Y},其中V表示结点集合,每个结点vi,j代表一个文档对(pi,pj)。对于每个结点vi,j∈V,包含一个特征向量和一个未知的标记yi,j∈Y,该标记即分类算法需要预测的值。该标记结果为二元变量,当文档对属于一个学者时,该值为“+1”,否则为“-1”。特征向量是固有向量和关系向量的组合。当两个结点共享一篇相同的文档时,两个结点间连接一条边,例如结点vi,k连接到结点vj,k,这两个结点共享一篇文档pk。图5为本发明实施例包含同一人名的四篇文档构建的文档对关系图,如图5所示文档对的关系。
步骤S124:文档对分类模型为迭代消歧算法的本地分类器。该实施中,选择线性SVM模型作为二元本地分类器。根据所述文档对训练数据集,进行模型训练,得到二元文档对分类模型。
所述文档对分类模型训练中使用的特征包括两类特征,固有特征和关系特征。固有特征为根据文档信息抽取获得的静态特征。在本实施实例中,我们定义了多个文档对固有特征,包括如下四类:基于作者信息的特征,基于出版来源的特征,基于引用的特征和基于内容的特征。具体关于特征的说明如表1所示。
与固有特征不同的是,关系特征是根据邻居的标记动态计算生成的。关系特征的计算基于标记为正例的邻居结点的信息。如图5所示,当文档对(p1,p2)已经被标记为正例,可以利用文档p1的信息帮助文档对(p2,p3)进行消歧。关系特征的具体定义与固有特征相同。当已知标记为正例的文档对结点后,我们使用聚合操作获得定长的关系特征。具体的,对于结点vi,j∈V的第l维的关系特征值定义如下:
其中,S+表示文档对vi,j邻居结点已标记为正例的结点集合。
表1 给定消歧人名a,文档对(pi,pj)的特征描述
特征 描述 类型
CoAuthor 文档pi和pj共享除了人名a以外的其他合作者 二元
CoOrganization 文档pi和pj的作者a的机构名相同 二元
CoOrgOccur 人名a在文档pi的单位出现在pj的内容中,反之亦然 二元
CoHomepage 两篇文档pi和pj出现在同一个作者主页上 二元
CoVenue 两篇文档pi和pj发表在同一个期刊或会议上 二元
CoRefCite 两篇文档引用过同一篇文档,或同时被一篇文档引用 二元
Citation 文档pi引用文档pj,反之亦然 二元
TitleSim 两篇文章的标题相似度(余弦相似度基于tf-idf) 实数
AbstractSim 两篇文章的摘要相似度 实数
CoConcept 文章pi和pj至少在标题和摘要中至少有一个相同概念 二元
图6为本发明具体实施例迭代消歧步骤示意图,如图6所示,该流程描述了学术人名迭代消歧的详细过程,包括以下步骤:
步骤S132:给定学术人名,以及对应的文档候选集,构建文档关系图,并抽取计算出文档对的特征。此步骤中文档对计算的特征均为固有特征。该固有特征包括上述的10维特征。文档对的关系特征初始化为零。
步骤S134:基于迭代的分类消歧算法。该算法的输入是构建的文档对关系图G={V,E,X,Y},本地分类器f,以及最大的迭代步数T,输出为文档对预测结果。
具体步骤如下:
1、初始化,将迭代步参数step设置为0
2、对于文档对关系图G中的每个文档对结点vi,j∈V,根据分类器f,得到标记
3、迭代以下步骤直到终止,
a)对于每一个文档对结点vi,j∈V,通过该节点预测标记为正例的邻居即vk,l∈Neighbor(vi,j)且重新计算该结点的特征向量
b)根据本地分类器f,重新预测标记
迭代的终止条件为,迭代步数达到给定的最大迭代步T,或者,该轮的迭代结果与上一轮完全一致即Y(step+1)=Y(step)
步骤S136:根据最终的文档对预测结果,进行合并操作,得到最终的聚团。该步骤的具体算法如下:
1、初始化n个聚团,每个聚团ci只包含一篇文档pi∈P
2、遍历文档对结点,对于标记为正例的文档对yi,j="+1",,进行如下两部处理:
a)查找两文档pi,pj所属的聚团,其中,pi∈cm,pj∈cn
b)若m≠n,则合并聚团cm,cn,得到新的聚团
3、返回最后生成的聚团。
在本实施中,采用信息检索中经典的评价指标,进行消歧结果的评价。其中包括文档对准确率(pairwise_precision),文档对召回率(pairwise_recall),文档对F1值(pairwise_F1),具体的定义如下:
在本实施实例中,我们的方法与4种基础的消歧算法进行对比,表2为不同的方法对应的结果。基础消歧算法中,聚类算法包括层次聚类算法(HAC),K-Means,和SA-Cluster。前两个算法,使用本实施实例中定义的全部特征进行消歧处理。对于SA-Cluster算法,我们以文档的标题和文档发表的刊物名作为属性,以剩余特征为边,构建对应的属性关系图,实现消歧聚类。对于聚类算法,同名的实体个数作为已知值,预先给定。基础消歧算法中,分类算法包括文档对分类(PC)算法。该算法可以看作我们现有算法的简化版,在进行分类器的训练和利用分类器进行预测时,均未利用到文档对的关系特征。PC算法在训练阶段,同样使用线性的SVM模型进行训练,得到文档对分类器。在后续的消歧阶段,首先通过分类器得到对应的文档对分类结果,并在此结果之上进行合并处理,得到最终的消歧后的聚团。
表2 不同方法的人名消歧效果
方法 准确率 召回率 F1值
HAC 0.838 0.787 0.801
K-Means 0.763 0.461 0.547
SA-Cluster 0.669 0.588 0.611
PC 0.728 0.904 0.720
Our Approach 0.912 0.909 0.892
由上表的结果,我们可以看到,我们的消歧方法,能达到非常好的消歧效果。平均的准确率为91.2%,召回率为90.9%,F1的值为89.2%。我们的算法从评价指标上,明显的优于其他的算法。其中,以F1值作为对比,我们的方法,比HAC提高9.1%,比K-Means提高34.5%,比SA-Cluster提高28.1%,比PC提高17.2%。从这个结果,我们可以看到,使用集体推理后,我们能够有效的利用固有特征和关系特征,并解决数据的稀缺性问题,提高消歧的效果。
为实现本发明的目的还提供了一种学者重名消歧的系统,该系统包括数据预处理模块,迭代消歧模块,消歧后处理模块和模型训练模块。其中,数据预处理模块,迭代消歧模块,消歧后处理模块构成“管道过滤器”体系结构,即前一个功能模块输出信息是后一个功能模块的输入信息。
图7为本发明消歧系统示意图,如图7所示,本发明提出的一种学者重名的消歧系统,采用上述的学者重名的消歧方法,包括:
数据预处理模块1:用于生成待消歧的数据集合,主要用于生成待消歧的数据集合。该模块包括学者名字变形处理,候选文档集合生成和文档特征提取三个子过程。首先针对需要消歧的学者名字,获取其缩写等变形形式,构成候选名字集合;然后根据候选名字集合,搜索以该名字为作者的论文,获得候选文档集合;最后,针对每篇文档进行特征提取。该模块中,利用并行框架,使得不同的人名可以同时获取对应的候选文档候集合,加速数据的处理。
分类模型建立模块2:基于异质学术网络数据,通过标注获取标注数据集,基于所述标注数据集,构建文档对二元分类的训练数据集,并基于所述训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;
迭代消歧模块3:基于所述二元分类模型,采用迭代分类算法对需要消歧的数据集合进行迭代判别,得到最终对应真实学者的聚团,实现学者重名的消歧处理,用于对预处理模块生成的数据集合进行消歧处理。首先根据文档候选集,构建文档对关系图,并对文档对特征进行计算和抽取;然后利用迭代消歧算法,及模型训练模块中得到的本地分类器,实现每个文档对的二元分类;最后通过对分类结果的合并处理,得到最终的聚团,每个聚团对应一个真实学者。在迭代消歧算法中,采用并行计算方式对文档对进行分类预测,进而提升计算效率。
消歧后处理模块4:用于将所述迭代消歧步骤生成的聚团进行相应的融合处理,用于消歧后得到聚团的相关处理,即根据各个聚团中学者信息融合生成新的学者信息,主要包括学者的基本信息和工作履历信息。学者基本信息包括名字,邮箱等;工作履历信息包括工作单位,起始年份和终止年份等。
其中,数据预处理模块1还包括:
候选名字集合生成模块11:对所述待消歧的学者名字进行变形处理,生成候选名字集合;
候选文档集合生成模块12:根据所述候选名字集合,搜索相关所述候选名字的论文,生成候选文档集合;
文档特征提取模块13:针对所述候选文档进行特征提取。
其中,分类模型建立模块2还包括:
文档对特征提取模块21:提取所述文档对的特征,所述特征包含固有特征和关系特征。
其中,迭代消歧模块3还包括:
文档对构建模块31:基于所述待消歧的数据集,根据消歧的学术人名,获取该名字对应的文档候选集,建立所述文档候选集的文档对关系图,并获取所述文档对的特征;
迭代分类模块32:基于所述文档对的特征,利用所述文档对二元分类模型,预测二元分类的结果,获取初始分类信息,根据所述初始分类信息,经过反复迭代,生成所述文档对的二元分类;
合并处理模块33:基于所述文档对的二元分类进行合并处理,根据所述文档对的二元分类预测结果进行合并或不做操作,得到最终的聚团,每个所述聚团对应一个真实学者,实现学者重名的消歧处理。
其中,图8为本发明消歧系统详细示意图,如图8所示,迭代分类模块32还包括:
特征值计算模块321:根据所述分类结果和所述文档对之间的关系,重新计算所述文档对的关系特征值,并更新所述文档对特征值;
分类结果获取模块322:对更新特征值后的所述文档对重新进行分类预测,获得新的分类结果。
图9为本发明系统具体实施例示意图,如图9所示,为本发明学者重名消歧系统具体实施例的整体架构及流程图。该系统具体包含四大模块:数据预处理模块10,迭代消歧模块20,后处理模块30,分类模型建立模块40。四个模块均位于后台服务器。
数据预处理模块10,用于生成待消歧的数据集合。
对于其中的单个消歧人名,需获取该人名的缩写等变形形式,构成名字候选集合。根据名字候选集合,通过Redis数据库获取相对应的人名标号;再根据人名标号以及数据库中人名标号和文档标号的对应关系表,得到所对应的文档标号集合。在获得文档标号集合后,从数据库中查找文档的具体的信息,包括文档的名称和发表年份等。最终将获取的数据存入数据库的文档候选集表。由于不同的名字获取候选集可以同时进行,所以在该模块中采用并行计算方式来获得所有需要消歧人名的文档候选集。
该模块中获取候选集后,进行论文文档特征的提取。包括论文题目、论文摘要、论文发表的会议以及论文对应的主页信息等多个特征。为下一步中文档对的特征计算和抽取做准备。
迭代消歧模块20,获取数据库中对应人名的文档候选集。根据文档候选集,构建文档对关系图,并进行文档对特征的计算和抽取。文档对的特征,参看表1中提到的固有特征。
以模型训练模块,训练得到的文档对分类器作为本地分类器。在迭代消歧算法中对各个文档对进行二元分类,得到文档对分类结果。通过对文档对分类结果进行合并处理,得到最终的聚团。
在迭代消歧算法中,采用了并行计算方式,进而提升算法的执行速度。具体的方式是,在对各个文档对的进行分类预测过程中,采用并发方式进行处理。
消歧后处理模块30,用于消歧后得到聚团的相关处理,即根据各个聚团中学者信息融合生成新的学者信息,主要包括学者的基本信息和工作履历信息。学者基本信息包括名字,邮箱等;工作信息包括工作单位,起始年份和终止年份等。在生成作者基本信息时候,采用最近时间优先原则,即学者最近发表论文中使用的基本信息作为该学者最新的基本信息;履历信息依据发表论文的年份以及当时工作单位,进行合并计算,得到最后的工作履历。
分类模型建立模块40,根据异质学术网络数据,通过构建学术人名消歧数据集,并通过人工标注获得该数据集的消歧结果,获得标注数据集。
目前所述标注数据集,包括75个学术人名,以及对应的4429篇文章的数据集。通过进行特征提取,构建训练数据集。利用线性SVM模型训练所述训练数据集,得到分类模型。
综上所述,本发明提出了一种学者重名的消歧方法及其系统,根据异质学术网络数据,构建学者重名消歧数据集,采用人工方式进行标注;并根据标注数据集训练文档对分类模型;根据消歧的学术人名,获取该人名对应的文档候选集,即以该人名为作者的文章。对所述学术人名,构建文档对关系图,包括对文档候选集进行预处理,得到各个文档对以及文档对的特征的提取。然后,基于集体分类中的迭代分类算法,以训练得到的文档对分类模型作为本地分类器,对文档对分类预测,并对最终文档对的分类结果进行合并,生成聚团,每个聚团对应一个真实的学者,从而完成消歧。本发明提出的方法可以避免聚类消歧算法中需要确定聚团个数问题,并且可以有效的解决信息稀缺问题,从而实现学者重名消歧。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护。

Claims (8)

1.一种学者重名的消歧方法,其特征在于,包括:
分类模型建立步骤:基于异质学术网络数据,通过标注获取标注数据集,基于所述标注数据集,构建文档对二元分类的训练数据集,并基于所述训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;
文档对构建步骤:获取需要消歧的待消歧数据集,基于所述待消歧数据集,根据消歧的学术人名,获取该人名对应的文档候选集,建立所述文档候选集的文档对关系图,并获取所述文档对的特征;
迭代分类步骤:基于所述文档对的特征,利用所述文档对二元分类模型,预测二元分类的结果,获取初始分类信息,根据所述初始分类信息,经过反复迭代,生成所述文档对的二元分类;
合并处理步骤:基于所述文档对的二元分类进行合并处理,根据所述文档对的二元分类预测结果进行合并或不做操作,得到最终的聚团,每个所述聚团对应一个真实学者,实现学者重名的消歧处理。
2.根据权利要求1所述学者重名的消歧方法,其特征在于,所述分类模型建立步骤还包括:
文档对特征提取步骤:提取所述文档对的特征,所述特征包含固有特征和关系特征。
3.根据权利要求1所述学者重名的消歧方法,其特征在于,所述迭代分类步骤还包括:
特征值计算步骤:根据所述分类结果和所述文档对之间的关系,重新计算所述文档对的关系特征值,并更新所述文档对特征值;
分类结果获取步骤:对更新特征值后的所述文档对重新进行分类预测,获得新的分类结果。
4.一种学者重名的消歧系统,采用如权利要求1-3中任一项所述的学者重名的消歧方法,其特征在于,包括:
分类模型建立模块:基于异质学术网络数据,通过标注获取标注数据集,基于所述标注数据集,构建文档对二元分类的训练数据集,并基于所述训练数据集采用分类算法进行二元分类模型训练,得到文档对二元分类模型;
文档对构建模块:用于获取需要消歧的待消歧数据集,基于所述待消歧数据集,根据消歧的学术人名,获取该人名对应的文档候选集,建立所述文档候选集的文档对关系图,并获取所述文档对的特征;
迭代分类模块:基于所述文档对的特征,利用所述文档对二元分类模型,预测二元分类的结果,获取初始分类信息,根据所述初始分类信息,经过反复迭代,生成所述文档对的二元分类;
合并处理模块:基于所述文档对的二元分类进行合并处理,根据所述文档对的二元分类预测结果进行合并或不做操作,得到最终的聚团,每个所述聚团对应一个真实学者,实现学者重名的消歧处理。
5.根据权利要求4所述学者重名的消歧系统,其特征在于,所述系统还包括:
数据预处理模块:用于生成待消歧数据集合;
消歧后处理模块:用于将所述迭代消歧步骤生成的聚团进行相应的融合处理。
6.根据权利要求4所述学者重名的消歧系统,其特征在于,所述分类模型建立模块还包括:
文档对特征提取模块:提取所述文档对的特征,所述特征包含固有特征和关系特征。
7.根据权利要求4所述学者重名的消歧系统,其特征在于,所述迭代分类模块还包括:
特征值计算模块:根据所述分类结果和所述文档对之间的关系,重新计算所述文档对的关系特征值,并更新所述文档对特征值;
分类结果获取模块:对更新特征值后的所述文档对重新进行分类预测,获得新的分类结果。
8.根据权利要求5所述学者重名的消歧系统,其特征在于,所述数据预处理模块还包括:
候选人名集合生成模块:对待消歧的所述人名进行变形处理,生成候选人名集合;
候选文档集合生成模块:根据所述候选人名集合,搜索相关所述候选人名的论文,生成候选文档集合;
文档特征提取模块:针对所述候选文档进行特征提取。
CN201410269979.2A 2014-06-17 2014-06-17 一种学者重名的消歧方法及其系统 Active CN104111973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410269979.2A CN104111973B (zh) 2014-06-17 2014-06-17 一种学者重名的消歧方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410269979.2A CN104111973B (zh) 2014-06-17 2014-06-17 一种学者重名的消歧方法及其系统

Publications (2)

Publication Number Publication Date
CN104111973A CN104111973A (zh) 2014-10-22
CN104111973B true CN104111973B (zh) 2017-10-27

Family

ID=51708765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410269979.2A Active CN104111973B (zh) 2014-06-17 2014-06-17 一种学者重名的消歧方法及其系统

Country Status (1)

Country Link
CN (1) CN104111973B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143457A (zh) * 2019-12-28 2020-05-12 北京工业大学 一种基于多种来源数据集的学者同名排歧方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598599B (zh) * 2015-01-23 2018-06-19 清华大学 命名排歧方法及系统
CN104899281B (zh) * 2015-06-01 2018-07-27 百度在线网络技术(北京)有限公司 学术文章处理方法和学术文章的搜索处理方法及装置
CN106294313A (zh) * 2015-06-26 2017-01-04 微软技术许可有限责任公司 学习用于实体消歧的实体及单词嵌入
CN105868347A (zh) * 2016-03-28 2016-08-17 南京邮电大学 一种基于多步聚类的重名消歧方法
CN105701258A (zh) * 2016-03-31 2016-06-22 比美特医护在线(北京)科技有限公司 信息处理方法及装置
CN106021424B (zh) * 2016-05-13 2019-05-28 南京邮电大学 一种文献作者重名检测方法
CN106055539B (zh) * 2016-05-27 2018-12-28 中国科学技术信息研究所 姓名消歧的方法和装置
CN106294677B (zh) * 2016-08-04 2019-08-16 浙江大学 一种面向英文文献中中国作者的姓名消歧方法
CN108255846A (zh) * 2016-12-29 2018-07-06 北京赛时科技有限公司 一种辨别同名作者的方法和装置
CN110083817B (zh) * 2018-01-25 2023-09-12 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN109726280B (zh) * 2018-12-29 2021-05-14 北京邮电大学 一种针对同名学者的排歧方法及装置
CN110020438B (zh) * 2019-04-15 2020-12-08 上海冰鉴信息科技有限公司 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN110275957B (zh) * 2019-06-24 2021-06-29 中国科学技术信息研究所 姓名消歧方法、装置、电子设备及计算机可读存储介质
CN111191466B (zh) * 2019-12-25 2022-04-01 中国科学院计算机网络信息中心 一种基于网络表征和语义表征的同名作者消歧方法
CN112036692A (zh) * 2020-07-28 2020-12-04 中译语通科技股份有限公司 一种人员在机构间流动情况的分析方法及分析系统
CN111881693B (zh) * 2020-07-28 2023-01-13 平安科技(深圳)有限公司 论文作者的消歧方法、装置和计算机设备
CN112417082B (zh) * 2020-10-14 2022-06-07 西南科技大学 一种科研成果数据消歧归档存储方法
CN113111178B (zh) * 2021-03-04 2021-12-10 中国科学院计算机网络信息中心 无监督的基于表示学习的同名作者消歧方法及装置
CN112835852B (zh) * 2021-04-20 2021-08-17 中译语通科技股份有限公司 提升逐篇归档的效率的人物重名消歧方法、系统、设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334768A (zh) * 2008-08-05 2008-12-31 北京学之途网络科技有限公司 一种利用计算机对词义进行排歧的方法、系统及检索方法
CN102289514A (zh) * 2011-09-07 2011-12-21 中国科学院计算技术研究所 社会标签自动标注的方法以及社会标签自动标注器
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334768A (zh) * 2008-08-05 2008-12-31 北京学之途网络科技有限公司 一种利用计算机对词义进行排歧的方法、系统及检索方法
CN102289514A (zh) * 2011-09-07 2011-12-21 中国科学院计算技术研究所 社会标签自动标注的方法以及社会标签自动标注器
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Disambiguating Web Appearances of People in a Social Network;Ron Bekkerman 等;《Proceeding of the 14th International World Wide Web Conference》;20050514;463-470页 *
利用改进的K-means算法实现文献著者人名消岐;朱亮亮;《软件导报》;20130531;第12卷(第5期);63-66页 *
基于转移学习的命名实体挖掘技术;翟海军 等;《上海交通大学学报》;20110215;535-542页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143457A (zh) * 2019-12-28 2020-05-12 北京工业大学 一种基于多种来源数据集的学者同名排歧方法

Also Published As

Publication number Publication date
CN104111973A (zh) 2014-10-22

Similar Documents

Publication Publication Date Title
CN104111973B (zh) 一种学者重名的消歧方法及其系统
CN107609052A (zh) 一种基于语义三角的领域知识图谱的生成方法及装置
CN108875809A (zh) 联合attention机制与神经网络的生物医学实体关系分类方法
WO2021128158A1 (zh) 一种基于网络表征和语义表征的同名作者消歧方法
CN104199857A (zh) 一种基于多标签分类的税务文档层次分类方法
CN103425740B (zh) 一种面向物联网的基于语义聚类的物资信息检索方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN104572709A (zh) 用于企业创新体系的数据挖掘系统
CN107330007A (zh) 一种基于多数据源的本体学习方法
CN113761218A (zh) 一种实体链接的方法、装置、设备及存储介质
Sharma Role and working of genetic algorithm in computer science
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN110189209A (zh) 一种展商与采购商双向推荐方法、装置、设备及存储介质
Wątróbski Ontology learning methods from text-an extensive knowledge-based approach
CN113806560A (zh) 一种电力数据知识图生成方法及系统
Lubis et al. Classifying news based on Indonesian news using LightGBM
Ugochi et al. Customer opinion mining in electricity distribution company using twitter topic modeling and logistic regression
Ma et al. Matching descriptions to spatial entities using a siamese hierarchical attention network
CN110781297A (zh) 基于层次判别树的多标签科研论文的分类方法
Yadu et al. A Hybrid Model Integrating Adaboost Approach for Sentimental Analysis of Airline Tweets.
Leng et al. Automatic MEP knowledge acquisition based on documents and natural language processing
CN113449508A (zh) 一种基于事件链的网络舆情关联推演预测分析方法
Sabah et al. Big data with decision tree induction
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
Zhou et al. Building real-time ontology based on adaptive filter for multi-domain knowledge organization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant