CN112487825A

CN112487825A - 一种人才信息数据库消歧系统

Info

Publication number: CN112487825A
Application number: CN202011369020.8A
Authority: CN
Inventors: 张日崇; 刘德志; 袁红亮; 胡志元
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-12

Abstract

本发明通过人工智能领域的方法，实现了一种人才信息数据库消歧系统，系统结构包括人才信息输入模块、基于特征建模的同名消歧方法模块、基于成果关系网络的成果纠错方法模块、通用的同名消歧集成模型和输出模块，基于特征建模的同名消歧方法模块输入基本信息，并将基本信息分为唯一标志、重要信息、补充信息，基于成果关系网络的成果纠错方法模块从基于特征建模的同名消歧方法模块的输出信息中输入对应人才的所述成果信息，通过包含成果关系网络构建、成果关系网络节点表示以及聚类纠错步骤的纠错流程实现纠错。最终实现一个采用一种结合人才基本属性信息以及成果合作关系的分层聚类的方法来有效的解决人才信息数据库中的大量同名问题的系统。

Description

一种人才信息数据库消歧系统

技术领域

本发明涉及自然语言处理领域，尤其涉及一种人才信息数据库消歧系统。

背景技术

当今世界，国与国之间的竞争愈发激烈，归根结底是科学技术的竞争。众所周知，科学技术是第一生产力，其中人才是最活跃、关键和最宝贵的因素，人才贯穿科技活动的始终，最具创造力和活动力，影响着国家科技发展的方方面面。人才资源作为科技资源的核心，具有重要战略价值。当前国内外针对人才资源已经展开了大量的研究，主要聚焦人才的教育、引入、管理和服务，人才大数据分析，人才资源流动和价值实现等。为了更好地管理人才，很多国家、地方或者机构维护着各自封闭或通过接口对外开发的半封闭人才信息数据库。

其中同名人才之间的消歧问题是人才信息数据库中面临最普遍的问题，同名消歧问题本质即为多个同名人才之间的数据冗余，没有进行合理的融合。未经消歧的同名人才的大量存在进而会导致数据库存在冗余性、不精准性等严重数据问题。人名歧义其实是多个人物具有相同的人名的现象，这会在人名指代上造成歧义。然而，在现实生活中，人名歧义现象十分普遍。人名歧义现象并非一个特殊国家存在的问题，而是全世界普遍存在的问题。根据United States Census Bureau的统计结果，大约有10亿人共用了9万个不同的名字；在中国全国公民身份证号码查询服务中心的重名查询系统在2014年底公布了“中国重名最多的50个姓名”，其中全国共有299025人叫“张伟”，重名人数接近30万。

人才信息数据库除了人才的基本信息外还存在大量的成果信息。人才所发表的论文、专利和人才获得的项目、奖项，这些人才的成果信息标识人才的科研学术能力，其也是高端人才的所共有的特征。但是由于成果广泛分布在各个学术资源网站，导致数据来源复杂、格式多样，例如国内的学者发表英文论文时的作者名称，用拼音简写或者别名，就会导致大量的成果信息在录入数据库的过程中会被错误分配到同名不同人的学者的名下。从而导致学者的成果信息集中会出现较多的他人成果信息，这极大的降低了人才的成果信息的数据质量。其一：混杂的成果信息集会直接导致人才的成果的相关分析结果失真；其二：混杂的成果信息集也会给后续的人才同消歧过程带来大量的噪音，导致消歧结果准确率降低。

无论是同名人才之间的重复，还是人才成果信息混杂其本质均属于同名消歧的范畴。根据同名消歧方法进行划分，可以分为基于链接和基于聚类的人名消歧。

1.基于聚类的消歧系统

当目标实体列表未给定时，以聚类的方式对人名指称项进行消歧。对于每一个姓名指称项，抽取文章的上下文特征形成特征向量，然后计算文章间的相似度，最后采用聚类算法对指称项下涉及到的所有样本聚类，使得每个簇都指向同一个目标实体。相似度计算方式有：基于表层特征的相似度计算，如余弦公式、Jaccard、距离公式等；基于有监督的机器学习方法，对已经标注的训练集进行训练后得出的相似度函数表示；基于社会化网络，使用图的方法，利用社会网络中的社会关系来计算样本之间的相似度。最常用的聚类技术有：基于划分的聚类(如K-means)、层次聚类(如HAC)、基于密度的聚类(如DBSCAN)、谱聚类等。

2.基于实体链接的消歧系统

目标实体列表以人才信息数据库的形式给定，将属于人才信息数据库的人名指称项映射到人才信息数据库中；将不属于人才信息数据库的指称项都归结为其他类，再对其进行聚类。基于实体链接的消歧过程主要包括两个步骤：根据规则或知识生成指称可能链向的目标实体候选列表；对目标实体候选列表进行排序，确定指称所要链接的目标实体。候选生成的方法包括：基于字符串相似度匹配、基于别名的方法、网页检索、重定向等。而候选排序可以通过计算指标评分、使用机器学习中的排名算法如rank-SVM等方法进行。

目前人才信息数据库务须解决的两个问题即为同名人才的消歧问题以及成果信息纠错的问题，其本质都是同名人才消歧的问题，只是所用的信息特征不同。本发明从人才信息数据库的实际问题发出，根据不同消歧场景分为人物基本信息消歧、成果纠错以及通用的同名消歧模型。本发明欲解决以下三个挑战：

1.基于人物基本信息特征对同名人才进行强相关判别消歧；

2.基于聚类的方式筛选数据库中被错误分类的成果；

3.结合人才基本信息特征与成果合作关系网络构建通用的同名消歧模型；

根据消歧目标进行划分，人名消歧可以分为基于人物基本信息的同名消歧和基于成果关系网络的人才成果同名作者消歧。基于成果关系网络的人才成果同名作者消歧主要解决的是成果数据的作者重名和成果指向问题即为成果同名作者消歧问题，通过聚合同一作者的科研文献，能够极大地提高对文献检索的效率和准确度；基于人物基本信息的同名消歧主要是对人才信息数据库中包含多个同名人物基本信息的数据记录进行消歧，一般这种人物基本信息都是不规则的且含有大量噪音的，因此基于人才基本信息的人名消歧任务重点在于提取什么样的特征以及如何融合多维特征进行判别同名人才。

发明内容

为此，本发明提出了一种人才信息数据库消歧系统，系统结构包括人才信息输入模块、基于特征建模的同名消歧方法模块、基于成果关系网络的成果纠错方法模块、通用的同名消歧集成模型和输出模块；

所述输入模块输入人才的基本信息和成果信息。人才的基本信息主要包括人才的姓名、性别、党派、民族、生日、籍贯、国别、工作单位等基本属性，人才的成果信息主要是指人才所发表的论文、专利，申报的项目，获得的奖项等记录信息。并将所述人才的基本信息和成果信息经规范化后，发送至所述基于特征建模的同名消歧方法模块；

所述基于特征建模的同名消歧方法模块输入所述基本信息，并将所述基本信息分为三类，即唯一标志、重要信息、补充信息，每一类信息可以为空集，并设置三个步骤与候选库中人才集合进行对比，所述三个步骤中，首先对比所述唯一标志，当所述唯一标志不为空集，且匹配成功时，则数据更新录入人才信息库，当匹配不成功或所述唯一标志为空集时，则对比所述重要信息；当所述重要信息不为空集，且匹配成功时，则数据更新录入人才信息库，当匹配不成功或所述重要信息为空集时，则对比所述补充信息；当所述补充信息不为空集，且匹配成功时，则数据更新录入人才信息库，当匹配不成功或所述补充信息为空集时，则数据新增录入人才信息库；

所述基于成果关系网络的成果纠错方法模块从所述数据新增入库和所述数据更新入库的信息中输入对应人才的所述成果信息，通过包含成果关系网络构建、成果关系网络节点表示以及聚类纠错三个步骤的纠错流程实现纠错，所述成果关系网络构建步骤为：设定图G＝(V,E,T)，其中V为图中节点的集合，E为节点关系的集合，T为关系类别的集合，图中任意两节点之间不限于一类关系类别，所述节点为成果，当两个相邻节点的元素具备重合时，即建立该元素所属的关系类别中的关系；所述成果关系网络的节点表示步骤主要使用应用广泛的random walk与skip gram方式，生成成果的表示向量；所述聚类纠错步骤主要基于生成的成果表示，使用DBSCN聚类方式聚类成果集合；

所述输出模块的输出内容包括两部分，特征建模的消歧结果与成果关系网络的纠错结果。特征建模的效果结果，主要描述入库人才信息的匹配状态，是否匹配成功，若是匹配成果，输出人才信息库的匹配对象的唯一标志。成果关系网络的纠错结果，主要返回成果的纠错状态，是否需要进行纠错，若存在错误成果，输出错误成果集合。

所述唯一标志包括身份证号、手机号、邮箱、微信，为一个人的唯一性信息；所述重要信息包括出生日期、籍贯、工作单位，为在同名情况下极小概率一致的信息；所述补充信息包括专业特长、研究领域，为无法明确判别人才是否唯一，但是与其他信息进行组合能够提升准确率的信息。

所述成果信息包括论文、项目、专利、获奖信息。

所述关系类别的元素包含合作者、相同机构、相同期刊、相同研究领域四类。

所述相同机构类别中，将机构名元素进行词级别拆分，并去除常见停用词，再通过对比两成果机构共现词的方式进行判别，每存在一个共现词则构建一组相同机构关系，不依据机构是否完全相等判断。

所述相同期刊进行元素对比前，对成果记录的期刊信息进行简单字符处理，若是两成果的期刊信息相等，则构建相同期刊关系。

所述简单字符处理包括去除空格、换行、特殊字符。

本发明所要实现的技术效果在于：

通过人才基本信息特征建模和人才成果信息聚类算法两个步骤，依据人才信息数据库中目标人才信息与多个外部获取的同名人才信息有效的融合，找到与目标人才信息属于同一语义下的外部同名人才信息，然对目标人才信息进行更新。从而针对含有人物的基本信息集以及人才成果信息集的人才信息数据库的人名消歧问题，采用一种结合人才基本属性信息以及成果合作关系的分层聚类的方法来有效的解决人才信息数据库中的大量同名问题。

附图说明

图1通用人才消歧流程图；

图2基于成果关系网络的成果纠错流程；

图3成果关系网络；

图4聚类纠错样例展示；

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了一种人才信息数据库消歧系统，系统结构包括人才信息输入模块、基于特征建模的同名消歧方法模块、基于成果关系网络的成果纠错方法模块、通用的同名消歧集成模型和输出模块；

所述基于特征建模的同名消歧方法模块输入所述基本信息，并将所述基本信息分为三类，即唯一标志、重要信息、补充信息，每一类信息可以为空集，并设置三个步骤与候选库中人才集合进行对比，所述三个步骤中，首先对比所述唯一标志，当所述唯一标志不为空集，且匹配成功时，则数据更新录入人才信息库，当匹配不成功或所述唯一标志为空集时，则对比所述重要信息；当所述重要信息不为空集，且匹配成功时，则数据更新录入人才信息库，当匹配不成功或所述重要信息为空集时，则对比所述补充信息；当所述补充信息不为空集，且匹配成功时，则数据更新录入人才信息库，当匹配不成功或所述补充信息为空集时，则数据新增录入人才信息库。

其各模块的具体实现方式如下：

基于特征建模的同名消歧方法模块：

基于特征建模的同名消歧方法模块主要依赖于人才的基本信息。人才的基本信息主要包括人才的姓名、性别、生日、籍贯等基本身份信息，人才的工作单位、职务、工作所在地等工作信息以及个人的身份证、手机号、邮箱、微信等私密信息。这些信息在学术资源库中，都或多或少进行记录，但是由于不同人所公布信息的程度不同，能够利用的信息并不一致。为了充分利用这些信息，并兼顾信息缺失的情况，这里提出完整的基于基本信息建模以达成消歧目的的方法。

由于人才的基本信息中不同信息的重要程度不一致，为区分不同字段的独特性，这里将基本信息分为三类：

1)人才唯一标志：人才的身份证号、手机号、邮箱、微信等每个人独一无二的信息。

2)人才重要信息：人才的出生日期、籍贯、工作单位等在同名情况下极小概率一致的信息。

3)人才补充信息：人才的专业特长、研究领域等无法明确判别人才是否唯一，但是与其他信息进行组合能够提升准确率的信息。

消歧流程主要依赖这三类信息进行。人才的唯一标志是每个人独一无二的属性，排除人才信息搜集出错的情况，若是两人才的某个唯一标志信息出现重复，基本能够断定这两个人才属于同一个人。但是唯一标志信息属于人才的私密信息，一方面搜集难度大，另外也在法律允许的范围边缘徘徊，使用起来存在较多限制。人才的重要信息是同名人才重复概率较小的属性集合，这类信息如果重复，根据人的先验知识极大的概率能够判断同名人才属于同一个人，并且准确率较高。但是这类信息终究不是唯一标志，无法进行断言，因此还需要以人才的补充信息为依据，进一步判断。人才的补充信息有很多，但是其中最为有价值的且容易获取的主要是人才的专业特长、研究领域信息，这类信息能够借助人才的成果信息进行补充。借助对比这类信息的相似度，能够提高判重的准确率。借由不同层次信息的流程化处理，能够方便快捷地达到人才同名消歧的目的。

基于成果关系网络的成果纠错方法模块：

人才的成果，包含论文、项目、专利、获奖等信息，为了简化问题的描述，文中仅以论文信息为例进行阐述，模型经过适当调整后，同样能够应用于其他成果的纠错。基于成果关系网络的成果纠错流程主要包含成果关系网络的构建、成果关系网络的节点表示以及聚类纠错三个步骤。

成果关系网络

同一作者的各项成果之间往往具备千丝万缕的联系，或者存在相同的合作者，或者记录着相同的作者所属机构，或者发表在相同的期刊或者会议上，亦或者同属于一个研究领域。因此，可以依据这些关联信息建立成果关系网络。

成果关系网络：设定图G＝(V,E,T)，其中V为图中节点的集合，E为节点关系的集合，T为关系类别的集合，图中任意两节点之间可能存在关联关系，也有可能没有任何联系，对于有关联关系的节点之间，并不限制只有一类关系。

成果关系网络中的只将成果作为节点，由于不同成果拥有各自独特的属性，为了充分利用每类成果本身丰富的信息，需要对每类成果分别构建关系网络。

成果的关系类别主要包含合作者、相同机构、相同期刊、相同研究领域四类。

成果之间若是存在合作者关系则表示两成果之间至少存在一个同名作者，这个同名作者需要将当前的作者忽略。每存在一个同名作者，就在两成果之间构建一组合作者关系。

成果之间的相同机构关系在两成果中记录的当前作者对应的机构一致时构建。由于不同期刊或者会议在记录机构信息时会存在格式上的差异，因此在判断两成果之间是否应该构建相同机构关系时，不依据机构是否完全相等判断。为了提高程序判断机构的能力，使用将机构名进行词级别拆分，并去除常见停用词，再通过对比两成果机构共现词的方式进行判别。两成果记录的机构，在去除停用词后，每存在一个共现词则构建一组相同机构关系。

当两成果发表在同一期刊或者会议上时，在两成果之间构建相同期刊关系。期刊的书写格式相对规范，对成果记录的期刊信息进行简单字符处理(去除空格、换行、特殊字符)，若是两成果的期刊信息相等，则构建相同期刊关系。

相同研究领域的判别方式与前三种相比更为复杂，若仅通过简单的共现词来判别，无法有效利用词的语义关系，将会遗漏部分成果之间的相同研究领域关系，导致成果纠错算法出现误判。因此使用训练的词向量，计算成果之间的语义相似度，更好地判别成果之间是否有相同研究领域关系。成果的标题是成果的必有属性，同时也包含足够的领域信息，因此计算成果之间的语义相似度主要是计算成果标题的语义相似度。通过给定一个固定阈值，对于语义相识度超过阈值的两成果，构建相同研究领域关系。

成果关系网络表示：

为了有效利用成果关系网络中的关系信息，方便后续程序的处理，需要将成果关系网络中的成果节点转换成向量的形式。目前在网络表示领域已经相当多的方法能够完成图的向量化表示，但是其中以random walk+skip-gram为基准的模型目前表示更佳，不仅有更高的表现效果，同时还能够保证较高的运行效率，因此本发明中也依托这类模型，并根据成果关系网络的特性对模型进行改进。

skip-gram是用来预测单词上下文的模型，但其本意是想通过这样的预测模型，获得单词的低维嵌入表示。

random walk在网络上的使用方式，分为如下步骤：

1.选择某个节点作为出发点

2.随机从该节点的相邻节点中选择一个节点作为下一游走节点

3.重复2步骤直至游走路径的长度达到预设值

通过不断地在成果关系网络的各节点上进行random walk，将会获得众多游走的路径信息。由于游走的路径与句子有相似的结构，路径上的每个节点类似于句子中出现的各个单词，因此可使用训练单词词向量的方式，来训练网络中节点的向量表示。

成果聚类纠错：

完成了向量化的成果信息，可使用聚类算法进行分析。同一个作者的成果之间有较多的联系，在使用聚类算法时，属于当前作者的正确成果，都会聚到一起，而其他被错误分配的成果，由于没有与之关联的成果，将会作为离群节点存在。目前聚类的算法存在多种，比如，K-means聚类、层次凝聚聚类(HAC)、基于密度聚类(DBSCN)等。由于K-means与HAC聚类方法需要提供聚类大小的超参，但是实际作者的成果应该聚为几类不可知，所以难以应用这类算法。DBSCN聚类算法使用密度大小与类簇的最小元素个数作为超参，并根据这些参数自动聚类出合适数量的类簇。由于会限制类簇的最小元素个数，对于元素个数小于指定数量的类簇，将不作为聚类的结果，其包含的节点也将作为离散节点，被视作错误分配的成果，并从当前作者的名下筛除。

人才的成果往往存在多语言的情况，但是模型本身并不具备处理跨语言成果纠错的能力。为了让算法能够对作者不同语言的成果进行纠错，可采用对不同语言分别处理的方式，为每个语言的成果单独纠错。

Claims

1.一种人才信息数据库消歧系统，其特征在于：系统结构包括人才信息输入模块、基于特征建模的同名消歧方法模块、基于成果关系网络的成果纠错方法模块、通用的同名消歧集成模型和输出模块。

所述输入模块输入人才的基本信息和成果信息，人才的基本信息主要包括人才的姓名、性别、党派、民族、生日、籍贯、国别、工作单位，人才的成果信息主要是指人才所发表的论文、专利，申报的项目，获得的奖项，并将所述人才的基本信息和成果信息经规范化后，发送至所述基于特征建模的同名消歧方法模块。

所述基于成果关系网络的成果纠错方法模块从所述数据新增入库和所述数据更新入库的信息中输入对应人才的所述成果信息，通过包含成果关系网络构建、成果关系网络节点表示以及聚类纠错三个步骤的纠错流程实现纠错。所述成果关系网络构建步骤为：设定图G＝(V,E,T)，其中V为图中节点的集合，E为节点关系的集合，T为关系类别的集合，图中任意两节点之间不限于一类关系类别，所述节点为成果，当两个相邻节点的元素具备重合时，即建立该元素所属的关系类别中的关系；所述成果关系网络的节点表示步骤主要使用应用广泛的random walk与skip gram方式，生成成果的表示向量；所述聚类纠错步骤主要基于生成的成果表示，使用DBSCN聚类方式聚类成果集合；

2.如权利要求1所述的一种人才信息数据库消歧系统，其特征在于：所述唯一标志包括身份证号、手机号、邮箱、微信，为一个人的唯一性信息；所述重要信息包括出生日期、籍贯、工作单位，为在同名情况下极小概率一致的信息；所述补充信息包括专业特长、研究领域，为无法明确判别人才是否唯一，但是与其他信息进行组合能够提升准确率的信息。

3.如权利要求2所述的一种人才信息数据库消歧系统，其特征在于：所述成果信息包括论文、项目、专利、获奖信息。

4.如权利要求3所述的一种人才信息数据库消歧系统，其特征在于：所述关系类别的元素包含合作者、相同机构、相同期刊、相同研究领域四类。

5.如权利要求4所述的一种人才信息数据库消歧系统，其特征在于：所述相同机构类别中，将机构名元素进行词级别拆分，并去除常见停用词，再通过对比两成果机构共现词的方式进行判别，每存在一个共现词则构建一组相同机构关系，不依据机构是否完全相等判断。

6.如权利要求5所述的一种人才信息数据库消歧系统，其特征在于：所述相同期刊进行元素对比前，对成果记录的期刊信息进行简单字符处理，若是两成果的期刊信息相等，则构建相同期刊关系。

7.如权利要求6所述的一种人才信息数据库消歧系统，其特征在于：所述简单字符处理包括去除空格、换行、特殊字符。