CN113962293A

CN113962293A - 一种基于LightGBM分类与表示学习的姓名消歧方法和系统

Info

Publication number: CN113962293A
Application number: CN202111153524.0A
Authority: CN
Inventors: 董昊; 宁致远; 杜一; 周园春
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-21
Anticipated expiration: 2041-09-29
Also published as: CN113962293B

Abstract

本发明面向科学文献数据，针对文献中作者同名现象提出一种基于LightGBM分类与表示学习的姓名消歧方法和系统。监督学习部分利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征，通过采样构建正例与负例样本对数据集，作为LightGBM二分类模型的输入，模型输出作为两篇论文属于同一作者的概率。表示学习部分引用word2vec文本语义表示方法和基于元路径的关系网络表征方法，来捕捉论文的语义信息和论文之间的关系特征。最后，基于监督模型和表示学习模型的输出，利用层次聚类算法对待消歧论文集进行簇划分，实现同名消歧。本发明能够在不损失精确率与召回率的前提下，达到高可扩展性与稳定性，并且可以完全实现并行化计算，以加快执行效率。

Description

一种基于LightGBM分类与表示学习的姓名消歧方法和系统

技术领域

本发明属于信息技术领域，具体涉及一种基于LightGBM分类与表示学习的姓名消歧方法和系统。

背景技术

姓名消歧被认为是科学文献数据领域的焦点任务。它主要应用于文献数据管理、分析、学者检索、构建学者社交网络等。随着近年来科学文献数量的急剧增长，学者数量也随之增长，学者的重名率愈来愈高，使得同名消歧任务面临巨大的挑战。此前，姓名消歧任务已在国内外提出诸多解决方案，由于数据具有多源性，且应用场景的复杂性，消歧方法仍存在优化空间。

CN111008285A提出了一种基于论文关键属性网络的消歧方法，利用论文之间的关系形成关键属性关系网，通过结合匹配作者名和作者相关信息解决同名歧义问题；CN111191466A提出了一种基于网络表征和语义表征的同名作者消歧方法，通过文本表征和论文间关系表征生成相似度，再聚类生成作者消歧结果；CN111930955A提出了一种反向分类的消歧方法，将无法通过预先训练分类模型区分的作者利用反向分类方法确定作者的所在类别；CN112131872A提出了一种基于文献与文献簇相似度的消歧方法，通过构建作者合作者关系网络与计算节点相似度并聚类，再计算聚类文献簇间的相似度并聚类实现同名消歧等。

目前多数已有消歧方案包括但不限于利用论文的语义信息、论文关系网的结构信息表征论文集或作者，再用聚类方法生成作者论文的消歧簇。这些方法在捕获论文间相似度时，涉及特征局限于语义、作者共同机构或共现作者等，鲜有方法全面考虑论文其他元信息并将其作为计算论文间相似度的特征信息，还存在一定的完善空间。

发明内容

本发明面向科学文献数据，针对文献中作者同名现象提出一种基于分类算法与表示学习算法相结合的姓名消歧方案。

本发明采用的技术方案如下：

一种基于LightGBM分类与表示学习的姓名消歧方法，包括以下步骤：

利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征，通过采样构建正例与负例样本对数据集，输入LightGBM二分类模型进行训练，LightGBM二分类模型的输出为两篇论文属于同一作者的概率；

利用表示学习模型，通过基于元路径的关系网络表征方法捕捉论文间的关系特征，通过word2vec文本语义表示方法捕捉论文的语义特征；

基于LightGBM二分类模型和表示学习模型的输出，利用层次聚类算法对待消歧论文集进行簇划分，实现姓名消歧。

进一步地，所述利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征，包括：

针对数据预处理后的所有论文项，提取每篇论文的7项独立特征即元信息特征，其包括：期刊名长度、关键词数、摘要长度、作者数量、关键词、摘要共现单词数和年份；

生成LightGBM模型的训练样本对，根据生成的训练样本对，提取并计算每个论文对的关联特征，其包括两论文的关键词共有词数、机构名共有词数、摘要共有词数、合作者数、期刊名共有词数、年份差值绝对值和和5项论文对对应元信息的语义嵌入向量的余弦相似度，共11项特征；其中的5项论文对对应元信息包括：论文题目、关键词、摘要、机构名和“题目|关键词|摘要|机构名”；利用word2vec词向量对5项元信息进行嵌入表示，作为论文元信息的语义嵌入向量；

对每一个训练样本对，组合其对应两篇论文的独立特征和关联特征，共18项特征作为训练样本对的LightGBM模型输入特征。

进一步地，所述通过基于元路径的关系网络表征方法捕捉论文间的关系特征，包括：

以数据预处理后的数据为数据源，构建论文异质网络，论文异质网络以每一待消歧姓名为单位进行构建，节点为论文，边是依据论文间关系建立的，边共有两种：存在合作者、存在共同机构名，边权重分别为合作者数量、共同机构数量；

定义元路径，然后在每个论文异质网络由元路径指导进行有指导的随机游走并生成系列游走路径，严格要求异质网络的每个节点都被游走，随机游走的概率正比于边权重，游走方向随机但不折返上一步，一条游走路径的长度取决于预先定义的最大游走长度或当前节点无有效的下一跳节点；

利用SKIP-GRAM模型对得到的所有游走路径进行表征，最终得到每篇论文的关系表征向量，且论文关系表征向量捕获了论文间的关系特征，最后利用余弦相似度计算所有论文关系表征向量的相似度。

进一步地，所述通过word2vec文本语义表示方法捕捉论文的语义特征，包括：

以数据预处理后的数据为数据源，提取每篇论文的关键文本，其包括论文题目、摘要、关键词、机构名、期刊名；

利用训练得到的单词词向量生成每篇论文的语义表征向量，以捕获、表征每篇论文的语义特征；生成语义表征向量时，首先将所有关键文本合并，然后逐词检索word2vec词向量，最终将所有词向量相加取平均得到该论文的语义表征向量；

最后利用余弦相似度计算所有论文语义表征向量的相似度。

进一步地，所述数据预处理包括数据清洗和内容格式化；

所述数据清洗包括：分析数据特点，处理脏数据与噪音数据，根据实际情况将无效数据进行剔除操作；

所述内容格式化用于避免论文作者数过多、论文作者命名方式不统一、多语种的问题对消歧造成负影响；针对论文作者数量过多的问题，只选取前若干名作者作为消歧任务中的有效作者；针对论文作者命名方式不统一的问题，对所有作者姓名字符进行符号剔除、小写转换操作，并对全量级数据作者进行归类计量，通过字符串分割再匹配的策略将所有作者姓名进行统一改写；针对论文中存在的多语种问题，利用在线翻译接口对除英语外的语言进行转换处理，统一为英语并将其作为消歧过程中的唯一语言。

进一步地，所述基于LightGBM二分类模型和表示学习模型的输出，利用层次聚类算法对待消歧论文集进行簇划分，实现姓名消歧，包括：

将LightGBM二分类模型预测的论文相似度、论文关系表征向量相似度、论文语义表征向量相似度进行加权相加，得到聚合相似度矩阵；

利用层次聚类算法对聚合相似度矩阵进行聚类；

将聚类结果进行格式化整理存储，形成最终聚类结果，即消歧结果。

一种采用上述方法的基于LightGBM分类与表示学习的姓名消歧系统，其包括：

数据预处理模块，用于对全部论文集进行数据预处理，包括数据清洗和内容格式化；

词向量训练模块，用于采用word2vec词向量训练方法训练词向量；

LightGBM训练模块，用于基于数据预处理模块和词向量训练模块的处理结果，利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征，通过采样构建正例与负例样本对数据集，输入LightGBM二分类模型进行训练，LightGBM二分类模型的输出为两篇论文属于同一作者的概率；

LightGBM预测模块，用于采用训练完成的LightGBM二分类模型预测待消歧论文的相似度；

表示学习模块，用于利用表示学习模型，通过基于元路径的关系网络表征方法捕捉论文间的关系特征，通过word2vec文本语义表示方法捕捉论文的语义特征；

层次聚类模块，用于基于LightGBM二分类模型和表示学习模型的输出，利用层次聚类算法对待消歧论文集进行簇划分，实现姓名消歧。

本发明提出了一种基于分类算法与表示学习算法相结合的姓名消歧方案。其中分类算法部分，本发明使用LightGBM模型框架。LightGBM是一个使用基于树学习算法的梯度提升框架。它是一个高效的分布式框架，且具有以下优点：更快的训练速度和更高的效率；内存使用率较低；准确度更高；支持并行、分布式和GPU学习；能够处理大规模数据。而表示学习是一个学习特征的技术的集合：将原始数据转换成为能够被机器学习算法有效利用的一种形式。它避免了手动提取特征的麻烦，允许计算机学习使用特征的同时，也学习如何提取特征。在实际的应用场景中，本发明的方法能够在不损失精确率与召回率的前提下，达到高可扩展性与稳定性，并且可以完全实现并行化计算，以加快执行效率。

附图说明

图1是基于LightGBM分类与表示学习的姓名消歧方法的步骤流程图。

图2是元路径的两种策略示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明面向科学文献数据，针对文献中作者同名现象提出一种基于监督学习算法和表示学习的消歧算法。其中，监督学习部分采用LightGBM(后简称为LGB)二分类模型。具体地，通过特征工程提取训练集论文的元信息和论文间关联信息，利用LGB算法训练二分类模型来判断任意两论文是否属同一作者。而表示学习部分引用word2vec文本语义表示方法和基于元路径的关系网络表征方法，分别用来捕捉论文的语义信息和论文间的关系特征，以泛化监督学习算法的判断结果，防止过拟合。最后，基于监督模型与表示学习模型的输出，利用聚类算法对待消歧论文集进行簇划分，将特征相似的论文划入相同簇，不相似的论文划入不同簇。本发明的具体实施步骤如图1所示。

步骤一：对全部论文集进行数据预处理。预处理主要分为两部分：

1)数据清洗，分析数据特点，处理脏数据与噪音数据。由于大部分论文源数据都存在错误的数据识别与统计，例如题目、作者信息缺失、关键词、摘要编码有误、年份信息错乱等，考虑到这些数据在做消歧任务中会产生不可控的影响，因此本发明根据实际情况将部分上述无效数据进行剔除操作。

2)内容格式化。在实际的数据分析中，发现论文数据存在部分论文作者数过多、论文作者命名方式不统一、多语种的问题。为避免这些问题对消歧造成负影响，针对论文作者数量过多的问题，只选取前若干名(优选为前50名)作者作为消歧任务中的有效作者；针对论文作者命名方式不统一的问题，对所有作者姓名字符进行符号剔除、小写转换操作，并对全量级数据作者进行归类计量，通过字符串分割再匹配的策略将所有作者姓名进行统一改写；针对论文中存在的多语种问题，利用在线翻译接口对除英语外的语言进行转换处理，统一为英语并将其作为消歧过程中的唯一语言。最后，对数据进行格式化存储，形成“预处理后数据”作为后续步骤的数据基础。

其中，字符串分割再匹配的策略是指对一个姓名多种写法的字符串按照策略先分割进行字(word)级别的统计，然后按照统一格式进行补全匹配改写。例如对于姓名“张三”，其写法有多种，如zhang san、san zhang、san-zhang、zhang-san、S.Zhang等，按照策略(例如按空格、短线等特殊字符分割)可分别将这些姓名字符串分割为【zhang、san】，【san、zhang】，【san、zhang】，【zhang、san】，【S、Zhang】(若姓名中有三个字也可以分割为三个)，通过统计字符出现频率，参考常见姓氏与名字常用字符，利用补全匹配方法将这些不规则的写法统一改成zhang san这种写法，从而将所有作者姓名进行统一改写。

步骤二：词向量的训练。需要特别说明的是，本发明未使用已开放的公共预训练词向量，而使用论文数据作为词向量训练语料。另外，经过分析训练语料，本发明选择采用word2vec词向量训练方法中的skip-gram模型作为训练方法。词向量的训练语料是经步骤一预处理后的论文文本数据。考虑到word2vec词向量训练模型的特点，预先对训练语料进行停用词、非文字符号等字符的剔除工作，以增加实词的分布密度，提高模型有效性。具体地，训练语料选择了所有论文数据的题目、机构名、期刊名和摘要的文本数据。训练结束后，得到的单词词向量作为后续步骤的数据基础。

步骤三：生成LGB模型训练样本对。由于监督学习部分旨在构建基于LGB的二分类模型，训练数据须有标签数据指导，而论文数据互相独立，为此本发明设计了具有标签数据的训练样本对。样本对基于训练数据集生成，其分为正例样本对和负例样本对。正负样本对可由三元组形式进行表示：(p₁,p₂,tag)。其中p₁与p₂分别表示两篇不同的论文ID，tag为标签。当样本对为正例时tag＝1，为负例时tag＝0。

设train_set＝{name₁,name₂,…,name_i,…,name_n}，其表示论文训练集中存在n个已消歧的作者姓名。其中

即索引为i的作者姓名实际上存在m个作者，且他们姓名都为name_i。而对于其中索引为j的作者

其中paper为作者

发表的论文ID。

假设p₁来自

而p₂来自

生成样本对时仅考虑训练集中同名作者的论文采样，因此严格约束i′＝i″。正例样本对生成方法为：对于训练集论文集合train_set中，组合所有满足j′＝j″条件的论文对作为正例样本对。对于作者

其共可生成正例样本对

个。负例样本对生成方法为：对于训练集论文集合train_set中，组合所有满足j′≠j″条件的论文对作为负例样本对。需要特别说明的是，当正负训练样本对中(p₁,p₂,tag)存在时，(p₂,p₁,tag)将被剔除。

步骤四：特征工程与采样。该步骤是LGB模型训练的输入基础。特征工程可分为两部分，一是提取每篇论文的独立特征，二是提取论文对中两篇论文的关联特征。采样是保证本模型训练样本均衡的必要操作。

1)针对步骤一预处理后的所有论文项，提取每篇论文的7项独立特征，其包括：期刊名长度、关键词数、摘要长度、作者数量、关键词、摘要共现单词数和年份。

2)根据步骤三指导生成的训练样本对，提取并计算每个论文对的关联特征，其包括两论文的关键词共有词数、机构名共有词数、摘要共有词数、合作者数、期刊名共有词数、年份差值绝对值和和5项论文对对应元信息(包括：论文题目、关键词、摘要、机构名和“题目|关键词|摘要|机构名”)的语义嵌入向量的余弦相似度，共11项特征。其中，元信息语义嵌入向量由步骤二中训练得到的单词词向量生成，其利用word2vec词向量对5项元信息进行嵌入表示，作为论文元信息的语义嵌入向量。

3)根据1)、2)，对每一个训练样本对，组合其对应两篇文章的独立特征和关联特征，共18项特征作为训练样本对的LGB模型输入特征。

4)为了保证正负训练样本对均衡，采用随机采样的方式对所有训练样本对进行采样。通过分析样本对数据，计算正负样本数量比，通过分别指定正负采样率，对正负训练样本对进行随机采样，尽可能降低正负样本对数量差值。采样结束后，分别保存正负采样训练样本对，作为后续LGB训练的数据基础。

步骤五：LGB模型训练。读取步骤四生成的正负训练样本对，按照7:3比例随机采样划分为正例训练集样本对、正例验证集样本对、负例训练集样本对、负例验证集样本对。将上述所有样本对对应的18项特征和标签输入LGB模型中训练，根据验证结果，调整参数至最优，保存模型。

步骤六：LGB预测待消歧论文相似度。模型预测共分为3部分。

1)生成待消歧论文的样本对。类似于步骤三中训练样本对生成，但待消歧论文样本对数据中不再包含标签tag项，其可由二元组(p₁,p₂)表示，其中p₁和p₂表示待预测相似度的两篇论文。设test_set＝{name₁,name₂,…,name_i,…,name_n}，其表示待消歧论文集中存在n个待消歧的作者姓名。其中

即作者姓名为name_i的作者共作论文m个，其中paper为作者姓名为name_i的作者发表的论文ID。同样的，当p₁来自name_i′，而p₂来自name_i″，生成样本对时仅考虑同名作者的论文采样，因此严格约束i′＝i″，并且当(p₁,p₂)存在时，(p₂,p₁)将被剔除。此外，无效项

也被剔除。因此，

共可生成

个二元组样本对。

2)针对待消歧样本对的特征工程。类似于步骤四中1)、2)、3)操作，统计并计算待消歧论文样本对的特征，作为LGB模型预测的输入。同样的，每个二元组样本对都具有18项特征。

3)特征输入LGB模型可得到所有待消歧论文对相似度，以矩阵形式存储之，作为后续步骤的数据基础。

步骤七：以步骤一得到的预处理后数据为数据源，构建论文异质网络。需要特别说明的是，由于多数情况下待消歧的论文数据是稀疏分布的，因此为了最大化捕获论文间关系特征，异质网络的构建是以每一待消歧姓名为单位的，即当待消歧论文集为test_set＝{name₁,name₂,…,name_i,…,name_n}，将对name₁,name₂,…,name_i,…,name_n这n个不同name分别构建异质网络。假设

那么网络的节点为

其中paper为论文节点ID。边是依据论文间关系建立的，其共有两种：存在合作者、存在共同机构名，边权重分别为合作者数量、共同机构数量。根据上述策略，可以对任一name构建异质网络。

步骤八：利用异质网络表征方法，对步骤七构建的论文异质网络进行表示，用以捕获论文间的关系特征。通过定义元路径，然后在每个异质网络由该元路径指导进行有指导的随机游走(Random Walk)并生成系列游走路径(Walked Path)。具体地，严格要求异质网络的每个节点都被游走，随机游走的概率正比于边权重，游走方向随机但不折返上一步。一条游走路径的长度取决于预先定义的最大游走长度(Max Walk Length)或当前节点无有效的下一跳节点。具体地，元路径随机采用如图2所示的两种策略，其中P表示论文节点，CO-author表示“存在合作者”类型边，CO-org表示“存在共同机构名”类型边。

接着，利用SKIP-GRAM模型对上述得到的所有游走路径进行表征，最终得到每篇论文的关系表征向量，且该表征向量捕获了论文间的关系特征。最后，利用余弦相似度计算所有论文关系表征向量的相似度，以矩阵形式存储之，作为后续步骤的数据基础。

步骤九：关键文本提取，生成论文语义表征向量，并计算语义表征向量相似度。首先，该步亦以步骤一得到的预处理后数据为数据源，提取每篇论文的关键文本，其包括论文题目、摘要、关键词、机构名、期刊名。然后，利用步骤二中训练得到的单词词向量生成每篇论文的语义表征向量，以捕获、表征每篇论文的语义特征。最后，类似于步骤八，利用余弦相似度计算所有论文语义表征向量的相似度，以矩阵形式存储之，作为后续步骤的数据基础。需要补充说明的是，生成语义表征向量时，首先将所有关键文本合并，然后逐词检索word2vec词向量，最终将所有词向量相加取平均得到该论文的语义表征向量。

步骤十：层次聚类得到消歧结果。首先对步骤六、步骤八、步骤九得到的LGB预测论文相似度、论文关系表征向量相似度、论文语义表征向量相似度加权相加得到聚合相似度矩阵。实际上使用的加权参数分别为1/3、1/3、1/3。然后，利用sklearn层次聚类包对聚合相似度矩阵进行聚类，具体参数为：n_clusters＝None，affinity＝'precomputed'，linkage＝'average'，distance_threshold＝np.log(0.6)。最终，将聚类结果进行格式化整理存储，形成最终聚类结果，即消歧结果。

为了验证本发明提出方法的可行性和各步骤的有效性，线下使用公开论文集进行消融试验。实验结果如表1所示。

表1.实验结果

序号	方法组件	评价指标(F1-SCORE)
			1	word2vec语义表征方法	0.671349
2	网络关系表征方法	0.757505
			3	LightGBM监督学习预测相似度	0.788581
4	方法1+方法2	0.866662
			5	方法2+方法3	0.859459
6	方法1+方法2+方法3(本发明)	0.885529

基于同一发明构思，本发明的另一个实施例提供一种采用上述方法的基于LightGBM分类与表示学习的姓名消歧系统，其包括：

其中各模块的具体实施过程参见前文对本发明方法的描述。

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于LightGBM分类与表示学习的姓名消歧方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于LightGBM分类与表示学习的姓名消歧方法，其特征在于，所述利用特征工程提取训练集论文的元信息特征和论文间的关联信息特征，包括：

3.根据权利要求2所述的基于LightGBM分类与表示学习的姓名消歧方法，其特征在于，所述生成LightGBM模型的训练样本对，包括：

训练样本对分为正例样本对和负例样本对，正负样本对由三元组形式进行表示：(p₁，p₂，tag)，其中p₁与p₂分别表示两篇不同的论文ID，tag为标签，当样本对为正例时tag＝1，为负例时tag＝0；

设train_set＝{name₁，name₂，...，name_i，...，name_n}，其表示论文训练集中存在n个已消歧的作者姓名，其中

即索引为i的作者姓名实际上存在m个作者，且他们姓名都为name_i，而对于其中索引为j的作者

其中paper为作者

发表的论文ID；

假设p₁来自

而p₂来自

生成样本对时仅考虑训练集中同名作者的论文采样，因此严格约束i′＝i″；正例样本对生成方法为：对于训练集论文集合train_set中，组合所有满足j′＝j″条件的论文对作为正例样本对，对于作者

其共可生成正例样本对

个；负例样本对生成方法为：对于训练集论文集合train_set中，组合所有满足j′≠j″条件的论文对作为负例样本对；当正负训练样本对中(p₁，p₂，tag)存在时，(p₂，p₁，tag)将被剔除。

4.根据权利要求1所述的基于LightGBM分类与表示学习的姓名消歧方法，其特征在于，所述通过基于元路径的关系网络表征方法捕捉论文间的关系特征，包括：

5.根据权利要求1所述的基于LightGBM分类与表示学习的姓名消歧方法，其特征在于，所述通过word2vec文本语义表示方法捕捉论文的语义特征，包括：

最后利用余弦相似度计算所有论文语义表征向量的相似度。

6.根据权利要求2、4或5所述的基于LightGBM分类与表示学习的姓名消歧方法，其特征在于，所述数据预处理包括数据清洗和内容格式化；

7.根据权利要求1所述的基于LightGBM分类与表示学习的姓名消歧方法，其特征在于，所述基于LightGBM二分类模型和表示学习模型的输出，利用层次聚类算法对待消歧论文集进行簇划分，实现姓名消歧，包括：

利用层次聚类算法对聚合相似度矩阵进行聚类；

8.一种采用权利要求1～7中任一权利要求所述方法的基于LightGBM分类与表示学习的姓名消歧系统，其特征在于，包括：

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一权利要求所述基于LightGBM分类与表示学习的姓名消歧方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一权利要求所述基于LightGBM分类与表示学习的姓名消歧方法。