CN113111178B

CN113111178B - 无监督的基于表示学习的同名作者消歧方法及装置

Info

Publication number: CN113111178B
Application number: CN202110240824.6A
Authority: CN
Inventors: 杜一; 董昊; 宁致远; 乔子越; 周园春
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-12-10
Anticipated expiration: 2041-03-04
Also published as: CN113111178A

Abstract

本发明公开了一种无监督的基于表示学习的同名作者消歧方法及装置，包括：对科学文献数据进行预处理；利用Word2Vec预训练模型和SCIBERT预训练模型分别生成基于Word2Vec和基于SCIBERT的文本语义表示向量；通过对消歧数据的处理生成局部异质网络，指定元路径metapath并利用metapath2vec方法获取基于局部图结构的论文关系表示向量；针对上述三种表征向量分别生成相似度矩阵并进行加权求和；利用无监督聚类方法进行聚类；对聚类离散点进行簇指派，得到最终消歧结果。本发明利用论文的表征信息，结合多重混合的表征学习和聚类离散点指派方法，增强消歧算法的泛化能力与鲁棒性，提高了消歧准确度与消歧效率。

Description

无监督的基于表示学习的同名作者消歧方法及装置

技术领域

本发明涉及软件技术领域，尤其涉及一种无监督的基于表示学习的同名作者消歧方法及装置。

技术背景

数字学术检索系统为学者学术交流、论文信息检索、科学文献管理提供了诸多便利，例如谷歌学术、百度学术、DBLP、Aminer等。随着数字文献数据量的增长，学者重名率大大提高，可能会导致检索系统无法正确地返回学者信息，并且，每天都会有大量新论文更新到文献库中，因此人名消歧成为一项领域内极具挑战性的任务。

人名消歧任务通常参考重名学者的研究领域等特征区分不同的作者实体。当前已有诸多研究人员针对消歧任务提出了解决方案并取得进展。例如，CN201310202444提出一种基于本体的中文人名消歧方法，CN201610320129提出一种文献作者重名检测方法，CN201610638002提出一种面向英文文献中中国作者的姓名消歧方法，CN201811393285提出一种基于规则匹配和机器学习的论文作者名消歧方法等。随着表示学习方法日趋成熟，DeepWalk、Node2vec、LINE等图表示学习方法被提出，将表示学习应用到人名消歧问题中成为当前流行的解决方案之一，通过构建局部的论文图网络，利用图嵌入方法来表征论文信息，或利用Word2Vec、Doc2Vec等文本嵌入方法将论文关键信息(例如标题、所属机构、关键词、摘要等)转换为向量形式，对论文进行语义层面的表征。基于论文表征，利用K-MEANS、DBSCAN等聚类方法对论文集进行聚类，最终将近似的论文划分为一簇，非近似的论文划分为不同簇中，以达到对同名作者区分的目的。

中国专利申请CN111191466A公开了一种基于网络表征和语义表征的同名作者消歧方法，但其在论文语义表征上只使用了基于消歧数据集的预训练模型，只适用于线下小规模的消歧测试，而针对中型规模或较大规模的消歧任务，其发明还存在一些改良空间。此外，其在离群点的处理上，主要是利用文本匹配的方式进行相似度比较，且在离散点的簇指派上只考虑了一种最佳匹配，仍有待完善。除此之外，针对消歧结果中的离群点处理问题，现有技术中仍亦鲜有系统性方法，而这是一个亟待解决的问题。

发明内容

针对上述问题，本发明提出了一种无监督的基于表示学习的同名作者消歧方法及装置，其基于结合论文多重语义表征信息和局部图结构表征信息的相似度聚类解决方案，利用DBSCAN聚类方法对论文表征的相似度矩阵进行聚类，再通过离散点队列簇指派方法对聚类离散点集进行后处理，将聚类后的离散点根据预定义规则进行簇指派。

为了实现上述目的，本发明提供了如下的技术方案：

一种无监督的基于表示学习的同名作者消歧方法，其步骤包括：

1)对科学文献数据进行预处理，得到若干结构化文本数据，抽取各结构化文本数据的第一关键文本信息与第二关键文本信息；

2)依据第一关键文本信息，将各结构化文本数据转化为第一论文语义表示向量，并生成第一论文相似度矩阵；

3)依据第二关键文本信息，将各结构化文本数据转化为第二论文语义表示向量，并生成第二论文相似度矩阵；

4)依据结构化文本数据生成论文网络，并针对每一待消歧作者，从论文网络中抽取存在该待消歧作者的节点，生成局部异质网络，其中论文网络的节点是各结构化文本数据相应的论文，论文网络的边为各论文间的关联关系；

5)对每一局部异质网络进行随机游走获取相应的路径集，并通过训练各路径集得到的论文关系表示向量，生成第三论文相似度矩阵；

6)根据第一论文相似度矩阵、第二论文相似度矩阵及第三论文相似度矩阵，得到混合表征学习的相似度矩阵，并对混合表征学习的相似度矩阵中的数据进行聚类，得到预聚类结果和聚类离群集；

7)对聚类离群集进行离散点指派，并结合预聚类结果，得到消歧结果。

进一步地，预处理方法包括：统一使用特殊标识进行填充、删除标点符号、删除转义符、删除常用冠词和删除介词。

进一步地，第一关键文本信息包括：题目、关键词、机构信息、期刊/会议名称和/或摘要。

进一步地，第二关键文本信息包括：论文题目、关键词和/或摘要。

进一步地，将各结构化文本数据转化为第一论文语义表示向量的方法包括：使用一训练好的Word2Vec模型。

进一步地，通过以下步骤生成第一论文相似度矩阵：

1)利用余弦相似度，计算各论文表示向量间的相似程度；

2)根据各论文表示向量间的相似程度，生成第一论文相似度矩阵。

进一步地，将各结构化文本数据转化为第二论文语义表示向量的方法包括：使用一训练好的开源预训练模型；所述开源预训练模型包括：SCIBERT模型。

进一步地，论文间的关联关系包括：共同机构和/或共同作者。

进一步地，通过以下步骤获取相应的路径集：

1)选择当前局部异质网络中一论文节点作为游走的起始节点；

2)按照预定义路径模式搜索下一跳可选节点，以边权重作为选择概率游走到下一跳，直到跳数达到阈值，得到一条游走路径；

3)重复步骤1)-2)，直到将当前局部异质网络中所有论文节点作为游走的起始节点，得到路径集。

进一步地，通过将生路径集作为训练集且利用Word2Vec中的skip-gram模型进行训练，得到论文关系表示向量。

进一步地，聚类的方法包括：DBSCAN方法。

进一步地，通过以下步骤对对聚类离群集进行离散点指派：

1)对于每一离散点p_i，计算该离散点p_i与其它各点的相似度，得到相似度矩阵，Sim(p_i，p_j)＝w₀*count_{co_author}(p_i，p_j)+w₁*count_{co_venue}(p_i，p_j)+w₂*count_{co_org}(p_i，p_j)+w₃*count_{co_title}(p_i，p_j)+w₄*count_{co_keyword}(p_i，p_j)，其中p_j为任一其它点，w_*为权重；

2)依据相似度矩阵Sim，获取与离散点p_i最相似的点p_k，记Sim(p_i，p_k)＝s₀；

3)若s₀小于设定值，则离散点p_i指派为新簇；若s₀不小于设定值且点p_k不是离散点，则离散点p_i指派为点p_k所在簇；若s₀不小于设定值且点p_k是离散点，则通过与点p_k最相似的非离散点p_m及与离散点p_i最相似的非离散点p_n，对离散点p_i进行离散点指派，包括：

记相似度Sim(p_k，p_m)＝s₁与相似度Sim(p_i，p_n)＝s₂；

若相似度s₁与相似度s₂都小于设定值，则离散点p_i指派为新簇；

若相似度s₁与相似度s₂不都小于设定值，则计算相似度s₁与相似度s₂之间的大小，并将离散点p_i指派为相似度大的簇。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明具有以下优势：首先，该发明利用表征学习方法分别捕获论文的两种文本语义信息，以消歧数据集训练的Word2Vec预训练模型为主，以开源的预训练模型(本发明以SCIBERT预训练模型为例)为辅，用以表征文章语义特征，在一定程度上泛化目前已有语义表征方法在消歧任务上的应用，增强鲁棒性。另外，尽管人名消歧任务已经在学术界和工业界提出大量解决办法，但针对消歧结果中的离群点处理问题还鲜有系统性方法。基于此，本发明针对离群点问题也提出了离散点指派方案，且在线下实验中取得较优表现。

附图说明

图1为本发明的同名作者消歧方法流程图。

图2为本发明的局部异质网络上随机游走路径图。

图3为本发明的离散点指派流程图。

图4为本发明的实验结果示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的目的、特征和优点能够更加明显易懂，下面结合附图和事例对本发明中技术核心作进一步详细的说明。

在本发明中，论文的多重语义表征包括基于Word2Vec的语义表征和基于开源预训练模型(以SCIBERT为例)的语义表征。基于Word2Vec的语义表征是对文本语料进行Word2Vec训练生成词向量，然后对文章进行表征。基于SCIBERT的语义表征是利用SCIBERT预训练模型对文章进行表征。SCIBERT是一个基于大量论文文本预训练出来的BERT模型，主要用于论文的表征学习。加入SCIBERT预训练模型的表征主要是为了提高文章表示准确度，同时也避免了基于Word2Vec表征的局部过拟合。而局部图结构表征信息是利用消歧文章语料构建异质网络，进而截取基于每一同名作者姓名的局部图，然后利用metapath2vec方法对局部图特征进行表征学习，目的是获取文章的基于图结构关系表征。最后通过计算表征相似度，对表征相似度进行DBSCAN聚类，再对聚类离散点进行簇指派得到最终消歧结果。离散点的簇指派是利用文本相似度实现的，与前述表征相似度不同的是，文本相似度利用文章文本特征来定义，无需特征向量来表示。

具体地，本发明的具体操作方法如下。下面结合图1对该消歧方法进行阐述说明。

步骤一：数据预处理，对科学文献数据进行数据清洗和格式化处理。由于原始数据中可能会存在信息缺失、字符异常等问题，因此数据预处理必不可少。针对原始数据中信息缺失的情况，统一使用特殊标识“null”进行填充。另外，标点符号、转义符、常用冠词、介词等常用单词在文本表征和文本相似度计算上会产生不可避免的误差，因此需要对这些字符进行剔除。数据预处理后，生成并存储为结构化文本数据。

步骤二：对结构化文本数据进行Word2Vec训练，生成基于论文数据集预训练模型的论文表示向量并计算论文相似度矩阵。基于Word2Vec预训练模型生成的论文表示向量主要用来捕获论文文本语义层面上的特征，并且得到的语义特征能更好的表示训练数据集的语义。

Word2Vec模型训练的输入为若干论文的关键文本信息，一般为题目、关键词、机构信息、期刊/会议名称、摘要等。需要注意的是，如步骤一中所述，在模型训练前，去除停用词、标点等常用字符是不可缺少的步骤，因为停用词可能会在一定程度上降低关键文本密度，造成特征表示误差。

Word2Vec模型训练结束后，利用模型训练得到的词向量对每一待消歧论文进行文本语义表征。与模型训练的输入相似，论文只使用关键性文本信息，包括题目、关键词、机构信息、期刊/会议名称、摘要。利用每一论文的关键文本信息，查询其对应的词向量然后求平均，得到每一篇论文的语义表示向量。

为了表示论文间的差异，利用余弦相似度求得所有论文的语义表示向量间的相似程度作为论文间的差异度量，以相似度矩阵形式存储。

步骤三：抽取结构化文本的关键文本信息，获取开源预训练模型(以SCIBERT为例)词向量并生成基于SCIBERT的论文语义表示向量并计算论文相似度矩阵。与步骤二类似，该步骤同是利用文章的关键文本信息计算得到一种可以捕获文本语义的表征。

SCIBERT作为一个基于大量论文预训练出来的开源BERT模型，其在论文语义表征上的表现也是非常出色的。为了提高消歧精度，我们在论文的语义表征上加入了SCIBERT预训练模型来强化消歧结果。

由于步骤二生成的语义表示向量是依托消歧数据集训练Word2Vec生成预训练模型计算得到，因此其捕获的语义特征更偏向训练数据集，不具有宏观性。考虑到SCIBERT是一个基于大量论文预训练出来的BERT模型，为了提高消歧的宏观性和准确性，我们使用SCIBERT预训练模型来生成另一种语义表征来辅助强化消歧结果。

利用已训练的SCIBERT模型，输入每一论文的关键文本信息，模型将输出每一论文的表征向量。这里的关键文本信息包括论文题目、关键词、摘要。实验结果表明，在部分数据集中，加入机构信息会提高消歧的准确度，因此也可根据实际情况加入机构信息。

同样的，最后利用余弦相似度求得所有论文的语义表示向量间的相似程度作为论文间的差异度量，以相似度矩阵形式存储。

步骤四：利用结构化文本，生成针对每一待消歧姓名的局部异质网络，通过metapath2vec方法生成基于局部图结构的论文表示向量并计算论文相似度矩阵。

基于局部图结构的论文表征用来捕获论文间的关系特征。论文网络中的节点是结构化文本数据相应的论文且各节点类型一致，节点属性为论文的摘要、关键词等特征。边分为两种类型，分别为共同机构、共同作者。它们是基于论文集中的共同机构、共同作者数建立的，边上的权重正比于论文间的共同机构数和共同作者数。考虑到待消歧论文集生成的网络在多数情况下是稀疏的，因此我们抽取局部异质网络用于消歧，即针对每一待消歧姓名，从论文网络中抽取存在该待消歧姓名的节点，从而生成若干个局部异质网络。此时，每一个局部异质网络表示一个待消歧姓名对应的所有论文集。

与步骤二、三中得到的文本语义表征不同的是，基于图结构的表征不再考虑文本内容，而只专注于论文网络中的节点关系。为了利用关系特征，我们通过metapath2vec方法对每个局部异质网络进行表征学习。该方法是基于预定义的metapath在异质网络上随机游走来构建节点的异质邻域，然后使用异质的skip-gram来嵌入学习。

对于metapath，我们采用图2所示路径。基于该路径在每个局部异质网络上分别进行随机游走，生成若干由论文索引id构成的路径。每个异质网络的游走在具体实现上，我们采用的策略是依次选择当前网络中每个论文节点作为游走的起始节点，然后按照预定义路径模式搜索下一跳可选节点，以边权重作为选择概率游走到下一跳，依次往复并记录每跳游走节点的索引id，直至跳数达到指定阈值，最终形成一条完整游走路径。需要说明的是，跳数阈值可根据数据集适当调节。另外，在随机游走过程中，可能会出现下一跳无满足游走路径的节点，此时可采用跳过当前跳直接进入下一跳的方式或直接终止当前游走路径等方式解决。为了增强论文间的邻域关系，可将上述过程迭代N次。在异质网络上进行随机游走后，都分别生成若干路径集且每一条路径中每个节点都为一篇论文的索引id。

其次，对路径集进行嵌入表示学习。对于该消歧任务，异质网络中的节点类型是一致的，因此无需使用异质的嵌入学习方法。将生成的路径集作为训练集，利用Word2Vec中的skip-gram模型进行训练。这里得到的表示向量就是通过学习异质网络中节点邻域关系得到的。

同步骤二、三，最后利用余弦相似度求得所有论文关系表示向量间的相似程度作为论文间的差异度量，以相似度矩阵形式存储。

步骤五：对步骤二至四计算得到的论文相似度矩阵进行加权求和并聚类。

步骤二中得到基于论文数据集Word2Vec预训练模型的论文语义表示向量相似度矩阵，步骤三中得到基于开源预训练模型(SCIBERT)的论文语义表示向量相似度矩阵，步骤四中得到基于局部图结构的论文关系表示向量相似度矩阵。对上述三个相似度矩阵进行加权求和得到混合表征学习的相似度矩阵。其中，基于SCIBERT预训练模型的论文语义表示向量相似度矩阵只用于辅助强化基于论文数据集Word2Vec预训练模型训练的表征，故权重不宜过大。

聚类采用DBSCAN方法，其无需预先定义聚类簇数，可直接对相似度矩阵进行聚类。DBSCAN聚类参数设置：eps(邻域距离)为0.15，min_samples(最小样本数)为3，metric(度量方法)为“precomputed”。其中eps和min_samples参数可根据消歧数据集实际情况进行微调。

我们把DBSCAN的聚类结果分为两部分：预聚类结果和聚类离群集。其中，预聚类结果为成功聚类成簇的聚类结果，聚类离群集表示未成功聚类的离群点集。离群点聚类失败的原因可能是距离其他聚类点距离大于阈值或其聚类成簇后的簇大小小于最小样本数。因此后续需对离群点进一步处理。

步骤六：对步骤五聚类结果中的离散点进行簇指派，然后合并聚类结果以得到最终消歧结果。

我们提出的离散点指派方法是基于相似度指标实现的。首先，我们定义了简单的相似度规则Sim(p_i，p_j)＝w₀*count_{co_author}(p_i，p_j)+w₁*count_{co_venue}(p_i，p_j)+w₂*count_{co_org}(p_i，p_j)+w₃*count_{co_title}(p_i，p_j)+w₄*count_{co_keyword}(p_i，p_j)。其中，w_*为各项权重，count_{co_*}表示两篇不同论文中各特征下文本数据共有项数量，即

需要说明的是，各公式等号右边的count在统计共同作者co_author时，是以一个姓名为单位的并且当前待消歧姓名不计作共同作者。例如待消歧姓名为San Zhang，其p1作者

为San Zhang、Si Li、Wu Wang，p₂作者

为San Zhang、Si Li、Liu Zhao。首先去除当前待消歧姓名San Zhang，然后统计得到Si Li是一个共同作者，因此count_{co_author}(p₁，p₂)＝1。而count在统计共同期刊/会议名称co_venue、共同机构co_org、共同标题co_title、共同关键词co_keyword时，是以单词为单位的，并且去除常用冠词、介词等停用词。仍以上述San Zhang的p₁和p₂为例，p₁的机构

为Chinese Academy ofSciences，p₂的机构

为University of Chinese Academy of Sciences，那么

和

经去除停用词“of”后共有单词为“Chinese Academy Sciences”共3个，因此count_{co_org}(p₁，p₂)＝3。

利用上述方法完成计算离散点与所有论文间各共有项后，经过w_*对各共有项count进行加权求和得到Sim矩阵。其中权重参数w₀＝1.5，w₁＝0.2，w₂＝0.5，w₃＝0.3，w₄＝0.3。最后，利用上面得到的Sim相似矩阵，比较离散点论文与其他论文的相似关系，进行离散点指派，流程如图3所示。

对于任意一个离散点p，首先找到与p最相似的点k，p与k的相似度为s₀。若s₀小于1.5，则说明p与其他论文的相似程度很低，因此将p指派为新簇。若s₀大于或等于1.5且k不是离散点，则将p指派为k所在簇，而若k是离散点，则分别找到与k最相似的非离散点m和与p最相似的非离散点n。记k与m的相似度为s₁，p与n的相似度为s₂。若s₁与s₂都小于1.5，则将p指派为新簇，否则比较s₁与s₂，最终将p指派为相似度大的簇。利用上述方法，对每一离散点进行指派，直至所有点都被指派为止。

该方法能够对步骤五中DBSCAN聚类结果产生的离散点进行后指派，可在一定程度上解决部分论文因表征向量误差带来的聚类缺陷问题。离散点指派结束后，最后将结果与步骤五中的预聚类结果合并，形成最终的消歧结果。为测试所述方法，本地使用AMiner消歧数据集，生成50个消歧任务进行消歧测试。最终实验结果显示效果良好，平均F1-score达0.8462，如图4所示。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种无监督的基于表示学习的同名作者消歧方法，其步骤包括：

7)对聚类离群集进行离散点指派，并结合预聚类结果，得到消歧结果；

其中通过以下步骤对对聚类离群集进行离散点指派：

7.1)对于每一离散点p_i，计算该离散点p_i与其它各点的相似度，得到相似度矩阵，Sim(p_i，p_j)＝w₀*count_{co_author}(p_i，p_j)+w₁*count_{co_venue}(p_i，p_j)+w₂*count_{co_org}(p_i，p_j)+w₃*count_{co_title}(p_i，p_j)+w₄*count_{co_keyword}(p_i，p_j)，其中p_j为任一其它点，w_*为权重；

7.2)依据相似度矩阵Sim，获取与离散点p_i最相似的点p_k，记Sim(p_i，p_k)＝s₀；

7.3)若s₀小于设定值，则离散点p_i指派为新簇；若s₀不小于设定值且点p_k不是离散点，则离散点p_i指派为点p_k所在簇；若s₀不小于设定值且点p_k是离散点，则通过与点p_k最相似的非离散点p_m及与离散点p_i最相似的非离散点p_n，对离散点p_i进行离散点指派，包括：

记相似度Sim(p_k，p_m)＝s₁与相似度Sim(p_i，p_n)＝s₂；

2.如权利要求1所述的方法，其特征在于，预处理方法包括：统一使用特殊标识进行填充、删除标点符号、删除转义符、删除常用冠词和删除介词。

3.如权利要求1所述的方法，其特征在于，第一关键文本信息包括：题目、关键词、机构信息、期刊/会议名称和/或摘要；第二关键文本信息包括：论文题目、关键词和/或摘要；论文间的关联关系包括：共同机构和/或共同作者。

4.如权利要求1所述的方法，其特征在于，将各结构化文本数据转化为第一论文语义表示向量的方法包括：使用一训练好的Word2Vec模型；将各结构化文本数据转化为第二论文语义表示向量的方法包括：使用一训练好的开源预训练模型；所述开源预训练模型包括：SCIBERT模型。

5.如权利要求1所述的方法，其特征在于，通过以下步骤生成第一论文相似度矩阵：

1)利用余弦相似度，计算各论文表示向量间的相似程度；

6.如权利要求1所述的方法，其特征在于，通过以下步骤获取相应的路径集：

7.如权利要求1所述的方法，其特征在于，通过将生路径集作为训练集且利用Word2Vec中的skip-gram模型进行训练，得到论文关系表示向量。

8.如权利要求1所述的方法，其特征在于，聚类的方法包括：DBSCAN方法。

9.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。