CN110399493A

CN110399493A - 一种基于增量学习的作者消歧方法

Info

Publication number: CN110399493A
Application number: CN201910691093.XA
Authority: CN
Inventors: 龙军; 唐柳; 黄文体; 魏志
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2019-11-01
Anticipated expiration: 2039-07-29
Also published as: CN110399493B

Abstract

本发明公开了一种基于增量学习的作者消歧方法，包括以下步骤：获取历史引文记录，其中历史引文信息已知聚类标签，不同的聚类标签表示不同的作者个体；根据历史引文记录的数量判断各聚类簇是第一类型或第二类型的聚类簇，对于数量较多的第一类型聚类簇，则使用历史引文记录的特征向量和聚类标签训练相应的朴素贝叶斯分类器；筛选出候选聚类簇，根据所有候选聚类簇的类型，对新的引文记录分情况进行分类处理，综合使用朴素贝叶斯分类器计算所属概率进行分类，使用合著者相似度对所属概率方式分类进行补充判断，计算与第二类型聚类簇的语义相似度以解决无法使用朴素贝叶斯分类器进行概率分类的问题。本发明的作者消歧效果佳，而且计算开销低。

Description

一种基于增量学习的作者消歧方法

技术领域

本发明涉及数据处理技术领域，特别是指一种基于增量学习的作者消歧方法。

背景技术

随着计算机技术的发展，人们越来越习惯在网上获取信息，图书馆也顺应时代的浪潮演变成了数字图书馆。科研人员可以通过数字图书馆全面的获取文献和学者信息。而作者姓名歧义问题却一直是数字图书馆时代检索有效信息的障碍，导致作者的识别错误，特别是针对某些常见的名字，这是特别严重的。同时这些问题也给评估研究人员的绩效带来了很大的麻烦，因为无法彻底的确认准确的作者，会增加额外的财力和物力；除此之外，因为姓名歧义带来的不准确评估也会影响一些个人的学术地位和影响力。近年来，随着中国的学术水平大幅攀升，中国学者发表国际论文的数量越来越多，任何基于这些数据建立的系统都需要不断的重新训练和分类，以保持其相关性有用性。

在目前的大环境下，基于机器学习的作者名称自动消歧的技术是主流，在过去的一段时间中，作者名称自动消歧一直是热点问题，大多数自动方法都是涉及到聚类和分类问题，有的使用引文自身信息，有的使用外部信息，这些方法都可以一定程度上区分作者，达到不错的效果。但是很少有研究者考虑到论文数据不断扩张的问题，都是基于已有的数据进行消歧。当面对越来越多的论文数据被持续发布的时候，我们需要以一种有效的方式进行作者消歧处理，使得数据库或者数字图书馆保持准确。最开始人们为了适应新的数据，当数据库新来的引文记录数量大于某个阈值的时候，可以在整个数据库中运行作者消除歧义的过程。但是这种批处理更新的解决方案的计算开销很大，而且在任何一次更新以后，系统可能会立即再次过期，而且批处理更新通常会丢弃任何现有的集群结果。

发明内容

基于现有技术中消歧效果不佳、计算开销大的技术问题，本发明提供一种基于增量学习的作者消歧方法，不但计算开销低，而且消歧效果好。

为实现上述技术目的，本发明采用如下技术方案：。

一种基于增量学习的作者消歧方法，包括以下步骤：

步骤1，获取历史引文记录；

所述历史引文记录包括文献的作者信息且已知聚类标签具有相同聚类标签的历史引文记录构成1个聚类簇，并记录每个聚类簇中历史引文记录的数量；所述聚类标签表示不同的作者个体；

步骤2，训练朴素贝叶斯分类器；

判断每个聚类簇中历史引文记录的数量是否满足训练数量阈值，若满足则记该聚类簇为第一类型聚类簇，否则记为第二类型聚类簇；

针对第一类型聚类簇中的历史引文记录，均提取预设的若干属性组成特征向量；

针对每个第一类型聚类簇，均以历史引文记录的特征向量和聚类标签为训练数据，训练相应的朴素贝叶斯分类器；

步骤3，在所有聚类簇范围内对新的引文记录进行分类；

将新的引文记录与现有的每个聚类簇进行预比较，按预设规则从所有聚类簇中筛选出若干候选聚类簇；然后在所有候选聚类簇的范围内对新的引文记录进行分类：

若所有候选聚类簇均为第一类型聚类簇，则执行以下步骤：

步骤A1，使用每个朴素贝叶斯分类器计算新的引文记录属于相应侯选聚类簇的概率；

步骤A2，选取步骤A1得到的所有概率中的概率最大值，并计算新的引文记录与概率最大值所对应的候选聚类簇之间的合著者相似度；

步骤A3，将步骤A2得到的合著者相似度与合著者相似度阈值比较：若超过合著者相似度阈值，则将新的引文记录划分到概率最大值所对应的候选聚类簇；否则创建新的聚类簇，将新的引文记录划分到该新的聚类簇；

若所有候选聚类簇中既包括第一类型聚类簇也包括第二类型聚类簇，则执行以下步骤：

步骤B1,针对候选聚类簇中的第一类型聚类簇，按步骤A1-A2相同方法找到其中的概率最大值所对应的候选聚类簇，以及新的引文记录与概率最大值所对应的候选聚类簇之间的合著者相似度；

步骤B2，将步骤B1得到的合著者相似度与合著者相似度阈值比较：若超过合著者相似度阈值，则计算新的引文记录与概率最大值聚类簇之间的语义相似度；

步骤B3，针对候选聚类簇中的各个第二类型聚类簇，分别计算其与新的引文记录之间的语义相似度；

步骤B4，从步骤B2和步骤B3得到的所有语义相似度中选择最大值，并判断其是否超过语义相似度阈值：若超过，则将新的引文记录划分到语义相似度最大值所对应的候选聚类簇；否则创建新的聚类簇，将新的引文记录划分到该新的聚类簇；

若每个候选聚类簇均为第二类型聚类簇，则执行以下步骤：

步骤C1，按语义相似度计算公式计算新的引文记录与每个候选聚类簇之间的语义相似度；

步骤C2，从步骤C1得到的所有语义相似度中选择最大值，并判断其是否超过语义相似度阈值：若超过，则将新的引文记录划分到语义相似度最大值所对应的聚类簇；若未超过则创建新的聚类簇，将新的引文记录划分到该新的聚类簇。

考虑到不同聚类簇对应的作者个体所发表的论文数量参差不齐，数量少的甚至无法达到训练自动分类器的训练数量阈值，故本发明提供一种概率与语义相似度相结合的作者消歧方法：一方面，对达到训练数量阈值的聚类簇进行训练分类得到相应的朴素贝叶斯分类器，以计算和比较新的引文记录属于哪个聚类簇的概率；另一方面，对未达到训练数量阈值的聚类簇，则计算新的引文记录与此类聚类簇之间的语义相似度，以根据语义相似度大小判断新的引文记录属于哪个聚类簇。本发明充分考虑作者个体发表论文数量不齐的特点，分别进行比较，提高了对新的引文记录分类的准确性，即对作者消歧的效果更佳。

在使用朴素贝叶斯分类器自动计算所属概率以分类时，还结合计算合著者相似度来进行补充判断，可以降低对新引文记录分类的误判率。

针对不同的聚类簇分别训练不同的朴素贝叶斯分类器，相互之间具有独立性，当需要对其中某一个朴素贝叶斯分类器进行重新训练时，其他的朴素贝叶斯分类器则不需要重新训练，即不需要对整个数据库进行整体再训练，可以减少数据库的碎片。

在对新的引文记录进行分类之前，即在使用概率和语义相似度判断新的引文记录属于哪个聚类簇之前，对新的引文记录进行预比较，从大量聚类簇中筛选出少量的候选聚类簇，大大减少了使用概率和语义相似度分类的计算量，降低了计算开销。

进一步地，所述预设规则为：首先比较聚类簇与新的引文记录之间的作者姓名的姓氏；若作者姓名的姓氏相同，然后再比较聚类簇与新的引文记录之间的作者姓名名称的第一部分的全称及第二部分的全称；若新的引文记录中不存在作者姓名名称的第一部分的全称及第二部分的全称，则比较聚类簇与新的引文记录之间的作者姓名名称的第一部分的首字母和第二部分的首字母；若两者之间的作者姓名的姓氏相同，且两者之间的作者姓名名称的第一部分的全称及第二部分的全称相同或者第一部分的首字母及第二部分的首字母相同，则该聚类簇为候选聚类簇。

进一步地，在与现有的每个聚类簇进行预比较之前，先对新的引文记录进行预处理：将引文记录中的作者属性值按不同的作者个体分隔为独立的作者姓名，并针对每个独立的作者姓名从引文记录中提取到对应的作者全名、作者姓名名称的第一部分的全称、作者姓名名称的第二部分的全称、作者姓名的姓氏、作者姓名名称的第一部分的首字母、作者姓名名称的第二部分的首字母；然后再使用预处理得到的内容与聚类簇相应的内容进行预比较。

针对论文作者属性值一般由多个作者个体组成的特点，本发明在对新的引文记录判断聚类簇之前，先将引文记录中的作者分隔为独立的作者个体和对应的属性内容，可以使引文记录分类更准确。

进一步地，所述特征向量的属性包括：机构名称、合著者姓名、学科、参考文献和机构名称。

这些属性能更好地辅助区分不同的作者个体，提高引文记录分类的准确性。

进一步地，所述训练朴素贝叶斯分类器具体是指，训练相应聚类簇C_k的先验概率p(C_k)和特征向量中每个属性单词包中每个单词在已知聚类簇C_k的条件概率

其中，其中l()为指示函数，L表示聚类标签的集合，l_i表示聚类标签集合中的标签，A表示特征向量所包括的所有属性所构成的属性集，a表示属性集A中的属性，x_a,j表示属性集A中的属性a的第j个单词，表示属性a包含引文i的单词包。

进一步地，步骤3使用每个朴素贝叶斯分类器计算新的引文记录属于相应侯选聚类簇的概率为p(C_k|X_i)，其计算公式为：

式中，A表示特征向量所包括的所有属性所构成的属性集，表示新的引文记录X_i中包含属性a的单词包，表示单词包中的单词，N_a表示单词包中的单词数。

进一步地，步骤3中的合著者相似度的计算公式具体为：

式中，Au_i是新引文记录X_i的合著者列表，是聚类簇C_k的合著者列表。

进一步地，步骤3中的语义相似度计算公式为：

式中，sim()表示语义相似度计算函数，为新的引文记录X_i的作者姓名，为新的引文记录X_i的合著者列表，为新的引文记录X_i的机构名称，为新的引文记录X_i的学科，分别表示聚类簇C_k中任意历史引文记录的作者姓名、合著者列表、机构名称和学科，w₁,w₂,w₃,w₄分别代表每个特征对应的不同权重，且w₁+w₂+w₃+w₄＝1。

进一步地，语义相似度具体采用余弦相似度进行计算。

进一步地，在步骤3之后还包括：

若某个聚类簇训练有朴素贝叶斯分类器，且新划分进来的引文记录的数量达到数据库更新阈值，则针对该聚类簇，使用历史引文记录和新的引文记录按步骤2重新训练朴素贝叶斯分类器；

若某个聚类簇未训练有朴素贝叶斯分类器，且当前的引文记录数量满足训练数量阈值要求，则使用当前所有引文记录按步骤2训练朴素贝叶斯分类器。

聚类簇只有在新的引文记录数量达到更新阈值，才需要针对该聚类簇对相应的朴素贝叶斯分类器进行重新训练，这样可以避免每来一个引文记录即更新相应的分类器，从而降低计算开销。聚类簇只有在新的引文记录数量达到训练数量阈值要求时，再针对该聚类簇训练新的朴素贝叶斯分类器，充分利用朴素贝叶斯分类器自动获取概率的特点，从而可以降低每次对新的引文记录进行分类时的语义相似度计算量。

有益效果

针对不同的聚类簇分别训练不同的朴素贝叶斯分类器，相互之间具有独立性，当需要对其中某一个朴素贝叶斯分类器进行重新训练时，其他的朴素贝叶斯分类器则不需要重新训练，即不需要对整个数据库进行整体再训练，大大减小计算开销减小，同时可以减少数据库的碎片。

附图说明

图1为本发明实施例所述方法的流程示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

本发明

步骤1，获取历史引文记录；

从数据库中获取现有的历史引文记录，所述历史引文记录是指在数据库检索得到的检索结果中所能代表对应文献的简要内容，其包括文献的作者信息。所有历史引文记录都已知聚类标签，即所有历史引文记录是已经过作者消歧处理，被分别划分到与作者个体对应的聚类簇中，从而已知准确的作者个体。在对历史引文记录划分聚类簇的时候，同时记录每个聚类簇的引文记录数量。

若数据库未进行消歧处理，则需要对数据库中的历史引文记录应用一组高精度的规则进行消歧处理，以形成一个初步的消歧结果，将每个引文记录划分到按高精度规则匹配的相应聚类簇中，得到相应的聚类标签，也即是将同一作者个体的引文记录划分到同一聚类簇。具体聚类标签的获取方法，本发明不作具体限定。

高精度规则如下表1所示：

表1：高精度规则

步骤2，训练朴素贝叶斯分类器；

本发明的作者消歧，即是对引文记录中的作者进行消歧，故以上对数据库的引文记录划分聚类簇，实际上是将包括同名作者的引文记录按不同作者个体以划分到不同的聚类簇中。而考虑到大多数的作者个体只发表少量的几篇论文，对应到数据库中表现为作者个体对应的聚类簇的引文记录较少。因此本发明需要对每个聚类簇中的引文记录数量进行辨别，只有其中引文记录数量满足训练数量阈值要求时，方才针对该聚类簇使用其引文记录训练相应的朴素贝叶斯分类器，可避免因训练数据少而导致训练得到的分类器不精确。

设引文记录数量满足训练数量阈值要求的聚类簇为第一类型聚类簇，不满足训练数量阈值要求的聚类簇为第二类型聚类簇。并按以下步骤针对第一类型聚类簇训练相应的朴素贝叶斯分类器：

步骤2.1，取该聚类簇的所有引文记录，均提取其以下属性所对应的属性值：机构名称、合著者姓名、学科、参考文献和机构名称，并构成引文记录的特征向量；

步骤2.2，以聚类簇的每个引文记录的特征向量和相应的聚类标签，作为训练数据，训练相应的朴素贝叶斯分类器，得到该聚类簇C_k的先验概率p(C_k)和特征向量中每个属性单词包中每个单词在已知聚类簇C_k条件下的条件概率

先验概率p(C_k)描述了新的引文记录来自聚类簇的可能性，本实施例中使用极大似然估计算法来估计先验概率p(C_k)和条件概率

其中，其中l()为指示函数，L表示聚类标签集合，n表示聚类标签集合L中聚类标签的数量，l_i表示聚类标签集合L中的标签变量，A表示特征向量中的属性集合，a表示属性集合A中的属性，x_a,j表示属性a的第j个单词，表示属性a包含引文i的单词包，x表示单词包的单词变量。

步骤3，在所有聚类簇范围内对新的引文记录进行分类；

首先，将新的引文记录与现有的每个聚类簇进行比较，按预设规则筛选出若干个候选聚类簇。

在得到新的引文记录时，需要对其进行预处理并提取与作者相关的若干属性，包括：作者姓名AU、作者姓名全称、工作单位C1、学科WC和邮箱EM。而在新的引文记录中，所有作者都是合在一起的，以“；”分隔，如“Feng,HH；Zou,B”，这种数据格式使得作者的信息变得不清晰，满足不了下文算法的需求，因此，本实施例根据上述提取的属性数据，通过程序将所有作者分隔为独立的作者姓名，并对应独立的信息，再使用该处理得到的信息与现有的每个聚类簇进行比较。其中，每个分隔得到的独立作者姓名包括以下对应关系为：

author：对应作者姓名；

author_fullname：对应作者全名；

fname：作者姓名名称的第一部分的全称；

mname：作者姓名名称的第二部分的全称；

lname：作者姓名的姓氏；

fname_initial：作者姓名名称的第一部分的首字母；

mname_initial：作者姓名名称的第二部分的首字母；

affiliation：对应作者的机构名称；

subject：对应学科。

其中，将新的引文记录与现有的每个聚类簇进行比较，即是使用上述处理得到的相互独立的作者姓名及对应关系与现有的每个聚类簇进行比较：首先比较作者姓名的姓氏lname；然后在姓氏相同的情况下，不断向下比较作者姓名名称的第一部分的全称和第二部分的全称；若新的引文记录中不存在作者姓名名称的第一部分的全称和第二部分的全称，则比较作者姓名名称的第一部分的首字母和第二部分的首字母。若聚类簇的作者姓名名称的第一部分的全称和第二部分的全称，或者聚类簇的作者姓名名称的第一部分的首字母和第二部分的首字母，与新的引文记录的相同，则将该聚类簇作为候选聚类簇。

通过从所有聚类簇中筛选出若干个候选聚类簇，可以避免新的引文记录与所有聚类簇进行比较，相当于缩小了对新的引文记录进行分类处理的范围，从而减小计算开销。

然后，根据所有候选聚类簇为第一类型聚类簇或者第二类型聚类簇的类型，以对新的引文记录进行分类处理：

1)若所有候选聚类簇均为第一类型聚类簇，则执行以下步骤：

步骤A1，使用每个朴素贝叶斯分类器计算新的引文记录属于相应侯选聚类簇的概率p(C_k|X_i)：

式中，A表示特征向量所包括的所有属性所构成的属性集，表示新的引文记录X_i中包含属性a的单词包，表示单词包中的单词，N_a表示单词包中的单词数；

步骤A2，选取步骤A1得到的所有概率中的概率最大值，按以下公式计算新的引文记录与概率最大值所对应的候选聚类簇之间的合著者相似度：

式中，Au_i是新引文记录X_i的合著者列表，是聚类簇C_k的合著者列表；

2)若所有候选聚类簇中既包括第一类型聚类簇也包括第二类型聚类簇，则执行以下步骤：

步骤B1，针对候选聚类簇中的第一类型聚类簇，按步骤A1-A2相同方法找到其中的概率最大值所对应的候选聚类簇，以及新的引文记录与概率最大值所对应的候选聚类簇之间的合著者相似度；

步骤B2，将步骤B1得到的合著者相似度与合著者相似度阈值比较：若超过合著者相似度阈值，则按语义相似度计算公式计算新的引文记录与概率最大值聚类簇之间的语义相似度sim(C_k,X_i)；

其中的相似度都取簇中引文与新记录引文的相似度的最大值，计算公式为：

式中，sim()表示语义相似度计算函数，为新的引文记录X_i的作者姓名，为新的引文记录X_i的合著者列表，为新的引文记录X_i的机构名称，为新的引文记录X_i的学科，分别表示聚类簇C_k中任意历史引文记录的作者姓名、合著者列表、机构名称和学科，w₁,w₂,w₃,w₄分别代表每个特征对应的不同权重，且w₁+w₂+w₃+w₄＝1；

在本实施例中，语义相似度具体采用余弦相似度进行计算，表示为：

步骤B3，针对候选聚类簇中的第二类型聚类簇，按语义相似度计算公式计算新的引文记录与候选聚类簇中的各第二类型聚类簇之间的语义相似度；

3)若每个候选聚类簇均为第二类型聚类簇，则执行以下步骤：

步骤C2，从步骤C1得到的所有语义相似度中选择最大值，并判断其是否超过语义相似度阈值：若超过，则将新的引文记录划分到语义相似度最大值所对应的聚类簇；若未超过则创建新的聚类簇，将新的引文记录划分到该新的聚类簇；

步骤4，更新数据库；

若某个聚类簇训练有朴素贝叶斯分类器，且新划分进来的引文记录的数量达到数据库更新阈值，则针对该聚类簇，使用历史引文记录和新的引文记录按步骤2重新训练朴素贝叶斯分类器；若某个聚类簇未训练有朴素贝叶斯分类器，且当前的引文记录数量满足训练数量阈值要求，则使用当前的所有引文记录按步骤2训练朴素贝叶斯分类器。

在本实施例中，涉及到的训练数量阈值、合著者相似度阈值、语义相似度阈值等，均可根据实际分类精度要求进行具体设置。

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。

Claims

1.一种基于增量学习的作者消歧方法，其特征在于，包括以下步骤：

步骤1，获取历史引文记录；

所述历史引文记录包括文献的作者信息且已知聚类标签，具有相同聚类标签的历史引文记录构成1个聚类簇，并记录每个聚类簇中历史引文记录的数量；所述聚类标签表示不同的作者个体；

步骤2，训练朴素贝叶斯分类器；

步骤3，在所有聚类簇范围内对新的引文记录进行分类；

若所有候选聚类簇均为第一类型聚类簇，则执行以下步骤：

若每个候选聚类簇均为第二类型聚类簇，则执行以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述预设规则为：首先比较聚类簇与新的引文记录之间的作者姓名的姓氏；若作者姓名的姓氏相同，然后再比较聚类簇与新的引文记录之间的作者姓名名称的第一部分的全称及第二部分的全称；若新的引文记录中不存在作者姓名名称的第一部分的全称及第二部分的全称，则比较聚类簇与新的引文记录之间的作者姓名名称的第一部分的首字母和第二部分的首字母；若两者之间的作者姓名的姓氏相同，且两者之间的作者姓名名称的第一部分的全称及第二部分的全称相同或者第一部分的首字母及第二部分的首字母相同，则该聚类簇为候选聚类簇。

3.根据权利要求1所述的方法，其特征在于，在与现有的每个聚类簇进行预比较之前，先对新的引文记录进行预处理：将引文记录中的作者属性值按不同的作者个体分隔为独立的作者姓名，并针对每个独立的作者姓名从引文记录中提取到对应的作者全名、作者姓名名称的第一部分的全称、作者姓名名称的第二部分的全称、作者姓名的姓氏、作者姓名名称的第一部分的首字母、作者姓名名称的第二部分的首字母；然后再使用预处理得到的内容与聚类簇相应的内容进行预比较。

4.根据权利要求1所述的方法，其特征在于，所述特征向量的属性包括：机构名称、合著者姓名、学科、参考文献和机构名称。

5.根据权利要求1所述的方法，其特征在于，所述训练朴素贝叶斯分类器具体是指，训练相应聚类簇C_k的先验概率p(C_k)和特征向量中每个属性单词包中每个单词在已知聚类簇C_k的条件概率

6.根据权利要求5所述的方法，其特征在于，步骤3使用每个朴素贝叶斯分类器计算新的引文记录属于相应侯选聚类簇的概率为p(C_k|X_i)，其计算公式为：

7.根据权利要求1所述的方法，其特征在于，步骤3中的合著者相似度的计算公式具体为：

8.根据权利要求1所述的方法，其特征在于，步骤3中的语义相似度计算公式为：

9.根据权利要求8所述的方法，其特征在于，语义相似度具体采用余弦相似度进行计算。

10.根据权利要求1所述的方法，其特征在于，在步骤3之后还包括：