CN109670014A

CN109670014A - 一种基于规则匹配和机器学习的论文作者名消歧方法

Info

Publication number: CN109670014A
Application number: CN201811393285.4A
Authority: CN
Inventors: 邓可君; 华凯; 邓昌明; 姜宁; 袁玲; 彭明; 彭一明; 张治坤
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2019-04-23
Anticipated expiration: 2038-11-21
Also published as: CN109670014B

Abstract

本发明提供了一种基于规则匹配和机器学习的论文作者名消歧方法。该方法包括：对待处理的论文信息进行预处理；将预处理后的论文信息中的作者名与预先构建的人名匹配规则进行匹配，得到候选作者集合；根据候选作者集合中的候选作者的数量确定所述待处理的论文的作者。应用本发明可以改进论文消歧效果，有效地提高作者名消歧的准确性。

Description

一种基于规则匹配和机器学习的论文作者名消歧方法

技术领域

本申请涉及数据处理技术领域，尤其涉及一种基于规则匹配和机器学习的论文作者名消歧方法。

背景技术

高校和科研机构都需要统计其单位作者的论文信息，并对该单位的论文进行归档整理，从而建立本单位的文献数据库。但是，目前对于本单位职工的论文整理方法并不完善，一般都只记录了论文的标题和署名作者，而没有按作者个体进行归档。因此，较难评估该单位科研工作者的科研成果和水平，也难以向外界提供针对特定学者论文的搜索支持。

在论文的自动化归档工作中，作者名消歧是一个棘手的问题。一方面，论文作者名在同一机构中可能会存在重名现象；另一方面，国人作者在英文论文中的署名可能存在多种形式。而相比于传统的人名消歧，论文作者名消歧还有其特殊性。一方面，带作者标注的论文数据集较难获取；另一方面，论文信息一般包括作者、标题、摘要、关键词和出版物名称等内容，所包含的信息量较为有限。

目前，自动化识别论文归属作者的方法仍处于探索阶段，很多机构仍然是采用人工方法进行识别。然而，人工方法费时费力，且不能保证准确率。

在现有技术中，论文作者名的自动化消歧可以归为机器学习中的聚类或分类问题，根据所用样本的标注情况可以分为：基于监督学习的消歧方法、基于非监督学习的消歧方法和基于半监督学习的消歧方法。

其中，基于监督学习的消歧方法需要利用标注好的训练数据集来学习分类模型，例如朴素贝叶斯(Bayes)、支持向量机(SVM)和逻辑回归等模型。采用这些模型进行论文作者名消歧，虽然可以取得较好的消歧效果，但这类方法需要标注好的大量样本，这在论文作者名消歧领域往往是稀缺的。

基于非监督学习的消歧方法不需要标注，仅凭样本数据的特性对样本聚类，可采用K均值算法(K-means)、基于密度的聚类算法(DBSCAN)和凝聚层次聚类等方法将同属于一个作者的论文聚为一类。该方法虽然能在一定程度上提高聚类的准确率，但是该方法的准确率往往较低。

基于半监督学习的消歧方法结合了上述两种方法，提出了一种将聚类和分类结合起来的消歧方法，初始阶段基于规则聚类，得到部分标记样本后训练分类器，最后通过相似度度量再聚类。但是，该方法在初始阶段还需要手工制定规则，无法应用于大规模的数据集。

综上可知，由于现有技术中的论文作者名消歧方法具有如上所述的缺点，因此如何提出一种更好的论文作者名消歧方法，从而改进论文消歧效果，是本领域中亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于规则匹配和机器学习的论文作者名消歧方法，从而可以改进论文消歧效果，有效地提高作者名消歧的准确性。

本发明的技术方案具体是这样实现的：

一种基于规则匹配和机器学习的论文作者名消歧方法，该方法包括：

对待处理的论文信息进行预处理；

将预处理后的论文信息中的作者名与预先构建的人名匹配规则进行匹配，得到候选作者集合；

根据候选作者集合中的候选作者的数量确定待处理的论文的作者。

较佳的，所述的预处理是对待处理的论文信息进行去噪处理。

较佳的，所述预处理包括：

从待处理的论文信息中去掉特殊字符串、去掉标点符号及特殊符号、去掉多余空格和换行符、去掉长度小于3的词、去掉停用词和字符小写化；

采用自然语言处理工具对文本进行分词、词性标记和词性还原。

较佳的，在将预处理后的论文信息中的作者名与预先构建的人名匹配规则进行匹配之前，该方法还进一步包括：

预先制定一个中文姓名到英文姓名的转换规则；

根据所述转换规则，对预设的作者集合中每个作者的中文姓名进行转换，生成与中文姓名对应的英文姓名，形成人名匹配规则。

较佳的，当候选作者集合中的候选作者的数量大于1时，基于机器学习算法从候选作者集合的多个候选作者中确定待处理的论文的作者。

较佳的，所述基于机器学习算法从候选作者集合的多个候选作者中确定待处理的论文的作者包括：

采用向量空间模型和词频-逆文本频率指数方法从待处理的论文信息中提取每个词的特征值，获得论文信息的特征向量；

根据所获得的论文信息的特征向量，使用带标注的训练数据集对分类器进行分类训练，得到训练后的分类器；

使用训练后的分类器对候选作者集合的多个候选作者进行预测，确定待处理的论文的作者。

较佳的，使用如下公式来提取待处理的论文信息中的每个词的特征值，得到词频-逆向文件频率：

其中，tfidf_it为词频-逆向文件频率，tf_it为词频，idf_t为逆向文件频率，df_t为包含该词的文件频数，N为语料库中的文件总数。

较佳的，将论文的作者信息与其他文本信息分开进行特征值的提取。

较佳的，根据候选作者集合中的候选作者的数量构建多个子消歧数据集，并将候选作者作为类别进行分类训练。

较佳的，将每一类别的样本数占总样本数的比例作为其权重；

通过如下的公式计算加权的分类指标：

其中，precision_weighted为精确度权重，recall_weighted为召回率权重，N为总样本数，m为总类别数；

通过如下的公式计算得到F₁值：

其中，F_1,weighted为加权后的F₁值。

如上可见，在本发明中的基于规则匹配和机器学习的论文作者名消歧方法中，由于先将预处理后的论文信息中的作者名与预先构建的人名匹配规则进行匹配，实现了英文作者名到中文作者的规则匹配，得到候选作者集合，因此可以根据候选作者集合中的候选作者的数量确定所述待处理的论文的作者，从而可以改进论文消歧效果，有效地提高作者名消歧的准确性。

附图说明

图1为本发明实施例中的基于规则匹配和机器学习的论文作者名消歧方法的流程图。

图2为本发明实施例中的子消歧数据集的论文数量分布的示意图。

具体实施方式

为使本发明的技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明作进一步详细的说明。

为了解决现有技术中所存在的上述问题，在本发明的技术方案中，将首先基于人工构建的人名匹配规则确定候选作者，对于存在多个候选人的情况，基于论文的属性信息(例如合作者、标题、摘要、关键词和出版物名称等) 提取特征，然后选取合适的机器学习算法进行消歧，并确定所述待处理的论文的作者。

图1为本发明实施例中的基于规则匹配和机器学习的论文作者名消歧方法的流程图。如图1所示，本发明实施例中的基于规则匹配和机器学习的论文作者名消歧方法包括如下所述步骤：

步骤11，对待处理的论文信息进行预处理。

在本发明的技术方案中，待处理的论文信息一般包括标题、作者、出版物名称、摘要和关键词。由于待处理的论文信息中存在噪音数据，而且没有进行分词，所以首先需要对待处理的论文信息进行预处理。

在本发明的技术方案中，所述的预处理可以是对待处理的论文信息进行去噪处理。例如，较佳的，在本发明的一个具体实施例中，所述预处理可以包括：从待处理的论文信息中去掉特殊字符串、去掉标点符号及特殊符号、去掉多余空格和换行符、去掉长度小于3的词、去掉停用词和字符小写化等；然后，再采用自然语言处理工具(NLTK)对文本进行分词、词性标记和词性还原。

步骤12，将预处理后的论文信息中的作者名与预先构建的人名匹配规则进行匹配，得到候选作者集合。

在本发明的技术方案中，在得到预处理后的论文信息之后，可以获取论文信息中的作者名，然后将该作者名与预先构建的人名匹配规则进行匹配，从而可以得到初步的候选作者集合。其中，所获取的论文信息中的作者名一般为作者的英文姓名。

另外，较佳的，在本发明的一个具体实施例中，在所述步骤12之前，还可以进一步包括：预先构建人名匹配规则。

论文作者名存在混淆的原因一方面是作者存在重名现象，另一方面是在英文论文中，单个中文名可能存在多个对应的英文名。高校的人员数量有限，中文重名现象较少，因此作者名混淆的情况大部分来源于后者。由于可能采用了不同的姓名顺序和缩写规则，一个作者的中文名可能会对应多种形式的英文名，再加上多音字的现象，会出现大量作者名混淆的情况。

针对这一现象，在本发明的技术方案中，可以预先构建人名匹配规则。

例如，较佳的，在本发明的一个具体实施例中，所述预先构建人名匹配规则可以包括如下的步骤：

步骤21，预先制定一个中文姓名到英文姓名的转换规则；

步骤22，根据所述转换规则，对预设的作者集合中每个作者的中文姓名进行转换，生成与中文姓名对应的英文姓名，形成人名匹配规则。

另外，在上述的步骤21中，可以通过多种具体实现方式来制定一个中文姓名到英文姓名的转换规则。

例如，较佳的，在本发明的一个具体实施例中，可以根据“中国人名汉语拼音字母拼写规则”和常用的中文名到英文名的转换形式，制定一个中文姓名到英文姓名的转换规则。

例如，如下表1所示：

表1中文姓名到英文姓名的转换规则

根据以上所示的表1可知，在本发明的一个较佳的具体实施例中，所述转换规则可以是：将作者的中文姓名根据姓名正序和姓名反序分别转换成对应的英文姓名；其中，姓名正序和姓名反序的转换方式中均包括全拼、名合并和缩写的转换方法。因此，对应于一个中文姓名，可以生成多种可能的对应的英文姓名。

另外，在后期匹配过程中，还可以进一步统一地去掉英文姓名中的大小写和特殊符号(例如逗号、分号等)，也可以在转换过程时就直接统一去掉英文姓名中的大小写和特殊符号。

另外，在本发明的技术方案中，可以根据实际应用情况的需要，预先设置步骤22中的作者集合。例如，可以将某一个高校中的所有职工的中文姓名放在一个集合中，作为一个预设的作者集合；也可以将多个高校中的所有职工的中文姓名放在一个集合中，作为一个预设的作者集合；还可以将预先确定的多个作者放在一个集合中作为预设的作者集合。具体的设置方式还可以有很多种，在此不再一一赘述。

在制定了上述的转换规则，并设置了上述的作者集合之后，即可将该者集合中每个作者的中文姓名都通过上述的转换规则进行转换，生成对应的英文姓名，从而形成人名匹配规则。因此，上述预先构建的人名匹配规则实际上是上述预设的作者集合中的所有作者的中文姓名以及所有可能的英文姓名的集合。

在得到上述人名匹配规则之后，即可将预处理后的论文信息中的作者名与预先构建的人名匹配规则进行匹配。如果预处理后的论文信息中的作者名与上述人名匹配规则中的某个中文姓名或英文姓名相同(即匹配)，则将该匹配的中文姓名或英文姓名作为候选作者加入到候选作者集合中。通过上述的方式，即可得到初步的候选作者集合。

步骤13，根据候选作者集合中的候选作者的数量确定所述待处理的论文的作者。

在上述的步骤12中，可以将预处理后的论文信息中的作者名与预先构建的人名匹配规则进行匹配，从而得到候选作者集合。因此，在本步骤13中，可以根据候选作者集合中的候选作者的数量来确定待处理的论文的作者

例如，较佳的，在本发明的一个具体实施例中，当上述候选作者集合中的候选作者的数量为0时，则说明预处理后的论文信息中的作者名不在预先构建的人名匹配规则内，因此可以判定该论文的作者并不是预设的某机构(即预设的作者集合)中的人员，所以此时可以直接输出：“该论文不属于任何一位当前机构中的科研人员”，或者是其它类似的输出结果。

当上述候选作者集合的候选作者的数量为1时，说明预处理后的论文信息中的作者名在预先构建的人名匹配规则内，且只匹配到一个候选作者，因此可以直接确定该论文的作者即为人名匹配规则中所匹配到的候选作者，所以此时可以输出此时的候选作者，从而可以直接将该候选作者作为待处理的论文的作者。

而当候选作者集合中的候选作者的数量大于1时，则说明预处理后的论文信息中的作者名在预先构建的人名匹配规则内，但有多个候选的作者(即匹配到多个作者，可能存在重名的作者)，因此，还需要进一步基于机器学习算法从候选作者集合的多个候选作者中确定所述待处理的论文的作者。

另外，在本发明的技术方案中，可以使用多种具体的实现方式来确定所述待处理的论文的作者。以下将以其中的一种实现方式为例对本发明的技术方案进行详细的介绍。

例如，较佳的，在本发明的一个具体实施例中，所述基于机器学习算法从候选作者集合的多个候选作者中确定所述待处理的论文的作者可以包括如下的步骤：

步骤31，采用向量空间模型和词频-逆文本频率指数(TF-IDF，Term Frequency–Inverse Document Frequency)方法从待处理的论文信息中提取每个词的特征值，获得论文信息的特征向量。

原始的论文信息是文本形式，属于非结构或者半结构的数据，无法直接作为机器学习的输入。因此，必须先通过特征提取的方式，将文本形式的论文信息转换成为机器可以识别的、固定长度的数值特征向量，同时保留文本的原有语义信息。

其中，TF-IDF方法是一种十分有效的特征提取方法，可以用于评估一个字或词对于所在文档的重要程度，该字或词的重要性与它在该文档中出现的频数成正相关，但与它在文档集中出现的频数负相关。换言之，如果一个字或词在一篇论文的信息中出现的次数越多，且在所有论文信息中出现的次数越少，则其作为该论文的特征的区分能力就越强。

因此，较佳的，在本发明的一个具体实施例中，可以使用如下的公式来提取待处理的论文信息中的每个词的特征值，得到词频-逆向文件频率：

由于论文信息是由多个词语组成的，在通过特征提取将论文信息中的每一个词语都转换成一个特征值之后，就可以得到关于论文信息的特征向量，然后可以将该特征向量作为后续的机器学习的输入。

另外，在本发明的一个较佳的具体实施例中，还可以使用L2范数 (L2-Norm)对TF-IDF计算得到的向量进行归一化。该归一化操作可以进一步提升文档查询和本文分类的准确度。

此外，论文信息中一般都包含了论文的合作者信息，科研工作者在一段时间内往往有固定的合作者，因此合作者关系所包含的信息量更大，在论文作者名消歧问题中相较于其他信息更为重要。

因此，较佳的，在本发明的一个具体实施例中，可以将论文的作者信息与其他文本信息(例如，论文标题、期刊名称、摘要和关键词等)分开进行特征值的提取。分开提取特征值具有两个优势：1)作者信息的TF-IDF值会更大一些，从而可以放大作者信息对于作者名消歧的作用；2)由于其他文本信息的向量空间不同于作者信息的向量空间，因此使得提取出的特征值的可解释性更好，而且预测能力更强。最后，可以将分开提取出的特征值再拼接起来，形成样本的特征。

步骤32，根据所获得的论文信息的特征向量，使用带标注的训练数据集对分类器进行分类训练，得到训练后的分类器。

在本发明的技术方案中，可以预先构建一个带标注的训练数据集，然后根据所获得的论文信息的特征向量，使用该带标注的训练数据集对分类器进行训练，从而得到训练后的分类器。

较佳的，在本发明的一个具体实施例中，可以预先从一个SCI论文奖励数据集中获取论文数据，并对所获取的论文数据进行自动化标注，形成带标注的训练数据集。由于SCI论文奖励数据中记录了SCI论文的标题以及受奖励的第一作者信息，因此可以通过脚本比对论文标题，来获取带标注的训练数据集。

例如，在某个实际应用场景中，可以选择使用2004～2015年北京大学职工的SCI论文奖励数据集，并通过脚本比对数据集中各条数据中的论文标题，得到了带标注的训练数据集，该带标注的训练数据集中共包括7790条带标注的论文数据记录，一共涉及北京大学的1457名职工。带标注的论文数据均为英文论文数据，其中每条记录都包含了完整的论文信息以及所属作者的姓名和职工号，并将唯一的职工号作为样本的标签(label)。

另外，较佳的，在本发明的一个具体实施例中，为评估消歧效果，我们可以根据候选作者集合中的候选作者的数量构建多个子消歧数据集，并将候选作者作为类别进行分类训练。例如：遍历每一条样本，经过规则匹配，若候选作者的个数大于1，则将候选作者的论文集放入新的子消歧数据集。这样，每一个子消歧数据集中的任意两篇论文都存在作者名混淆现象。我们统计了所有子消歧数据集的样本数量情况，整体分布如图2所示，可以看到44.5％的子消歧数据集的样本数在11-20之间。我们选取了样本数量大于5 的子消歧数据集共993个作为实验数据。在每个子消歧数据集上进行了随机划分，抽取80％的标记样本作为训练数据集，剩下的20％作为测试数据集，训练并评估分类模型。

对于分类问题常用的评价指标是精确率(precision)、召回率(recall) 和F₁值，但这些指标仅适用于二分类的问题。需将这些指标进一步拓展，以适用于多分类的情况。二分类问题的精确度和召回率的计算公式如下：

其中，precision_i为二分类问题的类别i的精确度，TP(True Positive)为被判定为正样本，事实上也是正样本的项；FP(False Positive)为被判定为负样本，事实上是负样本的项；FN(False Negative)为被判定为负样本，实际上也是负样本的项；recall_i为二分类问题的类别i的召回率，N_i为类别i 的样本数。

通过macro方法扩展二分类的precision和recall，仅仅是做了算术平均，而没有考虑到样本类别不平衡的问题，无法有效地评价模型的性能。

而在本发明的技术方案中，所使用的子消歧数据集可能会出现一个类别的样本数比其他类别的样本数多一个量级的情况。因此，在本发明的技术方案中采用了加权平均法，将每一类别的样本数占总样本数的比例作为其权重，加权的分类指标可通过如下的公式计算：

其中，precision_weighted为精确度权重，recall_weighted为召回率权重，N为总样本数，m为总类别数。

根据上述的公式(4)和(5)，可以得到F₁值的计算公式：

其中，F_1,weighted为加权后的F₁值。

另外，由于高校论文信息的数量有限，因此并不适于采用深度神经网络等模型。所以，在本发明的技术方案中，可以采用机器学习中的一些主流分类模型，例如，决策树、随机森林、Softmax、支持向量机、朴素贝叶斯、K 近邻算法和XGBoost等分类模型。

另外，较佳的，在本发明一个具体实施例中，所述分类器的分类模型可以是K近邻算法或Softmax，此时的消歧效果较好。

步骤33，使用训练后的分类器对候选作者集合的多个候选作者进行预测，确定所述待处理的论文的作者。

在训练好分类器之后，即可使用训练后的分类器对候选作者集合的多个候选作者进行预测，从而最终确定所述待处理的论文的作者。

因此，通过上述的步骤31～33，即可根据候选作者集合中的候选作者的数量确定所述待处理的论文的作者。

另外，在实际应用场景的实验中，在上述子消歧数据集上，我们尝试了机器学习中主流的分类模型，分别是决策树、随机森林、Softmax、支持向量机、朴素贝叶斯、K近邻算法和XGBoost。这些模型在多个子消歧数据集上的平均分类结果如下表所示：

表2不同分类模型的预测结果

根据上表可知，朴素贝叶斯模型的精确度最高，K近邻算法的召回率最好，而Softmax的F₁值表现最为突出。在小样本分类问题中，往往是越简单的模型可以获得越好的分类效果，如表2所示，K近邻算法和Softmax的各方面的分类指标都较好，显著优于其他模型。在树型算法中，从模型的复杂度来讲，决策树小于随机森林，而随机森林又小于XGBoost；在实验结果中，决策树的分类效果优于XGBoost，而后者又优于随机森林。根据上述分析可知，K近邻算法和Softmax模型在样本数极少的消歧数据集上有较高的预测精度，更适用于高校论文作者名消歧问题。

另外，在实际应用场景的实验中，我们还对分开提取特征和混合提取特征这两种特征提取方式分别进行了实验，对比了朴素贝叶斯、K近邻算法和 Softmax这三种模型采用不同特征提取策略的分类效果，如表3所示：

表3不同特征提取策略的预测结果

根据上表可知，将作者信息与其他论文信息分开提取，模型的预测效果更好，验证了合作者信息的重要性，因此分开提取特征的策略更有利于论文作者名消歧任务。由此可知，通过TF-IDF将文本信息和作者信息分开处理的特征提取方法具有较好的特征提取效果。

综上所述，在本发明的技术方案中，由于先将预处理后的论文信息中的作者名与预先构建的人名匹配规则进行匹配，实现了英文作者名到中文作者的规则匹配，得到候选作者集合，因此可以根据候选作者集合中的候选作者的数量确定所述待处理的论文的作者，从而可以改进论文消歧效果，有效地提高作者名消歧的准确性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于规则匹配和机器学习的论文作者名消歧方法，其特征在于，该方法包括：

对待处理的论文信息进行预处理；

2.根据权利要求1所述的方法，其特征在于：

所述的预处理是对待处理的论文信息进行去噪处理。

3.根据权利要求1所述的方法，其特征在于，所述预处理包括：

4.根据权利要求1所述的方法，其特征在于，在将预处理后的论文信息中的作者名与预先构建的人名匹配规则进行匹配之前，该方法还进一步包括：

预先制定一个中文姓名到英文姓名的转换规则；

5.根据权利要求1所述的方法，其特征在于：

当候选作者集合中的候选作者的数量大于1时，基于机器学习算法从候选作者集合的多个候选作者中确定待处理的论文的作者。

6.根据权利要求5所述的方法，其特征在于，所述基于机器学习算法从候选作者集合的多个候选作者中确定待处理的论文的作者包括：

7.根据权利要求6所述的方法，其特征在于，使用如下公式来提取待处理的论文信息中的每个词的特征值，得到词频-逆向文件频率：

8.根据权利要求6所述的方法，其特征在于：

将论文的作者信息与其他文本信息分开进行特征值的提取。

9.根据权利要求6所述的方法，其特征在于：

根据候选作者集合中的候选作者的数量构建多个子消歧数据集，并将候选作者作为类别进行分类训练。

10.根据权利要求9所述的方法，其特征在于：

将每一类别的样本数占总样本数的比例作为其权重；

通过如下的公式计算加权的分类指标：

通过如下的公式计算得到F₁值：

其中，F_1,weighted为加权后的F₁值。