CN113688257B

CN113688257B - 一种基于大规模文献数据的作者姓名同一性判断方法

Info

Publication number: CN113688257B
Application number: CN202110954858.1A
Authority: CN
Inventors: 邰伟鹏; 胡涛; 赵佳俊; 黄超; 李文婷; 李伟
Original assignee: Anhui Gongda Information Technology Co ltd
Current assignee: Anhui Gongda Information Technology Co ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2024-04-12
Anticipated expiration: 2041-08-19
Also published as: CN113688257A

Abstract

本发明公开了一种基于大规模文献数据的作者姓名同一性判断方法，属于同名消歧技术领域。包括以下步骤：读取文献数据信息；分组排序，得到含有相同作者名的多个数据块；数据处理为结构化的数据；再分组，每一数据块按照文献id分组得到多个数据小块；数据小块间作者名进行同一性判断，依据作者所属的机构名，循环的在数据小块之间，两两不断取交集，若交集不为空则取并集，使交集不为空的数据小块中包含的记录数不断扩大，直到不再变化为止；最终以相同id标识的为同一作者。本发明克服了现有技术中，由于忽略了文献间内在的关联关系和大量数据造成的混杂度，无需人工标注信息，将数据经过一层层分组排序后化繁为简，提高了同名区分的效率与准确率。

Description

一种基于大规模文献数据的作者姓名同一性判断方法

技术领域

本发明属于同名消歧技术领域，更具体地说，涉及一种基于大规模文献数据的作者姓名同一性判断方法。

背景技术

近年来，随着各界科学研究与互联网技术的不断发展，全球各类学术文献发表数量呈现出高速增长的态势。将大量的学术文献按照既定的规则存在于学术文献数据库中，文献作者的姓名属性无疑是区分和辨别这些学术文献实体最常用的标识符。但是，在实际生活中，人的名字，尤其是中国人，往往并不是唯一的，对于同名同姓的多个人同时存在的情况数不胜数。相应的，在学术文献数据库中必定也大量存储有着相同姓名的文献作者，而这势必会对文献数据库的维护、检索与使用，造成与实际事实产生歧义的不良影响。

同名消岐属于实体消岐的一种特殊形式，只不过消歧的实体是人名。现实生活中存在着较多的一词多义的情形，即在不同的上下文语境中，同一实体的名称可以指向不同的实体。同时，多词一义的情形也广泛存在着，指的是同一个实体在文本中可能存在着不同的指向的情况。这就表明实体存在着歧义性和多样性。

经检索，现有技术公开了一些技术方案，例如发明创造名称为：一种辨别同名作者的方法和装置(申请公开日：2018年07月06日；申请号：201611240416.6)，该方案公开了一种辨别同名作者的方法和装置，属于作者的分类技术领域。包括如下步骤：已定作品信息收集步骤，收集已定作品的作品信息，已定作品是指作者已经明确的作品；经历信息获取步骤，根据所收集的作品信息获得或制作该已定作品的作者经历信息；领域判断步骤，判断同名作者作品的领域；相关性判断步骤，根据所述作者经历信息判断该同名作者作品与该已定作品的相关性。该方案利用文献作品的属性信息和作者的经历信息以及通过在web上搜索作者的简历，在解决某些作者的作品跨越领域时，具有优势。并且通过计算待定同名作者作品与已定作品的距离和相关性，与既定的阈值相比较，从而判断待定的同名作者与已经明确的作者是否为相同人，这样的方式在一定程度上提高了消歧的正确率。但是，要获取每位作者的详细信息，将会花费大量的时间和人力资源，这就降低了消歧的效率；而人为的提前设定好的阈值也会降低作者名消岐结果的准确率，说明最终的消岐结果对阈值敏感。

再如，发明创造名称为：论文作者的消歧方法、装置和计算机设备(申请公开日：2020年11月03日；申请号：202010740289.6)，该方案消歧方法包括：将数据库中所有论文涉及的作者姓名分别按照预设规则形成姓名树；获取数据库中所有论文对应的关联关系异质网络；获取数据库中所有论文分别对应的论文语义表征；基于姓名树、关联关系异质网络和论文语义表征，构建相似矩阵；对相似矩阵进行聚类，得到数据库中所有论文对应的论文聚类群；判断待消歧作者对应的论文聚类群是否属于指定作者对应的论文聚类群；若否，则判定待消歧作者与指定作者不同。通过对作者姓名进行预处理构建姓名树，然后根据姓名树消除了姓名书写存在不同表述方式时引起的聚类误差，保证同一位作者的姓名尽可能分在同一分组，提高姓名消歧的精准度。该方法容易在外国人的姓名上按照预设规则建立姓名树，但是当面对作者姓名中只包含两个字的姓名的情况，即大部分中国人的姓名时，可能没有足够的拼音字母可供建立文中预设规则下的姓名树；另外，在将文中所述语义表征向量的平均值，作为所述指定论文对应的论文语义表征时，由于该方法作用于数据库中的海量论文文本上，难免会出现两篇或者两篇以上的完全不相同的论文文本最终计算得出的语义表征向量的平均值相近的现象，从而该方法会在后续聚类过程中极有可能将该类语义毫不相关的论文归为一类，降低了同名消岐的准确度；此外，该方法在海量论文上使用DBSCAN聚类算法，将对电脑的内存要求和I/O消耗都非常高，很难在现实中适用。

此外，现有技术中，往往通过使用有监督方法，利用标注信息，来获得比较好的消岐性能，但是如今现实世界中的数据规模已经相当大，要想在大规模数据集上使用带监督的学习方法，就要预先耗费大量的人力和时间对每条信息进行标注。因此，在没有标注信息的情况下，如何较快的利用文献自身的属性信息来完成作者名的同一性判断，就显得尤为重要。

发明内容

1.要解决的问题

针对上述现有技术中存在的问题，本发明提供一种基于大规模文献数据的作者姓名同一性判断方法，所要研究的人名同一性判断方法，指的是把具有相同名字的人按照一定的方式区分开来，即通过将数据集中被辨别为同一位作者的作者id置为相同以此来标识为同一个实体，消除所存在的歧义现象。

2.技术方案

为了解决上述问题，本发明所用的技术方案如下：

本发明的一种基于大规模文献数据的作者姓名同一性判断方法，包括：

读取文献数据信息：其中包含4列信息：作者姓名，作者所属机构名，文献id，作者id；

分组排序：按照作者名分组同时按照文献id降序排序，得到含有相同作者名的多个数据块；

数据处理为结构化的数据：对于一个作者对应多个机构的记录要将原有的对应关系映射为多条逻辑关系不变的记录；

再分组：针对每一数据块按照文献id分组再得到多个数据小块；数据小块间作者名进行同一性判断，依据作者所属的机构名，循环的在数据小块之间，两两不断取交集，若交集不为空则取并集，使交集不为空的数据小块中包含的记录数不断扩大，直到不再变化为止；

最终将数据集中被辨别为同一位作者的作者id置为相同以此来标识为同一个实体。

更进一步地，读取到的文献数据信息中，包含4列信息：作者姓名，作者所属机构名，文献id，作者id。作者姓名为中文或外文皆可，每条记录的作者名字段中只含有一个作者名而机构名字段中可存在1个或者多个机构名。文献id和作者id用唯一的、不重复的一组字符标识即可。

更进一步地，分组排序的具体过程为：按照作者名分组同时按照文献id降序排序，则得到含有相同作者姓名的多个数据块block。此时每个block中保存的结构信息与最初的原数据信息结构相同，即均为4列信息：作者姓名，作者所属机构名，文献id，作者id。

更进一步地，对文献数据进行预处理的具体过程为：剔除作者所属机构名中包含的多余信息，例如邮政编码等(有些机构信息后面可能跟着邮政编码，多余信息为邮政编码；再如“中国矿业大学北京校区”，此处多余信息是“北京校区”；“成都地质学院应用化学系”中多余信息为“应用化学系”)。对于任意一条记录而言，若存在一个作者对应多个机构的情况，则将该条记录转化为多条同一作者名与其每一个所属机构相对应的多条记录，并且在转化为多条记录的过程中，对于新生成的记录要保证相同的文献id要有对应的相同的作者id。至此所有的记录都为一对一的规范结构。

更进一步地，再分组的具体过程为：在每一数据块block内，按照文献id进行分组，得到含有相同文献id的数据小块patch，并对得到的patch进行编号。同一patch中的文献作者id相同，不同patch中的文献id不同。此时，每个数据小块的结构与每个数据块中包含的数据结构相同。

更进一步地，数据小块间作者名进行同一性判断的具体过程，具体包括以下步骤：

step1：定义集合U中存储了所有patch的编号，初始化一个空集合S用以在完成作者名同一性判断后存储有交集的各个patch的编号；

step 2：将每个数据小块patch_i中的作者所属的机构名patch_ij与其它数据小块patch_m中的机构名patch_mn依次循环迭代取交集。特别的，其中，patch_i表示第i个数据小块，patch_ij表示patch_i中的第j个机构名，patch_m表示第m个数据小块，patch_mn表示patch_m中的第n个机构名；

step 3：如果继续遍历下一个数据小块patchm，这里i≠m；

step 4：如果则patch_i＝patch_i∪patch_m，并将编号i和m记录进S中，继续遍历下一个数据小块patch；

step 5：在单次循环中只要S中添加了新的元素，都要对未被记录的patch进行下一次循环遍历，直至S中不再有新的元素加入为止；

step 6：置U＝U-i，转到step 2，直到U为空集为止，此时S中将包含所有的patch的编号。

最后，对于记录下来的有交集的各patch，将其中的作者id根据S中的记录统一以相同的id表示，以此来标识该类patch中的作者是同一个作者。

3.有益效果

相比于现有技术，本发明的有益效果为：

本发明的一种基于大规模文献数据的作者姓名同一性判断方法，由于忽略了文献与文献之间内在的关联关系和大量数据带来的相当大的混乱程度，既不需要从web上搜索得到额外的信息，也不需要为了进行监督训练耗费大量的人力对每个样本进行标注，将数据经过一层层合理的分组排序后可以化繁为简，充分利用文献与文献之间以及文献内各属性之间的关联关系优势，大大的提高了同名处理的效率与同名区分的完整度。

附图说明

图1为本发明的方法流程示意图；

图2为本发明的作者名同一性判断流程示意图；

图3为本发明数据存储结构(A)及分组排序后的结果(B)示意图；

图4为本发明结构化数据的局部示意图；

图5为本发明作者名为”abc”的数据块及作者名为”abc”的同名区分结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例；而且，各个实施例之间不是相对独立的，根据需要可以相互组合，从而达到更优的效果。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。

实施例1

结合图1所示，本发明的一种基于大规模文献数据的作者姓名同一性判断方法，包括以下步骤：

1.读取文献数据

读取到的文献数据信息中，包含4列信息：作者姓名，作者所属机构名，文献id，作者id。作者姓名为中文或外文皆可，每条记录的作者名字段中只含有一个作者名而机构名字段中可存在1个或者多个机构名。文献id和作者id用唯一的、不重复的一组字符标识即可。为简单起见，如图3中的A所示，表征了作者名为”abc”和”xyz”的作者发表的所有文献信息，此为该实施例1的原始数据。

2.第一轮分组排序

按照作者名分组同时按照文献id降序排序，则得到含有相同作者姓名的多个数据块。如图3中的B所示，分组排序后得到了两个数据块block。分别是根据作者名”xyz”、”abc”进行分组，组内按照文献id进行降序排序得到的名为”xyz”的block和名为”abc”的block。其中，实线对应表示作者名为”xyz”的分组排序结果，虚线对应表示作者名为”abc”的分组排序结果。由于每个block都携带与原始数据相同的结构信息，因此，原始问题转化为只需要对任一block内完成作者姓名同一性的判断，即可完成在整个原始数据集上的作者名同一性判断。故下文，主要在作者名为”abc”的block上作进一步分析。

3.数据预处理

剔除作者所属机构名中包含的多余信息，例如存在多余的邮政编码等噪声信息。对于任意一条记录而言，若存在一个作者对应多个机构的情况，则将该条记录转化为多条同一作者名与其每一个所属机构相对应的多条记录，并且在转化为多条记录的过程中，对于新生成的记录要保证相同的文献id要有对应的相同的作者id，至此所有的记录都为一对一的规范结构。如图4所示，表征了将作者名为”abc”的block中一对多的作者信息散射为多条一对一的作者信息后的结果，并且保证来自于同一篇文献(即相同的文献id)的作者id散射后保持相同。图4中的B是对应的散射结果，实线为相应的散射关系。

4.第二轮分组

在作者名为”abc”的block内，按照文献id进行分组，得到含有相同文献id的数据小块patch，则同一patch中的文献id相同，不同patch中的文献id不同。如图5中的A所示，分组后得到6个patch，可用不同的作者id进行区分。其中，作者id为”aid6”的前3条记录即为第一个patch。

5.同一性判断

通过作者所属的机构名实现作者名同一性判断的具体过程为：将每个patch_i中的作者所属的机构名与其它数据小块patch_others中的机构名依次循环迭代取交集，同时单独记录有交集的patch的编号。如果则不对当前的patch_others做处理，且不记录，继续遍历下一个patch_others，这里other≠others；而如果/>时，则对二者取并集并将该次取并集后的结果用以扩大原有的patch_i，即patch_i＝patch_i∪patch_other，在单次循环中只要存在一个或多个patch中包含的机构数增加，都要在未被记录的patch上进行下一次循环，直至每个patch中所包含的机构数不再增加为止。最后，对于记录下来的有交集的各个patch，将其中的作者id置为相同，以此来标识该类patch中的作者是同一个作者，即该类patch中的不同文献由同一位作者发表。

6.以相同id标识同一作者

如图5中的B所示，即为作者名为”abc”的block，最终的区分结果。可以看到，原有的作者id列的”aid1”被更改为”aid3”，”aid4”和”aid2”被更改为”aid6”，即相同的实体以相同的作者id进行标识。而”aid5”未发生变化是因为其作者所属机构名列的信息与其它数据小块之间的机构信息不存在交集，说明以”aid5”标识的作者是一个独立的实体。最终整个数据块发现有3个不同的作者名为”abc”的实体。

值得说明的是

下面结合流程图2，详细阐述实现作者名同一性判断过程的步骤：

在图5中A的基础上，由作者名为”abc”形成的数据块block_abc中包含patch_1-6，按图2的步骤展开：

开始：

机构名I＝{{I1,I2,I3},{I10},{I4,I9},{I5,I6},{I3,I4},{I6,I7,I8}}，i＝1，j＝2，计数器count＝0，为方便叙述，对于6个patch，记u₁＝{I1,I2,I3},u₂＝{I10},u₃＝{I4,I9},u₄＝{I5,I6},u₅＝{I3,I4},u₆＝{I6,I7,I8}，相应的记U＝{u₁,u₂,u₃,u₄,u₅,u₆}，则T＝N＝|U|＝6，T–1＝5；(这里|U|表示集合U中所包含的单个元素的个数)。

开始第一轮循环遍历：

count＝count+1，此时count＝1<5；

count＝count+1，此时count＝2<5；

count＝count+1，此时count＝3<5；

count＝count+1，置u₁＝u₁∪u₅＝{I1,I2,I3,I4}，有S←5，S＝{{5}}，此时count＝4<5；

count＝count+1，此时count＝5＝5，S在本轮循环中已被更新，count置为0，T＝N-|S|＝5，则T–1＝4；

开始第二轮循环遍历：

此时i＝1，j＝2；

count＝count+1，此时count＝1<4；

count＝count+1，置u₁＝u₁∪u₃＝{I1,I2,I3,I4,I9}，有S←3，S＝{{5,3}}，|S|＝2<N–1＝5，此时count＝2<4；

count＝count+1，此时count＝3<4；

count＝count+1，此时count＝4＝4，S在本轮循环中已被更新，count置为0，T＝N-|S|＝4，则T–1＝3；

开始第三轮循环遍历：

此时i＝1，j＝2；

count＝count+1，此时count＝1<3；

count＝count+1，此时count＝2<3；

count＝count+1，此时count＝3＝3，S在本轮循环中未被更新，则S←1，故S＝{{5,3,1}}；

则有i＝2，U＝U–U(S)＝{u₂,u₄,u₆}，(这里U(S)表示从U中取出S里相应位置的元素，即U(S)＝{u₁,u₃,u₅})，|S|＝3，T＝N-|S|＝3，T-1＝2，count＝0。

开始第四轮循环遍历：

此时i＝2，j＝4；

count＝count+1，此时count＝1<2；

count＝count+1，此时count＝2＝2，S在本轮循环中未被更新，有S←2，故S＝{{5,3,1},{2}}；

则有i＝4，U＝U–U(S)＝{u₄,u₆}(其中U(S)＝{u₁,u₃,u₅,u₂})，|S|＝4，T＝N-|S|＝2，T-1＝1，count＝0。

开始第五轮循环遍历：

此时i＝4，j＝6；

count＝count+1，置u₄＝u₄∪u₆＝{I5,I6,I7,I8}，有S←6，S＝{{5,3,1},{2},{6}}，|S|＝5＝N–1＝5，则S←4，S＝{{5,3,1},{2},{6,4}}，则/>

由于成立，最终输出结果集S＝{{5,3,1},{2},{6,4}}。对应的，patch₅，patch₃，patch₁为同一作者，将该作者id列的作者可统一用”aid6”表示；patch₂为另一作者；patch₆，patch₄为同一作者，将该作者id列的作者可统一用”aid3”表示。该结果与图5中的B列相符。

在上文中结合具体的示例性实施例详细描述了本发明。但是，应当理解，可在不脱离由所附权利要求限定的本发明的范围的情况下进行各种修改和变型。详细的描述和附图应仅被认为是说明性的，而不是限制性的，如果存在任何这样的修改和变型，那么它们都将落入在此描述的本发明的范围内。此外，背景技术旨在为了说明本技术的研发现状和意义，并不旨在限制本发明或本申请和本发明的应用领域。

Claims

1.一种基于大规模文献数据的作者姓名同一性判断方法，其特征在于：所述方法为：

再分组：针对结构化的数据，每一数据块按照文献id分组再得到多个数据小块；

数据小块间作者名进行同一性判断：依据作者所属的机构名，循环的在数据小块之间，两两不断取交集，若交集不为空则取并集，使交集不为空的数据小块中包含的记录数不断扩大，直到不再变化为止；

2.根据权利要求1所述的一种基于大规模文献数据的作者姓名同一性判断方法，其特征在于：所述作者姓名为中文或外文；所述文献id和作者id用唯一的、不重复的一组字符标识；所述作者所属机构名为1个或者多个机构名。

3.根据权利要求1所述的一种基于大规模文献数据的作者姓名同一性判断方法，其特征在于：分组排序的具体过程为：按照作者名分组同时按照文献id降序排序，则得到含有相同作者姓名的多个数据块block。

4.根据权利要求1所述的一种基于大规模文献数据的作者姓名同一性判断方法，其特征在于：数据处理为结构化的数据，具体过程为：剔除作者所属机构名中包含的多余信息，对于任意一条记录而言，若存在一个作者对应多个机构的情况，则将该条记录转化为多条同一作者名与其每一个所属机构相对应的多条记录，并且在转化为多条记录的过程中，对于新生成的记录要保证相同的文献id要有对应的相同的作者id，至此所有的记录都为一对一的规范结构。

5.根据权利要求1所述的一种基于大规模文献数据的作者姓名同一性判断方法，其特征在于：再分组的具体过程为：在每一数据块block内，按照文献id进行分组，得到含有相同文献id的数据小块patch，并对得到的每个patch进行编号，同一patch中的文献作者id相同，不同patch中的文献id不同，此时，每个数据小块的结构与每个数据块中包含的数据结构相同。

6.根据权利要求5所述的一种基于大规模文献数据的作者姓名同一性判断方法，其特征在于：数据小块间作者名进行同一性判断的具体过程，包括以下步骤：

step 1：定义集合U中存储了所有patch的编号，初始化一个空集合S用以在完成作者名同一性判断后存储有交集的各个patch的编号；

step 2：将每个数据小块patch_i中的作者所属的机构名patch_ij与其它数据小块patch_m中的机构名patch_mn依次循环迭代取交集，其中，patch_i表示第i个数据小块，patch_ij表示patch_i中的第j个机构名，patch_m表示第m个数据小块，patch_mn表示patch_m中的第n个机构名；

step 3：如果继续遍历下一个数据小块patch，这里i≠m；

step 5：在单次循环中只要集合S中添加了新的元素，都要对未被记录的patch进行下一次循环遍历，直至S中不再有新的元素加入为止；

7.根据权利要求1所述的一种基于大规模文献数据的作者姓名同一性判断方法，其特征在于：以相同id标识同一作者，最后，对于记录下来的有交集的各patch，将其中的作者id根据S中的记录统一以相同的作者id表示，以此来标识该patch中的作者是同一个作者。