CN112733543A

CN112733543A - 基于文本编辑生成模型的机构命名实体归一化方法和系统

Info

Publication number: CN112733543A
Application number: CN202110105747.3A
Authority: CN
Inventors: 亓杰星; 彭金波; 傅洛伊; 王新兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-04-30

Abstract

本发明提供了一种基于文本编辑生成模型的机构命名实体归一化方法和系统，包括：步骤S1：对所有的学术机构信息数据进行筛选；步骤S2：对已筛选的数据利用正则表达式去除数据中存在的噪音；步骤S3：将处理好的数据按照类别和预设比例分为训练集、微调数据集和测试集；步骤S4：将微调数据集输入预训练好的bert模型，对bert模型进行微调，利用微调好的bert模型进行训练集机构名的表征，并训练出文本编辑生成模型来实现机构名称的归一化；步骤S5：将测试集输入训练好的文本编辑生成模型，测试模型效果并进行微调。通过本发明可以对每一个学术机构的论文发表数进行统计，可以更科学更直观的对某个学术机构的学术能力进行判别。

Description

基于文本编辑生成模型的机构命名实体归一化方法和系统

技术领域

本发明涉及机构命名实体归一化技术领域，具体地，涉及一种基于文本编辑生成模型的机构命名实体归一化方法和系统。

背景技术

机构命名实体归一化在学术大数据中的主要目的是将各种机构别名识别和映射到属于现实的机构实体。机构命名实体归一化对于学术机构能力评估，机构合作网络，学者姓名消歧，学者轨迹追踪，人才流动，学术论文管理以及学术排名等至关重要。在学术论文日益增多的今天，机构命名实体归一化也是构建学术网络知识图谱必不可少的一步。

随着现代科学技术的进步，科研论文数量激增。近年来，论文和专利的数量的平均增长率一直保持在15％左右。同时，对机构论文统计又因为翻译方法，拼写方法，拼写错误，制度变化，写作风格等问题而显得极为复杂。所以，提出一种简单有效的大规模学术机构命名实体归一化系统就显得极其关键。

解决机构归一化问题的方法总体上可以分为三类：基于规则的方法，基于知识的方法，以及两种方法结合的混合方法。基于规则的方法利用机构命名实体的一些命名规则，利用正则表达式对机构别名进行匹配，提取出其中能够利用的用于识别机构的信息。主要有De Bru和Moed提出的NEMO系统，该系统利用一层层的规则，提取出机构命名实体中的信息，例如地理位置，网址，邮箱，机构名称等等，并通过现有的本地信息来进行映射。基于知识的方法利用预先准备好的带标签数据，通过机器学习算法学习其中的特征，实现一个分类或者聚类模型。

利用规则进行归一化的方法尽管在一些例子上表现优越，但其对作者命名规范有一定的要求，所以不能大范围的适用，准确率不高，所以大多数的归一化算法利用的是基于知识的方法。

专利文献CN112215006A(申请号：CN202011141016.6)公开了一种机构命名实体归一化方法和系统，该方法包括：对学术机构信息数据进行筛选，去除错误数据后，得到预处理数据；对所述预处理数据进行去噪处理，得到机构命名实体归一化数据；通过构建的目标文本分类模型对机构命名实体归一化数据进行自动判别，输出判别结果，以得到机构命名实体归一化后的标准名称；根据所述标准名称，统计对应机构的论文数据。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于文本编辑生成模型的机构命名实体归一化方法和系统。

根据本发明提供的基于文本编辑生成模型的机构命名实体归一化方法，包括：

步骤S1：利用统计规则对所有的学术机构信息数据进行筛选，去除预设规则之外的数据；

步骤S2：在已经筛选过的数据中，利用正则表达式去除数据中存在的噪音；

步骤S3：将处理好的数据按照类别和预设比例分为训练集、微调数据集和测试集；

步骤S4：将微调数据集输入预训练好的bert模型，对bert模型进行微调，利用微调好的bert模型进行训练集机构名的表征，并训练出文本编辑生成模型来实现机构名称的归一化；

步骤S5：将测试集输入训练好的文本编辑生成模型，测试模型效果并进行微调。

优选的，所述步骤S1包括：

步骤S101：获取数据库中所有学术机构的命名实体；

步骤S102：统计所有相同的命名实体对应的所有归一化机构的名称和频次；

步骤S103：按照最大频次保留该命名实体所对应的归一化机构，对于其他的数据进行删除；

所述步骤S2包括：

步骤S201：将机构实体中出现的拉丁文转化为英语字母；

步骤S202：根据正则表达式，去除已经转化过的机构名称中的停用词和标点符号，并将机构名称中的缩略词进行扩写。

优选的，所述步骤S3包括：

步骤S301：统计所有归一化后机构的类别所对应的机构实体别名的数目；

步骤S302：按照6：2：2的比例将每一个类别的实体别名随机划分为训练集、微调数据集和测试集；

步骤S303：判断原始的机构实体是否包含归一化之后的机构实体的所有单词，如果存在归一化的机构实体的单词不存在于原始机构实体中，则将该词添加进词汇表中；

步骤S304：利用预训练好的bert模型，将所有数据转化为张量表示。

优选的，所述步骤S4包括：

步骤S401：载入生成的张量数据，作为训练时字符的初始化；

步骤S402：将微调数据集中机构原始名的张量表示取batch大小的微调数据构成一个bert微调的batch，并将所有数据都分成batch的形式送入bert模型进行bert模型的微调；

步骤S403：将训练集的初始化张量送入预训练好的bert模型，作为该原始机构实体的最终向量表征；

步骤S404：通过训练数据的最终表示来训练文本编辑生成模型。

优选的，所述步骤S5包括：

步骤S501：利用训练好的模型对测试集数据进行测试，统计结果的准确率，并将准确率及对应模型进行保存；

步骤S502：对生成错误的数据进行分析，去除明显标签错误的数据，并对难以归一化的数据进行手动的标记；

步骤S503：修改batch的大小以及学习率后继续进行测试，直至得到预设标准的超参数和对应的模型。

根据本发明提供的基于文本编辑生成模型的机构命名实体归一化系统，包括：

模块M1：利用统计规则对所有的学术机构信息数据进行筛选，去除预设规则之外的数据；

模块M2：在已经筛选过的数据中，利用正则表达式去除数据中存在的噪音；

模块M3：将处理好的数据按照类别和预设比例分为训练集、微调数据集和测试集；

模块M4：将微调数据集输入预训练好的bert模型，对bert模型进行微调，利用微调好的bert模型进行训练集机构名的表征，并训练出文本编辑生成模型来实现机构名称的归一化；

模块M5：将测试集输入训练好的文本编辑生成模型，测试模型效果并进行微调。

优选的，所述模块M1包括：

模块M101：获取数据库中所有学术机构的命名实体；

模块M102：统计所有相同的命名实体对应的所有归一化机构的名称和频次；

模块M103：按照最大频次保留该命名实体所对应的归一化机构，对于其他的数据进行删除；

所述模块M2包括：

模块M201：将机构实体中出现的拉丁文转化为英语字母；

模块M202：根据正则表达式，去除已经转化过的机构名称中的停用词和标点符号，并将机构名称中的缩略词进行扩写。

优选的，所述模块M3包括：

模块M301：统计所有归一化后机构的类别所对应的机构实体别名的数目；

模块M302：按照6：2：2的比例将每一个类别的实体别名随机划分为训练集、微调数据集和测试集；

模块M303：判断原始的机构实体是否包含归一化之后的机构实体的所有单词，如果存在归一化的机构实体的单词不存在于原始机构实体中，则将该词添加进词汇表中；

模块M304：利用预训练好的bert模型，将所有数据转化为张量表示。

优选的，所述模块M4包括：

模块M401：载入生成的张量数据，作为训练时字符的初始化；

模块M402：将微调数据集中机构原始名的张量表示取batch大小的微调数据构成一个bert微调的batch，并将所有数据都分成batch的形式送入bert模型进行bert模型的微调；

模块M403：将训练集的初始化张量送入预训练好的bert模型，作为该原始机构实体的最终向量表征；

模块M404：通过训练数据的最终表示来训练文本编辑生成模型。

优选的，所述模块M5包括：

模块M501：利用训练好的模型对测试集数据进行测试，统计结果的准确率，并将准确率及对应模型进行保存；

模块M502：对生成错误的数据进行分析，去除明显标签错误的数据，并对难以归一化的数据进行手动的标记；

模块M503：修改batch的大小以及学习率后继续进行测试，直至得到预设标准的超参数和对应的模型。

与现有技术相比，本发明具有如下的有益效果：

(1)本发明采用最新的深度学习方法构建了一个简单有效的机构归一化系统，解决了旧方法准确度低，操作复杂度高的问题；

(2)根据本发明提供的方法，可以很好的统计每一个机构所发表的学术论文数量，为机构的学术储备以及科研能力提供参考。

(3)本发明可用于对学术机构的学术能力进行判别，并更好的用于其他学术系统，例如学术知识图谱等的构建。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的算法流程图；

图2为基于LaserTagger模型的归一化系统基本框架图；

图3为LaserTagger模型的具体实例图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

本发明通过设计与实现一种用于机构命名实体归一化的系统，涉及机构命名实体数据的收集整理、机构命名实体数据的筛选，去噪、基于LaserTagger模型的构造、以及使用数据进行模型的训练和调整等；具体地，如图1，包括如下步骤：

步骤S1：利用统计规则对所有的学术机构信息数据进行筛选，去除明显错误的数据；

统计规则：根据ACEMAP数据库中拥有的数据，对学术机构信息进行统计，判断一对原始机构名与归一化机构名映射的可靠性，并根据阈值判定该映射保留或删除。

步骤S2：在已经筛选过的数据中，利用正则或者其他一些规则，去除数据中存在的噪音。

步骤S3：优化可以由LaserTagger模型添加的短语的词汇表，同时将目标文本转化为目标标签序列，同时将处理好的数据按照类别和相应比例分为训练集，微调数据集和测试集。

步骤S4：将微调数据集输入预训练好的bert模型，对bert模型进行微调，随后利用微调好的bert模型进行训练集机构名的表征，并训练出一个LaserTagger模型来实现机构名称的归一化。

步骤S5：将测试集输入训练好的模型，测试模型效果并进行微调。

所述步骤S1包括：从Acemap数据库中获取机构命名实体以及其对应的归一化学术机构，共包含1.53亿条机构命名实体，去重后约为3179万条，并且包括2.5万个归一化后的机构。将处理后的所有数据用csv格式保存，方便以后的使用。

步骤S101：从数据库中拿出所有学术机构的命名实体。

步骤S102：从数据库中获取的机构命名实体，存在一部分数据映射为错误的归一化机构名。在本发明中，采用统计频次的方法去除了错误的数据，具体流程是遍历整个数据集，对每一条出现的实体进行计数，统计相同的命名实体所对应的归一化机构，并将结果储存为字典格式，关键字为机构命名实体，键值为该命名实体对应的所有归一化机构ID列表(包含重复)。

步骤S103：对步骤S102中得到的键值列表进行统计，将该机构命名实体出现最多次数的归一化机构ID视为该机构命名实体的归一化机构ID，并视其他不是最多次数的机构ID为错误数据，将这些错误数据从数据集中去除，并将剩余数据进行去重后保留为CSV文件。

所述步骤S2包括：通过拉丁文转化为英文的相关规则，将无法被此发明识别的拉丁文转换，并通过正则等相关规则对文本进行进一步去噪。具体步骤如下：

步骤S201：利用字典，将机构实体中出现的拉丁文转化为英语字母。

步骤S202：然后根据正则表达式，去除已经转化过的机构名称中的停用词，标点符号，并将机构名称中的缩略词进行扩写。具体示例如表一所示。

表一：停用词、标点、缩略词的处理

所述步骤S3包括：遍历数据得到所有归一化机构拥有的机构实体名称的数目，并按照一定比例划分出三个不同的数据集存为csv文件用于模型的训练，同时构建出一个LaserTagger模型，并利用bert模型将所有输入转化为张量表示。具体步骤如下：

步骤S301：遍历去除错误数据后保存的csv文件，统计所有归一化后机构的类别所对应的机构实体别名的数目，如表二所示。

表二：归一化机构别名统计

归一化机构名	别名数目
		Centre national de la recherche scientifique	295420
Chinese Academy of Sciences	173719
		Harvard University	157932
National Institutes of Health	120212
		University of Tokyo	111260
Stanford University	90774
		……	……

步骤S302：按照6：2：2的比例将每一个类别的实体别名随机划分为训练集，微调数据集和测试集，并保存为csv格式，如表三所示。

表三：数据集划分保存格式

训练集	train.csv
		验证集	tune.csv
测试集	test.csv

步骤S303：判断原始的机构实体是否包含归一化之后的机构实体的所有单词，如果存在归一化的机构实体的单词不存在于原始机构实体中，则要将该词添加进词汇表中。

如图2，所述步骤S4包括：载入数据的初始化张量表示，并通过微调数据集微调bert模型，得到最终的向量表征，并根据最终的向量表征训练出一个LaserTagger文本摘要生成模型。具体步骤如下。

步骤S401：载入上一步生成的张量数据，作为训练时字符的初始化。

步骤S402：将微调数据集中机构原始名的张量表示取batch大小的微调数据构成一个bert微调的batch，并将所有数据都分成batch的形式送入bert模型进行bert模型的微调。

步骤S403：将训练集的初始化张量送入预训练好的bert模型，作为该原始机构实体的最终向量表征。

步骤S404：通过训练数据的最终表示来训练一个基于LaserTagger的文本摘要生成模型，接下来将对这个生成模型的原理进行具体的阐述。

LaserTagger模型进行文本编辑的方法是将该问题转化为一个标记问题。主要组成部分有标记操作，将纯文本的训练目标转换为编辑标签的格式以及将编辑标签转换为最终的输出文本的实现。

如图3，为本发明的优选例，在标记部分中，LaserTagger模型的标记器会为每一个输入词语分配一个编辑标签。该标签由两部分组成：基本标签以及要添加的短语。基本标签是保留当前词语(KEEP)或者删除当前词语(DELETE)，它将指示是否要在输出中保留当前单词。添加的短语(可以为空)，会强制地将该短语添加到相应的词语之前。短语属于词汇表，而词汇表则定义了一系列单词和短语，这些单词和短语可以被插入到输入序列中以将其转换为输出文本。事实上，还有一些可以应用于其他特定任务的标签。例如对于句子融合任务来说，输入文本包含两个句子，有时候需要进行交换这两个句子顺序的编辑操作。因此，在此任务中我们可以引入一个自定义标签SWAP，该标签只能应用于第一句话的最后一个句段。SWAP标记指示在“实现”步骤当中，在实现其余标签之前，首先交换输入文本中原句子对的顺序。对于其他的一些文本生成任务，不同的补充标签也可能会被添加和使用到。例如，为了允许用适当的代词来替换某个实体的提及，我们可以引入PRONOMINALIZE这一标签。有了对包含实体性别信息的知识库的访问权限，我们就可以在实现步骤中查找正确的代词，而不必依靠预测正确标签的模型。

随后利用生成好的词汇表，就可以判定训练数据中每个单词的标签，对于存在于和不存在于归一化机构名中的单词，仅需给定为KEEP或者DELETE标签即可，而对于归一化机构中有而原始机构名中没有的单词，则要利用生成好的词汇表，打上特定的添加单词标签，并且标明是单词表中的哪个单词。

同样，对于仅有编辑标签的原始机构名，将DELETE标签的单词进行删除，并且从单词表中添加具体的需要添加的单词，就可以实现由编辑标签序列到最终输出文本的转换。最终每个标签的训练准确度如表四所示。

表四：标签训练结果

所述步骤S5包括：利用测试集对模型进行测试，调节超参数，分析错误数据，并对错误数据进行进一步清洗或者手动调整，尽可能得到一个最高准确率的模型，并将该模型作为最终模型进行保存。具体步骤如下。

S501：利用训练好的模型对测试集数据进行测试，统计结果的准确率，并将准确率及对应模型进行保存。结果如表五所示。

表五：测试结果

数据集	准确率
		测试集1	95.4％
测试集2	95.7％
		测试集3	95.5％

S502：对归一化错误数据进行分析，去除明显标签错误的数据，并对难以归一化数据进行手动的标记。

S503：修改batch的大小以及学习率等超参数，重复以上所有步骤，得到最佳的超参数设计和对应的模型。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于文本编辑生成模型的机构命名实体归一化方法，其特征在于，包括：

2.根据权利要求1所述的基于文本编辑生成模型的机构命名实体归一化方法，其特征在于，所述步骤S1包括：

步骤S101：获取数据库中所有学术机构的命名实体；

所述步骤S2包括：

步骤S201：将机构实体中出现的拉丁文转化为英语字母；

3.根据权利要求1所述的基于文本编辑生成模型的机构命名实体归一化方法，其特征在于，所述步骤S3包括：

4.根据权利要求3所述的基于文本编辑生成模型的机构命名实体归一化方法，其特征在于，所述步骤S4包括：

步骤S401：载入生成的张量数据，作为训练时字符的初始化；

5.根据权利要求1所述的基于文本编辑生成模型的机构命名实体归一化方法，其特征在于，所述步骤S5包括：

6.一种基于文本编辑生成模型的机构命名实体归一化系统，其特征在于，包括：

7.根据权利要求1所述的基于文本编辑生成模型的机构命名实体归一化系统，其特征在于，所述模块M1包括：

模块M101：获取数据库中所有学术机构的命名实体；

所述模块M2包括：

模块M201：将机构实体中出现的拉丁文转化为英语字母；

8.根据权利要求6所述的基于文本编辑生成模型的机构命名实体归一化系统，其特征在于，所述模块M3包括：

9.根据权利要求8所述的基于文本编辑生成模型的机构命名实体归一化系统，其特征在于，所述模块M4包括：

模块M401：载入生成的张量数据，作为训练时字符的初始化；

10.根据权利要求6所述的基于文本编辑生成模型的机构命名实体归一化系统，其特征在于，所述模块M5包括：