CN112215006B

CN112215006B - 机构命名实体归一化方法和系统

Info

Publication number: CN112215006B
Application number: CN202011141016.6A
Authority: CN
Inventors: 亓杰星; 彭金波; 傅洛伊; 王新兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2022-08-09
Anticipated expiration: 2040-10-22
Also published as: CN112215006A

Abstract

本发明提供了一种机构命名实体归一化方法和系统，该方法包括：对学术机构信息数据进行筛选，去除错误数据后，得到预处理数据；对所述预处理数据进行去噪处理，得到机构命名实体归一化数据；通过构建的目标文本分类模型对机构命名实体归一化数据进行自动判别，输出判别结果，以得到机构命名实体归一化后的标准名称；根据所述标准名称，统计对应机构的论文数据。从而可以对每一个学术机构的论文数据进行统计，使得对学术机构的学术能力进行更加科学、直观地判别。

Description

机构命名实体归一化方法和系统

技术领域

本发明涉及数据处理技术领域，具体地，涉及机构命名实体归一化方法和系统。

背景技术

机构命名实体归一化在学术大数据中的主要目的是将各种机构别名识别和映射到属于现实的机构实体。机构命名实体归一化对于学术机构能力评估，机构合作网络，学者姓名消歧，学者轨迹追踪，人才流动，学术论文管理以及学术排名等至关重要。在学术论文日益增多的今天，机构命名实体归一化也是构建学术网络知识图谱必不可少的一步。

随着现代科学技术的进步，科研论文数量激增。近年来，论文和专利的数量的平均增长率一直保持在15％左右。同时，对机构论文统计又因为翻译方法，拼写方法，拼写错误，制度变化，写作风格等问题而显得极为复杂。所以，提出一种简单有效的大规模学术机构命名实体归一化系统就显得极其关键。

经过对现有技术的检索，解决机构归一化问题的方法总体上可以分为三类：基于规则的方法，基于知识的方法，以及两种方法结合的混合方法。基于规则的方法利用机构命名实体的一些命名规则，利用正则表达式对机构别名进行匹配，提取出其中能够利用的用于识别机构的信息。主要有De Bru和Moed提出的NEMO系统，该系统利用一层层的规则，提取出机构命名实体中的信息，例如地理位置，网址，邮箱，机构名称等等，并通过现有的本地信息来进行映射。基于知识的方法利用预先准备好的带标签数据，通过机器学习算法学习其中的特征，实现一个分类或者聚类模型。申请号：CN202010397847.3的发明专利公开了一种学者人名的消歧方法、装置、存储介质及终端。该方法通过获取待消歧人名的论文数据集；利用词向量模型获取论文数据集的论文关系特征向量和论文语义特征向量；分别计算论文关系特征向量和论文语义特征向量的相似度矩阵，并进行特征融合，以获取特征融合矩阵；基于特征融合矩阵进行聚类，以获取聚类论文集和离群论文集。

但是，现有技术中的方法对作者命名规范有一定的要求，所以不能大范围的适用，准确率不高。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种机构命名实体归一化方法和系统。

第一方面，本发明提供一种机构命名实体归一化方法，包括：

步骤1：对学术机构信息数据进行筛选，去除错误数据后，得到预处理数据；

步骤2：对所述预处理数据进行去噪处理，得到机构命名实体归一化数据；

步骤3：通过构建的目标文本分类模型对机构命名实体归一化数据进行自动判别，输出判别结果，以得到机构命名实体归一化后的标准名称；

步骤4：根据所述标准名称，统计论文数据。

可选地，所述步骤1包括：

步骤1.1：根据论文数据库，确定所有学术机构的命名实体；

步骤1.2：统计所有相同的命名实体对应的机构名称和频次；

步骤1.3：保留出现频次最大的命名实体对应的机构名称，去除其他机构名称，得到所述预处理数据。

可选地，所述步骤2包括：

步骤2.1：利用字典，将所述预处理数据中机构名称出现的拉丁文转化为英语字母；

步骤2.2：然后根据正则表达式，去除已经转化过的机构名称中的停用词、标点符号，并将机构名称中的缩略词进行扩写，得到所述机构命名实体归一化数据。

可选地，在执行步骤3之前，还包括：

根据所述机构命名实体归一化数据的类别和预设比例，构建训练集和测试集；

根据所述训练集构建搜索库，并根据所述搜索库和所述训练集的文本特征生成初始文本分类模型；

通过所述测试集测试所述初始文本分类模型，若测试通过，则得到目标文本分类模型。

可选地，根据所述机构命名实体归一化数据的类别和预设比例，构建训练集和测试集，包括：

统计所述机构命名实体归一化数据中不同机构类别所对应的机构实体别名的数目；

按照8：2的比例将每一个类别的实体别名随机划分为训练集和测试集。

可选地，根据所述训练集构建搜索库，并根据所述搜索库和所述训练集的文本特征生成初始文本分类模型，包括：

根据所述训练集构建elasticsearch搜索库；

根据所述训练集构建朴素贝叶斯分类器；

根据所述elasticsearch搜索库和朴素贝叶斯分类器生成文本分类模型；其中，所述文本分类模型用于对所述elasticsearch搜索库返回的结果进行判断，如果高于预设的置信度，则直接输出结果；若不高于预设的置信度，则通过所述朴素贝叶斯分类器对所述结果进行判断。

可选地，通过所述测试集测试所述初始文本分类模型，包括：

通过所述测试集测试所述初始文本分类模型进行准确率进行测试，若准确率低于预设值，则对所述初始文本分类模型的设置参数进行微调，直到所述初始文本分类模型的准确率不低于预设值，得到所述目标文本分类模型。

可选地，在执行步骤3之前，还包括：

对所述机构命名实体归一化数据进行分析，去除标签错误的数据；

当机构命名实体归一化失败时，进行人工数据处理。

第二方面，本发明提供一种机构命名实体归一化系统，包括：存储器、处理器，通信总线以及存储在所述存储器上的计算机程序，

所述通信总线用于实现处理器与存储器间的通信连接；

所述处理器用于执行所述计算机程序，以实现如第一方面中任一项所述的机构命名实体归一化方法。

第三方面，本发明提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一项所述的机构命名实体归一化方法。

与现有技术相比，本发明具有如下的有益效果：

本发明提供的机构命名实体归一化方法和系统，通过对学术机构信息数据进行筛选，去除错误数据后，得到预处理数据；对预处理数据进行去噪处理，得到机构命名实体归一化数据；通过构建的目标文本分类模型对机构命名实体归一化数据进行自动判别，输出判别结果，以得到机构命名实体归一化后的标准名称；根据标准名称，统计对应机构的论文数据。从而可以对每一个学术机构的论文数据进行统计，使得对学术机构的学术能力进行更加科学、直观地判别。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例一提供的机构命名实体归一化方法的流程示意图；

图2为本发明实施例二提供的机构命名实体归一化方法的流程示意图；

图3为本发明实施例提供的机构命名实体归一化系统的原理示意图；

图4为本发明实施例提供的朴素贝叶斯算法的流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

图1为本发明实施例一提供的机构命名实体归一化方法的流程示意图，如图1所示，本实施例中的方法可以包括：

步骤1、对学术机构信息数据进行筛选，去除错误数据后，得到预处理数据。

在步骤1中，可以根据论文数据库，确定所有学术机构的命名实体；统计所有相同的命名实体对应的机构名称和频次；保留出现频次最大的命名实体对应的机构名称，去除其他机构名称，得到预处理数据。

步骤2、对预处理数据进行去噪处理，得到机构命名实体归一化数据。

在步骤2中，可以利用字典，将预处理数据中机构名称出现的拉丁文转化为英语字母；然后根据正则表达式，去除已经转化过的机构名称中的停用词，标点符号，并将机构名称中的缩略词进行扩写，得到机构命名实体归一化数据。

步骤3、通过构建的目标文本分类模型对机构命名实体归一化数据进行自动判别，输出判别结果，以得到机构命名实体归一化后的标准名称。

示例性的，在步骤3之前，先构建目标文本分类模型。可选地，根据机构命名实体归一化数据的类别和预设比例，构建训练集和测试集；根据训练集构建搜索库，并根据搜索库和训练集的文本特征生成初始文本分类模型；通过测试集测试初始文本分类模型，若测试通过，则得到目标文本分类模型。

本实施例中，可以统计机构命名实体归一化数据中不同机构类别所对应的机构实体别名的数目；按照8：2的比例将每一个类别的实体别名随机划分为训练集和测试集。需要说明的是，本实施例不限定实体别名的具体分配比例。

示例性的，可以根据训练集构建elasticsearch搜索库；根据训练集构建朴素贝叶斯分类器；根据elasticsearch搜索库和朴素贝叶斯分类器生成文本分类模型；其中，文本分类模型用于对elasticsearch搜索库返回的结果进行判断，如果高于预设的置信度，则直接输出结果；若不高于预设的置信度，则通过朴素贝叶斯分类器对结果进行判断。

本实施例中，elasticsearch是一个分布式可扩展的实时搜索和分析引擎，一个建立在全文搜索引擎Lucene基础上的搜索引擎。当然elasticsearch并不仅仅是Lucene那么简单，它不仅包括了全文搜索功能，还可以进行以下工作:分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索；实时分析的分布式搜索引擎；可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。通过搭建一个用于搜索的elasticsearch库，可以很方便的利用这个库，通过搜索机制，搜索到数据库中与目标较为相近的机构实体，并根据这些机构实体的归一化机构名和一定的置信度，判断目标机构是否就是某一个机构实体。

示例性的，在搭建好elasticsearch搜索库之后，同时利用这些训练数据，构建一个朴素贝叶斯分类器。对朴素贝叶斯分类器模型来说，如果有m个样本，每个样本有n个特征，特征输出有K个类别，定义为C₁，C₂，……，C_K。从样本中可以学习得到朴素贝叶斯模型的先验概率P(Y＝C_k)(k＝1,2,3……,K)，接着学习到条件概率分布，这是就可以用贝叶斯公式得到X和Y的联合分布。在计算时，可以看到联合分布非常复杂，如果直接计算可能会比较麻烦，所以在朴素贝叶斯分类器中，定义每个特征都是独立的，这样就可以大大简化，这也是朴素贝叶斯中朴素的由来。

需要说明的是，利用这种强定义可能会导致预测的不准确，所以在该系统中，并没有完全无视各个特征间的联系，而是对每个特征进行了统计加权，这个措施也一定程度上保证了算法的可行性，并且有效的提高了算法的准确率。

本实施例中，通过设置一个置信度，对elasticsearch返回的结果进行判断，如果高于置信度则直接输出结果，否则利用构建好的朴素贝叶斯分类器进行判断。

本实施例中，通过测试集测试初始文本分类模型进行准确率进行测试，若准确率低于预设值，则对初始文本分类模型的设置参数进行微调，直到初始文本分类模型的准确率不低于预设值，得到目标文本分类模型。

示例性的，在步骤3之前，还可以对机构命名实体归一化数据进行分析，去除标签错误的数据；当机构命名实体归一化失败时，进行人工数据处理。

具体地，利用搭建好的基于elasticsearch的高效机构命名实体归一化系统对测试集数据进行测试，统计结果的准确率，并将准确率及对应参数设置进行保存。对归一化错误数据进行分析，去除明显标签错误的数据，并对难以归一化数据进行手动的标记。修改置信度以及特征权重因子等超参数，重复以上所有步骤，得到最佳的超参数设计。

步骤4、根据标准名称，统计论文数据。

本实施例通过对学术机构信息数据进行筛选，去除错误数据后，得到预处理数据；对预处理数据进行去噪处理，得到机构命名实体归一化数据；通过构建的目标文本分类模型对机构命名实体归一化数据进行自动判别，输出判别结果，以得到机构命名实体归一化后的标准名称；根据标准名称，统计对应机构的论文数据。从而可以对每一个学术机构的论文数据进行统计，使得对学术机构的学术能力进行更加科学、直观地判别。

图2为本发明实施例二提供的机构命名实体归一化方法的流程示意图，如图2所示，本实施例通过设计与实现一种用于机构命名实体归一化的系统，涉及机构命名实体数据的收集整理、机构命名实体数据的筛选，去噪、基于elasticsearch的高效机构命名实体归一化系统的构建、以及使用数据进行参数调整等；具体地，包括如下步骤：

步骤S1：利用统计规则对所有的学术机构信息数据进行筛选，去除明显错误的数据。

步骤S2：在已经筛选过的数据中，利用正则或者其他一些规则，去除数据中存在的噪音。

步骤S3：将处理好的数据按照类别和相应比例分为训练集，验证集和测试集。

步骤S4：利用训练集数据构建一个elasticsearch搜索库，同时将这些训练集数据进行文本特征统计，生成一个基于朴素贝叶斯的文本分类模型。

步骤S5：将测试集输入构建好的归一化系统，测试基于elasticsearch的高效机构命名实体归一化系统的效果并进行微调。

步骤S1包括：从Acemap数据库中获取机构命名实体以及其对应的归一化学术机构，共包含1.53亿条机构命名实体，去重后约为3179万条，并且包括2.5万个归一化后的机构。将处理后的所有数据用csv格式保存，方便以后的使用。具体地，步骤S1包括：

步骤S101：从数据库中拿出所有学术机构的命名实体。

步骤S102：从数据库中获取的机构命名实体，存在一部分数据映射为错误的归一化机构名。在本发明中，采用统计频次的方法去除了错误的数据，具体流程是遍历整个数据集，对每一条出现的实体进行计数，统计相同的命名实体所对应的归一化机构，并将结果储存为字典格式，关键字为机构命名实体，键值为该命名实体对应的所有归一化机构ID列表(包含重复)。

步骤S103：对步骤S102中得到的键值列表进行统计，将该机构命名实体出现最多次数的归一化机构ID视为该机构命名实体的归一化机构ID，并视其他不是最多次数的机构ID为错误数据，将这些错误数据从数据集中去除，并将剩余数据进行去重后保留为CSV文件。

步骤S2包括：通过拉丁文转化为英文的相关规则，将无法被此发明识别的拉丁文转换，并通过正则等相关规则对文本进行进一步去噪。具体地，步骤S2包括：

步骤S201：利用字典，将机构实体中出现的拉丁文转化为英语字母。

步骤S202：然后根据正则表达式，去除已经转化过的机构名称中的停用词，标点符号，并将机构名称中的缩略词进行扩写。具体示例如表1所示。

表1：停用词、标点、缩略词的处理

步骤S3包括：遍历数据得到所有归一化机构拥有的机构实体名称的数目，并按照一定比例划分出两个个不同的数据集存为csv文件用于elasticsearch搜索库的构建以及朴素贝叶斯分类器的生成。具体地，步骤S3包括：

步骤S301：遍历去除错误数据后保存的csv文件，统计所有归一化后机构的类别所对应的机构实体别名的数目，如表2所示。

表2：归一化机构别名统计

步骤S302：按照8：2的比例将每一个类别的实体别名随机划分为训练集和测试集，并保存为csv格式，如表3所示。

表3：数据集划分保存格式

训练集	train.csv
		测试集	test.csv

步骤S4包括：将训练集数据按照规则搭建成一个elasticsearch搜索库，查询的依据是机构实体，返回的结果包括相似度高的机构实体以及其对应的归一化机构名，随后按照规则计算相应的置信度，并判断是否可信。同时构建一个朴素贝叶斯分类器，将可信度不高的查询以及没有找到的查询通过该分类器得到结果。具体地，步骤S4包括：

步骤S401：将上一步分割好的训练集数据按照规则构建成一个elasticsearch搜索库。

elasticsearch是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎Lucene基础上的搜索引擎。当然elasticsearch并不仅仅是Lucene那么简单，它不仅包括了全文搜索功能，还可以进行以下工作：分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索；实时分析的分布式搜索引擎；可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。

通过搭建一个用于搜索的elasticsearch库，可以很方便的利用这个库，通过搜索机制，搜索到数据库中与目标较为相近的机构实体，并根据这些机构实体的归一化机构名和一定的置信度，判断目标机构是否就是某一个机构实体。

步骤S402：在搭建好elasticsearch搜索库之后，同时利用这些训练数据，构建一个朴素贝叶斯分类器。

对朴素贝叶斯分类器模型来说，如果有m个样本，每个样本有n个特征，特征输出有K个类别，定义为C₁，C₂，……，C_K。从样本中可以学习得到朴素贝叶斯模型的先验概率P(Y＝C_k)(k＝1,2,3……,K)，接着学习到条件概率分布，这是就可以用贝叶斯公式得到X和Y的联合分布。在计算时，可以看到联合分布非常复杂，如果直接计算可能会比较麻烦，所以在朴素贝叶斯分类器中，定义每个特征都是独立的，这样就可以大大简化，这也是朴素贝叶斯中朴素的由来。

当然，利用这种强定义可能会导致预测的不准确，所以在该系统中，并没有完全无视各个特征间的联系，而是对每个特征进行了统计加权，这个措施也一定程度上保证了算法的可行性，并且有效的提高了算法的准确率。

朴素贝叶斯算法的基本流程如下：

对每个类别，根据统计规则计算其先验概率。

分别计算每个类别的每一维特征的每一个取值的条件概率。

对于输入的实例，分别计算属于每一类的概率。

取概率最高的一类作为最终的结果。

步骤S403：设置一个置信度，对elasticsearch返回的结果进行判断，如果高于置信度则直接输出结果，否则利用构建好的朴素贝叶斯分类器进行判断。

步骤S5包括：利用测试集对整个系统进行测试，调节置信度等超参数，分析错误数据，并对错误数据进行进一步清洗或者手动调整，尽可能得到一个最高准确率的参数设置，并将该参数设置作为最终参数进行保存。具体地，步骤S5包括：

S501：利用搭建好的基于elasticsearch的高效机构命名实体归一化系统对测试集数据进行测试，统计结果的准确率，并将准确率及对应参数设置进行保存。结果如表4所示。

表4：测试结果

数据集	准确率
		测试集1	90.4％
测试集2	91.7％
		测试集3	92.5％

S502：对归一化错误数据进行分析，去除明显标签错误的数据，并对难以归一化数据进行手动的标记。分类错误的数据示例如表5所示。

表5：分类错误数据示例

S503：修改置信度以及特征权重因子等超参数，重复以上所有步骤，得到最佳的超参数设计。

本实施例，采用了高效的elasticsearch库以及简单的机器学习算法朴素贝叶斯构建了一个简单有效的机构归一化系统，解决了旧方法准确度低，操作复杂度高的问题。

需要说明的是，本发明提供的所述机构命名实体归一化方法中的步骤，可以利用所述机构命名实体归一化系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，即，所述系统中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种机构命名实体归一化方法，其特征在于，包括：

步骤4：根据所述标准名称，统计对应机构的论文数据；

所述步骤1包括：

步骤1.1：根据论文数据库，确定所有学术机构的命名实体；

步骤1.2：统计所有相同的命名实体对应的机构名称和频次；

步骤1.3：保留出现频次最大的命名实体对应的机构名称，去除其他机构名称，得到所述预处理数据；

所述步骤2包括：

步骤2.2：然后根据正则表达式，去除已经转化过的机构名称中的停用词、标点符号，并将机构名称中的缩略词进行扩写，得到所述机构命名实体归一化数据；

在执行步骤3之前，还包括：

2.根据权利要求1所述的机构命名实体归一化方法，其特征在于，根据所述机构命名实体归一化数据的类别和预设比例，构建训练集和测试集，包括：

3.根据权利要求1所述的机构命名实体归一化方法，其特征在于，根据所述训练集构建搜索库，并根据所述搜索库和所述训练集的文本特征生成初始文本分类模型，包括：

根据所述训练集构建elasticsearch搜索库；

根据所述训练集构建朴素贝叶斯分类器；

4.根据权利要求1所述的机构命名实体归一化方法，其特征在于，通过所述测试集测试所述初始文本分类模型，包括：

5.根据权利要求1中任一项所述的机构命名实体归一化方法，其特征在于，在执行步骤3之前，还包括：

当机构命名实体归一化失败时，进行人工数据处理。

6.一种机构命名实体归一化系统，其特征在于，包括：存储器、处理器，通信总线以及存储在所述存储器上的计算机程序，

所述通信总线用于实现处理器与存储器间的通信连接；

所述处理器用于执行所述计算机程序，以实现如权利要求1至5中任一项所述的机构命名实体归一化方法。

7.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的机构命名实体归一化方法。