CN112613318B

CN112613318B - 实体名称归一化系统及其方法、计算机可读介质

Info

Publication number: CN112613318B
Application number: CN202011640532.3A
Authority: CN
Inventors: 李抒昊; 亓杰星; 傅洛伊; 王新兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-10-14
Anticipated expiration: 2040-12-31
Also published as: CN112613318A

Abstract

本发明提供了一种实体名称归一化方法，其特征在于，包括：准备待归一化的名字记录以及相对应的标注名称记录用于训练；利用自然语言处理深度学习模型对标注名称记录组成的语料库进行字符级别的语言模型预训练；将标注名称记录按照设定的规则划分为训练集和测试集；利用训练集对预训练完成的自然语言处理深度学习模型进行微调训练；利用测试集验证预训练完成的自然语言处理深度学习模型的准确度及时间性能；将利用训练集、测试集进行微调训练、验证完成的自然语言处理深度学习模型对待归一化的实体名称进行归一化处理。本发明通过预训练字符级别语言模型来提取任意名称的特征向量，从而通过训练不同名称之间的距离度量来完成名称归一化任务。

Description

实体名称归一化系统及其方法、计算机可读介质

技术领域

本发明涉及实体链接技术领域，具体地，涉及一种实体名称归一化系统及其方法、计算机可读介质，尤其涉及一种基于预训练语言模型和距离度量的实体名称归一化系统及其方法、计算机可读介质。

背景技术

实体名称归一化一直是实体链接系统中长期存在且难以解决的一类问题。实体名称归一化一般指，对于同一实体存在的不同实体名称，将其准确映射到所对应实体的过程。实体名称归一化依照领域又可分为学术机构名称归一化、公司名称归一化、商品名称归一化等。下面以学术机构名称归一化为例子作进一步阐述。

学术机构名称归一化在学术大数据分析中存在重大的工程意义。近年来学术论文及专利的数目有着巨大的提升，而每一篇学术论文和专利申请中都会附带申请人的所属机构名称。然而多数情况下的机构名称因为翻译、拼写方式、惯用缩写、使用地址等等原因而产生不用的变体。例如同样指代上海交通大学，英文中可以使用“Shanghai Jiao TongUniversity”，也可以使用缩写“SJTU”，或是“Shanghai Jiao Tong Univ.”等。有时会在名称前后加入院系、地址等信息。不同变体的存在极大干扰了统计工作，对学术大数据分析造成了巨大的障碍。由此，学术机构名称归一化任务成为一个迫切需要解决的任务。

以往解决实体名称归一化问题通常采用以下三种方法。第一种是基于字典，即根据以往数据人工地维护一个从实体到名称变体的字典，当需要进行实体名称的归一化时，在字典中查找是否存在已有的记录，若存在则返回结果；若不存在，则人工判断后将其加入字典中。该方法需要大量人工判断，耗时耗力。第二种是基于搜索引擎及机器学习的方法，由于相同实体的名称变体间存在一定的联系，例如有部分词语重叠等等，利用这个特性可以维护一个搜索引擎，当用户输入需要归一化的名称时，首先在搜索引擎中以一定的规则查找已有的名称变体，返回与之相近的若干个候选项；然后使用机器学习的方式在这若干个候选项中选择出最适合的一项作为结果返回。这种方法有两个主要瓶颈，一是依赖搜索引擎的规则，需要人工设计一定的规则来保证正确的实体会被包含在候选项中；二是在机器学习对候选项进行选择的阶段，需要人工设计大量的特征(features)用作训练。第三种方案是将归一化问题作为分类问题解决，若总实体个数为N，就设计一个N分类器，分类器可以使用机器学习的方案例如SVM，朴素贝叶斯分类器等，也可以使用深度学习的神经网络来实现。这种方案的局限是当实体数目过大的时候，需要分类的类别数目也很多，导致分类器难以训练。

经过检索，专利文献CN111859942A公开了一种医学名称归一化方法、装置、存储介质及终端，包括：对医学标准词表中的每个标准词条进行第一阶段的拆解，得到每个标准词条所对应的多个医学属性；为每个标准词条构建相应的属性表达式；对所述每个标准词条进行第二阶段拆解，得到每个医学属性下的多个子属性；获取待归一的医学名称所对应的多个医学属性及每个医学属性下的多个子属性；将所述待归一的医学名称的多个子属性与标准词条的多个子属性进行表达式匹配计算；输出符合匹配要求的所述待归一的医学名称所对应的标准词条。该现有技术的不足之处在于其基于对名称进行属性拆解、特征提取的方法，由于相同实体的名称变体间存在一定的联系，从而进行待归一的医学名称进行匹配，但是在设计属性拆解和特征提取规则时，需要人工参与规则设计，耗时耗力且依赖专业人员对特定领域的经验，并不是最优技术方案。

因此，亟需开发一种能够解决上述技术难题的实体名称归一化的方法。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种实体名称归一化系统及其方法、计算机可读介质，本发明通过深度神经网络学习出实体名称的特征向量，使用特征向量之间的距离度量来衡量彼此的相似度，特征向量距离靠近的两个实体倾向于判断为属于同一实体，依次可以判断出名称属于哪一个实体，并且由深度神经网络自动学习特征，无须由人工设计特征，通过预训练字符级别语言模型来提取任意名称的特征向量，从而通过训练不同名称之间的距离度量来完成名称归一化任务。

根据本发明提供的一种实体名称归一化方法，包括如下步骤：

步骤S1：准备各不同领域的待归一化的名字记录以及相对应的标注名称记录用于训练；

步骤S2：利用自然语言处理深度学习模型对标注名称记录组成的语料库进行字符级别的语言模型预训练；

步骤S3：将标注名称记录按照设定的规则划分为训练集和测试集；

所述设定的规则为统计待归一化的名称记录中各类别的出现的频次，每个类别选取频次的0.25次幂个样本作为测试集，其余作为训练集；

步骤S4：利用训练集对预训练完成的自然语言处理深度学习模型进行微调训练；

步骤S5：利用测试集验证预训练完成的自然语言处理深度学习模型的准确度及时间性能；

步骤S6：将利用训练集、测试集进行微调训练、验证完成的自然语言处理深度学习模型与标准名称集合部署成为归一化系统，对待归一化的实体名称进行归一化处理。

优选地，步骤S1包括：

步骤S101：利用上游数据采集系统对待归一化的名称记录进行搜集；

步骤S102：针对搜集到的待归一化的名称记录用文本处理规则进行预处理；

所述预处理包括：去除名称中的非ASCII字符，将大写字母转化为小写字母，去除与内容不相关的符号、标记、HTML标签，最后清理多余的空白字符；

步骤S103：针对预处理完成的待归一化的名称记录进行标注并记录，记作标注名称记录，所述标注名称记录指找到待归一化的名称记录所对应的标准实体名称。

优选地，步骤S2包括：

步骤S201：选择一种深度学习模型中的自然语言处理深度学习模型；

步骤S202：针对选定的自然语言处理深度学习模型选择相匹配的预训练方法；

步骤S203：利用步骤S201中的自然语言处理深度学习模型配合步骤S202中的预训练方法进行预训练。

优选地，在步骤S2中的步骤S203进行语言模型的预训练的对象是步骤S102中预处理完成的待归一化的名称。

优选地，步骤S3包括：

步骤S301：统计所有的标记数据中的每一实体名称的名称变体数目；

步骤S302：对于每一实体名称，根据实体名称的变体数目，将其中一部分名称作为测试集，其余部分作为训练集；划分规则是：统计待归一化的名称记录中各类别的出现的频次，每个类别选取频次的0.25次幂个样本作为测试集，个数向下取整，其余作为训练集。

优选地，步骤S4包括：

步骤S401：利用训练集对预训练完成的自然语言处理深度学习模型准备进行参数微调训练；

步骤S402：设定损失函数，损失函数输入两个由自然语言处理深度学习模型生成的名称特征向量以及两个所属实体名称，当使得损失函数下降且两个名称所属实体相同时，两个特征向量的欧几里得距离降低；当使得损失函数下降且两个名称所属实体不同时，两个特征向量的欧几里得距离增加；

步骤S403：对损失函数进行函数优化之后，对预训练完成的自然语言处理深度学习模型进行参数微调训练；

步骤S404：当微调训练的自然语言处理深度学习模型收敛时，训练结束，将微调训练完成的自然语言处理深度学习模型的结构参数进行保存。

优选地，步骤S5包括：

步骤S501：利用测试集对步骤S404保存的自然语言处理深度学习模型进行准确度测试；

步骤S502：利用测试集对步骤S404保存的自然语言处理深度学习模型进行时间复杂度测试；

步骤S503：修改自然语言处理深度学习模型的超参数，重复步骤S4，直到步骤S501与步骤S502所得到的准确度和时间复杂度达到最佳。

优选地，步骤6包括：

步骤S601：将实体标准名称整理并输入到进行微调训练、验证完成的自然语言处理深度学习模型中得到对应的特征向量，并保存到数据库；

步骤S602：搭建实体名称归一化系统，接受用户输入待归一化名称，将该名称输入步骤S601的自然语言处理深度学习模型中得到对应的特征向量，并在步骤S601的数据库中，找到欧几里得距离与之最近的一个特征向量，返回其对应实体作为结果；

步骤S603：实体名称归一化系统部署上线，测试其稳定性及性能。

根据本发明提供的一种实体名称归一化系统，包括：

模块M1：利用自然语言处理深度学习模型将待归一化名字记录作为语料库进行预训练；

模块M2：针对预训练完成的自然语言处理深度学习模型进行微调训练；

模块M3：针对微调训练完成的自然语言处理深度学习模型进行验证其准确度及时间性能；

模块M4：将实体标准名称输入到经过微调训练和验证完成的自然语言处理深度学习模型中，得到对应的特征向量后保存在数据库中；

模块M5：在用户输入待归一化名称得到对应的特征向量后，从数据库中找到欧几里得距离与之最近的一个特征向量，返回其对应实体作为结果。

根据本发明提供的一种计算机可读介质，其存储又可由实体名称归一化系统执行的计算机程序，当计算机程序在实体名称归一化系统上运行时，使得实体名称归一化系统执行上述的实体名称归一化方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过自然语言处理深度学习模型实现字符级别的语言模型，能够很好地处理名称变体中拼写错误、缩写、简写、有微小差别的不同拼写方式等情况，利用特征向量之间的距离度量来判断对应的实体名称，简化实体名称归一化的程序，精确实体名称归一化的匹配度。

2、本发明通过距离度量的方式衡量名称之间的相似度，能够更易于部署且推力速度更快。

3、本发明能够应用于数量较多的实体，不会出现明显时间性能代价的增加。

4、本发明基于深度学习的方法能够有效地大幅度提升名称归一化的精确度。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的系统设计顺序的流程图；

图2为本发明中的BERT模型的输入向量构成图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明设计了一套流程以实现一个实体名称归一化系统，对于特定领域的实体，提供不同的实体名称变体作为输入，系统输出该名称变体所对应的实体。以下以学术数据领域作为例子，进行阐述学术机构实体归一化系统的搭建。应当注意的是，下述步骤中将实体归一化任务限定在学术机构这一特定领域内，但本发明保护范围不应对具体应用领域作限定。如图1所示，本发明提供了一种实体名称归一化方法，包括如下步骤：

步骤S1：准备不同领域中待归一化的名字记录以及相对应的标注名称记录用于训练。

步骤S101：使用爬虫从各学术会议和期刊的网站上爬取各学术论文所登记的发文机构；从各论文检索网站爬取学术论文发文机构；从开源数据集中获取不同的学术机构名称记录。本实施例中共搜集不重复的名称记录1.3亿条。

步骤S102：使用以下规则对搜集到的待归一化的名称记录做预处理。

第一，转化非ASCII字符。对于使用拉丁字母变体的非ASCII字符，将其转化为对应的ASCII字符，否则，则直接将该字符去掉，若因此去掉的字符数目大于原字符串的30％，则丢弃该名称不用。

第二，将剩下的字符中大写字母转化为小写字母。

第三，按照下列正则表达式，将所有匹配字符替换为空格。

'(#(n|tab|r)#)|(</？.+？>)|[\x00-\x1f\x7f％^<！$`＝？|>\[\]+～/]'

此步骤的目的是为了清除特殊空白字符标记、html标签、特殊ASCII字符以及不携带明显语义信息的ASCII字符。

第四，将连续多个空白字符替换为一个空格。

第五，若字符串头尾存在空格，则去掉。

第六，若最终的结果包含的字母数量小于2个，则丢弃该名称不用。

步骤S103：比照现有机构标准名称知识库，对其中的一部分记录进行标注，标注即对于每条名称记录，记录其所对应实体。例如对于名称“SJTU”，标记其属于实体“ShanghaiJiao Tong University”。在本实施例中，共标注3000万条记录。

步骤S2：利用自然语言处理深度学习模型对待归一化的名字记录作为语料库进行预训练。

步骤S201：如图2所示，初始化BERT模型，将步骤S102中清洗后剩下的共67个可能字符作为词汇表，以8层Transformer组建BERT模型并随机初始化参数。BERT模型的输入定义见图2。BERT模型的输入由三个部分相加得到，Char Embeddings、Char PositionEmbeddings、Word Position Embeddings，分别表示字符本身的嵌入向量，字符所在位置的嵌入向量，以及字符所在单词所在位置的嵌入向量。在BERT模型输出端增加Softmax层，输出维度为词表长度，用于预测特定位置的字符。

步骤S202：使用遮罩式语言模型(Masked LM)对BERT模型做预训练，具体实施方式为：对每条名称记录，对每个字符以15％的概率选中，被选中的字符以80％的概率被替换为[MASK]标记，以10％的概率被替换为词汇表中的其他字符，以10％的概率不变。对模型的输出使用交叉熵损失函数，预测被选中字符的真实值是什么。

步骤S203：使用Adam优化器训练上述模型约5个epoch左右，最大学习率为0.0001，学习率在开始的一段时间内从0提升至最大学习率，而后从最大学习率逐步降低至0。训练结束时观察到模型对遮罩处的字符预测成功概率达到99％左右。

步骤S3：将标注名称记录按照设定的规则划分为训练集和测试集。

步骤S301：统计所有标注名称记录中，每一实体的名称变体数目。

表一：实体的名称变体数目

步骤S302：对于每一实体，根据实体名称的变体数目，将其一部分名称作为测试集，其余作为训练集。本实施例中，若某一实体的名称变体数目为N，则选取N^0.25个名称变体作为测试集，其他作为训练集。使用该方法的目的是，在测试时，保留一定程度实体在真实情况下的分布，但削弱原有分布，以避免模型在明显偏向大机构时造成的测试指标虚高。

步骤S401：初始化步骤S302产生的训练集，并初始化步骤S203中产生的预训练模型准备做参数微调训练。

步骤S402：将BERT模型中[CLS]标签所对应的输出向量作为该名称的特征向量，使用Contrastive Loss作为损失函数，函数公式如下，其中d表示两个向量的欧几里得距离：

优化该损失函数时，当两个名称所对应实体相同(y＝1)时，他们的特征向量v1和v2距离靠近；当两个名称所对应实体不同时(y＝0)时，他们的特征向量v1和v2距离远离。

步骤S403：使用Adam优化器，优化步骤S402中的损失函数，对BERT模型进行参数微调训练，直至模型收敛。优化器的最大学习率为0.0001，学习率在开始的一段时间内从0提升至最大学习率，而后从最大学习率逐步降低至0。

步骤S404：当模型收敛时，训练结束，将模型结构和参数保存至本地存储器。

步骤S501：使用测试集对步骤S404所保存的模型进行准确度测试。具体地，统计各个实体在测试集中的准确率、召回率、F1得分。

步骤S502：使用测试集对步骤S404所保存的模型进行时间复杂度测试。具体地，在固定运行设备上测试模型推理QPS(每秒可处理的名称个数)以及延时。

步骤S503：修改BERT模型的超参数，如模型层数、隐向量维度、学习率等，重复步骤S4训练模型，直到步骤S501及步骤S502所得到的性能指标达到最佳状态。

步骤S601：训练结束后，将每个实体的所有名称变体所对应的特征向量的几何中心计算出来，将其保存至数据库中。由于训练目标是让同实体的名称相互靠近而不同实体的名称相互原理，故训练结束时，同实体的名称的特征向量会相互聚集成为簇，该簇的几何中心一定程度上能够代表实体所在向量空间的位置。将几何中心保存至数据库，将来只需比较某向量离哪一个几何中心近，就可以断定该向量位于哪一个簇中，从而判断出其对应的实体。

步骤S602：搭建实体名称归一化系统，接受用户输入待归一化名称，将该名称输入步骤S503所产生的最终模型中，得到对应的特征向量。并在步骤S601所述数据库中，找到欧几里得距离与之最近的一个特征向量，返回其对应实体作为结果。在本例中，实现了一个HTTP接口，及网页前端来实现这个系统。用户以网页输入的形式输入待归一化的实体名称，网页前端以get请求的方式将实体名称发送至后端HTTP接口中，然后后端将其作为模型的输入得到其特征向量，最后在数据库中与标准名称的特征向量比较距离，选取距离最近的实体作为结果返回。

步骤S603：系统部署上线，测试稳定性及性能。系统部署后，通过搜集用户反馈的方式，得到由模型产生的错误结果，通过分析这些结果，进一步优化算法，从而达到提升算法效果的目的。

本发明还提供了一种实体名称归一化系统，包括：

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种实体名称归一化方法，其特征在于，包括如下步骤：

步骤S1：准备待归一化的名字记录以及相对应的标注名称记录用于训练；

步骤S103：针对预处理完成的待归一化的名称记录进行标注并记录；

步骤S6：将利用训练集、测试集进行微调训练、验证完成的自然语言处理深度学习模型与标准名称集合部署成为归一化系统，对待归一化的实体名称进行归一化处理；

步骤S603：实体名称归一化系统部署上线，测试其稳定性；

所述步骤S4包括：

步骤S404：当微调训练的自然语言处理深度学习模型收敛时，训练结束，将微调训练完成的自然语言处理深度学习模型的结构参数进行保存；

所述步骤S5包括：

2.根据权利要求1所述的实体名称归一化方法，其特征在于，所述步骤S2包括：

3.根据权利要求1所述的实体名称归一化方法，其特征在于，在步骤S2中的步骤S203进行语言模型的预训练的对象是步骤S102中预处理完成的待归一化的名称。

4.根据权利要求1所述的实体名称归一化方法，其特征在于，所述步骤S3包括：

步骤S302：对于每一实体名称，根据实体名称的变体数目，将其中一部分名称作为测试集，其余部分作为训练集。

5.一种实体名称归一化系统，其特征在于，包括：

利用上游数据采集系统对待归一化的名称记录进行搜集；

针对搜集到的待归一化的名称记录用文本处理规则进行预处理；

针对预处理完成的待归一化的名称记录进行标注并记录；

利用训练集对预训练完成的自然语言处理深度学习模型准备进行参数微调训练；

设定损失函数，损失函数输入两个由自然语言处理深度学习模型生成的名称特征向量以及两个所属实体名称，当使得损失函数下降且两个名称所属实体相同时，两个特征向量的欧几里得距离降低；当使得损失函数下降且两个名称所属实体不同时，两个特征向量的欧几里得距离增加；

对损失函数进行函数优化之后，对预训练完成的自然语言处理深度学习模型进行参数微调训练；

当微调训练的自然语言处理深度学习模型收敛时，训练结束，将微调训练完成的自然语言处理深度学习模型的结构参数进行保存；

模块M5：在用户输入待归一化名称得到对应的特征向量后，从数据库中找到欧几里得距离与之最近的一个特征向量，返回其对应实体作为结果；

利用测试集对模块M4保存的自然语言处理深度学习模型进行准确度测试；

利用测试集对模块M4保存的自然语言处理深度学习模型进行时间复杂度测试；

修改自然语言处理深度学习模型的超参数，重复模块M4，直到得到的准确度和时间复杂度达到最佳；

模块M6：将利用训练集、测试集进行微调训练、验证完成的自然语言处理深度学习模型与标准名称集合部署成为归一化系统，对待归一化的实体名称进行归一化处理；

将实体标准名称整理并输入到进行微调训练、验证完成的自然语言处理深度学习模型中得到对应的特征向量，并保存到数据库；

搭建实体名称归一化系统，接受用户输入待归一化名称，将该名称输入所述数据库的自然语言处理深度学习模型中得到对应的特征向量，并在所述数据库中，找到欧几里得距离与之最近的一个特征向量，返回其对应实体作为结果；

实体名称归一化系统部署上线，测试其稳定性。

6.一种计算机可读介质，其特征在于，其存储有实体名称归一化系统执行的计算机程序，当所述计算机程序在实体名称归一化系统上运行时，使得所述实体名称归一化系统执行权利要求1-4任一项所述的实体名称归一化方法的步骤。