CN113255353A

CN113255353A - 一种实体标准化方法

Info

Publication number: CN113255353A
Application number: CN202110598353.6A
Authority: CN
Inventors: 曾志贤; 马涛; 倪斌; 汪姿如; 庄福振; 安竹林
Original assignee: Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Current assignee: Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-13
Anticipated expiration: 2041-05-31
Also published as: CN113255353B

Abstract

本发明公开了一种实体标准化方法，包括以下步骤：步骤一：建立标准实体词的知识库；步骤二：通过构建好的标准实体词的知识库，构建模型所需的训练数据；步骤三：利用构建好的训练数据分别训练实体分类模型以及实体匹配模型；步骤四：将待识别的实体输入候选实体生成模块，生成候选实体集合；步骤五：将候选实体集合中标准实体进行排序。本发明所述的一种实体标准化方法，相比于其他方法，不使用实体词的上下文信息，即能达到实体标准化的结果；通过添加实体的类型信息，作为实体匹配模型的一部分输入，就能有效的提高实体标准化的准确率，能较好的实现实体标准化任务。

Description

一种实体标准化方法

技术领域

本发明涉及数据处理领域，特别涉及一种实体标准化方法。

背景技术

随着互联网的迅速发展，网络上充斥着各类文本信息，其中包含了公司名、学校名和组织机构名等各种实体词。由于自然语言表达的多样性，一个标准实体往往可以被多种形式进行表示，包括别名、简称和英文名等。为了正确理解别名、简称和英文名的真实含义，可以将文本信息中的实体词标准化为实体知识库中的无歧义实体，为信息检索和抽取、知识工程等任务提供强有力的支撑。

实体标准化旨在将文本信息中的实体词转化为实体的标准形式，其潜在的应用包括信息提取、信息检索和知识库填充。传统的实体标准化任务主要是针对长文档，长文档拥有充分的上下文信息，能够辅助完成实体标准化任务。而在面对一些实体上下文信息匮乏的场景，且实体名称又具有多样性和模糊性的特性，导致实体标准化任务存在极大的挑战。因此，能够找到一种方法，不使用实体词的上下文信息，就能解决实体标准化任务，是非常有意义的。

为此，我们提出一种实体标准化方法。

发明内容

本发明的主要目的在于提供一种实体标准化方法，首先通过词条建立标准实体词知识库，再使用标准实体词知识库构建模型训练数据，利用训练数据训练实体分类模型以及实体匹配模型，最后输入待识别的实体词，生成待识别实体词的候选实体集合，再通过实体分类模型以及实体匹配模型，对候选实体进行排序，选取匹配概率最高的候选实体，作为待识别实体词的标准实体，从而完成实体标准化的任务，可以有效解决背景技术中的问题。

为实现上述目的，本发明采取的技术方案为：

一种实体标准化方法，包括输入模块、处理模块、运行模块和输出模块，所述输入模块和处理模块相连，所述处理模块和运行模块连接，所述运行模块连接有输出模块，所述输入模块能够对用户输入的待识别体进行接收；所述处理模块能够使用输入的待识别实体，通过预设的候选实体生成规则，从预选构建好的知识库中生成候选实体集合；所述运行模块能够对运实体分类模型和实体匹配模型运行，并且对候选实体集合中的实体进行排序；所述输出模块能够对待识别实体的标准化实体进行输出，该方法包括以下步骤：

步骤一：建立标准实体词的知识库；

步骤二：通过构建好的标准实体词的知识库，构建模型所需的训练数据；

步骤三：利用构建好的训练数据分别训练实体分类模型以及实体匹配模型；

步骤四：将待识别的实体输入候选实体生成模块，生成候选实体集合；

步骤五：将候选实体集合中标准实体进行排序。

进一步的，所述步骤三中的实体分类模型采用传统的TextCNN模型，所述步骤三中的实体分类流程如下步骤：

首先，输入待识别的实体词，在词嵌入层对实体词进行向量化；然后，在卷积层对词嵌入层进行卷积操作，以提取特征；然后，在池化层对卷积得到的结果进行最大池化；最后，在全连接层对得到的特征向量进行全连接操作，得到最后的实体词分类。

进一步的，将实体词分类的类型信息，作为一部分文本信息，融合到实体匹配模型中，所述实体匹配模型是基于BERT进行构建的，实体匹配流程如下步骤：

首先，将待识别的实体词及其实体类型和候选实体词及其候选实体类型用[SEP]分隔符隔开作为BERT的输入；然后，输入经过BERT层后得到BERT层的输出，输入到池化层中进行池化操作；然后，在全连接层中进行全连接操作；最后，输出待识别的实体词是否与候选实体词匹配，且可以得出匹配概率。

进一步的，所述步骤四的候选实体集合的生成方式如下：

（1）以字级别的形式，生成待识别实体与标准实体词知识库中的标准实体词的TF-IDF向量，再计算待识别实体与标准实体词的向量相似度，召回相似度前十的标准实体词加入到候选实体集合；

（2）通过计算待识别实体与标准实体词知识库中的标准实体词的词覆盖度，设定一个词覆盖度的阈值，返回高于阈值的标准实体词加入候选实体集合中；

（3）通过计算待识别实体与标准实体词知识库中的标准实体词的编辑距离，设定一个编辑距离的阈值，返回小于编辑距离阈值的标准实体加入到候选实体集合中；

通过上述三种方式生成待识别实体的候选实体集合。

进一步的，所述步骤五的候选排序流程如下步骤：首先，从候选实体词的集合中逐一与待识别实体进行实体匹配，得到待识别的实体与该候选实体正确匹配的概率；然后，通过对候选实体集合中的每一个候选实体都得出一个匹配概率；最后，选取匹配概率最高的候选实体，作为该待识别实体标准化后的实体。

进一步的，所述步骤一中的构建标准实体词的知识库，如下步骤：

首先，利用爬虫技术，通过分类索引，从实体页面中，可以获取到标准的实体名称E、标准实体的别名A以及实体的分类C加入到标准实体知识库中；然后，一个实体名称对应的实体别名数量不小于零，所以知识库中的一条记录可表示为{E,A1;A2···An,C}；最后，爬取多个实体，即可构建标准实体词的知识库。

进一步的，所述步骤二中的构建模型的训练数据方法如下：

实体分类模型的训练数据是包括多组标注数据，每组标注数据包括标准的实体名称E以及该实体词的类型C，通过标准实体词知识库中的每条记录的标准实体名称E和实体的分类C字段，可构建[E,C]训练数据，构建多条[E,C]数据作为实体分类模型的训练数据；

实体匹配模型的训练数据，可通过标准实体词知识库中的每条记录的标准实体名称E和实体的别名A字段，来构造实体匹配模型的训练数据，构造标准实体名称及其别名则作为正样本，拼接标准实体名称以及其他标准实体名称的别名则作为负样本，正样本标签为0，负样本标签为1，标准实体词的知识库每条记录可构建多条训练数据[E&A1,0]、[E&A2,0]、[E&An,0]、[E&B1,1]、[E&B2,1]、[E&Bn,1]。

与现有技术相比，本发明具有如下有益效果：

1、不使用实体词的上下文信息，即能达到实体标准化的结果；

2、通过添加实体的类型信息，作为实体匹配模型的一部分输入，就能有效的提高实体标准化的准确率，能较好的实现实体标准化任务。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种实体标准化方法的整体流程图；

图2为本发明一种实体标准化方法的实体分类流程图；

图3为本发明一种实体标准化方法的实体匹配流程图；

图4为本发明一种实体标准化方法的候选实体排序流程图。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明，其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制，为了更好地说明本发明的具体实施方式，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸，对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的，基于本发明中的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

实施例1

如图1所示，一种实体标准化方法，包括输入模块、处理模块、运行模块和输出模块，输入模块和处理模块相连，处理模块和运行模块连接，运行模块连接有输出模块，输入模块能够对用户输入的待识别体进行接收；处理模块能够使用输入的待识别实体，通过预设的候选实体生成规则，从预选构建好的知识库中生成候选实体集合；运行模块能够对运实体分类模型和实体匹配模型运行，并且对候选实体集合中的实体进行排序；输出模块能够对待识别实体的标准化实体进行输出，该方法包括以下步骤：

步骤一：建立标准实体词的知识库；

步骤五：将候选实体集合中标准实体进行排序。

通过采用上述技术方案：提供了一种实体标准化的方法，相比于其他方法，不使用实体词的上下文信息，即能达到实体标准化的结果，通过添加实体的类型信息，作为实体匹配模型的一部分输入，就能有效的提高实体标准化的准确率，能较好的实现实体标准化任务。

实施例2

如图1-4所示，一种实体标准化方法，包括输入模块、处理模块、运行模块和输出模块，输入模块和处理模块相连，处理模块和运行模块连接，运行模块连接有输出模块，输入模块能够对用户输入的待识别体进行接收；处理模块能够使用输入的待识别实体，通过预设的候选实体生成规则，从预选构建好的知识库中生成候选实体集合；运行模块能够对运实体分类模型和实体匹配模型运行，并且对候选实体集合中的实体进行排序；输出模块能够对待识别实体的标准化实体进行输出，该方法包括以下步骤：

步骤一：建立标准实体词的知识库；

实体页面都描述一个实体，并包含集中于该实体的信息，一般而言每个页面的标题是本页面中描述的实体最常用的名称，所以每个页面的标题可作为标准的实体名称E；页面的第一段是对实体页面的总结，其中包含一些加粗短语，一般是该页面实体的简称、别名或英文名，所以页面首段加粗字段可作为该标准的实体名称E的别名A，实体页面的分类标签即作为该标准实体的分类C。

其中实体分类模型的训练数据是包括多组标注数据，每组标注数据包括标准的实体名称E以及该实体词的类型C，通过标准实体词知识库中的每条记录的标准实体名称E和实体的分类C字段，可构建[E,C]训练数据，构建多条[E,C]数据可作为实体分类模型的训练数据；实体匹配模型的训练数据，可通过标准实体词知识库中的每条记录的标准实体名称E和实体的别名A字段，来构造实体匹配模型的训练数据，构造标准实体名称及其别名则作为正样本，拼接标准实体名称以及其他标准实体名称的别名则作为负样本，正样本标签为0，负样本标签为1，标准实体词的知识库每条记录可构建多条训练数据[E&A1,0]、[E&A2,0]、[E&An,0]、[E&B1,1]、[E&B2,1]、[E&Bn,1]，至此模型的训练数据构造完毕；

通过构建好的标准实体词的知识库，即可构建模型所需的训练数据。

实体分类流程如图二所示，实体分类模型采用传统的TextCNN模型，首先，输入待识别的实体词，在词嵌入层对实体词进行向量化；然后，在卷积层对词嵌入层进行卷积操作，以提取特征；然后，在池化层对卷积得到的结果进行最大池化；最后，在全连接层对得到的特征向量进行全连接操作，得到最后的实体词分类。

将实体词分类的类型信息，作为一部分文本信息，融合到实体匹配模型中，实体匹配流程如图三所示。实体匹配模型是基于BERT进行构建的，将待识别的实体词及其实体类型和候选实体词及其候选实体类型用[SEP]分隔符隔开作为BERT的输入，实体类型通过训练好的实体分类模型得出，候选实体类型从标准实体词的知识库中获取，输入经过BERT层后得到BERT层的输出，输入到池化层中进行池化操作，然后在全连接层中进行全连接操作，最后能够输出待识别的实体词是否与候选实体词匹配，且可以得出匹配概率。

利用构建好的训练数据输入到模型中，即可得到实体分类模型以及实体匹配模型。

候选实体集合包含多个标准实体词。候选实体集合的生成方式如下：

（3）通过计算待识别实体与标准实体词知识库中的标准实体词的编辑距离，设定一个编辑距离的阈值，返回小于编辑距离阈值的标准实体加入到候选实体集合中。

通过以上三种方式生成待识别实体的候选实体集合。

步骤五：将候选实体集合中标准实体进行排序；

排序流程如图四所示，从候选实体词的集合中逐一与待识别实体进行实体匹配，得到待识别的实体与该候选实体正确匹配的概率，通过对候选实体集合中的每一个候选实体都得出一个匹配概率后，选取匹配概率最高的候选实体，作为该待识别实体标准化后的实体。

至此整个流程结束。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种实体标准化方法，包括输入模块、处理模块、运行模块和输出模块，所述输入模块和处理模块相连，所述处理模块和运行模块连接，所述运行模块连接有输出模块，其特征在于，所述输入模块能够对用户输入的待识别体进行接收；所述处理模块能够使用输入的待识别实体，通过预设的候选实体生成规则，从预选构建好的知识库中生成候选实体集合；所述运行模块能够对运实体分类模型和实体匹配模型运行，并且对候选实体集合中的实体进行排序；所述输出模块能够对待识别实体的标准化实体进行输出，该方法包括以下步骤：

步骤一：建立标准实体词的知识库；

步骤三：利用构建好的训练数据分别训练实体分类模型以及实体匹配模

型；

步骤五：将候选实体集合中标准实体进行排序。

2.根据权利要求1所述的一种实体标准化方法，其特征在于，所述步骤三中的实体分类模型采用传统的TextCNN模型，所述步骤三中的实体分类流程如下步骤：

3.根据权利要求2所述的一种实体标准化方法，其特征在于，将实体词分类的类型信息，作为一部分文本信息，融合到实体匹配模型中，所述实体匹配模型是基于BERT进行构建的，实体匹配流程如下步骤：

4.根据权利要求1所述的一种实体标准化方法，其特征在于，所述步骤四的候选实体集合的生成方式如下：

通过上述三种方式生成待识别实体的候选实体集合。

5.根据权利要求1所述的一种实体标准化方法，其特征在于，所述步骤五的候选排序流程如下步骤：首先，从候选实体词的集合中逐一与待识别实体进行实体匹配，得到待识别的实体与该候选实体正确匹配的概率；然后，通过对候选实体集合中的每一个候选实体都得出一个匹配概率；最后，选取匹配概率最高的候选实体，作为该待识别实体标准化后的实体。

6.根据权利要求1所述的一种实体标准化方法，其特征在于，所述步骤一中的构建标准实体词的知识库，如下步骤：

7.根据权利要求1所述的一种实体标准化方法，其特征在于，所述步骤二中的构建模型的训练数据方法如下：

实体分类模型的训练数据是包括多组标注数据，每组标注数据包括标准的

实体名称E以及该实体词的类型C，通过标准实体词知识库中的每条记录的标准实体名称E和实体的分类C字段，可构建[E,C]训练数据，构建多条[E,C]数据作为实体分类模型的训练数据；