CN112364656A

CN112364656A - 一种基于多数据集多标签联合训练的命名实体识别方法

Info

Publication number: CN112364656A
Application number: CN202110035702.3A
Authority: CN
Inventors: 王全修; 靳雯; 杨培文; 王明超; 路琦
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-02-12

Abstract

本发明公开了一种基于多数据集多标签联合训练的命名实体识别方法，包括准备训练数据；搭建一个具有多个独立的分类器的模型；将训练数据平行输入到多个独立的分类器中，每个分类器负责一个实体类型的序列标注；训练模型，数据集当中标注了实体类型的分类器参与训练；用所述模型预测新的数据。本发明方法从效率和占用的资源来看，相比于之前的方法，只需要调用资源消耗较大的BERT模型，而其他的方法都需要调取n次模型，甚至是调取m次，因此此方法在节约资源方面具有显著优势，并且解决了命名实体识别中的实体重叠问题和不同数据集包含不同标签的问题，在推断时可以节省大量计算资源。

Description

一种基于多数据集多标签联合训练的命名实体识别方法

技术领域

本发明涉及人工智能模型训练技术领域，具体来说，涉及一种基于多数据集多标签联合训练的命名实体识别方法。

背景技术

在自然语言处理领域，命名实体识别任务是一项基础而重要的任务。命名实体识别又被称为“专名识别”，任务的目标为识别文本中具有特定意义的实体，常见的实体类型包括人名、地名、机构名、专有名词等。简单地讲，命名实体识别任务分为两个部分：

1）识别文本中的实体的边界；

2）实体的类别。

具体的方法为对文本中每个字或词进行是否为实体的分类，进而识别文本中的实体，这种方法是序列标注。序列标注时，将标签分为两个部分组成：

a.位置信息；

b.标签类别信息。

1）针对位置信息部分，目前主流的序列标注方法使用“BIO”或者“BIOES”格式的实体编码方式对文本进行处理，对文本中每个字符进行是否为实体的分类。如表1所示，分别代表：

表1

位置信息代码	全称	含义
			B	Begin	实体的起始字符
I	Inner	实体的中间字符部分
			E	End	实体的结尾
S	Single	单个实体字符
			O	Other	该字符不是实体

2）标签类别信息，表示当前字符属于哪种实体标签，比如，地址（LOC）、机构（ORG）、人名（PER）等。

如图6所示，在“北京市海淀区清华大学”这段文本中有两种实体类型，“北京市海淀区清华大学”整体是一个地名类的实体，“清华大学”是一个机构类的实体，在序列标注方法中，若使用“BIO”格式的实体编码方式，那么命名实体识别模型的分类器的类别数是2*2+1=5个（B-LOC，I-LOC, B-ORG,I-ORG,O）。

在这种情况下，有两个问题难以解决：

1. 实体嵌套的问题。一个实体可能不止只有一种实体类型，但模型在预测时只能预测其中一种类型。比如，如图6所示，“北京市海淀区清华大学”是一个地址，但是其中的“清华大学”又是一个组织，那么“清”字，就只能从“B-ORG”和“I-LOC”中选择一个作为它的标签。目前主流的序列标注模型，比如基于深度学习的RNN-CRF方法，基于注意力模型、迁移学习和半监督学习的模型，都只能预测其中一种实体类型，不能同时预测出两种标签，目前的方法都难以解决这种实体嵌套问题。

2. 在实体类型较多的情况下，经常会出现不同标注数据集，包含的实体类型不一致的问题，主要有以下三种情况：

a) 动态增加或更改标签：在已有标注数据集上增加新的实体类型，比如希望在现有已标注人名、地名和机构名的数据集中新增一个“时间”的实体类型。而这时候我们可能积攒了几十万条已经标注了人名、地名和机构名数据，这些数据里可能会有潜在的未标注的“时间”的实体类型，将这些已标注数据里的潜在的“时间”的实体补全的人工成本会很高。如果把这份未标注“时间”新实体类型的数据集与已标注“时间”新实体类型的数据集一起训练模型，模型对该新实体的类型的精度很有可能会低于其他类型的实体的精度，达不到预期的精度。

降低标注难度，提高标注质量：在标注数据时，有些实体类型标注难度较低，比如人名、时间等，而有些实体类型标注难度较高，比如“治疗方法”标签类型。在标注较高难度的标签时，我们会希望标注工程专注于一种标签，而不是同时标注几种或者几十种不同的标签，因此此次标注数据集只包含这一种实体类型标签。

解决标签分布不均衡，提高模型泛化能力：在不同的数据集中，存在有不同的实体类型分布的情况。比如在很多场景下，数据中有大量的地址（LOC），机构（ORG），人名（PER）的命名实体类型，在舆情类型的数据集中，有大量的“虚拟账号数据”的命名实体类型。在这种情况下，任务需要解决标签分布不均衡问题，所以需要融合多种带有不同实体类型的数据集，进一步提高命名实体识别模型的泛化能力。

现有技术有下面几种方法去解决：

1.训练一个大模型支持所有标签，并将标注了不同实体类型的数据集合并在一起直接训练模型，该方法缺陷为：模型会被多个数据集干扰，导致训练出来的模型，无法给出高准确率的实体识别性能。把数据集分为数据集A和数据集B两种标注情况，比如数据集A标注了人名、昵称、地址，数据集B标注了时间、地址，如果我们直接混在一起训练，数据集A中也可能存在时间，但是我们在数据集A中并没有标注时间，若使用“BIO”格式的实体编码方式对文本编码时，那么数据集A的样本中的所有时间类型的实体对应的标签全部都为“O”。但是模型看到数据集B的时间类型的实体的时候，却又是“B-TIM”、“I-TIM”等标签。这种情况下，模型会被没标注时间实体的数据集A干扰，导致训练出来的模型，无法给出高准确率的时间实体。

2.如图1-2所示，训练多个模型，一个模型支持少量标签。由于对数据集单独训练模型，规避了数据集A未标注数据集B的实体类型问题，但由于需要训练多个模型来处理文本，缺陷如下：

a) 标注任务多的情况下，训练的模型也会越来越多，这会使模型预测速度慢至n倍，显存占用增至n倍，而第一种解决方案只需要调用一次模型即可；

b) 与合并的数据集只训练一个模型相比，每个模型的训练数据量都比较小，泛化能力较差；

c) 当数据集A标注了地址，数据集B也标注了地址时，两个模型都会输出两个地址结果，使用哪个地址结果也是一个需要对应的策略解决的难题。

3.对每一种实体类型都单独训练一个模型。如图3所示，比如姓名类型的实体一个模型，地址类型的实体一个模型，也能解决问题。如果数据集B没有标注“姓名”的实体类型，直接不参与训练即可。并且由于每种实体类型都只有一个模型，没有选择困难。而这种方法由于每一种实体类型都需要单独训练一个模型，缺陷如下：

模型数量太多，预测速度慢至m倍，显存占用增至m倍。

因为某些罕见的实体类型数据量过少，会导致模型过拟合严重。

发明内容

针对相关技术中的上述技术问题，本发明提出一种基于多数据集多标签联合训练的命名实体识别方法，能够克服现有技术方法的上述不足。

为实现上述技术目的，本发明的技术方案是这样实现的：

一种基于多数据集多标签联合训练的命名实体识别方法，包括在线下训练时，支持同时进行训练包含有不同标签种类的公开数据集与行业内数据集；线上使用中，只需部署一个模型，就可以同时预测多个结果，根据不同的标注标签和训练量，配置不同的lossweight，sample weight控制不同任务的优化目标；增加一种实体类型，其实是增加了四个实体标签；训练规则中，数据集当中只有标注了实体类型的分类器会参与训练，其他分类器不参与训练；通过预测算法进行模型预测，每个分类器都会输出预测结果；对于数据存储格式改进，使用json object存储方法，各个实体的start和end允许重叠。

模型结构中，把数据集分为数据集A和数据集B两种标注情况，若数据集A标注了2种实体类型，数据集B标注了3种实体类型，由于实体类型有重叠的现象，所以实体类型种类总共是3种。

训练规则中，如果数据集只标注了人名分类器、昵称分类器、地址分类器，那么人名分类器、昵称分类器、地址分类器会参与训练（其他分类器不会参与训练）。

通过预测算法进行预测，先将由字符组成的文本数据输入到BERT模型，一个字符对应一个特征向量，输出每个字符对应的特征向量，然后将这些由特征向量组成的特征序列输入到不同的分类器中，得到输出的不同实体类型的预测结果。

预测算法输入包括预测样本集和命名实体类型；输出的预测结果包括样本、样本中的实体、实体类型、实体的起始位置和结束位置。

本发明的有益效果：从效率和占用的资源来看，相比于之前的方法，此方法只需要调用一次资源开销较大的BERT模型，而其他的方法都需要调取n次（数据集数量）模型，甚至是调取m次（实体类型数量），因此此方法在节约硬件资源方面具有显著优势。从精度来看，此方法充分训练了每一条数据，提高了模型的泛化能力，并且规避了直接合并数据集造成标注的实体不全，扰乱模型训练，造成降低精度的问题。从指标来看，由于看到的数据更多了，比单标签的模型效果更好。从实体嵌套来看，该方案成功解决了实体嵌套问题，因为每个实体类型都会有单独的分类器，互不影响。此方案不仅局限于自然语言处理的领域，同样适用于其他人工智能领域，比如图像领域的检测任务，对数据集A标注人、车，对数据集B标注人、电动车，对数据集A标注电动车、自行车，使用该方法同样可以使用本方法进行训练，获得泛化能力较强的模型，并且在推断时可以节省大量计算资源，解决了命名实体识别中的实体重叠问题和解决了不同数据集包含不同标签的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的基于多数据集多标签联合训练的命名实体识别方法的模型A示意图。

图2是根据本发明实施例所述的基于多数据集多标签联合训练的命名实体识别方法的模型B示意图。

图3是根据本发明实施例所述的基于多数据集多标签联合训练的命名实体识别方法的测试m个模型示意图。

图4是根据本发明实施例所述的基于多数据集多标签联合训练的命名实体识别方法的模型结构示意图。

图5是根据本发明实施例所述的基于多数据集多标签联合训练的命名实体识别方法的数据集示意图。

图6是根据本发明实施例所述的基于多数据集多标签联合训练的命名实体识别方法的文本实体实例示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图4所示，根据本发明实施例所述的一种基于多数据集多标签联合训练的命名实体识别方法，BERT模型是一个基于拥有12层多头注意力机制的Transformer模型，我们将BERT模型的大分类器拆解为多个实体类型，每个实体类型都有的一个独立的小分类器，由此提出了一种基于BERT的多数据集多标签联合训练命名实体识别的方法，设计了一种模型结构，既复用了模型主体，支持了数据集的横向扩展，同时又连接了多个小分类器。也避免了特征重复计算与数据重复标注的麻烦，其优点有：可以通过结合多个数据集，来帮助BERT模型提高精度；可以避免数据重复标注，从而降低标注成本；在线上使用时，只需部署一个BERT模型，就可以同时预测多个结果，降低部署及硬件成本；可以同时训练包含不同标签种类公开数据集与行业内数据集，从而提高模型对行业外的数据的泛化能力；对不同的标注训练量，配置不同的loss weight，sample weight来控制不同的任务的优化目标，避免过拟合。

例如，把数据集分成数据集A和数据集B两种标注情况，数据集A标注了2种实体类型，数据集B标注了3种实体类型，由于实体类型有重叠，因此这些实体类型种类共有3种。

使用BERT模型提取包含文本语义的特征，当前输入文本为“网民洛伊真实姓名张三居住于营村七组”，文本数据输入到BERT模型，得到有包含文本语义的特征

后，将包含文本语义的特征平行输入到多个独立的小分类器，每个小分类器负责一个实体类型的序列标注，所述小分类器在学习过程中所优化的损失函数为：

其中，n为该文本行字符数，

为小分类器的种类。

所述序列标注是一个NLP任务，是将每个字编码成不同的标签，从而识别整个序列里的实体。所述序列标注与实体类型的关系为序列的标签带有实体类型。

在训练规则中，BERT模型的训练的规则是：数据集当中只有标注了实体类型的小分类器会参与训练。

如图5所示，如果数据集只标注了人名小分类器、昵称小分类器和地址小分类器，那么人名小分类器、昵称小分类器和地址小分类器会参与训练，其他小分类器不参与训练；在训练时，一批数据可能会来自不同的数据集，所以每个小分类器都有可能被训练到。

模型预测时，每个小分类器都会输出预测结果，最终得到所有类型的实体。以下给出了BERT模型预测算法的工作流程，对每个预测样例，预测算法执行以下操作：先将由字符组成的文本数据输入到BERT模型，一个字符对应一个特征向量，输出每个字符对应的特征向量，然后将这些由特征向量组成的特征序列输入到不同的小分类器中，得到输出的不同实体类型的预测结果；再解码每个字符的每个小分类器的结果，得到OutputDict输出预测结果。所述预测算法的工作流程为：

输入：预测样本集

，

命名实体类型

。

输出：OutputDict，包含样本、样本中的实体、实体类型、实体的起始位置和结束位置。

1. 初始化OutputDict；

2. for

的每一个样本

do；

3. for

的每一个字符

do；

4. 模型中的所有小分类器对

进行命名实体类别归一化映射，return；

5. end for；

6. 解码小分类器的输出，将实体结果保存至OutputDict；

7. end for。

在数据存储格式改进中，现在主流的“BIO”编码存储方式为：

北/B-LOC 京/I-LOC 市/I-LOC 海/I-LOC 淀/I-LOC 区/I-LOC 清/I-LOC华/I-LOC大/I-LOC学/I-LOC。

由于此方法无法解决标签嵌套问题，所以我们对数据编码及存储方式进行了优化改进，通过使用json object存储方法，解决实体标签嵌套问题，例如：

使用这种方式存储实体，各个实体的start和end是允许重叠的，解决了实体嵌套问题。

综上所述，借助于本发明的上述技术方案，通过从效率和占用的资源来看，相比于之前的方法，此方法只需要调用一次资源消耗较大的BERT模型，而其他的方法都需要调取n次（数据集数量）模型，甚至是调取m次（实体类型数量），因此此方法在节约硬件资源方面具有显著优势。从精度来看，此方法充分训练了每一条数据，提高了模型的泛化能力，并且规避了直接合并数据集造成标注的实体不全，扰乱模型训练，造成降低精度的问题。从指标来看，由于看到的数据更多，比单标签的模型效果更好。从实体嵌套来看，该方案成功解决了实体嵌套问题，因为每个实体类型都会有单独的小分类器，互不影响。此方案不仅局限于自然语言处理的领域，同样适用于其他人工智能领域，比如图像领域的检测任务，对数据集A标注人、车，对数据集B标注人、电动车，对数据集A标注电动车、自行车，使用该方法同样可以使用本方法进行训练，获得泛化能力较强的模型，并且在推断时可以节省大量计算资源，解决了命名实体识别中的实体嵌套问题和解决了不同数据集包含不同标签的问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多数据集多标签联合训练的命名实体识别方法，其特征在于，包括以下步骤：

S1：准备训练数据，使用BERT模型提取包含文本语义的特征，通过把由字符组成的文本数据输入到BERT模型中，得到包含文本语义的特征；

S2：搭建一个具有多个独立的分类器的模型；

S3：将得到包含文本语义的特征平行输入到多个独立的分类器中，每个分类器负责一个实体类型的序列标注；

S4：训练所述模型，数据集当中标注了实体类型的分类器参与训练；

S5：用所述模型预测新的数据，预测时，每个分类器输出预测结果，最后得到不同实体类型的预测结果。

2. 根据权利要求1所述的一种基于多数据集多标签联合训练的命名实体识别方法，其特征在于，所述模型中，在线上使用时，根据对于不同的标注训练量，配置不同的lossweight，sample weight控制不同任务的优化目标。

3.根据权利要求1所述的一种基于多数据集多标签联合训练的命名实体识别方法，其特征在于，把数据集分成数据集A和数据集B两种标注情况，所述数据集A标注了2种实体类型，所述数据集B标注了3种实体类型，由于实体类型有重叠的现象，所以实体类型的种类总共是3种。

4.根据权利要求1所述的一种基于多数据集多标签联合训练的命名实体识别方法，其特征在于，如果数据集当中只标注了人名分类器、昵称分类器和地址分类器，那么人名分类器、昵称分类器和地址分类器会参与训练，其他分类器不会参与训练。

5.根据权利要求1所述的一种基于多数据集多标签联合训练的命名实体识别方法，其特征在于，所述预测通过预测算法进行，先将由字符组成的文本数据输入到BERT模型，一个字符对应一个特征向量，输出每个字符对应的特征向量，然后将这些由特征向量组成的特征序列输入到不同的分类器中，得到输出的不同实体类型的预测结果。

6.根据权利要求5所述的一种基于多数据集多标签联合训练的命名实体识别方法，其特征在于，所述预测算法输入包括预测样本集和命名实体类型；所述预测算法输出结果包括样本、样本中的实体、实体类型、实体的起始位置和结束位置。