CN111222337A

CN111222337A - 一种实体识别模型的训练方法及装置

Info

Publication number: CN111222337A
Application number: CN202010016766.4A
Authority: CN
Inventors: 于文才; 杜志诚; 杜明本; 钟琴隆; 崇学伟; 于雪磊; 闫晗; 杨红超
Original assignee: Shandong Banner Information Co Ltd
Current assignee: Shandong Banner Information Co Ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2020-06-02

Abstract

一种实体识别模型的训练方法及装置，包括如下步骤：获取用于实体识别的语料；将语料进行标注；将标注之后的语料进行编码；将编码之后的语料用作深度学习网络的材料以训练得到实体识别模型；所述语料进行编码时采用BERT‑WWM模型进行编码处理。本申请采用一个特定的编码形式实现编码，从而将实体识别的语料进行预处理，该预处理的含义并不是为了提供一种精确的，电脑语言可识别的编码，而是提供一种可以提供多维度训练语言的工具；由于BERT‑WWM模型允许提供全词mask的方式进行语料处理，使得在特定的语料下可以训练该深度学习网络的预测纠错能力，从而在大大提高其学习的效率的同时，也提高了其识别的能力。

Description

一种实体识别模型的训练方法及装置

技术领域

本申请涉及一种实体识别模型的训练方法及装置。

背景技术

实体识别的目的在于在文本中识别出特定的实体信息，主要是一些名词信息，诸如人物，地点，物品，法人名称等。此种识别在信息电子化处理过程中是基础，且可以起到至关重要的作用。现在主要是有两种方式供选择，一种是字典式的，一种是通过规则学习进行自动提取。字典式的由于没有很好的自我扩充性以及自身的自我局限性逐步被抛弃；而通过规则学习的方式，则由于语料方面的不一致，导致了各种实体识别系统的良莠不齐，更加重要的是，如果语料学习的能力太差，规则学习方式实质上等同于字典式，并不能带来实质性的进步。

发明内容

为了解决上述问题，本申请一方面提出了一种实体识别模型的训练方法，包括如下步骤：获取用于实体识别的语料；将语料进行标注；将标注之后的语料进行编码；将编码之后的语料用作深度学习网络的材料以训练得到实体识别模型；所述语料进行编码时采用BERT-WWM模型进行编码处理。本申请采用一个特定的编码形式实现编码，从而将实体识别的语料进行预处理，该预处理的含义并不是为了提供一种精确的，电脑语言可识别的编码，而是提供一种可以提供多维度训练语言的工具；由于BERT-WWM模型允许提供全词mask的方式进行语料处理(当然也不排除采取以字为粒度的方式)，使得在特定的语料下可以训练该深度学习网络的预测纠错能力，从而在大大提高其学习的效率的同时，也提高了其识别的能力。

优选的，所述语料按照字符进行标注，并将各个实体的开始和结束进行区分性标注。

优选的，所述语料标注完毕之后，先进行人工检查再进行编码。

优选的，所述BERT-WWM模型将编码得到的单词进行切片处理，进行切片处理之后，相邻的字符组成词组进行标注。具体来说可以使用BERT-WWM 模型中的vocab.txt词表对语料切片；当然由于不同的词表可以获得不同的形式，本申请并不限于该种形式。需要说明的是，本申请采用的BERT模型采用的是谷歌开源的BERT中文语言模型，其本身已经进行的大量的语料训练，在编码过程中已经考虑了上下文关系，因此其有与WWM进行结合提供不同侧面语料的基础。

优选的，将词组进行标注之后，采用遮蔽语言模型进行词组的完整遮蔽，然后将遮蔽以及未遮蔽的语料共同作为深度学习网络的材料。

优选的，所述完整遮蔽包括如下形式：将词组利用等量的代码替代或将词组利用等量的其他词组替代。

优选的，所述深度学习网络采用BiLSTM+CRF模型。

优选的，所述语料标注按照如下方式进行：

语料的每个字符依次进行标注；

语料的句首添加[CLS]标签，句末添加[SEP]标签；

语料的中间材料采用BIO的标注方式，B代表实体的开始标签，I代表实体的非开始标签，O代表非实体标签；

对标注完成的语料，进行人工审核。

优选的，所述BIO标注方式中，不同的类型实体进行标明。

另一方面，本申请还提出了一种实体识别模型的训练装置，包括如下模块：

语料库模块，用于提供语料；

标注模块，用于将语料进行标注；

编码模块，将标注之后的语料进行编码；

训练模块，用于将编码之后的语料用作深度学习网络的材料以训练得到实体识别模型；

所述语料进行编码时采用BERT-WWM模型进行编码处理。

本申请能够带来如下有益效果：本申请采用一个特定的编码形式实现编码，从而将实体识别的语料进行预处理，该预处理的含义并不是为了提供一种精确的，电脑语言可识别的编码，而是提供一种可以提供多维度训练语言的工具；由于BERT-WWM模型允许提供全词mask的方式进行语料处理(当然也不排除采取以字为粒度的方式)，使得在特定的语料下可以训练该深度学习网络的预测纠错能力，从而在大大提高其学习的效率的同时，也提高了其识别的能力；本申请采用的BERT模型采用的是谷歌开源的BERT中文语言模型，其本身已经进行的大量的语料训练，在编码过程中已经考虑了上下文关系，因此其有与WWM进行结合提供不同侧面语料的基础。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例1的流程示意图；

图2为本申请实施例2的流程示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本申请进行详细阐述。

在第一个实施例中，如图1所示，按照如下方式进行：

将编码之后的语料用作深度学习网络的材料以训练得到实体识别模型；

S1、获取用于实体识别的语料：

王强乘坐火车去北京参加技术研讨会。研讨会主要讨论了AI新技术的发展。

句子根据vocab.txt切片：

S2、将语料进行标注：

[CLS]王强乘坐火车去北京参加技术研讨会。[SEP]研讨会主要讨论了AI新技术的发展。[SEP]

实体类型：人物(B-PER，I-PER)机构(B-ORG，I-ORG)，地点(B-LOC， I-LOC)，时间(B-TIM，I-TIM)

{'X':1,'B-PER':2,'I-PER':9,'O':5,'I-LOC':6,'B-ORG':7,'I-ORG':8,'[SEP]': 4,'[CLS]':3,'B-LOC':10}

BIO语料标注：

王 B-PER

强 I-PER

乘 O

坐 O

火 O

车 O

去 O

北 B-LOC

京 I-LOC

参 O

加 O

技 O

术 O

研 O

讨 O

会 O

。 O

S3、将标注之后的语料进行编码：

以上数据传入BERT-WWM编码后的示例：

分片后的编码：数字对应vocab中的索引

[[101,739,6818,2398,8038,776,2476,7770,7188,2456,2768,2832,6817,2692,721,7028,1920,511,776,2476,5296,6224,6395,749,704,1744,7188, 6662,4638,1355,2245,511,102,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0]]

分句后的编码：

[[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1, 1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]]

类型标注：

[[2,9,9,5,10,6,6,6,5,5,5,5,5,5,5,5,5,10,6,6,5,5,5,10,6,5,5,5,5,5, 5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,]]

S4、将编码之后的数据输入到BILSTM+CRF模型。

在第二个实施例中，如图2所示，在第一个实施例的基础上，S2分为如下几步进行：

S21、识别实体：

识别出来王强和两个实体；

S22、将实体利用WWM进行粒度(单字)或者词组进行替代，替代比例不高于10％：

如北京替代为上海或者北京替代为济南等；

S23、将替代后的语料按照第一个实施例的方式进行编码，然后放入到 BILSTM+CRF模型中进行训练，并纠正在识别过程中识别出来不是北京的词语。

将实施例1以及实施例2筛选得到的模型进行实体识别，实体识别的采取的对象分别包括从微博关于中超的文字(2000字)，新浪的中超频道关于中超的文字(2000字)，知乎关于中超的文字(2000字)进行识别，然后进行人工检查，其正确率分别如下所示：

信息来源	实体数目	实施例1模型	实施例2模型
				微博	25	20	24
新浪	36	34	35
				知乎	28	24	26

由于微博上的文字较为随意，实施例2得到的模型具有非常好的识别能力可见具有一定纠错能力；而对于一些专业媒体，由于其具有较好的专业性，因此实施例2得到的模型优势并不明显；知乎介于二者之间，实施例2得到的模型也有一定的优势。

在实施例3中，一种实体识别模型的训练装置，包括如下模块：语料库模块，用于提供语料；标注模块，用于将语料进行标注；编码模块，将标注之后的语料进行编码；训练模块，用于将编码之后的语料用作深度学习网络的材料以训练得到实体识别模型；所述语料进行编码时采用BERT-WWM模型进行编码处理。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种实体识别模型的训练方法，其特征在于：包括如下步骤：

获取用于实体识别的语料；

将语料进行标注；

将标注之后的语料进行编码；

所述语料进行编码时采用BERT-WWM模型进行编码处理。

2.根据权利要求1所述的一种实体识别模型的训练方法，其特征在于：所述语料按照字符进行标注，并将各个实体的开始和结束进行区分性标注。

3.根据权利要求2所述的一种实体识别模型的训练方法，其特征在于：所述语料标注完毕之后，先进行人工检查再进行编码。

4.根据权利要求2所述的一种实体识别模型的训练方法，其特征在于：所述BERT-WWM模型将编码得到的单词进行切片处理，进行切片处理之后，相邻的字符组成词组进行标注。

5.根据权利要求4所述的一种实体识别模型的训练方法，其特征在于：将词组进行标注之后，采用遮蔽语言模型进行词组的完整遮蔽，然后将遮蔽以及未遮蔽的语料共同作为深度学习网络的材料。

6.根据权利要求5所述的一种实体识别模型的训练方法，其特征在于：所述完整遮蔽包括如下形式：将词组利用等量的代码替代或将词组利用等量的其他词组替代。

7.根据权利要求1所述的一种实体识别模型的训练方法，其特征在于：所述深度学习网络采用BiLSTM+CRF模型。

8.根据权利要求1所述的一种实体识别模型的训练方法，其特征在于：所述语料标注按照如下方式进行：

语料的每个字符依次进行标注；

语料的句首添加[CLS]标签，句末添加[SEP]标签；

对标注完成的语料，进行人工审核。

9.根据权利要求8所述的一种实体识别模型的训练方法，其特征在于：所述BIO标注方式中，不同的类型实体进行标明。

10.一种实体识别模型的训练装置，其特征在于：包括如下模块：

语料库模块，用于提供语料；

标注模块，用于将语料进行标注；

编码模块，将标注之后的语料进行编码；

所述语料进行编码时采用BERT-WWM模型进行编码处理。