CN111222337A - 一种实体识别模型的训练方法及装置 - Google Patents

一种实体识别模型的训练方法及装置 Download PDF

Info

Publication number
CN111222337A
CN111222337A CN202010016766.4A CN202010016766A CN111222337A CN 111222337 A CN111222337 A CN 111222337A CN 202010016766 A CN202010016766 A CN 202010016766A CN 111222337 A CN111222337 A CN 111222337A
Authority
CN
China
Prior art keywords
corpus
entity
coding
model
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010016766.4A
Other languages
English (en)
Inventor
于文才
杜志诚
杜明本
钟琴隆
崇学伟
于雪磊
闫晗
杨红超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Banner Information Co Ltd
Original Assignee
Shandong Banner Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Banner Information Co Ltd filed Critical Shandong Banner Information Co Ltd
Priority to CN202010016766.4A priority Critical patent/CN111222337A/zh
Publication of CN111222337A publication Critical patent/CN111222337A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

一种实体识别模型的训练方法及装置,包括如下步骤:获取用于实体识别的语料;将语料进行标注;将标注之后的语料进行编码;将编码之后的语料用作深度学习网络的材料以训练得到实体识别模型;所述语料进行编码时采用BERT‑WWM模型进行编码处理。本申请采用一个特定的编码形式实现编码,从而将实体识别的语料进行预处理,该预处理的含义并不是为了提供一种精确的,电脑语言可识别的编码,而是提供一种可以提供多维度训练语言的工具;由于BERT‑WWM模型允许提供全词mask的方式进行语料处理,使得在特定的语料下可以训练该深度学习网络的预测纠错能力,从而在大大提高其学习的效率的同时,也提高了其识别的能力。

Description

一种实体识别模型的训练方法及装置
技术领域
本申请涉及一种实体识别模型的训练方法及装置。
背景技术
实体识别的目的在于在文本中识别出特定的实体信息,主要是一些名词信息,诸如人物,地点,物品,法人名称等。此种识别在信息电子化处理过程中是基础,且可以起到至关重要的作用。现在主要是有两种方式供选择,一种是字典式的,一种是通过规则学习进行自动提取。字典式的由于没有很好的自我扩充性以及自身的自我局限性逐步被抛弃;而通过规则学习的方式,则由于语料方面的不一致,导致了各种实体识别系统的良莠不齐,更加重要的是,如果语料学习的能力太差,规则学习方式实质上等同于字典式,并不能带来实质性的进步。
发明内容
为了解决上述问题,本申请一方面提出了一种实体识别模型的训练方法,包括如下步骤:获取用于实体识别的语料;将语料进行标注;将标注之后的语料进行编码;将编码之后的语料用作深度学习网络的材料以训练得到实体识别模型;所述语料进行编码时采用BERT-WWM模型进行编码处理。本申请采用一个特定的编码形式实现编码,从而将实体识别的语料进行预处理,该预处理的含义并不是为了提供一种精确的,电脑语言可识别的编码,而是提供一种可以提供多维度训练语言的工具;由于BERT-WWM模型允许提供全词mask的方式进行语料处理(当然也不排除采取以字为粒度的方式),使得在特定的语料下可以训练该深度学习网络的预测纠错能力,从而在大大提高其学习的效率的同时,也提高了其识别的能力。
优选的,所述语料按照字符进行标注,并将各个实体的开始和结束进行区分性标注。
优选的,所述语料标注完毕之后,先进行人工检查再进行编码。
优选的,所述BERT-WWM模型将编码得到的单词进行切片处理,进行切片处理之后,相邻的字符组成词组进行标注。具体来说可以使用BERT-WWM 模型中的vocab.txt词表对语料切片;当然由于不同的词表可以获得不同的形式,本申请并不限于该种形式。需要说明的是,本申请采用的BERT模型采用的是谷歌开源的BERT中文语言模型,其本身已经进行的大量的语料训练,在编码过程中已经考虑了上下文关系,因此其有与WWM进行结合提供不同侧面语料的基础。
优选的,将词组进行标注之后,采用遮蔽语言模型进行词组的完整遮蔽,然后将遮蔽以及未遮蔽的语料共同作为深度学习网络的材料。
优选的,所述完整遮蔽包括如下形式:将词组利用等量的代码替代或将词组利用等量的其他词组替代。
优选的,所述深度学习网络采用BiLSTM+CRF模型。
优选的,所述语料标注按照如下方式进行:
语料的每个字符依次进行标注;
语料的句首添加[CLS]标签,句末添加[SEP]标签;
语料的中间材料采用BIO的标注方式,B代表实体的开始标签,I代表实体的非开始标签,O代表非实体标签;
对标注完成的语料,进行人工审核。
优选的,所述BIO标注方式中,不同的类型实体进行标明。
另一方面,本申请还提出了一种实体识别模型的训练装置,包括如下模块:
语料库模块,用于提供语料;
标注模块,用于将语料进行标注;
编码模块,将标注之后的语料进行编码;
训练模块,用于将编码之后的语料用作深度学习网络的材料以训练得到实体识别模型;
所述语料进行编码时采用BERT-WWM模型进行编码处理。
本申请能够带来如下有益效果:本申请采用一个特定的编码形式实现编码,从而将实体识别的语料进行预处理,该预处理的含义并不是为了提供一种精确的,电脑语言可识别的编码,而是提供一种可以提供多维度训练语言的工具;由于BERT-WWM模型允许提供全词mask的方式进行语料处理(当然也不排除采取以字为粒度的方式),使得在特定的语料下可以训练该深度学习网络的预测纠错能力,从而在大大提高其学习的效率的同时,也提高了其识别的能力;本申请采用的BERT模型采用的是谷歌开源的BERT中文语言模型,其本身已经进行的大量的语料训练,在编码过程中已经考虑了上下文关系,因此其有与WWM进行结合提供不同侧面语料的基础。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例1的流程示意图;
图2为本申请实施例2的流程示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本申请进行详细阐述。
在第一个实施例中,如图1所示,按照如下方式进行:
将编码之后的语料用作深度学习网络的材料以训练得到实体识别模型;
S1、获取用于实体识别的语料:
王强乘坐火车去北京参加技术研讨会。研讨会主要讨论了AI新技术的发展。
句子根据vocab.txt切片:
王强乘坐火车去北京参加技术研讨会。研讨会主要讨论了AI新技术的发展。
S2、将语料进行标注:
[CLS]王强乘坐火车去北京参加技术研讨会。[SEP]研讨会主要讨论了AI新技术的发展。[SEP]
实体类型:人物(B-PER,I-PER)机构(B-ORG,I-ORG),地点(B-LOC, I-LOC),时间(B-TIM,I-TIM)
{'X':1,'B-PER':2,'I-PER':9,'O':5,'I-LOC':6,'B-ORG':7,'I-ORG':8,'[SEP]': 4,'[CLS]':3,'B-LOC':10}
BIO语料标注:
王 B-PER
强 I-PER
乘 O
坐 O
火 O
车 O
去 O
北 B-LOC
京 I-LOC
参 O
加 O
技 O
术 O
研 O
讨 O
会 O
。 O
S3、将标注之后的语料进行编码:
以上数据传入BERT-WWM编码后的示例:
分片后的编码:数字对应vocab中的索引
[[101,739,6818,2398,8038,776,2476,7770,7188,2456,2768,2832,6817,2692,721,7028,1920,511,776,2476,5296,6224,6395,749,704,1744,7188, 6662,4638,1355,2245,511,102,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0]]
分句后的编码:
[[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1, 1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]]
类型标注:
[[2,9,9,5,10,6,6,6,5,5,5,5,5,5,5,5,5,10,6,6,5,5,5,10,6,5,5,5,5,5, 5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,]]
S4、将编码之后的数据输入到BILSTM+CRF模型。
在第二个实施例中,如图2所示,在第一个实施例的基础上,S2分为如下几步进行:
S21、识别实体:
识别出来王强和两个实体;
S22、将实体利用WWM进行粒度(单字)或者词组进行替代,替代比例不高于10%:
如北京替代为上海或者北京替代为济南等;
S23、将替代后的语料按照第一个实施例的方式进行编码,然后放入到 BILSTM+CRF模型中进行训练,并纠正在识别过程中识别出来不是北京的词语。
将实施例1以及实施例2筛选得到的模型进行实体识别,实体识别的采取的对象分别包括从微博关于中超的文字(2000字),新浪的中超频道关于中超的文字(2000字),知乎关于中超的文字(2000字)进行识别,然后进行人工检查,其正确率分别如下所示:
信息来源 实体数目 实施例1模型 实施例2模型
微博 25 20 24
新浪 36 34 35
知乎 28 24 26
由于微博上的文字较为随意,实施例2得到的模型具有非常好的识别能力可见具有一定纠错能力;而对于一些专业媒体,由于其具有较好的专业性,因此实施例2得到的模型优势并不明显;知乎介于二者之间,实施例2得到的模型也有一定的优势。
在实施例3中,一种实体识别模型的训练装置,包括如下模块:语料库模块,用于提供语料;标注模块,用于将语料进行标注;编码模块,将标注之后的语料进行编码;训练模块,用于将编码之后的语料用作深度学习网络的材料以训练得到实体识别模型;所述语料进行编码时采用BERT-WWM模型进行编码处理。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种实体识别模型的训练方法,其特征在于:包括如下步骤:
获取用于实体识别的语料;
将语料进行标注;
将标注之后的语料进行编码;
将编码之后的语料用作深度学习网络的材料以训练得到实体识别模型;
所述语料进行编码时采用BERT-WWM模型进行编码处理。
2.根据权利要求1所述的一种实体识别模型的训练方法,其特征在于:所述语料按照字符进行标注,并将各个实体的开始和结束进行区分性标注。
3.根据权利要求2所述的一种实体识别模型的训练方法,其特征在于:所述语料标注完毕之后,先进行人工检查再进行编码。
4.根据权利要求2所述的一种实体识别模型的训练方法,其特征在于:所述BERT-WWM模型将编码得到的单词进行切片处理,进行切片处理之后,相邻的字符组成词组进行标注。
5.根据权利要求4所述的一种实体识别模型的训练方法,其特征在于:将词组进行标注之后,采用遮蔽语言模型进行词组的完整遮蔽,然后将遮蔽以及未遮蔽的语料共同作为深度学习网络的材料。
6.根据权利要求5所述的一种实体识别模型的训练方法,其特征在于:所述完整遮蔽包括如下形式:将词组利用等量的代码替代或将词组利用等量的其他词组替代。
7.根据权利要求1所述的一种实体识别模型的训练方法,其特征在于:所述深度学习网络采用BiLSTM+CRF模型。
8.根据权利要求1所述的一种实体识别模型的训练方法,其特征在于:所述语料标注按照如下方式进行:
语料的每个字符依次进行标注;
语料的句首添加[CLS]标签,句末添加[SEP]标签;
语料的中间材料采用BIO的标注方式,B代表实体的开始标签,I代表实体的非开始标签,O代表非实体标签;
对标注完成的语料,进行人工审核。
9.根据权利要求8所述的一种实体识别模型的训练方法,其特征在于:所述BIO标注方式中,不同的类型实体进行标明。
10.一种实体识别模型的训练装置,其特征在于:包括如下模块:
语料库模块,用于提供语料;
标注模块,用于将语料进行标注;
编码模块,将标注之后的语料进行编码;
训练模块,用于将编码之后的语料用作深度学习网络的材料以训练得到实体识别模型;
所述语料进行编码时采用BERT-WWM模型进行编码处理。
CN202010016766.4A 2020-01-08 2020-01-08 一种实体识别模型的训练方法及装置 Pending CN111222337A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010016766.4A CN111222337A (zh) 2020-01-08 2020-01-08 一种实体识别模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010016766.4A CN111222337A (zh) 2020-01-08 2020-01-08 一种实体识别模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN111222337A true CN111222337A (zh) 2020-06-02

Family

ID=70831041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010016766.4A Pending CN111222337A (zh) 2020-01-08 2020-01-08 一种实体识别模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN111222337A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818669A (zh) * 2022-04-26 2022-07-29 北京中科智加科技有限公司 一种人名纠错模型的构建方法和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710925A (zh) * 2018-12-12 2019-05-03 新华三大数据技术有限公司 命名实体识别方法及装置
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110489555A (zh) * 2019-08-21 2019-11-22 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710925A (zh) * 2018-12-12 2019-05-03 新华三大数据技术有限公司 命名实体识别方法及装置
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110489555A (zh) * 2019-08-21 2019-11-22 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818669A (zh) * 2022-04-26 2022-07-29 北京中科智加科技有限公司 一种人名纠错模型的构建方法和计算机设备
CN114818669B (zh) * 2022-04-26 2023-06-27 北京中科智加科技有限公司 一种人名纠错模型的构建方法和计算机设备

Similar Documents

Publication Publication Date Title
CN110807328B (zh) 面向法律文书多策略融合的命名实体识别方法及系统
CN108519890A (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN110276069B (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN109670041A (zh) 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN106257455A (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
CN113033185B (zh) 标准文本纠错方法、装置、电子设备和存储介质
CN112016320A (zh) 基于数据增强的英文标点符号添加方法和系统及设备
CN108257650A (zh) 一种应用于医技检查报告的智能纠错方法
CN113609824A (zh) 基于文本编辑和语法纠错的多轮对话改写方法及系统
He English grammar error detection using recurrent neural networks
CN115048940B (zh) 基于实体词属性特征和回译的中文金融文本数据增强方法
CN113360647A (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN110309513B (zh) 一种文本依存分析的方法和装置
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN114996470A (zh) 一种智能调度检修识别库构建方法
CN113011154B (zh) 一种基于深度学习的作业查重方法
CN111222337A (zh) 一种实体识别模型的训练方法及装置
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination