CN111738004B - 一种命名实体识别模型的训练方法及命名实体识别的方法 - Google Patents

一种命名实体识别模型的训练方法及命名实体识别的方法 Download PDF

Info

Publication number
CN111738004B
CN111738004B CN202010546972.6A CN202010546972A CN111738004B CN 111738004 B CN111738004 B CN 111738004B CN 202010546972 A CN202010546972 A CN 202010546972A CN 111738004 B CN111738004 B CN 111738004B
Authority
CN
China
Prior art keywords
named entity
training
entity recognition
data set
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010546972.6A
Other languages
English (en)
Other versions
CN111738004A (zh
Inventor
郭嘉丰
范意兴
刘艺菲
张儒清
程学旗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202010546972.6A priority Critical patent/CN111738004B/zh
Publication of CN111738004A publication Critical patent/CN111738004A/zh
Application granted granted Critical
Publication of CN111738004B publication Critical patent/CN111738004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种命名实体识别模型的训练方法及命名实体识别的方法,本发明利用训练集训练BERT‑CRF模型得到经本轮训练的命名实体识别模型,然后用经本轮训练的命名实体识别模型标记待识别数据集得到弱标记的待识别数据集,从弱标记的待识别数据集中选择一部分与初始训练集合并作为新的训练数据集继续对命名实体识别模型进行下一轮训练,从而让命名实体识别模型在对待识别数据集进行识别前用待识别数据集对模型进行调整,使其具有更佳的泛化能力,最终提升模型在待识别数据集上的识别效果。

Description

一种命名实体识别模型的训练方法及命名实体识别的方法
技术领域
本发明涉及自然语言处理技术领域,具体来说涉及命名实体识别技术领域,更具体地说,涉及一种命名实体识别模型的训练方法及命名实体识别的方法。
背景技术
自然语言处理是为了让计算机理解人类的语言,从而更好地实现人与计算之间的交互(如语音助手、消息自动回复、翻译软件等应用与人的交互)。自然语言处理通常包括分词、词性标注、命名实体识别和语法分析。命名实体识别(Named Entity Recognition,简称NER)是自然语言处理(Natural Language Processing,简称NLP)的一个重要组成部分。命名实体识别是指识别文本中具有特定意义的事物名称或者符号的过程,命名实体主要包括人名、地名、机构名、日期、专有名词等。许多下游NLP任务或应用程序都依赖NER进行信息提取,例如问题回答、关系提取、事件提取和实体链接等。若能更准确地识别出文本中的命名实体,有助于计算机更好地理解语言的语义、更好地执行任务,从而提高人机交互体验。
命名实体识别当前并不是一个大热的研究方向,因为学术界普遍认为这是一个已经解决了的问题。但是,也有一些研究者认为这个问题还没有得到很好地解决,原因主要是命名实体识别只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名、组织机构名)中取得了不错的效果;而在其他自然语言处理领域,命名实体评测语料较小,容易产生过拟合,通用的识别多种类型的命名实体的系统性能还很差。
基于深度学习的命名实体识别在英语新闻语料上已经达到不错的效果(F1值在90%以上),但深度学习方法一般需要大量标注数据,在真实世界中很多语言和领域通常标记数据比较少,因此出现了低资源命名实体识别问题。半监督学习是目前解决低资源命名实体识别问题的常用方法,一般认为半监督学习包含纯半监督学习和直推学习。但半监督学习仍存在模型性能相对较低,泛化能力也较低的问题,主要由于训练数据集引入不均衡的噪声的原因。假设有如下的数据集,其中训练集XL+XU,测试集为Xtest,已标记样本数目为L,未标记样本数目为U,L<<U。则样本可分为三类:标记样本(XL,YL)={(X1:L,Y1:L)};未标记样本XU={XL:N},训练时可用;测试样本Xtest={XN+1:},只有在测试时才可以看到。纯半监督学习是一种归纳学习(Inductive learning),基于训练集XL+XU学习再对测试样本Xtest进行预测,也即纯半监督学习是基于“开放世界”的假设进行学习。直推学习是(Transductivelearning),将测试样本Xtest也作为未标记样本,也即直推学习是基于“封闭世界”的假设进行学习。
自学习(Self-Training)是经典的纯半监督学习方法之一,该方法的学习过程一般包含多轮训练,在每一轮训练中使用上一轮训练得到的学习器对未标注数据进行预测,得到置信度较高的标注数据加入到训练数据集中,迭代地进行模型训练。自学习相比其它半监督学习方法的优势在于简单并且不需要任何假设。
直推学习这一思路来源于统计学习理论,并被一些学者认为是统计学习理论对机器学习思想的最重要的贡献。其出发点是不要通过解一个困难的问题来解决一个相对简单的问题。Gammerman等认为,经典的归纳学习期望学得一个在整个示例分布上具有低错误率的决策函数,这就是一个困难问题,因为在很多情况下,人们并不关心决策函数在整个示例分布上性能怎么样,而只是期望在给定的要预测的示例上达到最好的性能,后者比前者简单。具体来说,就是由学习器自行利用未标记数据,假定未标记数据就是测试样本,即学习的目的就是在这些未标记数据上取得最佳泛化能力。因此,在学习过程中显式地考虑目标标注数据,可以提高模型在目标标注数据上的泛化能力。
基于深度神经网络的命名实体识别方法通常将命名实体识别看做多分类任务或序列标注任务,可以分为输入的分布式表示、语义编码和标签解码三个过程,其中输入的分布式表示根据编码对象可以分为字符级别、词级别和混合三种,可以得到每个词的向量表示;语义编码通常应用深度神经网络,比如双向长短记忆神经网络,基于Transform的双向编码器表示(Bidirectional Encoder Representation from Transformers,简称BERT)以及迁移学习网络等,可以利用文本中每个词的词向量得到文本的向量表示;标签解码由分类器完成,分类器常利用全连接神经网络+Softmax层或者条件随机场+维特比算法(Viterbi算法)来得到每个词的标签。但是,对于一个待识别的无标注数据集,直接使用BERT模型进行识别时没有考虑未标注数据的特性,导致识别结果欠佳。因此,有必要对现有技术进行改进以提升使用BERT模型进行命名实体识别时的效果。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种命名实体识别模型的训练方法及命名实体识别的方法。
本发明的目的是通过以下技术方案实现的:
根据本发明的第一方面,提供一种命名实体识别模型的训练方法,其中,所述命名实体识别模型包含BERT-CRF模型,所述训练方法包括:A1、获取初始训练集和待识别数据集;A2、用初始训练集和待识别数据集对命名实体识别模型进行多轮训练直至其收敛;其中,每轮训练包括:用本轮训练集对命名实体识别模型进行监督训练得到经监督训练后的命名实体识别模型;用经监督训练后的命名实体识别模型对待识别数据集进行命名实体标注,得到弱标注的待识别数据集;和/或从本轮得到的弱标注的待识别数据集中提取子集,将该子集与初始训练集组成用于下一轮训练的训练集。
在本发明的一些实施例中,所述初始训练集是对标注数据集进行如下预处理后得到的数据集:将标注数据集中的文本按照分句规则进行分句得到多个句子;根据预设的单词表对每个句子进行分词,得到由多个单词组成的句子,每个单词带有标签;查询单词词典和标签词典获取每个单词的单词ID和标签ID以将句子转换成以单词ID和标签ID形式表示;将句子进行填充或截断以将所有句子统一为规定长度。
在本发明的一些实施例中,所述待识别数据集是对无标注数据集进行如下预处理后得到的数据集:将无标注数据集中的文本按照分句规则进行分句得到多个句子;根据预设的单词表对每个句子进行分词,得到由多个单词组成的句子;查询单词词典获取每个单词的单词ID以将句子转换成以单词ID形式表示;将句子进行填充或截断以将所有句子统一为规定长度。
在本发明的一些实施例中,所述用本轮训练集对命名实体识别模型进行监督训练得到经监督训练后的命名实体识别模型包括:将本轮数据集中的句子输入命名实体识别模型中BERT-CRF模型的BERT层,得到句子中单词的编码向量;将句子中单词的编码向量输入BERT-CRF模型的CRF层,得到由句子中所有单词对应的所有标签的概率序列组成的该句子的概率矩阵;BERT-CRF模型的CRF层用维特比算法处理每个句子的概率矩阵,得到最优标注序列;根据最优标注序列得到单词的识别标签ID,并用单词的识别标签ID与标注数据集中单词的标签ID调整命名实体识别模型中BERT-CRF模型的参数。
在本发明的一些实施例中,所述用经监督训练后的命名实体识别模型对待识别数据集进行命名实体标注,得到弱标注的待识别数据集包括:将经预处理后的无标注数据集输入用监督训练得到的最新的命名实体识别模型;用命名实体识别模型中的BERT-CRF模型和维特比算法对经预处理后的无标注数据集中每个句子中的单词进行命名实体标注,得到带有每个单词的识别标签的弱标注的待识别数据集,其中每个单词的识别标签带有对应的概率值。
优选的,所述子集是由弱标注的待识别数据集中置信度大于等于置信度阈值的句子组成,其中,句子的置信度是指该句子中所有被标注为实体的单词的识别标签的平均概率值。优选的,所述置信度阈值是0.8。
在本发明的一些实施例中,所述用初始训练集和待识别数据集对命名实体识别模型进行多轮训练,满足以下评价规则中任意一个则视为命名实体识别模型已训练至收敛:第一评价规则:训练轮数达到自定义的上限轮数;第二评价规则:命名实体识别模型对应的F1值在一轮训练后与其前一轮训练后相比变化幅度小于等于预设变化幅度阈值;第三评价规则:训练轮数已达到自定义的下限轮数,并且命名实体识别模型在验证集上识别的精确率在某一轮训练后与其前一轮训练后相比没有提升。
根据本发明的第二方面,提供一种采用第一方面所述的命名实体识别模型训练方法得到的命名实体识别模型进行命名实体识别的方法,所述命名实体识别模型包括BERT-CRF模型,所述方法包括:B1、将待识别数据集的句子输入BERT-CRF模型的BERT层,得到句子中单词的编码向量;B2、将句子中单词的编码向量输入BERT-CRF模型的CRF层,得到由句子中所有单词对应的所有标签的概率序列组成的该句子的概率矩阵;B3、BERT-CRF模型的CRF层用维特比算法处理每个句子的概率矩阵,得到最优标注序列;B4、从最优标注序列得到句子中每个单词的标签作为命名实体识别结果。
根据本发明的第三方面,一种电子设备,包括:一个或多个处理器;以及存储器,其中存储器用于存储一个或多个可执行指令;所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现如第一方面和/或第二方面所述方法的步骤。
与现有技术相比,本发明的优点在于:
本发明利用训练集训练BERT-CRF模型得到经本轮训练的命名实体识别模型,然后用经本轮训练的命名实体识别模型标记待识别数据集得到弱标记的待识别数据集,从弱标记的待识别数据集中选择一部分与初始训练集合并作为新的训练数据集继续对命名实体识别模型进行下一轮训练,从而让命名实体识别模型在对待识别数据集进行识别前用待识别数据集对模型进行调整。由于是循环用选取的弱标注的待识别数据集的子集和初始训练集组成下一轮的训练集,引入的噪声是随机的,使其具有更佳的泛化能力,最终提升模型在待识别数据集上的识别效果。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为BERT-CRF模型的结构示意图;
图2为根据本发明实施例的命名实体识别模型的训练方法的流程示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如在背景技术部分提到的,对于一个待识别的无标注数据集,直接使用BERT模型进行识别时没有考虑未标注数据的特性,导致识别结果欠佳。本发明结合直推学习与自学习方法,利用训练集训练BERT-CRF模型得到经本轮训练的命名实体识别模型,然后用经本轮训练的命名实体识别模型标记待识别数据集得到弱标记的待识别数据集,从弱标记的待识别数据集中选择一部分与初始训练集合并作为新的训练数据集继续对命名实体识别模型进行下一轮训练,从而让命名实体识别模型在对待识别数据集进行识别前用待识别数据集对模型进行调整,由于是循环用选取的弱标注的待识别数据集的子集和初始训练集组成下一轮的训练集,引入的噪声是随机的,使其具有更佳的泛化能力,最终提升模型在待识别数据集上的识别效果。
在对本发明的实施例进行具体介绍之前,先对其中使用到的部分术语作如下解释:
BERT模型,是谷歌(Google)于2018年末开发并发布的一种语言模型。全称为来自变换器的双向编码器表征量(Bidirectional Encoder Representations fromTransformers)。
CRF(Conditional Random Fields),表示条件随机场,是一种给定输入随机变量x,求解条件概率P(y│x)的概率无向图模型。条件随机场模型需要建模的是输入变量和输出变量的条件概率分布。条件随机场常用于标注或分析序列资料,如自然语言文字或是生物序列。用于序列标注时,输入输出随机变量为两个等长的序列。
实体标签,是用于指示对应的单词是否是实体以及是哪类实体的标签。
根据本发明的一个实施例,本发明提供一种命名实体识别模型的训练方法,该命名实体识别模型包含BERT-CRF模型,该方法包括步骤A1、A2。为了更好地理解本发明,下面结合具体的实施例针对每一个步骤分别进行详细说明。
在步骤A1中,获取初始训练集和待识别数据集。
根据本发明的一个实施例,初始训练集是对标注数据集进行如下预处理后得到的数据集:将标注数据集中的文本按照分句规则进行分句得到多个句子;根据预设的单词表对每个句子进行分词,得到由多个单词组成的句子,每个单词带有标签;查询单词词典和标签词典获取每个单词的单词ID和标签ID以将句子转换成以单词ID和标签ID形式表示;将句子进行填充或截断以将所有句子统一为规定长度。待识别数据集是对无标注数据集进行如下预处理后得到的数据集:将无标注数据集中的文本按照分句规则进行分句得到多个句子;根据预设的单词表对每个句子进行分词,得到由多个单词组成的句子;查询单词词典获取每个单词的单词ID以将句子转换成以单词ID形式表示;将句子进行填充或截断以将所有句子统一为规定长度。按照分句规则进行分句可以是使用正则表达式进行匹配的方式进行分句。例如,对于文本“My name is Tony.I am a boy.I like watching movies!”,分句结果为[‘My name is Tony.’,‘I am a boy.’,‘I like watching movies!’]。对于句子Myname is Tony,分词结果为['My','name','is','Tony','.']。单词表可以是谷歌预训练的BERT模型对应的单词表。单词词典、标签词典可以是谷歌预训练的BERT模型对应的单词词典、标签词典。单词词典中每个单词都有一个对应的单词ID。此外单词词典中还设有未知词对应的单词ID,即,如果在单词词典中查询一个单词的单词ID,但是该单词没有记录在词典中,则查询反馈的结果为未知词对应的单词ID。标签词典中每个标签都有一个对应的标签ID。规定长度是指规定的句子最长长度,一般设置为128,即句子最长包含128个单词。例如,一个句子不足128个单词则在句子末尾填充0补齐至128个单词,多于128个单词则从超出处截断。
在步骤A2中,用初始训练集和待识别数据集对命名实体识别模型进行多轮训练直至其收敛;其中,每轮训练包括:用本轮训练集对命名实体识别模型进行监督训练得到经监督训练后的命名实体识别模型;用经监督训练后的命名实体识别模型对待识别数据集进行命名实体标注,得到弱标注的待识别数据集;从本轮得到的弱标注的待识别数据集中提取子集,将该子集与初始训练集组成用于下一轮训练的训练集。本发明将训练过程中命名实体识别模型对待识别数据集进行命名实体标注的弱标注作为待识别数据集的标注结果并选取其子集与初始训练集组成下一轮训练的训练集,待识别数据集的规模大小可按需设置,由此用该规模的待识别数据集扩充用于训练命名实体识别模型的训练集的大小,使得最终的命名实体识别模型具有更佳的泛化能力,在待识别数据集上的识别效果更好。
根据本发明的一个实施例,用本轮训练集对命名实体识别模型进行监督训练得到经监督训练后的命名实体识别模型包括:将本轮数据集中的句子输入命名实体识别模型中BERT-CRF模型的BERT层,得到句子中单词的编码向量;将句子中单词的编码向量输入BERT-CRF模型的CRF层,得到由句子中所有单词对应的所有标签的概率序列组成的该句子的概率矩阵;BERT-CRF模型的CRF层用维特比算法处理每个句子的概率矩阵,得到最优标注序列;根据最优标注序列得到单词的识别标签ID,并用单词的识别标签ID与标注数据集中单词的标签ID调整命名实体识别模型中BERT-CRF模型的参数。
一些现有技术用BERT层+全连接层解决序列标注问题,在命名实体识别时,经过BERT层后得到的编码向量通过全连接层映射到标签集合后,单个单词的输出向量再经过Softmax处理,每一维度的数值就表示该单词为某一类别的概率,基于此数据便可计算损失并训练模型。而本发明将全连接层替换为CRF层,通过BERT-CRF模型更好地捕捉标签之间的结构特性。BERT-CRF模型的结构示意图如图1所示,包括依次连接的BERT层和CRF层,句子中的单词(Word)输入BERT层得到编码向量,将该编码向量作为CRF层的输入,得到单词对应的所有标签的概率序列组成的概率矩阵,然后根据概率矩阵用维特比算法进行解码,得到最优标注序列,最优标注序列中含有单词对应的标签(Label)。[CLS]是BERT模型中规定的句子起始标识。图1中的示例使用的是Ontonotes5.0数据集的标签体系,包括如表1所示18类表示实体的标签。BIO标注模式下,18类表示实体的标签与字符B(Begin,表示开始)和I(Inside,表示内部)组合,形成36个表示实体的标签,此外,加上表示非实体的标签O(Outside,表示外部,该标签对应的单词视为非实体),共计37个用于区分单词是某类实体或者非实体的实体标签。例如,在图1中,{CLS}Dongguan Guangdong isgreat会被标注为OB-GPE I-GPE O O。标签B-GPE和I-GPE都属于表示实体的标签,分别表示城市实体(起始)和城市实体(内部),标签O表示非实体的标签。
表1 Ontonotes5.0数据集的标签体系
结合表1的标签,给出如表2所示的句子的概率矩阵的形式示意表,表2中,每个单词所在列内的数据相当于是概率序列,概率序列中标签对应的概率指示该单词是标签对应的某类实体或者非实体的概率,某个单词的某个标签对应的概率值越大则说明该单词是该标签的可能性越大。每个单词的所有标签对应的概率值组成了该单词对应的所有标签的概率序列。每个句子中所有单词对应的所有标签的概率序列组成了该句子的概率矩阵。
表2句子的概率矩阵的形式示意表
根据本发明的一个实施例,用经监督训练后的命名实体识别模型对待识别数据集进行命名实体标注,得到弱标注的待识别数据集包括:将经预处理后的无标注数据集输入用监督训练得到的最新的命名实体识别模型;用命名实体识别模型中的BERT-CRF模型和维特比算法对经预处理后的无标注数据集中每个句子中的单词进行命名实体标注,得到带有每个单词的识别标签的弱标注的待识别数据集,其中每个单词的识别标签带有对应的概率值。
根据本发明的一个实施例,子集是由弱标注的待识别数据集中句子的置信度大于等于置信度阈值的句子组成,其中,句子的置信度是指该句子中所有被标注为实体的单词的识别标签的平均概率值。优选的,置信度阈值是0.8。以句子“Tony and Tom arefriends”为例,识别出各单词的识别标签依次为B-Person O B-Person O O,假设识别标签的概率值依次为78%90%88%91%89%,则该句子中所有被标注为实体的单词的识别标签的平均概率值=(78%+88%)/2=0.83,该句子的置信度0.83大于置信度阈值0.8,则该句子会被选入子集。该实施例的技术方案至少能够实现以下有益技术效果:本发明的待识别数据集被监督训练后的命名实体识别模型进行命名实体识别后得到的弱标注的待识别数据集,不仅选取的是其中置信度高的句子组成的子集与初始训练集组成下一轮训练集,而且多轮训练的过程中,由于命名实体识别模型参数的变化,每一轮的子集都有所变化,从而随机引入较均衡的噪声,提高模型的泛化能力。
根据本发明的一个实施例,用初始训练集和待识别数据集对命名实体识别模型进行多轮训练直至其收敛中,满足以下评价规则中任意一个则视为命名实体识别模型已训练至收敛:第一评价规则:训练轮数达到自定义的上限轮数;第二评价规则:命名实体识别模型对应的F1值在一轮训练后与其前一轮训练后相比变化幅度小于等于预设变化幅度阈值;第三评价规则:训练轮数已达到自定义的下限轮数,并且命名实体识别模型在验证集上识别的精确率在某一轮训练后与其前一轮训练后相比没有提升。例如,下限轮数设为3,上限轮数设为100,变化幅度阈值设为设为±0.5%。
总的来说,本发明融合了直推学习与自学习方法提出了一种命名实体识别模型,该模型是一种直推自学习模型(Transductive self-training model,TRST),在自学习的过程中不断将学习到的预测模型在目标标注数据上的部分弱标注预测结果添加到原始训练数据集上,从而提升模型的识别效果。
根据本发明的一个实施例,如图2所示,本发明的训练过程包括:在训练前,会对标注数据集和无标注数据集进行预处理。对标注数据集的预处理过程包括分句、根据谷歌预训练的BERT模型的单词表进行分词、根据单词词典将单词转换为单词ID、根据标签词典将标签转换为标签ID,然后将所有句子统一为规定长度,得到初始训练集。因为无标注数据集没有标签,所以对无标注数据集的预处理过程与标注数据集的预处理过程相比,没有根据标签词典将标签转换为标签ID的步骤。预处理完成后,对采用BERT-CRF模型(其BERT层初始采用谷歌预训练的BERT模型)和维特比算法的命名实体识别模型进行训练,用训练好的命名实体识别模型对待识别数据集进行标注,得到带有弱标注的待识别数据集,随后选择弱标注的待识别数据集的子集与初始训练集合作为新的本轮训练集(即,下一轮的训练集)进行重复训练直至命名实体识别模型收敛。
下面通过一个示意性的算法来进一步说明本发明:
该算法中,每行含义如下
1:初始化模型Cint
2:给定已标记的初始训练集(XL,YL)作为原始训练数据集(Xtrain,Ytrain);
3:在未达到停止标准前循环进行步骤4-7;
4:利用本轮训练数据集训练BERT-CRF模型得到训练好的模型Cint
5:用模型Cint标记待识别数据集Xtest得到其标签Ytest
6:从已标记的待识别数据集(Xtest,Ytest)中选择部分实例(Xconf,Yconf);
7:将选择的实例(Xconf,Yconf)和初始训练集(XL,YL)合并作为新的训练数据集(Xtrain,Ytrain);
8:结束循环。
下面通过一个具体实验示例来验证本发明的效果。
第一部分:数据集设置
本发明进行的实验使用社交媒体领域的Ritter11数据集(RI)进行评测,Ritter11数据集的统计信息如表3所示。为了能够测评模型训练效果,本发明将Ritter11的训练数据集作为标注数据集,将Ritter11的测试数据集作为无标注数据集,在训练过程中不使用其原始的标签(视为无标注数据),只在验证或测试时用其原始的标签与识别出的识别标签进行比对以对模型训练效果进行评价。在评价方法采用CoNLL03会议规定的完全匹配,即边界和类型均匹配才算作正确匹配。
表3 Ritter11数据集统计信息
Ritter11数据集
训练数据集单词数量 37,098
验证数据集单词数量 4,461
测试数据集单词数量 4,730
训练数据集句子数量 1,915
验证数据集句子数量 239
测试数据集句子数量 240
命名实体类别数量 10
在本领域,获取到数据集后,通常会将数据集分为表3所示的三个部分,分别是训练数据集(简称训练集)、验证数据集(简称验证集)和测试数据集(简称测试集)。训练集用于训练模型,训练中会用训练集中的样本对各个模型或者模块多轮训练,训练至收敛。验证集用于统计评估指标、调节参数、选择算法。测试集用于在最后整体评估模型的性能。
对于表3中Ritter11数据集的10类命名实体类别对应的表示实体的标签,可参见表4。
表4 Ritter11的标签体系
第二部分:实验设置
实验的基线实验为BiLSTM-CRF和BERT-CRF模型在初始训练集上的训练结果。自学习的基础模型是BERT-CRF模型,在初始训练集上进行训练记作第一轮(Round 0),接下来每轮自学习都记作一轮(Round),训练结果为BERT-CRF在初始训练集和部分上一轮模型标注好的待识别数据集合并后的数据集上的结果。
本发明的命名实体识别模型的初始BERT-CRF模型的BERT层在实验时采用的是谷歌预训练好的BERT模型,含有12层和输出维度为768维的区分大小写的预训练BERT模型。
第三部分:评价方法和指标
评价方法采用CoNLL03会议规定的完全匹配规则,即实体的边界和类型均匹配才算作正确匹配(正确标注)。
评价指标使用精确率(Precision),召回率(Recall)和F1值(F1-score),计算方式如下:
精确率:
召回率:
F1值:
其中,TP表示True Positive(TP),是指被模型预测为正的正样本(实体单词被正确标注);可以称作判断为真的正确率;
FP表示False Positive(FP),是指被模型预测为正的负样本(非实体单词被标注为实体);可以称作误报率;
FN表示False Negative(FN),是指被模型预测为负的正样本(实体单词被标注为非实体);可以称作漏报率。
第四部分:流程描述
首先载入Google预训练好的BERT模型。然后开始进行数据预处理过程:先对待处理文本进行分句,得到句子,将句子根据BERT预训练好的单词表进行分词,并将文本中的单词表示成单词ID,标签表示成标签ID(如果有标签),然后将句子和对应的标签填充(补0)或截断到规定的句子最长长度,一般设置为128,即句子最长包含128个单词。然后进行模型训练过程:通过BERT-CRF模型和维特比算法将句子中每个单词分到匹配程度最大的类别中,学习到初始模型Cint,用该模型标记测试数据集得到弱标注结果,并选取一部分弱标注测试数据与原始训练数据集合并,作为新的训练数据集。然后再循环进行上述训练过程,即按照前面的实施例的算法的流程不断进行学习,训练至模型收敛。
第五部分:实验结果
该示例的实验结果如表5所示:
表5 BiLSTM-CRF模型、BERT-CRF模型以及本发明在Ritter11验证集和测试集上的实验结果
从表5可以看出,BiLSTM-CRF模型和BERT-CRF模型的结果对比证明了本发明采用BERT作为基础模型架构的必要性;本发明的模型(经5轮训练)和BERT-CRF的结果对比证明了在同样的网络结构下,本发明提出的训练方法可以有效的提升模型的识别效果,经过5轮迭代后,模型在验证数据集和测试数据集上F1值分别提升了1.54%和1.64%。
为进一步探究本发明的模型在多轮学习过程中性能变化情况,表6给出了本发明的模型在Ritter11数据集上的每一轮自学习在验证和测试数据集上的实验结果。从实验结果来看,模型在两个数据集上表现的规律一致,在第1轮弱标注结果加入后性能会有轻微下降,然后接下来每一轮性能都会提升。发明人分析其原因为第0轮训练出的模型泛化能力不足,导致第0轮的模型提供的弱标注结果存在较多噪音,因而造成了第1轮的性能下降,随后每轮继续随机加入弱标注结果相当于对模型不断进行更正,并且引入的噪声也是随机的,因此效果有所提升。经过5轮迭代后,模型在验证集和测试集上的F1值相比第0轮分别提升了1.54%和1.64%,证明了本发明提出的模型的有效性。应当说明的是,虽然本发明是根据从弱标注的待识别数据集中句子的置信度大于等于置信度阈值的句子组成的子集合并到初始训练集,但是由于其标注是弱标注,其标注有可能是正确的也可能是错误的,每次选取子集的错误不同,所以引入的噪声是随机的。
表6本发明的模型在Ritter11验证集和测试集上的实验结果
根据本发明的一个实施例,提供一种采用前述实施例所述的命名实体识别模型训练方法得到的命名实体识别模型进行命名实体识别的方法,命名实体识别模型包括BERT-CRF模型,所述方法包括:B1、将待识别数据集的句子输入BERT-CRF模型的BERT层,得到句子中单词的编码向量;B2、将句子中单词的编码向量输入BERT-CRF模型的CRF层,得到由句子中所有单词对应的所有标签的概率序列组成的该句子的概率矩阵;B3、BERT-CRF模型的CRF层用维特比算法处理每个句子的概率矩阵,得到最优标注序列;B4、从最优标注序列得到句子中每个单词的标签作为命名实体识别结果。
根据本发明的一个实施例,提供一种电子设备,包括:一个或多个处理器;以及存储器,其中存储器用于存储一个或多个可执行指令;所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现前述实施例的命名实体识别模型训练方法或者命名实体识别的方法的步骤。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (9)

1.一种命名实体识别模型的训练方法,其中,所述命名实体识别模型包含BERT-CRF模型,其特征在于,所述训练方法包括:
A1、获取初始训练集和待识别数据集;
A2、用初始训练集和待识别数据集对命名实体识别模型进行多轮训练直至其收敛;其中,每轮训练包括:
用本轮训练集对命名实体识别模型进行监督训练得到经监督训练后的命名实体识别模型;
用经监督训练后的命名实体识别模型对所述待识别数据集进行命名实体标注,得到弱标注的待识别数据集;
从本轮得到的弱标注的待识别数据集中提取子集,将该子集与所述初始训练集组成用于下一轮训练的训练集,其中,所述子集是由弱标注的待识别数据集中置信度大于等于置信度阈值的句子组成,句子的置信度是指该句子中所有被标注为实体的单词的识别标签的平均概率值。
2.根据权利要求1所述的命名实体识别模型的训练方法,其特征在于,所述初始训练集是对标注数据集进行如下预处理后得到的数据集:
将标注数据集中的文本按照分句规则进行分句得到多个句子;
根据预设的单词表对每个句子进行分词,得到由多个单词组成的句子,每个单词带有标签;
查询单词词典和标签词典获取每个单词的单词ID和标签ID以将句子转换成以单词ID和标签ID形式表示;
将句子进行填充或截断以将所有句子统一为规定长度;
所述待识别数据集是对无标注数据集进行如下预处理后得到的数据集:
将无标注数据集中的文本按照分句规则进行分句得到多个句子;
根据预设的单词表对每个句子进行分词,得到由多个单词组成的句子;
查询单词词典获取每个单词的单词ID以将句子转换成以单词ID形式表示;
将句子进行填充或截断以将所有句子统一为规定长度。
3.根据权利要求2所述的命名实体识别模型的训练方法,其特征在于,所述用本轮训练集对命名实体识别模型进行监督训练得到经监督训练后的命名实体识别模型包括:
将本轮数据集中的句子输入命名实体识别模型中BERT-CRF模型的BERT层,得到句子中单词的编码向量;
将句子中单词的编码向量输入BERT-CRF模型的CRF层,得到由句子中所有单词对应的所有标签的概率序列组成的该句子的概率矩阵;
BERT-CRF模型的CRF层用维特比算法处理每个句子的概率矩阵,得到最优标注序列;
根据最优标注序列得到单词的识别标签ID,并用单词的识别标签ID与标注数据集中单词的标签ID调整命名实体识别模型中BERT-CRF模型的参数。
4.根据权利要求3所述的命名实体识别模型的训练方法,其特征在于,所述用经监督训练后的命名实体识别模型对待识别数据集进行命名实体标注,得到弱标注的待识别数据集包括:
将经预处理后的无标注数据集输入用监督训练得到的最新的命名实体识别模型;
用命名实体识别模型中的BERT-CRF模型和维特比算法对经预处理后的无标注数据集中每个句子中的单词进行命名实体标注,得到带有每个单词的识别标签的弱标注的待识别数据集,其中每个单词的识别标签带有对应的概率值。
5.根据权利要求4所述的命名实体识别模型的训练方法,其特征在于,所述置信度阈值是0.8。
6.根据权利要求1至5任一项所述的命名实体识别模型的训练方法,所述用初始训练集和待识别数据集对命名实体识别模型进行多轮训练,满足以下评价规则中任意一个则视为命名实体识别模型已训练至收敛:
第一评价规则:训练轮数达到自定义的上限轮数;
第二评价规则:命名实体识别模型对应的F1值在一轮训练后与其前一轮训练后相比变化幅度小于等于预设变化幅度阈值;
第三评价规则:训练轮数已达到自定义的下限轮数,并且命名实体识别模型在验证集上识别的精确率在某一轮训练后与其前一轮训练后相比没有提升。
7.一种采用权利要求1至6任一项所述的命名实体识别模型训练方法得到的命名实体识别模型进行命名实体识别的方法,其特征在于,所述命名实体识别模型包括BERT-CRF模型,
所述方法包括:
B1、将待识别数据集的句子输入BERT-CRF模型的BERT层,得到句子中单词的编码向量;
B2、将句子中单词的编码向量输入BERT-CRF模型的CRF层,得到由句子中所有单词对应的所有标签的概率序列组成的该句子的概率矩阵;
B3、BERT-CRF模型的CRF层用维特比算法处理每个句子的概率矩阵,得到最优标注序列;
B4、从最优标注序列得到句子中每个单词的标签作为命名实体识别结果。
8.一种计算机可读存储介质,其特征在于,其上包含有计算机程序,所述计算机程序可被处理器执行以实现权利要求1至7中任一项所述方法的步骤。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
存储器,其中存储器用于存储一个或多个可执行指令;
所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现权利要求1至7中任一项所述方法的步骤。
CN202010546972.6A 2020-06-16 2020-06-16 一种命名实体识别模型的训练方法及命名实体识别的方法 Active CN111738004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010546972.6A CN111738004B (zh) 2020-06-16 2020-06-16 一种命名实体识别模型的训练方法及命名实体识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010546972.6A CN111738004B (zh) 2020-06-16 2020-06-16 一种命名实体识别模型的训练方法及命名实体识别的方法

Publications (2)

Publication Number Publication Date
CN111738004A CN111738004A (zh) 2020-10-02
CN111738004B true CN111738004B (zh) 2023-10-27

Family

ID=72649377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010546972.6A Active CN111738004B (zh) 2020-06-16 2020-06-16 一种命名实体识别模型的训练方法及命名实体识别的方法

Country Status (1)

Country Link
CN (1) CN111738004B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329466A (zh) * 2020-10-13 2021-02-05 北京三快在线科技有限公司 命名实体识别模型的构建方法、装置、设备以及存储介质
CN114386395A (zh) * 2020-10-16 2022-04-22 阿里巴巴集团控股有限公司 多语言文本的序列标注方法、装置及电子设备
CN112347738B (zh) * 2020-11-04 2023-09-15 平安直通咨询有限公司上海分公司 基于裁判文书的双向编码器表征量模型优化方法和装置
CN112347791B (zh) * 2020-11-06 2023-10-13 北京奇艺世纪科技有限公司 文本匹配模型的构建方法、系统、计算机设备及存储介质
CN114462408A (zh) * 2020-11-10 2022-05-10 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及可读存储介质
CN112528643A (zh) * 2020-12-14 2021-03-19 上海栖盟科技有限公司 一种基于神经网络的文本信息提取方法及装置
CN112633002A (zh) * 2020-12-29 2021-04-09 上海明略人工智能(集团)有限公司 样本标注、模型训练、命名实体识别方法和装置
CN112633003B (zh) * 2020-12-30 2024-05-31 平安科技(深圳)有限公司 一种地址识别方法、装置、计算机设备及存储介质
CN112765984A (zh) * 2020-12-31 2021-05-07 平安资产管理有限责任公司 命名实体识别方法、装置、计算机设备和存储介质
CN112364656A (zh) * 2021-01-12 2021-02-12 北京睿企信息科技有限公司 一种基于多数据集多标签联合训练的命名实体识别方法
CN112749563A (zh) * 2021-01-21 2021-05-04 北京明略昭辉科技有限公司 一种命名实体识别数据标注质量评估与控制方法及系统
CN112818691A (zh) * 2021-02-01 2021-05-18 北京金山数字娱乐科技有限公司 命名实体识别模型训练方法及装置
CN112800747A (zh) * 2021-02-02 2021-05-14 虎博网络技术(北京)有限公司 文本处理方法、装置及计算机设备
CN112800768A (zh) * 2021-02-03 2021-05-14 北京金山数字娱乐科技有限公司 一种嵌套命名实体识别模型的训练方法及装置
CN112802570A (zh) * 2021-02-07 2021-05-14 成都延华西部健康医疗信息产业研究院有限公司 一种针对电子病历命名实体识别系统及方法
CN113064992A (zh) * 2021-03-22 2021-07-02 平安银行股份有限公司 投诉工单结构化处理方法、装置、设备及存储介质
CN113158652B (zh) * 2021-04-19 2024-03-19 平安科技(深圳)有限公司 基于深度学习模型的数据增强方法、装置、设备及介质
CN113011191B (zh) * 2021-04-28 2024-04-16 广东工业大学 一种知识联合抽取模型训练方法
CN113128234B (zh) * 2021-06-17 2021-11-02 明品云(北京)数据科技有限公司 一种实体识别模型的建立方法、系统、电子设备及介质
CN113343701B (zh) * 2021-06-30 2022-08-02 广东电网有限责任公司 一种电力设备故障缺陷文本命名实体的抽取方法及装置
CN113191153B (zh) * 2021-07-01 2021-10-26 杭州费尔斯通科技有限公司 一种领域迁移学习的实体识别方法、系统和设备
CN113392649B (zh) * 2021-07-08 2023-04-07 上海浦东发展银行股份有限公司 一种识别方法、装置、设备及存储介质
CN113283244B (zh) * 2021-07-20 2021-10-01 湖南达德曼宁信息技术有限公司 一种基于预训练模型的招投标数据命名实体识别方法
CN113516196B (zh) * 2021-07-20 2024-04-12 云知声智能科技股份有限公司 命名实体识别数据增强的方法、装置、电子设备和介质
CN113761925B (zh) * 2021-07-23 2022-10-28 中国科学院自动化研究所 基于噪声感知机制的命名实体识别方法、装置及设备
CN113724819B (zh) * 2021-08-31 2024-04-26 平安国际智慧城市科技股份有限公司 医疗命名实体识别模型的训练方法、装置、设备及介质
CN113919355B (zh) * 2021-10-19 2023-11-07 四川大学 一种适用于少训练语料场景的半监督命名实体识别方法
CN114021565A (zh) * 2021-10-26 2022-02-08 北京沃东天骏信息技术有限公司 命名实体识别模型的训练方法及装置
CN113779999B (zh) * 2021-11-12 2022-02-15 航天宏康智能科技(北京)有限公司 命名实体识别方法和命名实体识别装置
CN114298042B (zh) * 2021-11-30 2024-10-15 清华大学 实体链接方法、实体链接模型训练方法及电子设备
CN114266253B (zh) * 2021-12-21 2024-01-23 武汉百智诚远科技有限公司 一种未标注数据的半监督命名实体识别的方法
CN114036933B (zh) * 2022-01-10 2022-04-22 湖南工商大学 基于法律文书的信息抽取方法
CN115146642B (zh) * 2022-07-21 2023-08-29 北京市科学技术研究院 一种面向命名实体识别的训练集自动标注方法及系统
CN115859979A (zh) * 2022-11-22 2023-03-28 北京擎盾信息科技有限公司 法律文书命名实体识别方法、装置及存储介质
CN116341552A (zh) * 2023-04-11 2023-06-27 国网河南省电力公司电力科学研究院 基于Bert-CRF的变电站防汛命名实体识别方法
CN116545779B (zh) * 2023-07-06 2023-10-03 鹏城实验室 网络安全命名实体识别方法、装置、设备和存储介质
CN117574906B (zh) * 2024-01-15 2024-05-24 深圳市客路网络科技有限公司 命名实体识别方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168946A (zh) * 2017-04-14 2017-09-15 北京化工大学 一种医疗文本数据的命名实体识别方法
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110704633A (zh) * 2019-09-04 2020-01-17 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168946A (zh) * 2017-04-14 2017-09-15 北京化工大学 一种医疗文本数据的命名实体识别方法
CN109992782A (zh) * 2019-04-02 2019-07-09 深圳市华云中盛科技有限公司 法律文书命名实体识别方法、装置及计算机设备
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110704633A (zh) * 2019-09-04 2020-01-17 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘一鸣.基于半监督学习的命名实体识别的方法.《数字技术与应用》.2020,第38卷(第1期),摘要、4 自学习方法、6实验,图1. *

Also Published As

Publication number Publication date
CN111738004A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111738004B (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110427461B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN109726400B (zh) 实体词识别结果评价方法、装置、设备及实体词提取系统
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN114926150A (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN117113937A (zh) 一种基于大规模语言模型的电力领域阅读理解方法和系统
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN114564953A (zh) 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型
CN117787283A (zh) 基于原型对比学习的小样本细粒度文本命名实体分类方法
CN113705207A (zh) 语法错误识别方法及装置
CN113051886A (zh) 一种试题查重方法、装置、存储介质及设备
CN112836482A (zh) 一种基于模板的序列生成模型生成问题的方法及装置
CN117521074A (zh) 基于知识驱动的预训练模型软件漏洞实体识别装置及方法
CN110826341A (zh) 一种基于seq2seq模型的语义相似度计算方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN114637852B (zh) 医学文本的实体关系抽取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant