CN111291569B - 多类别实体识别模型的训练方法及装置 - Google Patents
多类别实体识别模型的训练方法及装置 Download PDFInfo
- Publication number
- CN111291569B CN111291569B CN202010293118.3A CN202010293118A CN111291569B CN 111291569 B CN111291569 B CN 111291569B CN 202010293118 A CN202010293118 A CN 202010293118A CN 111291569 B CN111291569 B CN 111291569B
- Authority
- CN
- China
- Prior art keywords
- entity recognition
- entity
- recognition model
- category
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本公开提供了一种多类别实体识别模型的训练方法及装置,所述方法包括:生成第一实体识别模型;使用N种单类别语料分别对第一实体识别模型进行训练,得到N个单类别实体识别模型,其中N为大于或等于2的整数;采用N个单类别实体识别模型对包括多类别实体的混合语料进行识别,得到标注的N类别混合语料;使用标注的N类别混合语料对第一实体识别模型进行训练,得到N类别实体识别模型。本公开提供的多类别实体识别模型的训练方法及装置,能够有效解决现有技术中多类别实体识别方法维护成本高、差错率高且运行效率低的问题。
Description
技术领域
本公开涉及自然语言处理技术领域,具体涉及一种多类别实体识别模型的训练方法及装置。
背景技术
在自然语言处理技术领域,命名实体识别(Named Entity Recognition,简称NER)是指从非结构化的输入文本中抽取出具有特定意义或者指代性强的实体,通常还将实体分类为人名、地名、组织机构名、日期时间以及其他专有名词等。
目前的多类别实体识别多采用词典匹配法或上下文感知法。但是,词典匹配法依赖于分词效果和词库数据,准确性较差且维护成本高;而上下文感知法需要根据上下文语境进行分词和类别判断,效率低且差错率高。因此,需要一种成本低、差错率低且运行效率高的多类别实体识别方法。
发明内容
有鉴于此,本公开提供了一种多类别实体识别模型的训练方法及装置,能够有效解决现有技术中多类别实体识别方法维护成本高、差错率高且运行效率低的问题。
下文中将给出关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,此概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本公开的第一方面,提供了一种多类别实体识别模型的训练方法,包括:
生成第一实体识别模型;
使用N种单类别语料分别对所述第一实体识别模型进行训练,得到N个单类别实体识别模型,其中N为大于或等于2的整数;
采用所述N个单类别实体识别模型对包括多类别实体的混合语料进行识别,得到标注的N类别混合语料;
使用所述标注的N类别混合语料对所述第一实体识别模型进行训练,得到N类别实体识别模型。
在一些实施例中,所述生成第一实体识别模型,具体为:
采用BERT模型提取出语句中每个符号(token)对应的m1维度的向量,所述语句的长度为seq_len,则得到大小为seq_len *m1的第一矩阵;
将所述语句中的分词数据转化为词性标识,基于词性标识从词向量矩阵中提取对应的m2维度的向量,并得到大小为seq_len *m2的第二矩阵;
将所述第一矩阵和第二矩阵合并得到大小为seq_len *(m1+ m2)的第三矩阵;
将所述第三矩阵依次通过双向LSTM单元及CRF单元后进行输出。
进一步的,将所述语句中的分词数据转化为词性标识,具体为:
为分词数据中的每个符号分配序列标注标签及词性标签,每一序列标注标签及词性标签的组合对应于所述词性标识。
在一些实施例中,采用所述N个单类别实体识别模型对包括多类别实体的混合语料进行识别,具体为:
采用所述N个单类别实体识别模型对所述混合语料进行识别,以标注所述混合语料中的多个类别实体。
在一些实施例中,采用所述N个单类别实体识别模型对包括多类别实体的混合语料进行识别,得到N类别混合语料,进一步包括:
如果同一实体被识别为两种或以上的实体类别,则参考附近无歧义的实体类别进行标注,或者进行人工校准。
根据本公开的第二方面,提供了一种多类别实体识别模型的训练装置,所述装置包括:
第一实体识别模型生成单元,用于生成第一实体识别模型;
单类别实体识别模型训练单元,用于使用N种单类别语料分别对所述第一实体识别模型进行训练,得到N个单类别实体识别模型,其中N为大于或等于2的整数;
N类别混合语料获取单元,用于采用所述N个单类别实体识别模型对包括多类别实体的混合语料进行识别,得到标注的N类别混合语料;
N类别实体识别模型训练单元,用于使用所述标注的N类别混合语料对所述第一实体识别模型进行训练,得到N类别实体识别模型。
根据本公开的第三方面,提供了一种多类别实体识别模型的训练方法,包括:
提供由如本公开的第一方面提供的训练方法所得到N类别实体识别模型、标注的原始N类别混合语料、包括新类别实体的新语料;
生成第二实体识别模型;
应用所述第二实体识别模型对所述新语料进行实体识别,以识别出无类别的实体;
应用所述N类别实体识别模型对经过第二实体识别模型识别的新语料进行识别,以标注属于所述N类别中的多个实体类别以及一种新的实体类别;
将标注了所述新的实体类别的新语料与原始N类别混合语料进行混合,得到标注的N+1类别混合语料;
使用所述N+1类别混合语料对第一实体识别模型进行训练,得到具有N+1类别的多类别实体识别模型。
在一些实施例中,所述第二实体识别模型为无类别实体识别模型,其生成方法具体为:
采用BERT模型提取出语句中每个符号(token)对应的m1维度的向量,所述语句的长度为seq_len,则得到大小为seq_len *m1的第一矩阵;
将所述第一矩阵依次通过双向LSTM单元及神经网络单元后进行输出,所述无类别实体识别模型的输出是确定相邻符号是否属于同一实体。
根据本公开的第四方面,提供了一种实体识别模型的系统,包括:
第一矩阵生成单元,用于采用BERT模型提取出语句中每个符号(token)对应的m1维度的向量,所述语句的长度为seq_len,则得到大小为seq_len *m1的第一矩阵;
第二矩阵生成单元,用于将所述语句中的分词数据转化为词性标识,基于词性标识从词向量矩阵中提取对应的m2维度的向量,并得到大小为seq_len *m2的第二矩阵;
矩阵合成单元,用于将所述第一矩阵和第二矩阵合并得到大小为seq_len *(m1+m2)的第三矩阵;
双向LSTM单元及CRF单元,用于依次对第三矩阵进行处理后输出。
在一些实施例中,将所述语句中的分词数据转化为词性标识,具体为:
为分词数据中的每个符号分配序列标注标签及词性标签,每一序列标注标签及词性标签的组合对应于所述词性标识。
本公开通过采用多类别混合语料对实体识别模型进行训练,从而得到多类别实体识别模型,有效节省了多类别实体识别的成本,且提高了多类别实体识别的精确度及效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1是现有技术中常用的一种实体识别模型的系统结构图。
图2是根据本公开实施例提供的一种第一实体识别模型的系统结构图。
图3是根据本公开实施例提供的一种多类别实体识别模型的训练方法的流程图。
图4是根据本公开实施例提供的一种第二实体识别模型的系统结构图。
图5是根据本公开实施例提供的另一种多类别实体识别模型的训练方法的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再者,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
下文中将结合附图对本公开的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施例的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施例的不同而有所改变。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的装置结构,而省略了与本公开关系不大的其他细节。
应理解的是,本公开并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中,在可行的情况下,实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。
图1所示是相关技术中使用较为普遍的一种实体识别模型100的系统结构图,主要包括BERT(Bidirectional Encoder Representation from Transformers,Transformer的双向编码表示)单元101、双向LSTM(Long Short-Term Memory,长短期记忆网络)单元102及CRF(Conditional Random Field,条件随机场)单元103。将需要进行实体识别的语句输入BERT单元101,采用BERT单元101提取出语句中每个符号(token)对应的m1维度的向量,若语句的长度为seq_len,则可以得到大小为seq_len *m1的第一矩阵;将第一矩阵依次经过双向LSTM单元102及CRF单元103的处理后输出,得到对语句的实体识别结果。现有技术中提供的这种实体识别模型对分词边界不敏感,没有结合语句的分词信息和词性信息,因此实体识别的精度较差。
为了解决上述问题,基于分词的边界与实体词的边界应该重合的假设,本公开实施例提供了一种第一实体识别模型,下面对本公开实施例提供的一种第一实体识别模型进行具体介绍。
图2示出了根据本公开实施例提供的一种第一实体识别模型200的系统示意图,包括第一矩阵生成单元201、第二矩阵生成单元202、矩阵合成单元203、双向LSTM(LongShort-Term Memory,长短期记忆网络)单元204以及CRF(Conditional Random Field,条件随机场)单元205。
将同一语句分别输入第一矩阵生成单元201及第二矩阵生成单元202。
第一矩阵生成单元201中包括BERT模型,采用BERT模型提取出语句中每个符号(token)对应的m1维度的向量,若所述语句的长度为seq_len,则得到大小为seq_len *m1的第一矩阵。本公开实施例中,例如,将“内心理解”这一语句输入第一矩阵生成单元201,第一矩阵生成单元201中的BERT模型提取出“内心理解”中每个汉字对应的m1维度的向量,本公开实施例中,所述维度m1的数值可以是768。由于语句“内心理解”包含4个字符,其长度为4,因此最终得到大小为4*768的第一矩阵。
第二矩阵生成单元202将所述语句中的分词数据转化为词性标识,具体为第二矩阵生成单元202为分词数据中的每个符号分配序列标注标签及词性标签,每一序列标注标签及词性标签的组合对应于所述词性标识。基于词性标识从词向量矩阵中提取对应的m2维度的向量,并得到第二矩阵seq_len *m2。本公开实施例中,将“内心理解”这一语句输入第二矩阵生成单元202,所述分词数据中的每个符号可以是“内心理解”这一语句中的每个字。基于分词的边界与实体词的边界有强相关性的假设,本公开实施例中所述序列标注标签可以是例如BIOES标签(替代地,BIO标签),用于表示当前的字是词的开始(Begin)、结束(End)、中间(In)、外部(Outside)或者单字成词(Single)。本公开实施例中,分词为“内心”和“理解”,则“内心理解”中的四个字对应的BIOES标签分别为B、E、B、E。
本公开实施例中,所述词性标签可以是能够代表当前字的词性的标签,常见的词性标签包括n、u或者v,其中n代表名词、u代表助词、v代表动词,需要注意的是,本公开实施例中所述词性标签并不局限于上述几类词性标签。本公开实施例中,“内心理解”中的四个字对应的词性标签分别为n、n、v、v。
本公开实施例中,可以将“内心理解”这一语句中的每个字对应的BIOES标签与词性标签的组合“B-n,E-n,B-v,E-v”对应于词性标识,例如,可以将B-n对应于词性标识6,将E-n对应于词性标识3,将B-v对应于词性标识1,将E-v对应于词性标识2。然后,基于词性标识从词向量矩阵中提取对应的m2维度的向量,并得到大小为seq_len *m2的第二矩阵。本公开实施例中,所述维度m2的数值可以是256,因此最终得到大小为4*256的第二矩阵。
矩阵合成单元203将所述第一矩阵和第二矩阵合并得到第三矩阵。本公开实施例中,矩阵合成单元203将大小为4*768的第一矩阵和大小为4*256的第二矩阵合并得到大小为4*1024的第三矩阵。
本公开实施例中,由于需要充分考虑整句对当前实体词的影响,因此可以在矩阵合成单元203后接一个双向LSTM单元204,双向LSTM单元204可以充分考虑全文的内容,从而提高实体类别识别的准确率。
本公开实施例中,可以在双向LSTM单元204之后接一个CRF单元205,CRF单元205可以充分考虑当前实体词所在位置附近的实体词的类别信息,从而修补部分实体词类别判断不一致的情况。
本公开实施例中,将第三矩阵依次通过双向LSTM单元204及CRF单元205进行处理后,输出对语句“内心理解”的最终实体识别结果。例如,当“内心理解”被识别为心理学类别(Psycho)实体时,“内心理解”这四个字分别被标注为“B-psycho”、“I-psycho”、“I-psycho”、“E-psycho”。
相比于本发明,原始的仅采用BERT 模型的识别方法对分词边界并不敏感,像“内心理解”这种文本可能会将其中的“心理”作为心理学类别的实体。但心理在此文本内根本不是一个词,可以看出分词信息是有用的,可以纠正这种错误的情况。
此外,作为附加的输出示例,语句“我爱北京天安门”可以被标注为“O,O, B-location, I-location, I-location, I-location, E-location”;“村上春树写了挪威的森林”可以被标注为“B-person,I-person,I-person,E-person,0,0,B-book,I-book,I-book,I-book,E-book”。
实际使用中,需要对语句中的多个类别的实体词都具有识别能力。
当前存在的一个问题是,难以找到良好的、标注后的多类别混合语料作为训练数据,并且如果使用词典来形成混合语料,工作量很大且质量不高。鉴于这一情况,本公开还提供了基于知识蒸馏思想的多类别实体识别模型的训练方法,其从单类别语料形成多个单类别实体识别模型,进而从这些单类别实体识别模型产生标注的多类别混合语料,从而形成了良好的多类别混合语料作为训练数据。
下面首先对本公开实施例提供的一种多类别实体识别模型的训练方法进行说明。
图3示出了根据本公开实施例提供的一种多类别实体识别模型的训练方法的流程图300,该方法具体包括:
步骤310:生成第一实体识别模型。
此处,所述第一实体识别模型的生成步骤对应于本公开实施例中对第一实体识别模型的结构描述,具体包括:
采用BERT模型提取出语句中每个符号(token)对应的m1维度的向量,若所述语句的长度为seq_len,则得到大小为seq_len *m1的第一矩阵;
将所述语句中的分词数据转化为词性标识,基于词性标识从词向量矩阵中提取对应的m2维度的向量,并得到大小为seq_len *m2的第二矩阵;
将所述第一矩阵和第二矩阵合并得到大小为seq_len *(m1+ m2)的第三矩阵;
将所述第三矩阵依次通过双向LSTM单元及CRF单元后进行输出。
步骤320:使用N种单类别语料分别对所述第一实体识别模型进行训练,得到N个单类别实体识别模型,其中N为大于或等于2的整数。
本公开实施例中,例如,可以选择使用人名语料、组织名语料、食物语料三种单类别语料分别对第一实体模型进行训练,从而分别得到人名识别模型、组织识别模型以及食物识别模型。
需要注意的是,本公开实施例中,并不局限于仅采用上述三种单类别语料对第一实体模型进行训练,本领域技术人员可以根据需要选择语料的种数及类别。
如上所述,本公开实施例中,使用单类别语料对第一实体识别模型进行训练的优势在于,单类别语料来源多,容易获取且训练难度小。
步骤330:采用所述N个单类别实体识别模型对包括多类别实体的混合语料进行识别,得到标注的N类别混合语料。
本公开实施例中,在通过步骤320得到三个单类别实体识别模型后,采用所述三个单类别实体识别模型即人名识别模型、组织识别模型及食物识别模型对包括多类别实体的混合语料进行识别,以标注所述混合语料中的多个类别实体,得到标注的三种类别的语料。
本公开实施例中,可以是依次采用所述三个单类别实体识别模型即人名识别模型、组织识别模型及食物识别模型对包括多类别实体的混合语料进行识别,其中所述三个单类别实体识别模型的采用顺序可以是任意的。
可选的,本公开实施例中,也可以是同时采用所述三个单类别实体识别模型即人名识别模型、组织识别模型及食物识别模型对包括多类别实体的混合语料进行识别。
进一步的,采用所述N个单类别实体识别模型对包括多类别实体的混合语料进行识别,得到N类别混合语料,还包括:如果同一实体被识别为两种或以上的实体类别,则参考附近无歧义的实体类别进行标注,或者进行人工校准。本公开实施例中,采用所述三个单类别实体识别模型即人名识别模型、组织识别模型及食物识别模型对包括多类别实体的混合语料进行识别,得到三个类别的混合语料。
步骤340:使用所述标注的N类别混合语料对所述第一实体识别模型进行训练,得到N类别实体识别模型。
本公开实施例中,使用步骤330中获得的标注的三种类别混合语料对第一实体识别模型进行训练,从而得到可以对人名、组织、食物三种类别的实体进行识别的三类别实体识别模型。
可选的,本公开实施例中,在使用步骤330中获得的标注的三种类别混合语料对第一实体识别模型进行训练之前,可以对获得的标注的三种类别混合语料进行人工校准,相较于由人工直接对混合语料进行类别识别,本方法只需要在已有的标注结果上进行判断,能够有效降低实体类别识别的成本并提高识别效率。
对应于本公开实施例中前述的一种多类别实体识别模型的训练方法,下面对本公开实施例提供的一种多类别实体识别模型的训练装置进行介绍。
一种多类别实体识别模型的训练装置,所述装置包括:第一实体识别模型生成单元,用于生成第一实体识别模型;单类别实体识别模型训练单元,用于使用N种单类别语料分别对所述第一实体识别模型进行训练,得到N个单类别实体识别模型,其中N为大于或等于2的整数;N类别混合语料获取单元,用于采用所述N个单类别实体识别模型对包括多类别实体的混合语料进行识别,得到标注的N类别混合语料;N类别实体识别模型训练单元,用于使用所述标注的N类别混合语料对所述第一实体识别模型进行训练,得到N类别实体识别模型。
图4示出了本公开实施例提供的一种第二实体识别模型400的系统结构图。第二实体识别模型400可以被称为无类别实体识别模型,其用于标注出语句中的实体,但不标注类别。第二实体识别模型的输出可以是关于输入语句的相邻字词之间的分/和关系,即,属于同一实体,则输出“合”,否则“分”,因此,输出结果是n-1维向量,n是输入语句的字数。该第二实体识别模型400可以用于下文参照图5描述的基于反向蒸馏思想的多类别实体识别的训练方法。
所述第二实体识别模型400包括第一矩阵生成单元401、双向LSTM(Long Short-Term Memory,长短期记忆网络)单元402以及神经网络单元403。
第一矩阵生成单元401中包括BERT模型,将语句输入第一矩阵生成单元401,采用BERT模型提取出语句中每个符号(token)对应的m1维度的向量,所述语句的长度为seq_len,则得到大小为seq_len *m1的第一矩阵。本公开实施例中,可以选择将“我喜欢mac999!!”这一语句输入第一矩阵生成单元401,第一矩阵生成单元401中的BERT模型提取出“我喜欢mac999!!”中每个符号(token)对应的m1维度的向量,本公开实施例中,所述维度m1的数值可以是768。由于语句“内心理解”包含7个符号(token),其长度为7,因此最终得到大小为7*768的第一矩阵。
本公开实施例中,在第一矩阵生成单元401后依次连接双向LSTM单元402及神经网络单元403, 本公开实施例中,所述神经网络单元403可以是单层深度神经网络单元,需要注意的是,所述神经网络单元403也可以是本领域技术人员认为适当的其他神经网络单元。
本公开实施例中,将大小为7*768的第一矩阵依次通过双向LSTM单元402及神经网络单元403进行处理后,输出最终的实体识别结果。最终的实体识别结果将mac 和 999识别为一个实体词 mac999,而其他相邻的符号(token)因为不具有实体词的内聚性,因此均被识别为分开的符号(token)。
本公开实施例提供的第二实体识别模型400,是无类别实体识别模型,其输出结果能够确定相邻符号是否属于同一实体。
实际使用中常出现的一个问题是如何扩充多类别实体识别模型的可识别类别,在基于本公开实施例前述的一种多类别实体识别模型的训练方法的基础上,下面将对本公开实施例提供的基于反向蒸馏思想的另一种多类别实体识别模型的训练方法进行说明。
图5示出了根据本公开实施例提供的另一种多类别实体识别模型的训练方法的流程图500,所述方法具体包括:
步骤510:提供由本公开实施例前述的一种多类别实体识别模型的训练方法得到N类别实体识别模型、标注的原始N类别混合语料、包括新类别实体的新语料。本公开实施例中,所述N为大于2或等于2的整数。
步骤520:生成第二实体识别模型。
本公开实施例中,可以选择采用对应于前述的第二实体识别模型的结构的方法,生成第二实体识别模型,所述方法具体包括:
采用BERT模型提取出语句中每个符号(token)对应的m1维度的向量,若所述语句的长度为seq_len,则得到大小为seq_len *m1的第一矩阵;
将所述第一矩阵依次通过双向LSTM单元及神经网络单元后进行输出,所述无类别实体识别模型的输出是确定相邻符号是否属于同一实体。
步骤530:应用所述第二实体识别模型对所述新语料进行实体识别,以识别出无类别的实体。
本公开实施例中,所述新语料可以为法律类优质问答和/或法律专栏文章,需要注意的是,本公开实施例中新语料的选择并不局限于此,在所述新语料能够聚焦于某一类别的条件下,本领域技术人员也可以根据需要,选用其他语料。
由于本公开实施例所述的第二实体模型能够确定相邻符号是否属于同一实体,从而不分类别的识别出输入语句中的实体,因此本公开实施例中,应用所述第二实体识别模型对法律类优质问答和/或法律专栏文章进行识别,从而识别出法律类优质问答和/或法律专栏文章中的无类别的实体。
步骤540:应用所述N类别实体识别模型对经过第二实体识别模型识别的新语料进行识别,以标注属于所述N类别中的多个实体类别以及一种新的实体类别。
本公开实施例中,应用N类别实体识别模型对法律类优质问答和/或法律专栏文章中的无类别实体进行识别,由于法律类优质问答和/或法律专栏文章中的实体大部分为法律相关的词,除法律实体外,还包含有少量其他类别的实体,从而标注出这种实体中属于所述N类别中的多个实体类别以及一种新的实体类别,也即法律类别。
步骤550:将标注了所述新的实体类别的新语料与原始N类别混合语料进行混合,得到标注的N+1类别混合语料。
本公开实施例中,将所述法律类别语料与原始N类别混合语料进行混合,可以得到标注的N+1类别混合语料。
步骤560:使用所述N+1类别混合语料对第一实体识别模型进行训练,得到具有N+1类别的多类别实体识别模型。
本公开实施例中,使用法律类别与原始N类别混合语料进行混合后得到的N+1类别混合语料对第一实体识别模型进行训练,得到具有N+1类别的多类别实体识别模型。
本公开实施例提供的上述多类别实体识别模型的训练方法,能够将新的实体类别快速迁移到原始多类别实体识别模型中,避免采用过多的人力进行标注,有效节省了人力成本且提高了效率。
以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并非局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。
Claims (7)
1.一种多类别实体识别模型的训练方法,其特征在于,包括:
生成第一实体识别模型:采用BERT模型提取出语句中每个符号对应的m1维度的向量,所述语句的长度为seq_len,则得到大小为seq_len *m1的第一矩阵;将所述语句中的分词数据转化为词性标识,基于词性标识从词向量矩阵中提取对应的m2维度的向量,并得到大小为seq_len *m2的第二矩阵;将所述第一矩阵和第二矩阵合并得到大小为seq_len *(m1+m2)的第三矩阵;将所述第三矩阵依次通过双向LSTM单元及CRF单元后进行输出;
使用N种单类别语料分别对所述第一实体识别模型进行训练,得到N个单类别实体识别模型,其中N为大于或等于2的整数;
采用所述N个单类别实体识别模型对包括多类别实体的混合语料进行识别,得到标注的N类别混合语料;
使用所述标注的N类别混合语料对所述第一实体识别模型进行训练,得到N类别实体识别模型。
2.如权利要求1所述的多类别实体识别模型的训练方法,将所述语句中的分词数据转化为词性标识,具体为:
为分词数据中的每个符号分配序列标注标签及词性标签,每一序列标注标签及词性标签的组合对应于所述词性标识。
3.如权利要求1所述的多类别实体识别模型的训练方法,采用所述N个单类别实体识别模型对包括多类别实体的混合语料进行识别,具体为:
采用所述N个单类别实体识别模型对所述混合语料进行识别,以标注所述混合语料中的多个类别实体。
4.如权利要求1所述的多类别实体识别模型的训练方法,采用所述N个单类别实体识别模型对包括多类别实体的混合语料进行识别,得到N类别混合语料,进一步包括:
如果同一实体被识别为两种或以上的实体类别,则参考附近无歧义的实体类别进行标注,或者进行人工校准。
5.一种多类别实体识别模型的训练装置,其特征在于,所述装置包括:
第一实体识别模型生成单元,用于采用BERT模型提取出语句中每个符号对应的m1维度的向量,所述语句的长度为seq_len,则得到大小为seq_len *m1的第一矩阵;将所述语句中的分词数据转化为词性标识,基于词性标识从词向量矩阵中提取对应的m2维度的向量,并得到大小为seq_len *m2的第二矩阵;将所述第一矩阵和第二矩阵合并得到大小为seq_len*(m1+ m2)的第三矩阵;将所述第三矩阵依次通过双向LSTM单元及CRF单元后进行输出;
单类别实体识别模型训练单元,用于使用N种单类别语料分别对所述第一实体识别模型进行训练,得到N个单类别实体识别模型,其中N为大于或等于2的整数;
N类别混合语料获取单元,用于采用所述N个单类别实体识别模型对包括多类别实体的混合语料进行识别,得到标注的N类别混合语料;
N类别实体识别模型训练单元,用于使用所述标注的N类别混合语料对所述第一实体识别模型进行训练,得到N类别实体识别模型。
6.一种多类别实体识别模型的训练方法,其特征在于,包括:
提供N类别实体识别模型、标注的原始N类别混合语料、包括新类别实体的新语料,所述N类别实体识别模型由如权利要求1所述的训练方法得到;
生成第二实体识别模型;
应用所述第二实体识别模型对所述新语料进行实体识别,以识别出无类别的实体;
应用所述N类别实体识别模型对经过第二实体识别模型识别的新语料进行识别,以标注属于所述N类别中的多个实体类别以及一种新的实体类别;
将标注了所述新的实体类别的新语料与原始N类别混合语料进行混合,得到标注的N+1类别混合语料;
使用所述N+1类别混合语料对第一实体识别模型进行训练,得到具有N+1类别的多类别实体识别模型。
7.如权利要求6所述的多类别实体识别模型的训练方法,所述第二实体识别模型为无类别实体识别模型,其生成方法具体为:
采用BERT模型提取出语句中每个符号对应的m1维度的向量,所述语句的长度为seq_len,则得到大小为seq_len *m1的第一矩阵;
将所述第一矩阵依次通过双向LSTM单元及神经网络单元后进行输出,所述无类别实体识别模型的输出是确定相邻符号是否属于同一实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010293118.3A CN111291569B (zh) | 2020-04-15 | 2020-04-15 | 多类别实体识别模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010293118.3A CN111291569B (zh) | 2020-04-15 | 2020-04-15 | 多类别实体识别模型的训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291569A CN111291569A (zh) | 2020-06-16 |
CN111291569B true CN111291569B (zh) | 2021-01-29 |
Family
ID=71029555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010293118.3A Active CN111291569B (zh) | 2020-04-15 | 2020-04-15 | 多类别实体识别模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291569B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139069B (zh) * | 2021-05-14 | 2022-10-18 | 上海交通大学 | 一种文本实体识别方法及系统 |
CN115879446B (zh) * | 2022-12-30 | 2024-01-12 | 北京百度网讯科技有限公司 | 文本处理方法、深度学习模型训练方法、装置以及设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102648815B1 (ko) * | 2018-04-30 | 2024-03-19 | 현대자동차주식회사 | 음성 언어 이해 장치 및 이 장치를 이용한 음성 언어 이해 방법 |
CN110032648B (zh) * | 2019-03-19 | 2021-05-07 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN109992782B (zh) * | 2019-04-02 | 2023-07-07 | 深圳市华云中盛科技股份有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110147551B (zh) * | 2019-05-14 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 多类别实体识别模型训练、实体识别方法、服务器及终端 |
CN110442676A (zh) * | 2019-07-02 | 2019-11-12 | 北京邮电大学 | 基于多轮对话的专利检索方法及装置 |
CN110837560B (zh) * | 2019-11-15 | 2022-03-15 | 北京字节跳动网络技术有限公司 | 标签挖掘方法、装置、设备、存储介质 |
-
2020
- 2020-04-15 CN CN202010293118.3A patent/CN111291569B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111291569A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
Sharma et al. | Natural language understanding with the quora question pairs dataset | |
CN109815341B (zh) | 一种文本抽取模型训练方法、文本抽取方法及装置 | |
CN111291569B (zh) | 多类别实体识别模型的训练方法及装置 | |
Vinnarasu et al. | Speech to text conversion and summarization for effective understanding and documentation | |
CN107784048B (zh) | 问答语料库的问题分类方法及装置 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
Haque et al. | Opinion mining from bangla and phonetic bangla reviews using vectorization methods | |
Mohammed | Using machine learning to build POS tagger for under-resourced language: the case of Somali | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
JP2018163660A (ja) | 英語の音節計算法に基づいた可読性評価方法及びシステム | |
Lopes et al. | Exploring bert for aspect extraction in portuguese language | |
Belay et al. | Impacts of homophone normalization on semantic models for amharic | |
Jing et al. | HowtogetaChineseName (Entity): Segmentation and combination issues | |
Alkhazi et al. | Classifying and segmenting classical and modern standard Arabic using minimum cross-entropy | |
US8666987B2 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
Sababa et al. | A classifier to distinguish between cypriot greek and standard modern greek | |
Acs et al. | Hunaccent: Small footprint diacritic restoration for social media | |
Hasan et al. | Pattern-matching based for Arabic question answering: a challenge perspective | |
Alfaries et al. | A rule-based annotation system to extract Tajweed rules from Quran | |
Ermurachi et al. | UAIC1860 at SemEval-2020 Task 11: detection of propaganda techniques in news articles | |
CN110826330B (zh) | 人名识别方法及装置、计算机设备及可读存储介质 | |
CN110889289B (zh) | 信息明确度评估方法、装置、设备及计算机可读存储介质 | |
CN109657207B (zh) | 条款的格式化处理方法和处理装置 | |
Declerck et al. | Multilingual ontologies for the representation and processing of folktales |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |