CN114330350A - 一种命名实体识别方法、装置、电子设备及存储介质 - Google Patents

一种命名实体识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114330350A
CN114330350A CN202210007201.9A CN202210007201A CN114330350A CN 114330350 A CN114330350 A CN 114330350A CN 202210007201 A CN202210007201 A CN 202210007201A CN 114330350 A CN114330350 A CN 114330350A
Authority
CN
China
Prior art keywords
text
model
sequence
vector
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210007201.9A
Other languages
English (en)
Inventor
彭实
陈文�
谢晓丹
翟佳
何志豪
刘威
董毅
张子恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Environmental Features
Original Assignee
Beijing Institute of Environmental Features
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Environmental Features filed Critical Beijing Institute of Environmental Features
Priority to CN202210007201.9A priority Critical patent/CN114330350A/zh
Publication of CN114330350A publication Critical patent/CN114330350A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及计算机深度学习技术领域,特别涉及一种命名实体识别方法、装置、电子设备及存储介质,该方法包括:获取已知命名实体的中文文本并进行预处理,得到多个已知命名实体的文本向量;基于已知命名实体的文本向量,对联合模型进行训练;联合模型包括字符识别模型、分词识别模型和序列标注模型;获取待识别的中文文本并进行预处理,得到待识别的文本向量;将待识别的文本向量输入训练后的联合模型,进行命名实体识别。本发明能够提高中文文本的实体识别性能。

Description

一种命名实体识别方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机深度学习技术领域,特别涉及一种命名实体识别方法、装置、电子设备及存储介质。
背景技术
随着信息化互联网时代的到来,海量多源舆情大数据的收集与分析处理变得更加复杂,传统人工干预为主的信息收集与处理方式已经难以跟上数据增长的速度。同时,以深度学习为核心的新兴人工智能技术飞速发展,扩大了多源文本数据的处理能力,也推动了舆情大数据智能挖掘与分析领域的技术发展。命名实体识别旨在定位并分类文本中的重要实体信息,如人物名称、时间地点、组织机构等专有名词,命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术中不可缺少的重要组成部分,是当前智能化舆情分析的热点研究方向之一。目前,由于中文语言的特殊性,通过深度学习模型对中文文本进行命名实体识别的准确率尚有待提高。
发明内容
针对上述至少一部分技术缺陷,本发明实施例提供了一种基于联合预训练语言模型的命名实体识别方法、装置、电子设备及存储介质,能够提升对于中文文本的实体识别性能。
第一方面,本发明实施例提供了一种命名实体识别方法,包括:
获取已知命名实体的中文文本并进行预处理,得到多个已知命名实体的文本向量;
基于已知命名实体的文本向量,对联合模型进行训练;所述联合模型包括字符识别模型、分词识别模型和序列标注模型;所述字符识别模型为预训练语言模型,用于对输入的文本向量提取字符特征,输出包含字符级语义信息的第一文本表示向量;所述分词识别模型为预训练语言模型,用于对输入的文本向量提取分词特征,输出包含词汇级和语法级语义信息的第二文本表示向量;所述序列标注模型用于基于融合后的所述第一文本表示向量和所述第二文本表示向量进行求解,得到标识文本向量的实体类别的第一序列;
获取待识别的中文文本并进行预处理,得到待识别的文本向量;
将待识别的文本向量输入训练后的所述联合模型,进行命名实体识别。
可选地,所述联合模型还包括规范化层,所述规范化层用于输入融合后的所述第一文本表示向量和所述第二文本表示向量,进行规范化处理后,输出至所述序列标注模型。
可选地,对于所述联合模型,融合所述第一文本表示向量和所述第二文本表示向量,包括:
对每个字符,将所述第一文本表示向量中表征该字符的特征和所述第二文本表示向量中表征该字符的特征拼接,作为融合后表征该字符的特征。
可选地,所述联合模型还包括分类器,所述分类器用于基于所述第二文本表示向量进行求解,得到标识文本向量的实体类别的第二序列;
所述对联合模型进行训练,包括:
将已知命名实体的文本向量输入所述联合模型,得到所述第一序列和所述第二序列;
确定已知命名实体的文本向量所对应的标准标注序列;
基于所述第一序列与标准标注序列的误差构建第一交叉熵损失函数,基于所述第二序列与标准标注序列的误差构建第二交叉熵损失函数,对所述第一交叉熵损失函数和所述第二交叉熵损失函数进行加权,构建所述联合模型的损失函数,其中所述第一损失函数对应的权重大于所述第二损失函数对应的权重;
基于所述联合模型的损失函数调整所述联合模型的参数。
可选地,所述字符识别模型采用BERT模型,所述分词识别模型采用ERNIE模型,所述序列标注模型采用线性链条件随机场。
第二方面,本发明实施例还提供了一种命名实体识别装置,包括:
获取模块,用于获取已知命名实体的中文文本并进行预处理,得到多个已知命名实体的文本向量;
训练模块,用于基于已知命名实体的文本向量,对联合模型进行训练;所述联合模型包括字符识别模型、分词识别模型和序列标注模型;所述字符识别模型为预训练语言模型,用于对输入的文本向量提取字符特征,输出包含字符级语义信息的第一文本表示向量;所述分词识别模型为预训练语言模型,用于对输入的文本向量提取分词特征,输出包含词汇级和语法级语义信息的第二文本表示向量;所述序列标注模型用于基于融合后的所述第一文本表示向量和所述第二文本表示向量进行求解,得到标识文本向量的实体类别的第一序列;
处理模块,用于获取待识别的中文文本并进行预处理,得到待识别的文本向量;
识别模块,用于将待识别的文本向量输入训练后的所述联合模型,进行命名实体识别。
可选地,所述联合模型还包括规范化层,所述规范化层用于输入融合后的所述第一文本表示向量和所述第二文本表示向量,进行规范化处理后,输出至所述序列标注模型。
可选地,所述联合模型还包括分类器,所述分类器用于基于所述第二文本表示向量进行求解,得到标识文本向量的实体类别的第二序列;
所述训练模块对联合模型进行训练,包括执行如下操作:
将已知命名实体的文本向量输入所述联合模型,得到所述第一序列和所述第二序列;
确定已知命名实体的文本向量所对应的标准标注序列;
基于所述第一序列与标准标注序列的误差构建第一交叉熵损失函数,基于所述第二序列与标准标注序列的误差构建第二交叉熵损失函数,对所述第一交叉熵损失函数和所述第二交叉熵损失函数进行加权,构建所述联合模型的损失函数,其中所述第一损失函数对应的权重大于所述第二损失函数对应的权重;
基于所述联合模型的损失函数调整所述联合模型的参数。
第三方面,本发明实施例还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本说明书任一实施例所述的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明书任一实施例所述的方法。
本发明提供了一种命名实体识别方法、装置、电子设备及存储介质,本发明采用联合模型进行命名实体识别,联合模型包括预训练的字符识别模型和分词识别模型,其中字符识别模型用于对输入的文本向量提取字符特征,输出包含字符级语义信息的第一文本表示向量,分词识别模型用于对输入的文本向量提取分词特征,输出包含词汇级和语法级语义信息的第二文本表示向量,利用融合后的第一文本表示向量和第二文本表示向量进行求解,得到标识文本向量的实体类别的第一序列,从而实现对中文文本中的人物、组织机构、地点等命名实体进行识别,本发明综合了中文文本中的字符级、词汇级和语法级语义信息,能够有效提高实体识别性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种命名实体识别方法步骤示意图;
图2是本发明一实施例提供的另一种命名实体识别方法流程示意图;
图3(a)是People Daily(人民日报)数据集统计信息;图3(b)是MSRA-NER数据集统计信息;
图4是多个模型进行命名实体识别的结果图;
图5是本发明提供的联合模型(JPLM_NER)在不同数据集上进行命名实体识别任务的训练过程F1值变化示意图;
图6是本发明一实施例提供的一种电子设备的硬件架构图;
图7是本发明一实施例提供的一种命名实体识别装置结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,本发明实施例提供了一种针对中文文本的命名实体识别方法,该方法包括:
步骤100,获取已知命名实体的中文文本并进行预处理,得到多个已知命名实体的文本向量。
已知命名实体的文本向量可作为样本,构成训练集和测试集,以便后续对深度学习模型进行训练。
步骤102,基于已知命名实体的文本向量,对联合模型进行训练;其中,联合模型包括字符识别模型、分词识别模型和序列标注模型;字符识别模型为预训练语言模型,用于对输入的文本向量提取字符特征,输出包含字符级语义信息的第一文本表示向量;分词识别模型为预训练语言模型,用于对输入的文本向量提取分词特征,输出包含词汇级和语法级语义信息的第二文本表示向量;序列标注模型用于基于融合后的第一文本表示向量和第二文本表示向量进行求解,得到标识文本向量的实体类别的第一序列。
联合模型中,相同的文本向量输入预训练的字符识别模型和分词识别模型,利用字符识别模型和分词识别模型获得多重语义信息,融合形成文本的深层次语义表示向量,通过序列标注模型识别不同实体对应的编码序列。获取联合模型输出的第一序列,再通过解码第一序列中出现的编码,即可实现对人物、组织机构、地点等命名实体识别。序列标注模型输出的、标识文本向量中的编码与实体类别之间的具体对应关系可根据需要进行设置,在此不再进一步限定。
步骤104,获取待识别的中文文本并进行预处理,得到待识别的文本向量。
对于包含未知实体的、待识别的中文文本,需对文本进行预处理,以适应联合模型的输入要求。
步骤106,将待识别的文本向量输入训练后的联合模型,进行命名实体识别。
命名实体识别是自然语言处理技术中的重要环节,在信息抽取、机器翻译、智能问答等应用中发挥着不可替代的重要作用。预训练语言模型的研究和发展推动着命名实体识别技术性能的进一步提升。本发明提出了联合字符识别模型和分词识别模型的命名实体识别技术,该技术采用预训练字符识别模型提取字符级文本的语义信息,使用经过先验知识增强的预训练分词识别模型提取中文词汇级和语法级的语义信息,进行融合后,通过序列标注模型学习其中隐含的序列约束信息,从而提升针对中文文本的命名实体识别任务准确率。
优选地,如图2所示,联合模型还包括规范化层,规范化层用于输入融合后的第一文本表示向量和第二文本表示向量,进行规范化处理后,输出至序列标注模型。
规范化层的输入即融合后的第一文本表示向量和第二文本表示向量,输出即文本的深层次语义表示向量,作为序列标注模型的输入。通过规范化层能够对第一文本表示向量和第二文本表示向量进行简单拼接操作,使得其包含字符级和词汇级的语义信息。
进一步地,为得到融合后的第一文本表示向量和第二文本表示向量,对于联合模型,融合第一文本表示向量和第二文本表示向量,包括:
对每个字符,将第一文本表示向量中表征该字符的特征和第二文本表示向量中表征该字符的特征拼接,作为融合后表征该字符的新特征。
如图2所示,对于输入的字符w1,将相应的第一文本表示向量中的元素e1B和第二文本表示向量中的元素e1E(也即ERNIE模型得到的e1)拼接后,即得到融合后所得文本表示向量中的新元素e1E+e1B,融合后所得的文本表示向量仍对每个字符进行表征,能够增强各个字符的语义特征。
优选地,如图2所示,联合模型还包括分类器,分类器用于基于第二文本表示向量进行求解,得到标识文本向量的实体类别的第二序列。相应地,步骤102中,对联合模型进行训练,包括如下步骤:
将已知命名实体的文本向量输入联合模型,得到第一序列和第二序列;
确定已知命名实体的文本向量所对应的标准标注序列;
基于第一序列与标准标注序列的误差构建第一交叉熵损失函数,基于第二序列与标准标注序列的误差构建第二交叉熵损失函数,对第一交叉熵损失函数和第二交叉熵损失函数进行加权,构建联合模型的损失函数,其中第一损失函数对应的权重大于第二损失函数对应的权重;
基于联合模型的损失函数调整联合模型的参数。
以多个已知命名实体的文本向量作为样本,重复上述训练步骤对联合模型的参数进行多轮训练及调整参数,再利用测试集进行测试,确定联合模型收敛,即可得到训练好的联合模型。本发明利用两个输出序列(即第一序列和第二序列)的误差损失共同调整联合模型的参数,其中第一序列利用了字符识别模型和分词识别模型得到的融合特征信息,第二序列利用了分词识别模型得到的特征信息,调整时,以第一序列与标准标注序列之间的误差为主,但同时以加权的方式引入第二序列与标准标注序列之间的误差,能够强化分词、语法等对于实体的影响,并使得模型快速收敛。
在一些优选的实施方式中,字符识别模型采用BERT模型,分词识别模型采用ERNIE模型,序列标注模型采用线性链条件随机场(Linear CRF)。
进一步地,预处理包括将输入文本以字符为单位进行切分,根据BERT模型的输入要求,在文本前后增加[CLS]和[SEP]标识符,并通过截长补短的方式固定输入文本长度。
预训练的BERT模型使用了双向的transformer-encoder结构捕捉文本序列的上下文语义信息,生成文本序列的动态词向量表示。输入文本序列通常需要经过一系列的处理以满足BERT模型的输入条件,主要包括如下三个部分:
1.字符嵌入表示(token embeddings):将输入文本序列进行编码转化为固定维度的向量表示,针对中文文本,是以字符为单位进行切分,并根据任务需要在句前加入[CLS]标识符、句后加入[SEP]标识符以标识文本的起始、结束位置。文本的标记化方法是通过WordPiece tokenization(分字标记化)进行,同时配有具体词典。
2.段嵌入表示(segment embeddings):段嵌入表示可以区分一个句子对中的两个不同的句子,具体实现是设置一个句子对长度的向量,向量中第一个句子位置处置0,第二个句子位置处置1。
3.位置嵌入表示(position embeddings):注意力机制的理论原理并没有考虑到文字前后位置顺序信息,因此引入位置嵌入表示来建模文本字符序列的位置信息,具体如下式所示,其中pos∈[0,1,…,L-1]指的是字符的位置信息,L表示句子的文本长度,dmodel是词向量的维数,i是dmodel的某个具体维度:
Figure BDA0003455883450000081
Figure BDA0003455883450000082
其中,PE(pos,2i)表示pos位置处字符的偶数维度处位置编码,PE(pos,2i+1)表示pos位置处字符的奇数维度处位置编码。
将输入文本序列经过上述三个步骤处理后进行融合,作为BERT模型输入的文本向量,以预训练BERT模型本身的参数计算得到包含上下文语义信息的文本嵌入表示向量,即包含字符级语义信息的第一文本表示向量。
由于现有技术中的ERNIE模型本身考虑并建模了先验语义知识单元,因此对中文文本的实体特征信息更加敏感,从而可学习得包含词汇级和语法级的文本语义表示向量。
ERNIE模型的输入要求与BERT模型基本一致,因此可将融合字符嵌入表示、段嵌入表示以及位置嵌入表示的文本向量同时输入到ERNIE模型中,获取经过动态计算后的文本序列词向量输出,即包含词汇级和语法级语义信息的第二文本表示向量。ERNIE模型在预训练过程中考虑了海量的词汇、实体及实体关系信息,以此直接对真实世界的先验语义知识单元建模,从而增强模型的语义表示能力。对于中文文本,BERT模型是以单个字符为基本单元进行建模,而ERNIE模型具有更好的真实语义知识学习能力,尤其针对含有大量词汇短语的中文文本,因此通过ERNIE模型提取输入中文文本序列中的词汇级和语法级特征信息,与BERT模型提取的信息进行融合,可增强深层次语义信息,进而使得实体识别性能得到进一步提升。
分别获得经过BERT模型计算得到的第一文本表示向量以及经过ERNIE模型计算得到的第二文本表示向量后,将两者进行拼接,并经过规范化,作为最终的、包含深层次语义信息的文本序列向量,具体的,规范化层可采用LayerNorm层,计算批训练样本的均值和方差,对拼接(即融合)后的文本表示向量表示进行标准化,公式如下所示:
Figure BDA0003455883450000091
其中,x表示拼接后的文本表示向量,y表示经过规范化后的表示向量,E[x]和Var[x]分别表示输入的文本表示向量的均值和方差,∈是保持数值稳定的附加值,默认为1e-5,γ和β是可以学习的仿射变换参数。
线性链条件随机场学习输入的、经过规范化后的表示向量,求解输出序列的最大似然概率。条件随机场是一种概率化结构模型,可以针对输入文本序列最大化拟合输出序列,由于考虑了相邻数据的标记信息,因此可以从具体训练中学习到标准标注序列隐含的约束关系,从而提高命名实体识别的效果,其参数化表达形式为如下公式:
Figure BDA0003455883450000092
Figure BDA0003455883450000093
其中,x表示输入序列,g表示在给定x时的输出序列,P(y|x)表示在给定x时y的条件概率分布,yi表示y中第i个输出节点,转移特征函数为tk(yi-1,yi,x,i),表示定义在第i个输出节点上下文的第k个局部特征函数,sl(yi,x,i)表示第i个输出节点上的第l个节点特征函数,λk和μl是权重系数,Z(x)为规范化因子。
经过线性链条件随机场的计算,可获得与输入文本相对应的预测输出序列,预测输出序列(即第一序列)与标准标注序列之间的误差通过损失函数进行计算;此外,经过ERNIE模型计算得到的第二文本表示向量直接通过全连接分类器求解,得到输入文本对应的预测输出序列(即第二序列),计算该第二序列与标准标注序列之间的误差;上述两个误差(或称损失)都采用交叉熵函数进行计算,具体公式如下:
Figure BDA0003455883450000101
Figure BDA0003455883450000102
其中,x表示输入,xn,c表示输入minibatch中的第n个样本第c类别预测结果,y表示目标,yn,c表示输入minibatch中的第n个样本第c类别真实结果,wc表示权重系数,C表示标签分类的类别数目,ln表示第n个样本计算得到的交叉熵,reduction表示损失,mean表示平均值,当reduction=mean时,对输入的minibatch中的所有样本对应的交叉熵求均值作为交叉熵损失,sum表示总和,当reduction=sum时,对输入的minibatch中的所有样本对应的交叉熵求和作为交叉熵损失,l(x,y)表示当前minibatch的交叉熵损失函数,N是minibatch的维度信息。
联合模型损失函数由两部分组成,公式表示如下:
Loss=λ1LERNIE2LBERT
s.t.λ12=1
其中LERNIE和LBERT分别表示第二交叉熵损失函数和第一交叉熵损失函数,λ1和λ2是超参数并满足约束条件。优选地,第一交叉熵损失函数权重在65%-80%之间。
本发明还利用公开数据集对本发明所提供命名实体识别方法性能进行了验证:
以新闻报导舆情分析为应用场景,选定关键命名实体为识别对象,面向海量舆情数据智能化分析处理的需求,利用上述方法对新闻报导中的文本进行人物、时间、地点、机构等实体识别并抽取,为进一步的舆情分析提供结构化的信息描述。
本发明使用了公共开源评测中文数据集People Daily(人民日报)和MSRA-NER作为测试数据,数据信息分别如图3(a)和图3(b)所示,People Daily数据集由人民日报发布,需要识别其中的人物(PER)、地点(ORG)、机构(LOC)以及时间日期(T)相关命名实体;MSRA-NER数据集由微软亚研院发布,其目标是识别文本中的人物(PER)、地点(ORG)、机构(LOC)等命名实体信息。已知命名实体的文本序列数据标注采用BIO的标注格式。
分别利用BERT模型、BERT+CRF模型、ERNIE模型和本发明所提供的联合模型(即JPLM_NER)进行命名实体识别,最终结果对比情况如图4所示,结果表明:1、相比于采用单个预训练语言模型,本发明基于联合模型的命名实体识别方法性能得到进一步提高;2、CRF的引入,对于命名实体识别这类序列标注任务具有较好的优化效果。
图5是联合模型(JPLM_NER)在不同数据集上进行命名实体识别任务的训练过程F1值变化示意图。由图5可知,当EPOCH(即数据集中的所有样本算一遍)循环到5的时候,联合模型在两个数据集上的性能稳定到较优水平。
如图6、图7所示,本发明实施例提供了一种命名实体识别装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图6所示,为本发明实施例提供的一种命名实体识别装置所在电子设备的一种硬件架构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图7所示,作为一个逻辑意义上的装置,是通过其所在电子设备的CPU将非易失性存储器中对应的计算机程序读取到内存中运行形成的。本实施例提供的一种命名实体识别装置,包括获取模块701、训练模块702、处理模块703和识别模块704;其中:
获取模块701用于获取已知命名实体的中文文本并进行预处理,得到多个已知命名实体的文本向量;
训练模块702用于基于已知命名实体的文本向量,对联合模型进行训练;联合模型包括字符识别模型、分词识别模型和序列标注模型;字符识别模型为预训练语言模型,用于对输入的文本向量提取字符特征,输出包含字符级语义信息的第一文本表示向量;分词识别模型为预训练语言模型,用于对输入的文本向量提取分词特征,输出包含词汇级和语法级语义信息的第二文本表示向量;序列标注模型用于基于融合后的第一文本表示向量和第二文本表示向量进行求解,得到标识文本向量的实体类别的第一序列;
处理模块703用于获取待识别的中文文本并进行预处理,得到待识别的文本向量;
识别模块704用于将待识别的文本向量输入训练后的联合模型,进行命名实体识别。
该实施方式中,获取模块701可用于实现上述命名实体识别方法的步骤100,训练模块702可用于实现上述命名实体识别方法的步骤102,处理模块703可用于实现上述命名实体识别方法的步骤104,识别模块704可用于实现上述命名实体识别方法的步骤106。
可选地,联合模型还包括规范化层,规范化层用于输入融合后的第一文本表示向量和第二文本表示向量,进行规范化处理后,输出至序列标注模型。
进一步地,对于联合模型,融合第一文本表示向量和第二文本表示向量,包括:
对每个字符,将第一文本表示向量中表征该字符的特征和第二文本表示向量中表征该字符的特征拼接,作为融合后表征该字符的特征。
可选地,联合模型还包括分类器,分类器用于基于第二文本表示向量进行求解,得到标识文本向量的实体类别的第二序列;相应地,训练模块702对联合模型进行训练,包括执行如下操作:
将已知命名实体的文本向量输入联合模型,得到第一序列和第二序列;
确定已知命名实体的文本向量所对应的标准标注序列;
基于第一序列与标准标注序列的误差构建第一交叉熵损失函数,基于第二序列与标准标注序列的误差构建第二交叉熵损失函数,对第一交叉熵损失函数和第二交叉熵损失函数进行加权,构建联合模型的损失函数,其中第一损失函数对应的权重大于第二损失函数对应的权重;
基于联合模型的损失函数调整联合模型的参数。
优选地,字符识别模型采用BERT模型,分词识别模型采用ERNIE模型,序列标注模型采用线性链条件随机场。
可以理解的是,本发明实施例示意的结构并不构成对一种命名实体识别装置的具体限定。在本发明的另一些实施例中,一种命名实体识别装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本发明任一实施例中的一种命名实体识别方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被处理器执行时,使所述处理器执行本发明任一实施例中的一种命名实体识别方法。
具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展模块上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种命名实体识别方法,其特征在于,包括:
获取已知命名实体的中文文本并进行预处理,得到多个已知命名实体的文本向量;
基于已知命名实体的文本向量,对联合模型进行训练;所述联合模型包括字符识别模型、分词识别模型和序列标注模型;所述字符识别模型为预训练语言模型,用于对输入的文本向量提取字符特征,输出包含字符级语义信息的第一文本表示向量;所述分词识别模型为预训练语言模型,用于对输入的文本向量提取分词特征,输出包含词汇级和语法级语义信息的第二文本表示向量;所述序列标注模型用于基于融合后的所述第一文本表示向量和所述第二文本表示向量进行求解,得到标识文本向量的实体类别的第一序列;
获取待识别的中文文本并进行预处理,得到待识别的文本向量;
将待识别的文本向量输入训练后的所述联合模型,进行命名实体识别。
2.根据权利要求1所述的方法,其特征在于,
所述联合模型还包括规范化层,所述规范化层用于输入融合后的所述第一文本表示向量和所述第二文本表示向量,进行规范化处理后,输出至所述序列标注模型。
3.根据权利要求1所述的方法,其特征在于,
对于所述联合模型,融合所述第一文本表示向量和所述第二文本表示向量,包括:
对每个字符,将所述第一文本表示向量中表征该字符的特征和所述第二文本表示向量中表征该字符的特征拼接,作为融合后表征该字符的特征。
4.根据权利要求2所述的方法,其特征在于,
所述联合模型还包括分类器,所述分类器用于基于所述第二文本表示向量进行求解,得到标识文本向量的实体类别的第二序列;
所述对联合模型进行训练,包括:
将已知命名实体的文本向量输入所述联合模型,得到所述第一序列和所述第二序列;
确定已知命名实体的文本向量所对应的标准标注序列;
基于所述第一序列与标准标注序列的误差构建第一交叉熵损失函数,基于所述第二序列与标准标注序列的误差构建第二交叉熵损失函数,对所述第一交叉熵损失函数和所述第二交叉熵损失函数进行加权,构建所述联合模型的损失函数,其中所述第一损失函数对应的权重大于所述第二损失函数对应的权重;
基于所述联合模型的损失函数调整所述联合模型的参数。
5.根据权利要求4所述的方法,其特征在于,
所述字符识别模型采用BERT模型,所述分词识别模型采用ERNIE模型,所述序列标注模型采用线性链条件随机场。
6.一种命名实体识别装置,其特征在于,包括:
获取模块,用于获取已知命名实体的中文文本并进行预处理,得到多个已知命名实体的文本向量;
训练模块,用于基于已知命名实体的文本向量,对联合模型进行训练;所述联合模型包括字符识别模型、分词识别模型和序列标注模型;所述字符识别模型为预训练语言模型,用于对输入的文本向量提取字符特征,输出包含字符级语义信息的第一文本表示向量;所述分词识别模型为预训练语言模型,用于对输入的文本向量提取分词特征,输出包含词汇级和语法级语义信息的第二文本表示向量;所述序列标注模型用于基于融合后的所述第一文本表示向量和所述第二文本表示向量进行求解,得到标识文本向量的实体类别的第一序列;
处理模块,用于获取待识别的中文文本并进行预处理,得到待识别的文本向量;
识别模块,用于将待识别的文本向量输入训练后的所述联合模型,进行命名实体识别。
7.根据权利要求6所述的装置,其特征在于,
所述联合模型还包括规范化层,所述规范化层用于输入融合后的所述第一文本表示向量和所述第二文本表示向量,进行规范化处理后,输出至所述序列标注模型。
8.根据权利要求7所述的装置,其特征在于,
所述联合模型还包括分类器,所述分类器用于基于所述第二文本表示向量进行求解,得到标识文本向量的实体类别的第二序列;
所述训练模块对联合模型进行训练,包括执行如下操作:
将已知命名实体的文本向量输入所述联合模型,得到所述第一序列和所述第二序列;
确定已知命名实体的文本向量所对应的标准标注序列;
基于所述第一序列与标准标注序列的误差构建第一交叉熵损失函数,基于所述第二序列与标准标注序列的误差构建第二交叉熵损失函数,对所述第一交叉熵损失函数和所述第二交叉熵损失函数进行加权,构建所述联合模型的损失函数,其中所述第一损失函数对应的权重大于所述第二损失函数对应的权重;
基于所述联合模型的损失函数调整所述联合模型的参数。
9.一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一项所述的方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-5中任一项所述的方法。
CN202210007201.9A 2022-01-05 2022-01-05 一种命名实体识别方法、装置、电子设备及存储介质 Pending CN114330350A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210007201.9A CN114330350A (zh) 2022-01-05 2022-01-05 一种命名实体识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210007201.9A CN114330350A (zh) 2022-01-05 2022-01-05 一种命名实体识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114330350A true CN114330350A (zh) 2022-04-12

Family

ID=81024732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210007201.9A Pending CN114330350A (zh) 2022-01-05 2022-01-05 一种命名实体识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114330350A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983271A (zh) * 2022-12-12 2023-04-18 北京百度网讯科技有限公司 命名实体的识别方法和命名实体识别模型的训练方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983271A (zh) * 2022-12-12 2023-04-18 北京百度网讯科技有限公司 命名实体的识别方法和命名实体识别模型的训练方法
CN115983271B (zh) * 2022-12-12 2024-04-02 北京百度网讯科技有限公司 命名实体的识别方法和命名实体识别模型的训练方法

Similar Documents

Publication Publication Date Title
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111723569A (zh) 一种事件抽取方法、装置和计算机可读存储介质
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115688784A (zh) 一种融合字与词语特征的中文命名实体识别方法
Ye et al. Chinese named entity recognition based on character-word vector fusion
CN113239694B (zh) 一种基于论元短语的论元角色识别的方法
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN114330350A (zh) 一种命名实体识别方法、装置、电子设备及存储介质
CN116136955B (zh) 文本转写方法、装置、电子设备及存储介质
CN113434698B (zh) 基于全层级注意力的关系抽取模型建立方法及其应用
CN113901813A (zh) 一种基于主题特征和隐式句子结构的事件抽取方法
CN114648029A (zh) 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
CN113627185A (zh) 一种用于肝癌病理文本命名的实体识别方法
CN114328902A (zh) 文本标注模型构建方法和装置
CN114117041B (zh) 一种基于特定属性词上下文建模的属性级情感分析方法
CN113255342B (zh) 一种5g移动业务产品名称识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination