CN115952800A - 命名实体识别方法、装置、计算机设备及可读存储介质 - Google Patents

命名实体识别方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN115952800A
CN115952800A CN202211710634.7A CN202211710634A CN115952800A CN 115952800 A CN115952800 A CN 115952800A CN 202211710634 A CN202211710634 A CN 202211710634A CN 115952800 A CN115952800 A CN 115952800A
Authority
CN
China
Prior art keywords
entity
characters
label
named
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211710634.7A
Other languages
English (en)
Inventor
杨祎聪
王�锋
韩乃霞
顾文斌
孙勇
李晓平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hengsheng Juyuan Data Service Co ltd
Hangzhou Hengsheng Juyuan Information Technology Co ltd
Original Assignee
Shanghai Hengsheng Juyuan Data Service Co ltd
Hangzhou Hengsheng Juyuan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hengsheng Juyuan Data Service Co ltd, Hangzhou Hengsheng Juyuan Information Technology Co ltd filed Critical Shanghai Hengsheng Juyuan Data Service Co ltd
Priority to CN202211710634.7A priority Critical patent/CN115952800A/zh
Publication of CN115952800A publication Critical patent/CN115952800A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供的命名实体识别方法、装置、计算机设备及可读存储介质,包括:通过命名实体识别模型预测待识别文本对应的标签信息矩阵以及标签信息矩阵中每个标签对应的概率,将标签信息矩阵中的词关系标签对应的两个字符确定为一组相邻实体字符,将实体边界标签对应的两个字符确定为一组实体头字符和实体尾字符,基于相邻实体字符以及实体头字符和实体尾字符,从待识别文本中提取至少一个命名实体;针对类别不同且嵌套的两个命名实体,将每个命名实体中全部相邻实体字符对应的词关系标签的概率的均值,作为每个命名实体的概率,将概率最大的命名实体保留。本发明可以基于词关系标签概率准确识别出符合语义的命名实体,提高了识别准确率。

Description

命名实体识别方法、装置、计算机设备及可读存储介质
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种命名实体识别方法、装置、计算机设备及可读存储介质。
背景技术
命名实体识别(Named Entity Recognition,简称NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
目前,基于模型的命名实体识别方法可以召回实体的开始和结束字符,然后会采用类似SpanNer的启发式解码方式来返回最终实体,但这种解码方式很容易解码出非实体,如果出现重叠实体,这种解码方式召回的实体可能与实际语义不符,所以这种解码方式准确率低,因此对准确识别命名实体是亟待解决的技术问题。
发明内容
本发明的目的之一在于提供一种命名实体识别方法、装置、计算机设备及可读存储介质,能够使得识别出的命名实体与实际语义相符合,提高了识别结果的准确率,本发明技术方案可以这样实现:
第一方面,本发明提供一种命名实体识别方法,所述方法包括:通过命名实体识别模型,预测待识别文本对应的标签信息矩阵以及所述标签信息矩阵中每个标签对应的概率;其中,所述标签用于表征所述待识别文本中任意两个字符的关系类别;所述标签包括词关系标签和实体边界标签;将所述词关系标签对应的两个字符确定为一组相邻实体字符,将所述实体边界标签对应的两个字符确定为一组实体头字符和实体尾字符,并基于所述相邻实体字符以及所述实体头字符和实体尾字符,从所述待识别文本中提取至少一个命名实体;针对类别不同且嵌套的两个命名实体,将每个所述命名实体中全部所述相邻实体字符对应的所述词关系标签的概率的均值,作为每个所述命名实体的概率,并将概率最大的所述命名实体保留。
第二方面,本发明提供一种命名实体识别装置,包括:预测模块、解码模块和识别模块;预测模块,用于通过命名实体识别模型,预测待识别文本对应的标签信息矩阵以及所述标签信息矩阵中每个标签对应的概率;其中,所述标签用于表征所述待识别文本中任意两个字符的关系类别;所述标签包括词关系标签和实体边界标签;解码模块,用于将所述词关系标签对应的两个字符确定为一组相邻实体字符,将所述实体边界标签对应的两个字符确定为一组实体头字符和实体尾字符,并基于所述相邻实体字符以及所述实体头字符和实体尾字符,从所述待识别文本中提取至少一个命名实体;识别模块,用于针对类别不同且嵌套的两个命名实体,将每个所述命名实体中全部所述相邻实体字符对应的所述词关系标签的概率的均值,作为每个所述命名实体的概率,并将概率最大的所述命名实体保留。
第三方面,本发明提供一种计算机设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现第一方面所述的方法。
第四方面,本发明提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
本发明提供的一种命名实体识别方法、装置、计算机设备及可读存储介质,首先利用命名实体识别模型预测待识别文本对应的标签信息矩阵以及标签信息矩阵中每个标签对应的概率;标签信息矩阵中包含有词关系标签和实体边界标签,所以可以将词关系标签对应的两个字符确定为一组相邻实体字符,将标签信息矩阵中的实体边界标签对应的两个字符确定为一组实体头字符和实体尾字符,并基于相邻实体字符以及实体头字符和实体尾字符,从待识别文本中提取至少一个命名实体;最后针对类别不同且嵌套的两个命名实体,将每个命名实体中全部相邻实体字符对应的词关系标签的概率的均值,作为每个命名实体的概率,并将概率最大的命名实体保留。本发明引入了实体边界和词关系二维联合标注进行解码,在保证召回命名实体的同时还能得到相邻实体字符的概率,最终可以基于词关系标签概率准确识别出符合语义的命名实体,提高了识别准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的命名实体识别模型的结构示例图;
图2为本发明实施例提供的一种标签信息矩阵的示例图;
图3为本发明实施例提供的应用环境示意图;
图4为本发明实施例提供的一种命名实体识别模型的训练方法示意图;
图5为本发明实施例提供的步骤S420的示意性流程图;
图6为本发明实施例提供的命名实体识别方法的示意性流程图;
图7为本发明实施例提供的步骤S520的示意性流程图;
图8为本发明实施例提供的命名实体识别装置的功能模块图;
图9为本发明实施例提供的计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
命名实体,指的是人名、机构名、地名及其他所有以名称为标识的实体,根据形式又分为一般实体、嵌套实体、非连续实体,例如:“广州大学”是地点实体,“广州大学”中“广州”也是地点实体,这两个实体存在嵌套关系。再例如,在累计区级财政收入1.23亿元,同比增长3.5%中,“累计区级财政收入”和“累计区级财政同比增长”是经济实体,其中“累计区级财政收入同比增长”是非连续实体。
命名实体识别是指识别文本句中的命名实体,可通过训练相应模型来实现命名实体识别,如deep biaffine和global pointer等模型能够识别一般实体和嵌套实体,w2ner则可以支持一般实体、嵌套实体和非连续实体识别,也是。
w2ner是目前最常用的命名实体识别模型,w2ner的本质是基于实体边界任务(简称任务一)召回命名实体,再根据词与词关系任务(简称任务二)抽取实体首尾之间的连续或者非连续实体片段。一方面,该方法无法识别任务一未召回的实体,也可能出现任务二对任务一召回的正确实体进行误杀,导致命名实体识别结果不全或者不准确。
例如,“北京大学光华管理学院”和“北京大学”是两个嵌套的机构实体,如果只召回了“北+学”的边界,那么无论如何也无法识别出“北京大学光华管理学院”这个机构实体,出现识别结果不全的问题;当召回“北+院”的边界,又可能无法准确识别出“北+院”中的实体片段,这就导致先用,出现识别结果不准的问题。
在实际生产环境中,w2ner训练占用的gpu显存过大、推理的耗时过长导致该方法很难落地。
因此,本申请提供的一种命名实体识别模型,请参见图1,图1为本发明实施例提供的命名实体识别模型的结构示例图。
如图1所示,本发明实施例提供的命名实体识别模型包括依次连接的特征提取网络、线性映射层、双仿射分类器和解码模模块,在线性映射层和双仿射分类器还设置了一个位置编码处理流程。
其中,特征提取网络可以但不限于是bert模型,特征提取网络的输入是文本对应的字符(token)序列,特征提取网络通过对token序列进行特征提取,可以获得token序列的语义特征的向量表示,例如token序列的长度为N,那么语义特征即为N*L的向量表示,其中L是特征提取网络的隐藏层维度,例如bert模型的L为768,那么语义特征即为N*768维的向量表示。
通过特征提取网络获得的N*L的语义特征向量输入到线性映射层,线性映射层对语义特征向量进行降维,具体地,线性映射层可以是门控线性单元glu,通过门控单元主动学习词语义特征向量中保留哪些维度,剔除哪些维度,最终实现降维的效果,例如,假设词语义特征向量为N*768,那么在模型训练之后,线性映射层可以将语义特征向量降维,得到N*128维的向量表示。
本发明实施例考虑到二维标注体系的参数维度是n*n*h指数的量级,其中的n是指序列长度,h是编码模型的隐藏层维度(如bert 768),所以需要在尽量减少精度损失的情况下更好地节约计算资源。所以本发明实施例在命名实体模型中加入了线性映射层可以实现维度降低,同时设置序列的最大长度不超过256,并去掉了w2ner中的双向循环神经网络单元(bilstm),这样精度损失较小,而且也大大降低了参数量,提高命名实体模型的处理效率。
为考虑实体头尾之间距离的关键信息,本发明实施例在通过线性映射层降维后的语义特征向量的基础上引入了旋转式位置编码(RoPE),施加RoPE后不同位置的语义特征向量作内积时为根据相对距离的远近发生衰减,通过位置编码可以极大提升实体识别效果。
双仿射分类器,用于预测任意两个token之间的关系类别,得到标签信息矩阵,该标签信息矩阵的大小为N*N,是基于token序列的长度N构建的,标签信息矩阵中每个元素代表一种关系类别的标签,关系类别可以有三种:非实体关系、实体相邻字符关系和实体边界关系,实体相邻字符关系对应词关系标签、实体边界关系对应实体边界标签、非实体关系对应填充标签(或者非实体标签),这些标签可以通过不同的数值进行表征。
为了方便理解,请参见图2,图2为本发明实施例提供的一种标签信息矩阵的示例图,以对角线为分界线可以将标签信息矩阵划分为词关系信息区域和实体边界信息区域。
词关系信息区域内维护的是一个文本中一个字符与位于该字符之后的每个字符之间的标签,包括词关系标签和非实体标签(如图2中的数值1和数值0);实体边界信息区域维护的是除第一个字符外,一个字符和位于该字符之前的每个字符对应的标签,包含实体边界标签和非实体标签(如图2中的数值2和0),实体边界标签的数值与实体类别具有映射关系,因此当一个文本中存在多种命名实体,那么对应的实体边界标签可以基于命名实体类别依次编号,例如从2到m,其中m为实体类别数;词关系标签对应的两个字符属于同一命名实体内相邻两个字符,实体边界标签对应的两个字符是同一个命名实体的头和尾,非实体标签表征两个字符并不属于同一实体。
需要说明的是,上述数值0、1、2仅仅是区分词关系标签、实体边界标签以及非实体标签的一种示例,还可以通过其他标识对上述三种标签进行区分,本申请实施例对此不作限定。
解码模块可以基于上述得到的标签信息矩阵进行解码并识别最终的命名实体,相比传统的启发式解码如SpanNer的解码方式使用实体边界的概率,本发明实施例中的解码模块可以以词与词关系的概率以及重叠实体的概率比较确定最终的实体识别结果,能够提高命名实体识别的准确性,识别结果能够与实际语义相符。
基于图1所示的命名实体模型,本发明实施例还提供一种命名实体识别模型的训练方法和命名实体识别方法。
考虑到目前的命名实体模型训练方式中,一方面,一个命名实体具有一个实体边界标签,但是却具有e-1个词关系的标签(e为实体中字符数量)导致实体边界标签和词关系标签分布不均衡,另一方面是不同命名实体类别的标签也存在分布不均衡的情况,影响模型训练效果,因此本发明实施例提供了一种命名实体识别模型的训练方法可以解决上述问题。
本申请提供的命名实体识别模型的训练方法,可以应用于如图3所示的应用环境中,图3为本发明实施例提供的应用环境示意图,其中,服务器104获得标注有命名实体的训练样本之后可以先基于数据库106中的实体和实体边界样本进行数据增强,然后确定实体边界标签和词关系标签各自的权重,并基于实体边界标签和词关系标签各自的权重以及实体边界标签和词关系标签的损失函数构建命名实体识别模型的总损失函数,最后通过训练样本和实体边界样本对命名实体识别模型进行训练以获得总损失函数的损失值,并基于损失值对命名实体识别模型的参数调整后继续进行训练,直至训练结束得到训练完成的命名实体识别模型。此外,训练完成的命名实体识别模型还可以移植到其他服务器,以由其他服务器进行命名实体识别的处理,或者,训练完成的命名实体识别模型也可以加载到终端102中以使终端102具备命名实体识别能力。
考虑到目前的命名实体识别模型通过数据增强训练语料来进行模型训练,导致先用的解码方式召回的实体数量增多,也就意味着会有很多重叠实体,但这些召回的实体中可能存在与实际语义不符的实体,使得实体识别结果不精准,因此本发明实施例也提供了一种命名实体识别方法。
本发明实施例提供的命名实体识别方法,也可以应用图3所示的应用环境中,终端102通过网络与服务器104进行通信。终端102可以采集待识别的语句,并将待识别的语句发送至服务器104,服务器104接收到待识别的语句后,确定待识别的语句对应的标签信息矩阵后确定相邻实体字符和实体头字符和实体尾字符,并基于相邻实体字符以及实体头字符和实体尾字符,从待识别文本中提取至少一个命名实体;然后基于词关系标签的概率对类别不同且嵌套的命名实体两个命名实体进行识别,保留最终准确符合实际语义的命名实体。服务器104可将识别结果发送至终端102。此外,也可以单独由服务器104从数据库中获取待识别的语句,并对获得的语句进行命名实体识别处理。
本发明实施例中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本发明实施例先以命名实体识别模型的训练方法应用于图1中的服务器104为例,介绍图1所示的命名实体识别模型的训练方式,如图4所示,图4为本发明实施例提供的一种命名实体识别模型的训练方法示意图,包括以下步骤:
S410:获取多个训练样本,并对多个训练样本进行数据增强;训练样本具有实体边界标签和词关系标签。
本发明实施例中,正如图2所示,训练样本中标注出任意两个字符所属关系类别的标签,例如在实施过程中,同一命名实体内的相邻实体字符对应的词关系标签可以用1表示,非实体关系的两个字符的可以用0表示,实体边界标签可以基于命名实体类别从数值2开始依次编号,例如第一类命名实体类别对应的实体边界标签为2,第二类命名实体类别对应的实体边界标签为3,以此类推。
本发明实施例中,对训练样本进行数据增强能够加训练样本中的实体密度,提升实体边界召回率。
S420:将多个训练样本分成多个批次,并确定每批次训练样本中所词关系标签以及每种实体边界标签各自的权重。
本发明实施例中,词关系标签以及每种实体边界标签各自的权重用于构建命名实体识别模型的总损失函数,可以解决词关系标签和实体边界标签由于分布不均衡影响模型训练效果的问题。
S430:根据每批次训练样本中词关系标签以及每种实体边界标签各自的权重和词关系标签和实体边界标签对应的损失函数,构建每批次训练样本对应的命名实体识别模型的总损失函数。
本发明实施例中,命名实体识别模型的总损失函数形如公式(1):
Figure BDA0004026107690000071
其中,WNNW为词关系标签的权重;WTHW,i表征第i种实体边界标签的权重;λ和μ为预设参数;n为实体边界标签的种类数;CLR为词关系标签的损失函数;CLE表征实体边界标签的损失函数,CLR和CLE的表达式分别形如公式(2)和公式(3):
Figure BDA0004026107690000081
Figure BDA0004026107690000082
其中,PRi和LRi分别表征词关系信息区域内第i个概率以及第i个概率对应的两个字符的实际标签;PRi和LRi分别表征实体关系信息区域内第i个概率以及该概率对应的两个字符的实际标签。
S440:将每批次训练样本输入到待训练的命名实体识别模型中进行模型训练,直到总损失函数收敛,得到训练后的命名实体识别模型。
综上可知,本发明实施例的命名实体模型是通过数据增强后的训练样本对初始命名实体模型进行训练以使预构建的总损失函数收敛的方式训练而成,总损失函数是基于词关系标签和实体边界标签各自的损失函数以及权重进行构建的。
在可选的实施方式中,对训练样本进行数据增强可以增加实体边界的召回率,避免实体边界召回结果不全,本发明实施例提供的提升实体边界任务召回率的数据增强策略,是在训练过程中通过词库同类型实体的一对多替换进行数据增强,并且通过外部词库匹配甚至第三方ner系统的方式引入实体边界,因此,针对上述步骤S410,本发明实施例的实施方式可以是:
A1:获取多个文本,将每个文本中的命名实体替换成命名实体类别。
本发明实施例中,通过外部词库匹配或者第三方ner系统的方式引入实体边界样本,需要注意的是,实体长度必须大于1,因为词关系识别任务的门槛是至少需要两个字。
A2:针对每个文本,从实体类型库中获取至少一个与命名实体类别相同的命名实体,并将命名实体类别替换成命名实体;
A3:将替换后的文本以及预存的实体边界样本作为训练样本。
本发明实施例中,可以按照文本语料中标注的实体位置将文本中的所有实体替换成“$类型”,如人名替换成“$PER”,从处理后的多个文本语料中随机抽取一条文本语料,前向搜索每个“$类型”片段,从类型库中随机取一个或两个同类型的实体替换搜索到“$类型”片段,若单次替换两个及以上个实体,还可以在相邻实体中间随机加入空字符,逗号,顿号,“和”,“与”等字符,并记录新的实体的位置信息,重复步骤A1得到训练样本集还可以得到测试集。
得到数据增强后的训练样本之后,训练样本用bert模型编码,bert模型中包含多个embedding层,梯度下降后,先对每个embedding层用FGM的方式注入扰动,梯度下降并累加,删除扰动,最后进行梯度更新,然后通过模型召回训练样本所包含的实体边界,然后通过外部词库匹配甚至第三方ner系统的方式引入实体边界,即将词库匹配或者第三方ner识别结果中实体头和实体尾加入待判定的集合,上述方式可以增加训练样本中实体密度,可以提升模型的实体召回率。
在可选的实施方式,由于词关系标签和实体边界标签分布不均衡会影响模型训练效果,因此本发明可以基于确定词关系标签以及每种实体边界标签各自的权重来重新构建命名实体模型的损失函数,下面对上述步骤S420,本发明实施例给出了如图5所示的实施方式,图5为本发明实施例提供的步骤S420的示意性流程图,可以包括如下步骤:
S420-1:统计词关系标签和每种实体边界标签各自的总数量以及每批次训练样本中词关系标签和每种实体边界标签各自的子数量。
S420-2:将每个子数量和总数量之间的比值与预设调节参数之间的乘积作为激活函数的输入进行求解,得到每批次训练样本中词关系标签和每种实体边界标签的各自的权重。
本发明实施例中,假设词关系标签的编号为1,实体边界标签的编号依次为2到n,在全部训练样本中,统计1、2至n各自的总数量,总数量表示为Mi(i=1,2,3,…n);对训练样本进行分批,得到多个批次(batch),然后统计每批次内每个编号的子数量,记为Ni(i=1,2,3,...,n);然后通过如下关系式(4)计算词关系标签和每种实体边界标签的权重:
Figure BDA0004026107690000091
其中,sigmoid为常用激活函数,值域为(0,1);α为调节参数,一般为10的指数次幂,β是值在0到1之间的随机数。
在可选的实施方式,基于词关系标签和每种实体类别标签各自对应的权重以及词关系标签和实体边界标签的损失函数构建了总损失函数之后,本发明实施例通过上述训练样本进行模型训练的过程为:
B1:将每批次训练样本输入到命名实体识别模型,预测每个训练样本对应的标签概率矩阵;其中,标签概率矩阵用于维护训练样本中任意两个字符的标签类别的概率;
本发明实施例中,标签概率矩阵和图2所示的标签信息矩阵类似,不同的是,标签信息矩阵中维护的是标签,而标签概率矩阵用于维护的是标签的概率值。
B2:分别基于标签概率矩阵中词关系信息区域和实体边界信息区域内每个概率和每个概率对应的两个字符的实际标签,计算词关系标签和实体边界标签各自的损失函数的损失值。
本发明实施例中,可以分别词关系信息区域和实体边界信息区域内的概率平铺,然后通过上述公式(2)计算词关系标签的损失值,通过公式(3)计算实体边界标签的损失值。
B3:根据述词关系标签和实体边界标签各自的损失值计算总损失函数的损失值,并将损失值反向传播至命名实体识别模型,以对命名实体识别模型的模型参数进行迭代更新,直到总损失函数收敛。
本发明实施例中,得到词关系标签和实体边界标签各自的损失值后即可通过上述公式(1)计算总损失函数的损失值,然后基于损失值对命名实体识别模型的参数调整后继续进行训练,直至训练结束得到训练完成的命名实体识别模型。
通过上述训练方法得到的命名实体识别模型能够更好地应对多任务和多标签的场景,提升实体边界的召回率,可以精准实现命名实体的识别。
基于上述得到的命名实体识别模型,本发明实施例提供了一种命名实体识别方法,请参见图6,图6为本发明实施例提供的命名实体识别方法的示意性流程图,可以包括如下步骤:
S510:通过命名实体识别模型,预测待识别文本对应的标签信息矩阵以及标签信息矩阵中每个标签对应的概率;
其中,标签用于表征待识别文本中任意两个字符的关系类别;标签包括词关系标签和实体边界标签;
S520:将词关系标签对应的两个字符确定为一组相邻实体字符,将实体边界标签对应的两个字符确定为一组实体头字符和实体尾字符,并基于相邻实体字符以及实体头字符和实体尾字符,从待识别文本中提取至少一个命名实体;
S530:针对类别不同且嵌套的两个命名实体,将每个命名实体中全部相邻实体字符对应的词关系标签的概率的均值,作为每个命名实体的概率,并将概率最大的命名实体保留。
在可选的实施方式中,步骤S510中的命名实体识别模型的结构如图1所示,包括特征提起网络、线性映射层、双仿射分类器和解码模块;特征提取网络用于提取待识别文本中每个字符对应的语义特征向量,线性映射层用于对语义特征向量降维,降维后的语义特征向量经过位置编码处理之后再通过双仿射分类器进行预测得到标签信息矩阵,解码模块通过对标签信息矩阵进行解码以得到命名实体。因此,上述步骤S510的实施方式可以是:
步骤1:将待识别文本的字符序列输入命名实体识别模型的特征提取网络,得到每个字符对应的语义特征向量;
步骤2:通过命名实体识别模型的线性映射层对每个语义特征向量进行降维,并将降维后的每个特征向量进行位置编码;
步骤3:将位置编码后的每个语义特征向量输入到命名实体识别模型的双仿射分类器,预测任意两个字符之间概率;
步骤4:根据预设概率阈值和所述概率的比较结果,确定所述概率对应的两个字符的关系类别,并基于关系类别确定该两个字符对应的标签;
在前述内容中已经介绍了,本发明实施例中关系类别有三种:非实体关系、实体相邻字符关系和实体边界关系,其中,非实体关系对应非实体标签、实体相邻字符关系对应词关系标签、实体边界关系对应实体边界标签,不同标签用不同数值标识,因此,在步骤4中,为了确定两个字符对应的标签,可以先设置一个预设概率阈值,若一个字符与位于该字符之后的任意一个字符的概率大于预设概率阈值,则确定这两个字符之间为实体相邻字符关系,为其设置词关系标签;否则,确定这两个字符为非实体关系,设置非实体标签;若除第一个字符以外的一个字符和位于该字符之前的任意一个字符对应的概率大于该预设概率阈值,则确定这两个字符之间为实体边界关系,为它们设置实体边界标签,否则为它们设置非实体标签,可以通过不同的数值区分不同标签,如图2所示,词关系标签用数值1表示,非实体标签用数值0表示,实体边界标签用除0和1以外的数值表示。
步骤5:根据字符序列的长度构建矩阵,并在矩阵中任意两个字符对应的矩阵位置处填充该任意两个字符对应的标签,得到所述标签信息矩阵。
本发明实施例中,正如图2所示,标签信息矩阵尺寸就是N×N,标签信息矩阵中横向位置标识从左到右依次增大,纵向位置标识从上到下依次增大,针对任意两个字符,在标签信息矩阵中词关系信息区域内,其位置可以表示为(y,x),其中y为其中一个字符的纵向位置标识,x为另一个字符的横向位置标识,而(y,x)又可以用两个字符在字符序列中的序列号表示,比如,财政的序列号为(0,1),对应标签信息矩阵中的位置纵向位置标识为0横向位置标识为1的位置处。
在可选的实施方式中,针对上述步骤S520,本发明实施例给出了如图7所示的实施方式,图7为本发明实施例提供的步骤S520的示意性流程图,可以包括如下步骤:
S520-1:从标签信息矩阵中,确定词关系标签和实体边界标签各自对应的纵向位置标识和横向位置标识。
例如,以图2为例,可以确定出每个1对应的纵向位置标识和横向位置标识依次为(y=0,x=1)、(y=1,x=2)、(y=2,x=3)、(y=3,x=5)和(y=5,x=6)。每个2对应的横向位置标识和纵向位置标识为(x=0,y=3)和(x=0,y=6)。
S520-2:在待识别文本中,将与词关系标签的纵向位置标识和横向位置标识一致的字符位置上的字符组成一组相邻实体字符,并将与实体边界标签的横向位置标识和纵向位置标识一致的字符位置上的字符组成一组实体头字符和实体尾字符。
本发明实施例中,标签信息矩阵中的矩阵位置与待识别文本中的字符位置具有对应关系,针对词关系标签,横向位置标识对应的字符是纵向位置标识对应的字符的下一个字符;针对实体边界标签,横向位置标识对应的字符为实体头字符,纵向位置标识对应的字符为实体尾字符。
例如,在图2中待识别文本为“财政收入x增长y”,字符位置编号依次为0至6,那么词关系标签1对应的位置标识为(y=0,x=1),则可以确定待识别文本中第0个字符和第1个字符是一组相邻实体字符,即(财,政);同理,实体边界标签的位置标识为(x=0,y=3),则可以确定第0个字符和第3个字符是同一个命名实体中的头和尾,即实体头字符为财,实体尾字符为入。
S520-3:将位于一组实体头字符和实体尾字符之间相邻实体字符依次组合,得到一个命名实体。
为了提取命名实体,本发明实施例可以先基于标签信息矩阵确定同一个命名实体内包含的字符的位置,然后将这些位置上的字符按顺序组合,具体为:
首先,在词关系信息区域内,针对全部词关系标签,建立每个纵向位置标识对应的列表,将该纵向位置标识对应的横向位置标识以及该纵向位置标识和该横向位置标识对应的词关系标签的概率写入该列表中得到一个词关系字典;
例如,以图2所示的标签信息矩阵为例,词关系标签对应的纵向位置标识可以表示为:key=0,key=1,key=2,key=3和key=5,然后建立每个key的列表,例如,key=0,x=1,概率为p1;key=1,x=2,概率为p2;key=2,x=3,概率为p3;key=3,x=5,概率为p4;key=5,x=6,概率为p5,那么最终可以得到的相邻实体字符及其概率为(财政,p1),(政收,p2),(收入,p3),(入增,p4),(增长,p5)。
在实际场景中,每个纵向位置标识可能对应不止一个横向位置标识,那么该纵向位置标识的列表中也不止一个横向位置标识和概率。
然后,在实体边界信息区域内,对于每个实体边界标签按照从上到下,从左到右的顺序遍历,如果标签对应的实体头的横向位置标识和实体尾的纵向位置标识序号可以在上述词关系字典找到,则记为一个字块,并记录概率。如果该字块的纵向位置标识不是词关系字典中的key,那么结束这一标签的搜索,否则继续搜索下一字块。遍历完成的结果是每个实体边界标签对应一个或多个字。
例如,图2中的实体边界标签2的位置可以表示为(3,0),3是纵向位置标识,对应的实体头尾符为入,0是横向位置标识,对应的实体头字符为财,则实体边界可以记为“财+入”,那么从财字开始按照从上到下,从左到右的顺序进行遍历,例如,假设当前遍历指针在位置(y=0,x=0)处,x=0并不在key=0的列表中,继续往后到达位置(y=0,x=1)处,x=1在key=0的列表中,则得到一个字块“财政”,继续遍历,分别在(y=1,x=2)处得到下一个字块“财政收”,在(y=2,x=3)处得到下一个字“财政收入”,直到(y=3,x=0),发现y与实体尾字符的纵向位置标识相同且x=0不在key=3的列表中,即停止这个实体边界标签的遍历,得到“财政收入”这个命名实体,针对下一个实体边界标签,继续采用上述搜索方式直到得到下一个命名实体“财政收入增长”。
通过上述实施方式可以精准提取待识别文本中存在的各个命名实体。
在可选的实施方式中,本发明实施例考虑到目前的解码方式会采用实体边界概率较大或者满足阈值的实体边界来确定最终实体识别结果,但是可能会出现最终得到的命名实体与实际语义不符的问题。
例如,对于“刘德华为公司作出贡献”这个文本,现有解码方式通过实体边界概率筛选出最终的实体边界有“刘+华”、“华+司”,最终识别的命名实体有刘德华、华为公司,很明显,命名实体“华为公司”明显与实际语义不符,因此这种识别方式,精准度较低。
为了解决上述问题,本发明实施例在得到命名实体还会基于每个命名实体中包含的具有相邻关系的字符对应的概率来确定命名实体的概率,并基于命名实体的概率以及命名实体是否重叠来进行筛选,以确定最终符合实际语义的命名实体,提高实体识别结果的准确性,因此,在步骤S520获得命名实体之后,即可执行步骤S530和S540。
S530:针对类别不同且嵌套的两个命名实体,将每个命名实体中全部相邻实体字符对应的词关系标签的概率的均值,作为每个命名实体的概率,并将概率最大的命名实体保留。
例如,“刘德华”和“华为公司”这两个命名实体,刘德华”和“华为公司”是类别不同且嵌套的两个命名实体,而“刘德华”的概率最大,因此根据概率最大确定保留“刘德华”。
再例如,北京大学光华管理学院中识别出“北京大学”和“北京大学光华管理学院”两个命名实体,它们是同类型嵌套实体,最终两个实体都保留。
为了验证本发明实施例提供的命名实体识别模型的命名实体识别效果,本发明实施例还在两个开源flat数据集(不包含嵌套实体和非连续实体)和一个内部数据集(包含嵌套实体和非连续实体)对多个主流方法进行了对比实验,如表1所示,表1中所有结果为三次最佳f1取均值,参数/显存/推理速度的基准是长度256,实体类型数量6。
相比基准模型w2ner,本发明提供的命名实体识别模型在resume和hsjy-ner数据集上f1指标得到了提升,而且显存占用上减少了2/3,推理速度也提升了30%。
相比序列标注的经典方法bert+crf,本发明提供的命名实体识别模型最终的f1指标均占优,虽然在参数、显存上占用上更多,但是推理速度相当。
相比Global Pointer,本发明提供的命名实体识别模型最终的f1指标在peopledaily和resume数据集均占优,参数和显存上是相当的,而且在hsjy-ner上Global Pointer是发散的,可能数据集较大存在极端数据有关。
表2是对w2ner进行网络结构修改后在resume数据集的递进实验,可以看到GLU、RoPE、double biaffine的每一个结构的引入,都对模型的效果达到了提升,外部词库和启发式解码也提升了f1指标,最终相同配置(128维)的w2ner提升效果达到1个百分点。
表1
Figure BDA0004026107690000141
Figure BDA0004026107690000151
表2
指标testf1 Resume
bilstm(512)+distanceembedding+biaffine+dilationconvlution 96.21*
bilstm(128)+distanceembedding+biaffine+dilationconvlution 95.41*
distanceembedding–>rotaryposisionembedding 95.83*
biaffine+dilationconvolution->doublebiaffine 96.12*
bilstm(128)->glu(128) 96.31*
本发明提供的命名实体识别方法 96.35*
基于相同的发明构思,本申请实施例还提供一种命名实体识别装置,该命名实体识别装置如图8所示,图8为本发明实施例提供的命名实体识别装置的功能模块图,该命名实体识别装置600可包括:预测模块610、解码模块620和识别模块630;
预测模块610,用于通过命名实体识别模型,预测待识别文本对应的标签信息矩阵以及标签信息矩阵中每个标签对应的概率;其中,标签用于表征待识别文本中任意两个字符的关系类别;标签包括词关系标签和实体边界标签;
解码模块620,用于将词关系标签对应的两个字符确定为一组相邻实体字符,将实体边界标签对应的两个字符确定为一组实体头字符和实体尾字符,并基于相邻实体字符以及实体头字符和实体尾字符,从待识别文本中提取至少一个命名实体;
识别模块630,用于针对类别不同且嵌套的两个命名实体,将每个命名实体中全部相邻实体字符对应的词关系标签的概率的均值,作为每个命名实体的概率,并将概率最大的命名实体保留;
识别模块630,还用于针对类别相同且嵌套的两个命名实体,将字符串长度最长的命名实体保留。
可以理解的是,预测模块610、解码模块620和识别模块630可以协同的执行图6中的各个步骤以实现相应的技术效果。
在可选的实施方式中,解码模块620,用于从标签信息矩阵中,确定词关系标签和实体边界标签各自对应的纵向位置标识和横向位置标识;在待识别文本中,将与词关系标签的纵向位置标识和横向位置标识一致的字符位置上的字符作为一组相邻实体字符,并将与实体边界标签的纵向位置标识和横向位置标识一致的字符位置上的字符作为一组实体头字符和实体尾字符;将位于一组实体头字符和实体尾字符之间相邻实体字符依次组合,得到一个命名实体。
在可选的实施方式中,预测模块610,用于将待识别文本的字符序列输入命名实体识别模型的特征提取网络,得到每个字符对应的语义特征向量;通过命名实体识别模型的线性映射层对每个语义特征向量进行降维,并将降维后的每个特征向量进行位置编码;将位置编码后的每个语义特征向量输入到命名实体识别模型的双仿射分类器,预测任意两个字符之间的关系类别以及关系类别对应的概率,并设置每种关系类别对应的标签;根据字符序列的长度构建矩阵,并在矩阵中填充标签,得到标签信息矩阵。
在可选的实施方式中,该命名实体识别装置600可包括训练模块,用于获取多个训练样本,并对多个训练样本进行数据增强;训练样本具有实体边界标签、词关系标签;将多个训练样本分成多个批次,并确定每批次训练样本中词关系标签以及每种实体边界标签各自的权重;根据每批次训练样本中词关系标签以及每种实体边界标签各自的权重和词关系标签和实体边界标签对应的损失函数,构建每批次训练样本对应的总损失函数;将每批次训练样本输入到待训练的命名实体识别模型中进行模型训练,直到总损失函数收敛,得到训练后的命名实体识别模型。
在可选的实施方式中,训练模块,用于统计词关系标签和每种实体边界标签各自的总数量以及每批次训练样本中词关系标签和每种实体边界标签各自的子数量;将每个子数量和总数量之间的比值与预设调节参数之间的乘积作为激活函数的输入进行求解,得到每批次训练样本中词关系标签和每种实体边界标签的各自的权重。
在可选的实施方式中,训练模块,用于获取多个文本,将每个训练样本中的命名实体替换成命名实体类别;针对每个文本,从实体类型库中获取至少一个与命名实体类别相同的目标命名实体,并将命名实体类别替换成目标命名实体;将替换后的文本以及预存的实体边界样本作为训练样本。
在可选的实施方式中,训练模块,用于将每批次训练样本输入到命名实体识别模型,预测每个训练样本的标签概率矩阵;其中,标签概率矩阵用于维护训练样本中任意两个字符的标签类别的概率;分别基于标签概率矩阵中词关系信息区域和实体边界信息区域内每个概率和每个概率对应的两个字符的实际标签,计算词关系标签和实体边界标签各自的损失函数的损失值;根据述词关系标签和实体边界标签各自的损失值计算总损失函数的损失值,并将损失值反向传播至命名实体识别模型,以对命名实体识别模型的模型参数进行迭代更新,直到总损失函数收敛。
需要说明的是,本申请以上实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
基于上述实施例,本申请实施例还提供一种计算机设备的示意图,该计算机设备用于实现上述实施例中的无线表格的结构方法。参阅图9所示,图9为本发明实施例提供的计算机设备的结构框图,计算机设备700包括:存储器701、处理器702、通信接口703、和总线704,该存储器701、处理器702和通信接口703相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
可选的,总线704可以是外设部件互连标准(peripheral componentinterconnect,PCI)总线或扩展工业标准结构(extended industry standardarchitecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本申请实施例中,处理器702可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储器701中,处理器702读取存储器701中的程序指令,结合其硬件完成上述方法的步骤。
在本申请实施例中,存储器701可以是非易失性存储器,比如硬盘(harddiskdrive,HDD)或固态硬盘(solid-state drive,SSD)等,还可以是易失性存储器(volatilememory),例如RAM。存储器还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器还可以是电路或者其它任意能够实现存储功能的装置,用于存储指令和/或数据。
存储器701可用于存储软件程序及模块,如本发明实施例提供的命名实体识别装置600的指令/模块,可以软件或固件(firmware)的形式存储于存储器701中或固化在计算机设备700的操作系统(operating system,OS)中,处理器702通过执行存储在存储器701内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口703可用于与其他节点设备进行信令或数据的通信。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
可以理解,图9所示的结构仅为示意,计算机设备700还可以包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。图9所示的各组件可以采用硬件、软件或其组合实现。
基于以上实施例,本申请还提供了一种存储介质,存储介质中存储有计算机程序,计算机程序被计算机执行时,使得计算机执行以上实施例提供的命名实体识别方法。
基于以上实施例,本申请实施例还提供了一种计算机程序,当计算机程序在计算机上运行时,使得计算机执行以上实施例提供的命名实体识别方法。
基于以上实施例,本申请实施例还提供了一种芯片,芯片用于读取存储器中存储的计算机程序,用于执行以上实施例提供的命名实体识别方法。
本申请实施例中还提供一种计算机程序产品,包括指令,当其在计算机上运行时,使得计算机执行以上实施例提供的命名实体识别方法。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种命名实体识别方法,其特征在于,所述方法包括:
通过命名实体识别模型,预测待识别文本对应的标签信息矩阵以及所述标签信息矩阵中每个标签对应的概率;其中,所述标签用于表征所述待识别文本中任意两个字符的关系类别;所述标签包括词关系标签和实体边界标签;
将所述词关系标签对应的两个字符确定为一组相邻实体字符,将所述实体边界标签对应的两个字符确定为一组实体头字符和实体尾字符,并基于所述相邻实体字符以及所述实体头字符和实体尾字符,从所述待识别文本中提取至少一个命名实体;
针对类别不同且嵌套的两个命名实体,将每个所述命名实体中全部所述相邻实体字符对应的所述词关系标签的概率的均值,作为每个所述命名实体的概率,并将概率最大的所述命名实体保留。
2.根据权利要求1所述的命名实体识别方法,其特征在于,将所述词关系标签对应的两个字符确定为一组相邻实体字符,将所述实体边界标签对应的两个字符确定为一组实体头字符和实体尾字符,并基于所述相邻实体字符以及所述实体头字符和实体尾字符,从所述待识别文本中提取至少一个命名实体,包括:
从所述标签信息矩阵中,确定所述词关系标签和所述实体边界标签各自对应的纵向位置标识和横向位置标识;
在所述待识别文本中,将与所述词关系标签的所述纵向位置标识和横向位置标识一致的字符位置上的字符作为一组所述相邻实体字符,并将与所述实体边界标签的所述纵向位置标识和横向位置标识一致的字符位置上的字符作为一组所述实体头字符和实体尾字符;
将位于一组所述实体头字符和实体尾字符之间所述相邻实体字符依次组合,得到一个所述命名实体。
3.根据权利要求1所述的命名实体识别方法,其特征在于,通过命名实体识别模型,预测待识别文本对应的标签信息矩阵以及所述标签信息矩阵中每个标签对应的概率,包括:
将所述待识别文本的字符序列输入所述命名实体识别模型的特征提取网络,得到每个所述字符对应的语义特征向量;
通过所述命名实体识别模型的线性映射层对每个所述语义特征向量进行降维,并将降维后的每个所述特征向量进行位置编码;
将位置编码后的每个所述语义特征向量输入到所述命名实体识别模型的双仿射分类器,预测任意两个字符之间的概率;
根据预设概率阈值和所述概率的比较结果,确定所述概率对应的两个字符的关系类别,并为所述关系类别设置标签;
根据所述字符序列的长度构建矩阵,并在所述矩阵中任意两个字符对应的矩阵位置处填充所述任意两个字符对应的所述标签,得到所述标签信息矩阵。
4.根据权利要求1-3任意一项所述的命名实体识别方法,其特征在于,所述命名实体识别模型是通过如下方式训练得到的:
获取多个训练样本,并对多个所述训练样本进行数据增强;所述训练样本具有所述实体边界标签和所述词关系标签;
将多个所述训练样本分成多个批次,并确定每批次训练样本中所述词关系标签以及每种所述实体边界标签各自的权重;
根据所述每批次训练样本中所述词关系标签以及每种所述实体边界标签各自的权重和所述词关系标签和实体边界标签对应的损失函数,构建所述每批次训练样本对应的总损失函数;
将所述每批次训练样本输入到待训练的命名实体识别模型中进行模型训练,直到所述总损失函数收敛,得到训练后的所述命名实体识别模型。
5.根据权利要求4所述的命名实体识别方法,其特征在于,将多个所述训练样本分成多个批次,并确定每批次训练样本中所述词关系标签以及每种所述实体边界标签各自的权重,包括:
统计所述词关系标签和每种所述实体边界标签各自的总数量以及所述每批次训练样本中所述词关系标签和每种所述实体边界标签各自的子数量;
将每个所述子数量和所述总数量之间的比值与预设调节参数之间的乘积作为激活函数的输入进行求解,得到所述每批次训练样本中所述词关系标签和每种所述实体边界标签的各自的权重。
6.根据权利要求4所述的命名实体识别方法,其特征在于,获取多个训练样本,并对多个所述训练样本进行数据增强,包括:
获取多个文本,将每个所述文本中的命名实体替换成命名实体类别;
针对每个所述文本,从实体类型库中获取至少一个与所述命名实体类别相同的命名实体,并将所述命名实体类别替换成所述命名实体;
将替换后的所述文本以及预存的实体边界样本作为所述训练样本。
7.根据权利要求4所述的命名实体识别方法,其特征在于,将所述每批次训练样本输入到待训练的命名实体识别模型中进行模型训练,直到所述总损失函数收敛,得到训练后的所述命名实体识别模型,包括:
将所述每批次训练样本输入到所述命名实体识别模型,预测每个所述训练样本的标签概率矩阵;其中,所述标签概率矩阵用于维护所述训练样本中任意两个字符的标签类别的概率;
分别基于所述标签概率矩阵中词关系信息区域和实体边界信息区域内每个概率和每个所述概率对应的两个字符的实际标签,计算所述词关系标签和所述实体边界标签各自的损失函数的损失值;
根据述词关系标签和所述实体边界标签各自的所述损失值计算所述总损失函数的损失值,并将所述损失值反向传播至所述命名实体识别模型,以对所述命名实体识别模型的模型参数进行迭代更新,直到所述总损失函数收敛。
8.一种命名实体识别装置,其特征在于,包括:预测模块、解码模块和识别模块;
预测模块,用于通过命名实体识别模型,预测待识别文本对应的标签信息矩阵以及所述标签信息矩阵中每个标签对应的概率;其中,所述标签用于表征所述待识别文本中任意两个字符的关系类别;所述标签包括词关系标签和实体边界标签;
解码模块,用于将所述词关系标签对应的两个字符确定为一组相邻实体字符,将所述实体边界标签对应的两个字符确定为一组实体头字符和实体尾字符,并基于所述相邻实体字符以及所述实体头字符和实体尾字符,从所述待识别文本中提取至少一个命名实体;
识别模块,用于针对类别不同且嵌套的两个命名实体,将每个所述命名实体中全部所述相邻实体字符对应的所述词关系标签的概率的均值,作为每个所述命名实体的概率,并将概率最大的所述命名实体保留。
9.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现权利要求1至7任一项所述的方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202211710634.7A 2022-12-29 2022-12-29 命名实体识别方法、装置、计算机设备及可读存储介质 Pending CN115952800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211710634.7A CN115952800A (zh) 2022-12-29 2022-12-29 命名实体识别方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211710634.7A CN115952800A (zh) 2022-12-29 2022-12-29 命名实体识别方法、装置、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN115952800A true CN115952800A (zh) 2023-04-11

Family

ID=87282218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211710634.7A Pending CN115952800A (zh) 2022-12-29 2022-12-29 命名实体识别方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN115952800A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034942A (zh) * 2023-10-07 2023-11-10 之江实验室 一种命名实体识别方法、装置、设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034942A (zh) * 2023-10-07 2023-11-10 之江实验室 一种命名实体识别方法、装置、设备及可读存储介质
CN117034942B (zh) * 2023-10-07 2024-01-09 之江实验室 一种命名实体识别方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
US10380236B1 (en) Machine learning system for annotating unstructured text
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
US20200019609A1 (en) Suggesting a response to a message by selecting a template using a neural network
CN110147551A (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
US20150113388A1 (en) Method and apparatus for performing topic-relevance highlighting of electronic text
CN113704429A (zh) 基于半监督学习的意图识别方法、装置、设备及介质
CN110955766A (zh) 一种自动扩充智能客服标准问题对的方法和系统
US11836331B2 (en) Mathematical models of graphical user interfaces
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN111125658A (zh) 识别欺诈用户的方法、装置、服务器和存储介质
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN113961666A (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN115952800A (zh) 命名实体识别方法、装置、计算机设备及可读存储介质
CN113010785B (zh) 用户推荐方法及设备
CN114090769A (zh) 实体挖掘方法、装置、计算机设备和存储介质
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN111708870A (zh) 基于深度神经网络的问答方法、装置及存储介质
CN110795562A (zh) 图谱优化方法、装置、终端及存储介质
CN110895703A (zh) 法律文书案由识别方法及装置
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
CN115130455A (zh) 文章处理方法、装置、电子设备以及存储介质
CN115221323A (zh) 基于意图识别模型的冷启动处理方法、装置、设备及介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination