CN110956042A - 嵌套命名实体识别方法及系统、电子设备及可读介质 - Google Patents

嵌套命名实体识别方法及系统、电子设备及可读介质 Download PDF

Info

Publication number
CN110956042A
CN110956042A CN201911291456.7A CN201911291456A CN110956042A CN 110956042 A CN110956042 A CN 110956042A CN 201911291456 A CN201911291456 A CN 201911291456A CN 110956042 A CN110956042 A CN 110956042A
Authority
CN
China
Prior art keywords
named entity
named
clustering
text
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911291456.7A
Other languages
English (en)
Inventor
温秀秀
刘佩云
郭橙
潘博文
高原原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Information Science Research Institute
Original Assignee
CETC Information Science Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Information Science Research Institute filed Critical CETC Information Science Research Institute
Priority to CN201911291456.7A priority Critical patent/CN110956042A/zh
Publication of CN110956042A publication Critical patent/CN110956042A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的嵌套命名实体识别方法、系统、电子设备及可读介质,包括基于预设的文本标记方法对语料库中的各文本进行标记,得到标记集合,标记集合包括文本及对应的命名实体,并且至少一个文本对应多个命名实体;基于预设的聚类方法,将标记集合根据各命名实体进行聚类获得簇集合,簇集合包括文本及与该文本唯一对应的命名实体;基于预设的自适应数据增强的命名实体识别模型,分别识别各簇集合中的命名实体。将嵌套命名实体识别问题转化为非嵌套命名识别问题,降低命名实体嵌套对识别效果的影响;根据训练效果逐步提升数据增强程度,将数据增强使用强度控制在最佳水平,提升训练效果,以适应样本不足条件下的嵌套命名实体识别任务。

Description

嵌套命名实体识别方法及系统、电子设备及可读介质
技术领域
本发明属于命名实体识别技术领域,具体涉及一种嵌套命名实体识别方法、一种嵌套命名实体识别系统、一种电子设备及一种计算机可读存储介质。
背景技术
命名实体识别(NER,Name Entity Recognition)是自然语言处理的基础研究内容之一,其任务是识别文本中的语言块。命名实体识别在实际应用中经常要面对命名实体嵌套和训练样本不足的问题。
命名实体嵌套增使得文字与实体标签之间无法建立一对一关系,例如“白求恩医学院”是一个组织机构名称实体,而“白求恩”是人名实体,因此在文本标记过程中,“白求恩”就存在两个标签。多标签问题会增加命名实体识别的复杂度,使得现有成熟命名实体识别方法无法直接使用。
训练样本不足是实体识别任务面临的常见问题。专业领域命名实体识别训练样本数据集构建是一个耗时的过程,需要具备专业知识的人进行数据标注,因此难以形成大型数据集。数据增强是解决训练样本不足的重要方法,通过自动化方法在原有数据集的基础构造新的样本,从而增强模型训练效果。因此研究训练样本不足情况下的嵌套命名实体识别对于命名实体识别的实际应用具有重要意义。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,提供一种嵌套命名实体识别方法、一种嵌套命名实体识别系统、一种电子设备及一种计算机可读存储介质。
本发明的第一个方面提供一种嵌套命名实体识别方法,包括以下步骤:
基于预设的文本标记方法对语料库中的各文本进行标记,得到标记集合,所述标记集合包括文本及对应的命名实体,并且,至少一个所述文本对应多个所述命名实体;
基于预设的聚类方法,将所述标记集合根据各所述命名实体进行聚类获得簇集合,所述簇集合包括文本及与该文本唯一对应的命名实体;
基于预设的自适应数据增强的命名实体识别模型,分别识别各所述簇集合中的命名实体。
可选地,所述基于预设的聚类方法,将所述标记集合根据各所述命名实体进行聚类获得簇集合,包括:
预先设定聚类结果度量函数;
基于所述聚类结果度量函数,采用层次化聚类方法将所述标记集合根据各所述命名实体进行聚类获得簇集合。
可选地,所述预先设定聚类结果度量函数,包括:
假设语料库为[w1,w2,…,wn],其中wi表示语料库的第i个文本,用Ti表示wi的标记集合,ta表示命名实体a,建立命名实体a对于第i个字符的示性函数如下关系式(1):
Figure BDA0002319179940000021
命名实体ta与命名实体tb的相关度定义如下关系式(2):
Ea,b=∑所有语料库if(ta,i)f(tb,i) (2);
E表示命名实体之间的距离矩阵;
令C表示簇集合,Ci表示第i个簇,Ci的内部距离为Ci内部命名实体之间的距离,计算方式如下关系式(3):
Figure BDA0002319179940000031
max(Ea,b)表示E中元素的最大值,Ci与Cj之间的距离为两个簇之间的命名实体距离,计算方式如下关系式(4):
Figure BDA0002319179940000032
基于关系式(3)、关系式(4)以及根据聚类的目标要求,获得所述聚类结果度量函数,如下关系式(5):
gtotal=α(∑i,jgout(Ci,Cj)-∑igin(Ci))-(1-α)|C|/c (5);
|C|表示簇的个数,c表示命名实体的种类的数量常数,α为权重参数。
可选地,所述基于所述聚类结果度量函数,采用层次化聚类方法将所述标记集合根据各所述命名实体进行聚类获得簇集合,包括:
S110、将所述标记集合中每个所述命名实体划分为一个簇;
S120、随机选择两个簇;
S130、合并随机选择的所述两个簇,并判断gtotal是否降低,若是,执行步骤S120,若否,执行步骤S140;
S140、判断连续若干轮迭代的gtotal增量是否小于0或者|C|=1,若是,则停止迭代并返回聚类结果,获得所述簇集合;若否,执行步骤S120。
可选地,所述自适应数据增强的命名实体识别模型进行训练的步骤,具体包括:
S210、扫描初始训练样本语料库,初始化Da及Sa,其中,Da表示所述初始训练样本语料库中命名实体a包含的词汇集合,Sa表示所述初始训练样本语料库中包含命名实体a的语句编号的集合;
S220、根据当前轮迭代的数据增强程度控制量Ma(t),对所述初始训练样本语料库进行数据增强;
S230、采用BiLSTM-CRF识别模型在当前轮迭代增强后的训练样本语料库上进行训练,并在验证集上得到各个命名实体a的训练结果Ra(t);
S240、判断当前轮迭代中所有的命名实体a是否存在Ra(t)<Ra(t-1),若是,则停止迭代,训练结束,若否,则计算下一轮迭代的数据增强控制量,并执行步骤S220。
可选地,所述根据当前轮迭代的数据增强程度控制量Ma(t),对所述初始训练样本语料库进行数据增强,包括:
依次对每种命名实体a,在Sa中随机选择Ma(t)个样本,对于其中的每个样本,随机选择Da中的词汇进行替换,将新形成的样本添加到所述初始训练样本语料库中。
可选地,数据增强程度控制量Ma(t)采用如下计算公式:
Figure BDA0002319179940000041
t代表迭代轮次序数,Ra(t)第表示第t轮训练结束后,a类实体在验证集上的F1值。
本发明的第二个方面提供一种嵌套命名实体识别系统,包括:
标记模块,用于基于预设的文本标记方法对语料库中的各文本进行标记,得到标记集合,所述标记集合包括文本及对应的命名实体,并且,至少一个所述文本对应多个所述命名实体;
聚类模块,用于基于预设的聚类方法,将所述标记集合根据各所述命名实体进行聚类获得簇集合,所述簇集合包括文本及与该文本唯一对应的命名实体;
数据增强及识别模块,用于基于预设的自适应数据增强的命名实体识别模型,分别识别各所述簇集合中的命名实体。
本发明的第三个方面提供一种电子设备,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现根据本发明第一方面提供的所述的嵌套命名实体方法。
本发明的第四个方面提供一种计算机可读存储介质,其上存储有计算机程序,
所述计算机程序被处理器执行时能实现本发明第一方面提供的所述的嵌套命名实体方法。
本发明实施例的嵌套命名实体识别方法、系统、电子设备及可读介质,包括:基于预设的文本标记方法对语料库中的各文本进行标记,得到标记集合,标记集合包括文本及对应的命名实体,并且至少一个文本对应多个命名实体;基于预设的聚类方法,将标记集合根据各命名实体进行聚类获得簇集合,簇集合包括文本及与该文本唯一对应的命名实体;基于预设的自适应数据增强的命名实体识别模型,分别识别各簇集合中的命名实体。本发明的嵌套命名实体识别方法通过命名实体聚类,将存在嵌套关系的实体划分到不同的簇中,并在不同的簇中完成命名实体识别,将嵌套命名实体转化为非嵌套命名实体,与现有的多层次识别模型相比,能够避免误差传导,降低命名实体嵌套对识别效果的影响。此外,通过多轮迭代的方式,根据识别模型的训练效果逐步提升数据增强的程度,从而将数据增强的使用强度控制在最佳水平,进而提升命名实体识别模型的训练效果,能够适应于训练样本不足条件下的嵌套命名实体识别任务。
附图说明
图1为本发明第一实施例的一种嵌套命名实体识别方法的流程示意图;
图2为图1中的嵌套命名实体识别方法中的整体流程示意图;
图3为图1中的嵌套命名实体识别方法的聚类过程流程示意图;
图4为图1中的嵌套命名实体识别方法的数据增强与识别过程的流程示意图;
图5为本发明第二实施例的一种嵌套命名实体识别系统的组成示意框图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。
如图1和图2所示,一种嵌套命名实体识别方法,包括以下步骤:
基于预设的文本标记方法对语料库中的各文本进行标记,得到标记集合,标记集合包括文本及对应的命名实体,并且,至少一个文本对应多个命名实体;
基于预设的聚类方法,将标记集合根据各命名实体进行聚类获得簇集合,簇集合包括文本及与该文本唯一对应的命名实体;
基于预设的自适应数据增强的命名实体识别模型,分别识别各簇集合中的命名实体。
通过上述步骤,本发明的嵌套命名实体识别方法通过命名实体聚类,将存在嵌套关系的实体划分到不同的簇中,并在不同的簇中完成命名实体识别,将嵌套命名实体识别问题转化为非嵌套命名识别识别问题,与现有的多层次识别模型相比,能够避免误差传导,降低命名实体嵌套对识别效果的影响。此外,通过多轮迭代的方式,根据识别模型的训练效果逐步提升数据增强的程度,从而将数据增强的使用强度控制在最佳水平,进而提升命名实体识别模型的训练效果,能够适应于训练样本不足条件下的嵌套命名实体识别任务。
具体地,在文本标记步骤将语料库处理为方便后续处理的形式,本发明实施例采用“BMEOS”方法,以字为单位对文本进行标记,例如句子“打兵乓球对身体有益”中“打兵乓球”是Sport实体类型,此时句子的标记结果为:“打/B_Sport兵/M_Sport乓/M_Sport球/E_sport对/O身/O体/O有/O益/O”。对于嵌套的命名实体采用集合的方式进行标记。例如句子“白求恩医学院”中的“白求恩医学院”是“Organization实体”,“白求恩”是“Name实体”,则句子的标记结果为:
“白/B_Organization#B_Name求/M_Organization#M_Name恩/M_Organization#E_Name医/M_Organization学/M_Organization院/E_Organization”,此时,文本与标签之构成一对多关系,例如上例中“恩”字的标记集合为{“M_Organization”、“E_Name”}。
命名实体聚类的目标是将实体划分到若干个簇中,每个簇中实体之间距离尽可能小,属于不同簇的实体之间的距离尽可能大,同时簇的数量尽可能少。本发明实施例中的命名实体聚类输入为文本标记的结果,聚类结果度量函数采取如下步骤获得:
假设语料库中的其中一个语句为[w1,w2,…,wn],其中wi表示语句的第i个文字,用Ti表示wi的标记集合,ta表示命名实体a,建立命名实体a对于第i个字符的示性函数如下关系式(1):
Figure BDA0002319179940000071
命名实体ta与命名实体tb的相关度定义如下关系式(2):
Ea,b=∑所有语句if(ta,i)f(tb,i) (2);
E表示命名实体之间的距离矩阵;
令C表示簇集合,Ci表示第i个簇,Ci的内部距离为Ci内部命名实体之间的距离,计算方式如下关系式(3):
Figure BDA0002319179940000072
max(Ea,b)表示E中元素的最大值,Ci与Cj之间的距离为两个簇之间的命名实体距离,计算方式如下关系式(4):
Figure BDA0002319179940000081
聚类的目标是使得所有的gin(Ci)之和尽可能小,所有的gout(Ci,Cj)之和尽可能大,据此,基于关系式(3)、关系式(4)以及根据聚类的目标要求,获得聚类结果度量函数,如下关系式(5):
gtotal=α(∑i,jgout(Ci,Cj)-∑igin(Ci))-(1-α)|C|/c (5);
其中|C|表示簇的个数,c表示命名实体的种类的数量常数,α为权重参数。聚类结果希望簇的个数尽可能少,因此在gtotal计算的末尾添加了正则项-(1-α)|C|/c。
以上述聚类结果度量方法为基础,采用层次化聚类方法对实体进行聚类。本发明实施例中的聚类为一种基于随机合并、拆分的聚类方法,其输入为距离矩阵E,其输出为分簇结果。聚类过程,首先将每个实体放入一个单独簇中,然后选择两个可以使gtotal不降低的两个簇进行合并,之后判定是否要进行下一步聚类,如果簇的总数量为1或者gtotal不增加则停止聚类。
如图3所示,具体地,基于聚类结果度量函数,采用层次化聚类方法将标记集合根据各命名实体进行聚类获得簇集合,包括:
步骤S110、将标记集合中每个命名实体划分为一个簇;
步骤S120、随机选择两个簇;
步骤S130、合并随机选择的两个簇,并判断gtotal是否降低,若是,执行步骤S120,若否,执行步骤S140;
步骤S140、判断连续若干轮迭代的gtotal增量是否小于0或者|C|=1,若是,则停止迭代并返回聚类结果,获得簇集合;若否,执行步骤S120。
需要说明的是本发明实施例采用的是层次聚类方法,也可以采用其他聚类方法,具体根据应用需求而定。与聚类前相比,聚类后属于同一个簇的嵌套实体的数量大大降低,同一个簇内的实体,可以建立起文字与实体标签的一对一关系,可以在簇中使用一个模型。命名实体分簇后,不同簇内的实体可以分别采用下面的基于自适应数据增强的命名实体识别方法使用单独的模型。由于不同簇内的实体使用的模型之间不相关,因此可以并行完成训练和识别。
本发明实施例中的基于自适应数据增强的命名实体识别过程,其输入为训练样本数据集和验证样本数据集,包括上文步骤中的文本标记的结果,其输出训练好的BiLSTM-CRF命名实体识别模型。
令Ra(t)第表示第t轮训练结束后,a类实体在验证集上的F1值。令Ma(t)表示a类实体的数据增强程度控制量,即在第t次训练前通过数据增强增加的a类实体的样本数量。
基于自适应数据增强的命名实体识别过程,首先扫描训练样本数据库,得到所有实体a的Da及Sa,其中Da表示训练样本中a类实体包含的词汇集合,Sa表示训练集中包含a类实体的语句编号的集合。然后根据数据增强程度控制量Ma(t)完成数据增强。之后采用BiLSTM-CRF识别模型在训练集上进行训练,并在验证样本数据集上得到Ra(t)。最后判定是否停止模型训练,当所有实体的训练结果均无增加量时,则整个训练过程结束;否则计算第t+1轮训练的数据增强量。数据增强的强度Ma(t)与实体训练结果Ra(t)成反比,与训练结果的增加量Ra(t)-Ra(t-1)及Ma(t-1)成正比;当训练结果不增加,及Ra(t)-Ra(t-1)<0时,则停止对a类实体的数据增强。
如图4所示,具体地,自适应数据增强的命名实体识别模型进行训练的步骤,具体包括:
步骤S210、扫描初始训练样本语料库,初始化Da及Sa,其中,Da表示初始训练样本语料库中命名实体a包含的词汇集合,Sa表示初始训练样本语料库中包含命名实体a的语句编号的集合;
步骤S220、根据当前轮迭代的数据增强程度控制量Ma(t),对初始训练样本语料库进行数据增强;
步骤S230、采用BiLSTM-CRF识别模型在当前轮迭代增强后的训练样本语料库上进行训练,并在验证集上得到各个命名实体a的训练结果Ra(t);
步骤S240、判断当前轮迭代中所有的命名实体a是否存在Ra(t)<Ra(t-1),若是,则停止迭代,训练结束,若否,则计算下一轮迭代的数据增强控制量,并执行步骤S220。
具体地,根据当前轮迭代的数据增强程度控制量Ma(t),对初始训练样本语料库进行数据增强,包括:
依次对每种命名实体a,在Sa中随机选择Ma(t)个样本,对于其中的每个样本,随机选择Da中的词汇进行替换,将新形成的样本添加到初始训练样本语料库中。
具体地,本发明实施例中的数据增强程度控制量Ma(t)采用如下计算公式:
Figure BDA0002319179940000101
其中,t代表迭代轮次序数,Ra(t)第表示第t轮训练结束后,a类实体在验证集上的F1值。
需要说明的是,本发明实施例中采用的是BiLSTM-CRF模型,也可以采用其他命名实体识别模型,具体可根据应用需要进行选定。
本发明实施例的基于自适应数据增强的命名实体识别方法采用多轮迭代的方式,根据识别模型的训练效果逐步提升数据增强的程度,从而将数据增强的使用强度控制在最佳水平,进而提升识别模型的训练效果。
如图5所示,本发明的第二方面提供一种嵌套命名实体识别系统100,该系统依据于本发明提供的嵌套命名实体识别方法,具体参考前文记载,在此不做赘述。嵌套命名实体识别系统100包括:
标记模块110,用于基于预设的文本标记方法对语料库中的各文本进行标记,得到标记集合,标记集合包括文本及对应的命名实体,并且,至少一个文本对应多个命名实体;
聚类模块120,用于基于预设的聚类方法,将标记集合根据各命名实体进行聚类获得簇集合,簇集合包括文本及与该文本唯一对应的命名实体;
数据增强及识别模块130,用于基于预设的自适应数据增强的命名实体识别模型,分别识别各簇集合中的命名实体。
本发明的第三方面提供一种电子设备,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,能使得一个或多个处理器实现根据本发明提供的的嵌套命名实体方法。
本发明的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,
计算机程序被处理器执行时能实现本发明提供的嵌套命名实体方法。
其中,计算机可读介质可以是本发明的装置、设备、系统中所包含的,也可以是单独存在。
其中,计算机可读存储介质可是任何包含或存储程序的有形介质,其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备,更具体的例子包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或它们任意合适的组合。
其中,计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码,其具体的例子包括但不限于电磁信号、光信号,或它们任意合适的组合。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种嵌套命名实体识别方法,其特征在于,包括以下步骤:
基于预设的文本标记方法对语料库中的各文本进行标记,得到标记集合,所述标记集合包括文本及对应的命名实体,并且,至少一个所述文本对应多个所述命名实体;
基于预设的聚类方法,将所述标记集合根据各所述命名实体进行聚类获得簇集合,所述簇集合包括文本及与该文本唯一对应的命名实体;
基于预设的自适应数据增强的命名实体识别模型,分别识别各所述簇集合中的命名实体。
2.根据权利要求1所述的嵌套命名实体识别方法,其特征在于,所述基于预设的聚类方法,将所述标记集合根据各所述命名实体进行聚类获得簇集合,包括:
预先设定聚类结果度量函数;
基于所述聚类结果度量函数,采用层次化聚类方法将所述标记集合根据各所述命名实体进行聚类获得簇集合。
3.根据权利要求2所述的嵌套命名实体识别方法,其特征在于,所述预先设定聚类结果度量函数,包括:
假设语料库为[w1,w2,…,wn],其中wi表示语料库的第i个文本,用Ti表示wi的标记集合,ta表示命名实体a,建立命名实体a对于第i个字符的示性函数如下关系式(1):
Figure FDA0002319179930000011
命名实体ta与命名实体tb的相关度定义如下关系式(2):
Ea,b=∑所有语料库if(ta,i)f(tb,i)(2);
E表示命名实体之间的距离矩阵;
令C表示簇集合,Ci表示第i个簇,Ci的内部距离为Ci内部命名实体之间的距离,计算方式如下关系式(3):
Figure FDA0002319179930000021
max(Ea,b)表示E中元素的最大值,Ci与Cj之间的距离为两个簇之间的命名实体距离,计算方式如下关系式(4):
Figure FDA0002319179930000022
基于关系式(3)、关系式(4)以及根据聚类的目标要求,获得所述聚类结果度量函数,如下关系式(5):
gtotal=α(∑i,jgout(Ci,Cj)-∑igin(Ci))-(1-α)|C|/c (5);
|C|表示簇的个数,c表示命名实体的种类的数量常数,α为权重参数。
4.根据权利要求3所述的嵌套命名实体识别方法,其特征在于,所述基于所述聚类结果度量函数,采用层次化聚类方法将所述标记集合根据各所述命名实体进行聚类获得簇集合,包括:
S110、将所述标记集合中每个所述命名实体划分为一个簇;
S120、随机选择两个簇;
S130、合并随机选择的所述两个簇,并判断gtotal是否降低,若是,执行步骤S120,若否,执行步骤S140;
S140、判断连续若干轮迭代的gtotal增量是否小于0或者|C|=1,若是,则停止迭代并返回聚类结果,获得所述簇集合;若否,执行步骤S120。
5.根据权利要求1-4任一项所述的嵌套命名实体识别方法,其特征在于,还包括对所述自适应数据增强的命名实体识别模型进行训练的步骤,具体包括:
S210、扫描初始训练样本语料库,初始化Da及Sa,其中,Da表示所述初始训练样本语料库中命名实体a包含的词汇集合,Sa表示所述初始训练样本语料库中包含命名实体a的语句编号的集合;
S220、根据当前轮迭代的数据增强程度控制量Ma(t),对所述初始训练样本语料库进行数据增强;
S230、采用BiLSTM-CRF识别模型在当前轮迭代增强后的训练样本语料库上进行训练,并在验证集上得到各个命名实体a的训练结果Ra(t);
S240、判断当前轮迭代中所有的命名实体a是否存在Ra(t)<Ra(t-1),若是,则停止迭代,训练结束,若否,则计算下一轮迭代的数据增强控制量,并执行步骤S220。
6.根据权利要求5所述的嵌套命名实体识别方法,其特征在于,所述根据当前轮迭代的数据增强程度控制量Ma(t),对所述初始训练样本语料库进行数据增强,包括:
依次对每种命名实体a,在Sa中随机选择Ma(t)个样本,对于其中的每个样本,随机选择Da中的词汇进行替换,将新形成的样本添加到所述初始训练样本语料库中。
7.根据权利要求5所述的嵌套命名实体识别方法,其特征在于,数据增强程度控制量Ma(t)采用如下计算公式:
Figure FDA0002319179930000031
t代表迭代轮次序数,Ra(t)第表示第t轮训练结束后,a类实体在验证集上的F1值。
8.一种嵌套命名实体识别系统,其特征在于,包括:
标记模块,用于基于预设的文本标记方法对语料库中的各文本进行标记,得到标记集合,所述标记集合包括文本及对应的命名实体,并且,至少一个所述文本对应多个所述命名实体;
聚类模块,用于基于预设的聚类方法,将所述标记集合根据各所述命名实体进行聚类获得簇集合,所述簇集合包括文本及与该文本唯一对应的命名实体;
数据增强及识别模块,用于基于预设的自适应数据增强的命名实体识别模型,分别识别各所述簇集合中的命名实体。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现根据权利要求1至8中任意一项所述的嵌套命名实体方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,
所述计算机程序被处理器执行时能实现根据权利要求1至8中任意一项所述的嵌套命名实体方法。
CN201911291456.7A 2019-12-16 2019-12-16 嵌套命名实体识别方法及系统、电子设备及可读介质 Pending CN110956042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911291456.7A CN110956042A (zh) 2019-12-16 2019-12-16 嵌套命名实体识别方法及系统、电子设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911291456.7A CN110956042A (zh) 2019-12-16 2019-12-16 嵌套命名实体识别方法及系统、电子设备及可读介质

Publications (1)

Publication Number Publication Date
CN110956042A true CN110956042A (zh) 2020-04-03

Family

ID=69981786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911291456.7A Pending CN110956042A (zh) 2019-12-16 2019-12-16 嵌套命名实体识别方法及系统、电子设备及可读介质

Country Status (1)

Country Link
CN (1) CN110956042A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581957A (zh) * 2020-05-06 2020-08-25 浙江大学 一种基于金字塔层级网络的嵌套实体检测方法
CN112487196A (zh) * 2020-06-29 2021-03-12 孙炜 一种训练关系抽取模型并抽取嵌套命名实体关系的方法
CN112488164A (zh) * 2020-11-18 2021-03-12 广东电力信息科技有限公司 一种任务型对话文本增强系统
CN112836514A (zh) * 2020-06-19 2021-05-25 合肥量圳建筑科技有限公司 嵌套实体识别方法、装置、电子设备和存储介质
CN113516196A (zh) * 2021-07-20 2021-10-19 云知声智能科技股份有限公司 命名实体识别数据增强的方法、装置、电子设备和介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581957A (zh) * 2020-05-06 2020-08-25 浙江大学 一种基于金字塔层级网络的嵌套实体检测方法
CN111581957B (zh) * 2020-05-06 2022-04-12 浙江大学 一种基于金字塔层级网络的嵌套实体检测方法
CN112836514A (zh) * 2020-06-19 2021-05-25 合肥量圳建筑科技有限公司 嵌套实体识别方法、装置、电子设备和存储介质
CN112487196A (zh) * 2020-06-29 2021-03-12 孙炜 一种训练关系抽取模型并抽取嵌套命名实体关系的方法
CN112488164A (zh) * 2020-11-18 2021-03-12 广东电力信息科技有限公司 一种任务型对话文本增强系统
CN113516196A (zh) * 2021-07-20 2021-10-19 云知声智能科技股份有限公司 命名实体识别数据增强的方法、装置、电子设备和介质
CN113516196B (zh) * 2021-07-20 2024-04-12 云知声智能科技股份有限公司 命名实体识别数据增强的方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN110956042A (zh) 嵌套命名实体识别方法及系统、电子设备及可读介质
CN110457675B (zh) 预测模型训练方法、装置、存储介质及计算机设备
CN110188351B (zh) 语句通顺度及句法评分模型的训练方法及装置
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
CN108920445B (zh) 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN107193807B (zh) 基于人工智能的语言转换处理方法、装置及终端
CN112256828B (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN112883193A (zh) 一种文本分类模型的训练方法、装置、设备以及可读介质
CN111079418B (zh) 命名体识别方法、装置、电子设备和存储介质
WO2022048194A1 (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN110472049B (zh) 疾病筛查文本分类方法、计算机设备和可读存储介质
CN111382572B (zh) 一种命名实体识别方法、装置、设备以及介质
CN110210036A (zh) 一种意图识别方法及装置
CN112069799A (zh) 基于依存句法的数据增强方法、设备和可读存储介质
CN114036950A (zh) 一种医疗文本命名实体识别方法及系统
CN116991875B (zh) 一种基于大模型的sql语句生成、别名映射方法及设备
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN113705207A (zh) 语法错误识别方法及装置
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN116483979A (zh) 基于人工智能的对话模型训练方法、装置、设备及介质
CN112329430B (zh) 一种模型训练方法、文本相似度确定方法及装置
CN110147881B (zh) 语言处理方法、装置、设备及存储介质
CN116227431B (zh) 一种文本数据增强方法、电子设备及存储介质
CN117233723B (zh) 一种基于cnn类激活图的雷达跟踪包络提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination