CN110956042A

CN110956042A - 嵌套命名实体识别方法及系统、电子设备及可读介质

Info

Publication number: CN110956042A
Application number: CN201911291456.7A
Authority: CN
Inventors: 温秀秀; 刘佩云; 郭橙; 潘博文; 高原原
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-04-03

Abstract

本发明的嵌套命名实体识别方法、系统、电子设备及可读介质，包括基于预设的文本标记方法对语料库中的各文本进行标记，得到标记集合，标记集合包括文本及对应的命名实体，并且至少一个文本对应多个命名实体；基于预设的聚类方法，将标记集合根据各命名实体进行聚类获得簇集合，簇集合包括文本及与该文本唯一对应的命名实体；基于预设的自适应数据增强的命名实体识别模型，分别识别各簇集合中的命名实体。将嵌套命名实体识别问题转化为非嵌套命名识别问题，降低命名实体嵌套对识别效果的影响；根据训练效果逐步提升数据增强程度，将数据增强使用强度控制在最佳水平，提升训练效果，以适应样本不足条件下的嵌套命名实体识别任务。

Description

嵌套命名实体识别方法及系统、电子设备及可读介质

技术领域

本发明属于命名实体识别技术领域，具体涉及一种嵌套命名实体识别方法、一种嵌套命名实体识别系统、一种电子设备及一种计算机可读存储介质。

背景技术

命名实体识别(NER,Name Entity Recognition)是自然语言处理的基础研究内容之一，其任务是识别文本中的语言块。命名实体识别在实际应用中经常要面对命名实体嵌套和训练样本不足的问题。

命名实体嵌套增使得文字与实体标签之间无法建立一对一关系，例如“白求恩医学院”是一个组织机构名称实体，而“白求恩”是人名实体，因此在文本标记过程中，“白求恩”就存在两个标签。多标签问题会增加命名实体识别的复杂度，使得现有成熟命名实体识别方法无法直接使用。

训练样本不足是实体识别任务面临的常见问题。专业领域命名实体识别训练样本数据集构建是一个耗时的过程，需要具备专业知识的人进行数据标注，因此难以形成大型数据集。数据增强是解决训练样本不足的重要方法，通过自动化方法在原有数据集的基础构造新的样本，从而增强模型训练效果。因此研究训练样本不足情况下的嵌套命名实体识别对于命名实体识别的实际应用具有重要意义。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一，提供一种嵌套命名实体识别方法、一种嵌套命名实体识别系统、一种电子设备及一种计算机可读存储介质。

本发明的第一个方面提供一种嵌套命名实体识别方法，包括以下步骤：

基于预设的文本标记方法对语料库中的各文本进行标记，得到标记集合，所述标记集合包括文本及对应的命名实体，并且，至少一个所述文本对应多个所述命名实体；

基于预设的聚类方法，将所述标记集合根据各所述命名实体进行聚类获得簇集合，所述簇集合包括文本及与该文本唯一对应的命名实体；

基于预设的自适应数据增强的命名实体识别模型，分别识别各所述簇集合中的命名实体。

可选地，所述基于预设的聚类方法，将所述标记集合根据各所述命名实体进行聚类获得簇集合，包括：

预先设定聚类结果度量函数；

基于所述聚类结果度量函数，采用层次化聚类方法将所述标记集合根据各所述命名实体进行聚类获得簇集合。

可选地，所述预先设定聚类结果度量函数，包括：

假设语料库为[w₁,w₂,…,w_n]，其中w_i表示语料库的第i个文本，用T_i表示w_i的标记集合，t_a表示命名实体a，建立命名实体a对于第i个字符的示性函数如下关系式(1)：

命名实体t_a与命名实体t_b的相关度定义如下关系式(2)：

E_a,b＝∑_{所有语料库}∑_if(t_a,i)f(t_b,i) (2)；

E表示命名实体之间的距离矩阵；

令C表示簇集合，C_i表示第i个簇，C_i的内部距离为C_i内部命名实体之间的距离，计算方式如下关系式(3)：

max(E_a,b)表示E中元素的最大值，C_i与C_j之间的距离为两个簇之间的命名实体距离，计算方式如下关系式(4)：

基于关系式(3)、关系式(4)以及根据聚类的目标要求，获得所述聚类结果度量函数，如下关系式(5)：

g_total＝α(∑_i,jg_out(C_i,C_j)-∑_ig_in(C_i))-(1-α)|C|/c (5)；

|C|表示簇的个数，c表示命名实体的种类的数量常数，α为权重参数。

可选地，所述基于所述聚类结果度量函数，采用层次化聚类方法将所述标记集合根据各所述命名实体进行聚类获得簇集合，包括：

S110、将所述标记集合中每个所述命名实体划分为一个簇；

S120、随机选择两个簇；

S130、合并随机选择的所述两个簇，并判断g_total是否降低，若是，执行步骤S120，若否，执行步骤S140；

S140、判断连续若干轮迭代的g_total增量是否小于0或者|C|＝1，若是，则停止迭代并返回聚类结果，获得所述簇集合；若否，执行步骤S120。

可选地，所述自适应数据增强的命名实体识别模型进行训练的步骤，具体包括：

S210、扫描初始训练样本语料库，初始化D_a及S_a，其中，D_a表示所述初始训练样本语料库中命名实体a包含的词汇集合，S_a表示所述初始训练样本语料库中包含命名实体a的语句编号的集合；

S220、根据当前轮迭代的数据增强程度控制量M_a(t)，对所述初始训练样本语料库进行数据增强；

S230、采用BiLSTM-CRF识别模型在当前轮迭代增强后的训练样本语料库上进行训练，并在验证集上得到各个命名实体a的训练结果R_a(t)；

S240、判断当前轮迭代中所有的命名实体a是否存在R_a(t)＜R_a(t-1)，若是，则停止迭代，训练结束，若否，则计算下一轮迭代的数据增强控制量，并执行步骤S220。

可选地，所述根据当前轮迭代的数据增强程度控制量M_a(t)，对所述初始训练样本语料库进行数据增强，包括：

依次对每种命名实体a，在S_a中随机选择M_a(t)个样本，对于其中的每个样本，随机选择D_a中的词汇进行替换，将新形成的样本添加到所述初始训练样本语料库中。

可选地，数据增强程度控制量M_a(t)采用如下计算公式：

t代表迭代轮次序数，R_a(t)第表示第t轮训练结束后，a类实体在验证集上的F1值。

本发明的第二个方面提供一种嵌套命名实体识别系统，包括：

标记模块，用于基于预设的文本标记方法对语料库中的各文本进行标记，得到标记集合，所述标记集合包括文本及对应的命名实体，并且，至少一个所述文本对应多个所述命名实体；

聚类模块，用于基于预设的聚类方法，将所述标记集合根据各所述命名实体进行聚类获得簇集合，所述簇集合包括文本及与该文本唯一对应的命名实体；

数据增强及识别模块，用于基于预设的自适应数据增强的命名实体识别模型，分别识别各所述簇集合中的命名实体。

本发明的第三个方面提供一种电子设备，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据本发明第一方面提供的所述的嵌套命名实体方法。

本发明的第四个方面提供一种计算机可读存储介质，其上存储有计算机程序，

所述计算机程序被处理器执行时能实现本发明第一方面提供的所述的嵌套命名实体方法。

本发明实施例的嵌套命名实体识别方法、系统、电子设备及可读介质，包括：基于预设的文本标记方法对语料库中的各文本进行标记，得到标记集合，标记集合包括文本及对应的命名实体，并且至少一个文本对应多个命名实体；基于预设的聚类方法，将标记集合根据各命名实体进行聚类获得簇集合，簇集合包括文本及与该文本唯一对应的命名实体；基于预设的自适应数据增强的命名实体识别模型，分别识别各簇集合中的命名实体。本发明的嵌套命名实体识别方法通过命名实体聚类，将存在嵌套关系的实体划分到不同的簇中，并在不同的簇中完成命名实体识别，将嵌套命名实体转化为非嵌套命名实体，与现有的多层次识别模型相比，能够避免误差传导，降低命名实体嵌套对识别效果的影响。此外，通过多轮迭代的方式，根据识别模型的训练效果逐步提升数据增强的程度，从而将数据增强的使用强度控制在最佳水平，进而提升命名实体识别模型的训练效果，能够适应于训练样本不足条件下的嵌套命名实体识别任务。

附图说明

图1为本发明第一实施例的一种嵌套命名实体识别方法的流程示意图；

图2为图1中的嵌套命名实体识别方法中的整体流程示意图；

图3为图1中的嵌套命名实体识别方法的聚类过程流程示意图；

图4为图1中的嵌套命名实体识别方法的数据增强与识别过程的流程示意图；

图5为本发明第二实施例的一种嵌套命名实体识别系统的组成示意框图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

如图1和图2所示，一种嵌套命名实体识别方法，包括以下步骤：

基于预设的文本标记方法对语料库中的各文本进行标记，得到标记集合，标记集合包括文本及对应的命名实体，并且，至少一个文本对应多个命名实体；

基于预设的聚类方法，将标记集合根据各命名实体进行聚类获得簇集合，簇集合包括文本及与该文本唯一对应的命名实体；

基于预设的自适应数据增强的命名实体识别模型，分别识别各簇集合中的命名实体。

通过上述步骤，本发明的嵌套命名实体识别方法通过命名实体聚类，将存在嵌套关系的实体划分到不同的簇中，并在不同的簇中完成命名实体识别，将嵌套命名实体识别问题转化为非嵌套命名识别识别问题，与现有的多层次识别模型相比，能够避免误差传导，降低命名实体嵌套对识别效果的影响。此外，通过多轮迭代的方式，根据识别模型的训练效果逐步提升数据增强的程度，从而将数据增强的使用强度控制在最佳水平，进而提升命名实体识别模型的训练效果，能够适应于训练样本不足条件下的嵌套命名实体识别任务。

具体地，在文本标记步骤将语料库处理为方便后续处理的形式，本发明实施例采用“BMEOS”方法，以字为单位对文本进行标记，例如句子“打兵乓球对身体有益”中“打兵乓球”是Sport实体类型，此时句子的标记结果为：“打/B_Sport兵/M_Sport乓/M_Sport球/E_sport对/O身/O体/O有/O益/O”。对于嵌套的命名实体采用集合的方式进行标记。例如句子“白求恩医学院”中的“白求恩医学院”是“Organization实体”,“白求恩”是“Name实体”，则句子的标记结果为：

“白/B_Organization#B_Name求/M_Organization#M_Name恩/M_Organization#E_Name医/M_Organization学/M_Organization院/E_Organization”，此时，文本与标签之构成一对多关系，例如上例中“恩”字的标记集合为{“M_Organization”、“E_Name”}。

命名实体聚类的目标是将实体划分到若干个簇中，每个簇中实体之间距离尽可能小，属于不同簇的实体之间的距离尽可能大，同时簇的数量尽可能少。本发明实施例中的命名实体聚类输入为文本标记的结果，聚类结果度量函数采取如下步骤获得：

假设语料库中的其中一个语句为[w₁,w₂,…,w_n]，其中w_i表示语句的第i个文字，用T_i表示w_i的标记集合，t_a表示命名实体a，建立命名实体a对于第i个字符的示性函数如下关系式(1)：

命名实体t_a与命名实体t_b的相关度定义如下关系式(2)：

E_a,b＝∑_所有语句∑_if(t_a,i)f(t_b,i) (2)；

E表示命名实体之间的距离矩阵；

聚类的目标是使得所有的g_in(C_i)之和尽可能小，所有的g_out(C_i,C_j)之和尽可能大，据此，基于关系式(3)、关系式(4)以及根据聚类的目标要求，获得聚类结果度量函数，如下关系式(5)：

g_total＝α(∑_i,jg_out(C_i,C_j)-∑_ig_in(C_i))-(1-α)|C|/c (5)；

其中|C|表示簇的个数，c表示命名实体的种类的数量常数，α为权重参数。聚类结果希望簇的个数尽可能少，因此在g_total计算的末尾添加了正则项-(1-α)|C|/c。

以上述聚类结果度量方法为基础，采用层次化聚类方法对实体进行聚类。本发明实施例中的聚类为一种基于随机合并、拆分的聚类方法，其输入为距离矩阵E，其输出为分簇结果。聚类过程，首先将每个实体放入一个单独簇中，然后选择两个可以使g_total不降低的两个簇进行合并，之后判定是否要进行下一步聚类，如果簇的总数量为1或者g_total不增加则停止聚类。

如图3所示，具体地，基于聚类结果度量函数，采用层次化聚类方法将标记集合根据各命名实体进行聚类获得簇集合，包括：

步骤S110、将标记集合中每个命名实体划分为一个簇；

步骤S120、随机选择两个簇；

步骤S130、合并随机选择的两个簇，并判断g_total是否降低，若是，执行步骤S120，若否，执行步骤S140；

步骤S140、判断连续若干轮迭代的g_total增量是否小于0或者|C|＝1，若是，则停止迭代并返回聚类结果，获得簇集合；若否，执行步骤S120。

需要说明的是本发明实施例采用的是层次聚类方法，也可以采用其他聚类方法，具体根据应用需求而定。与聚类前相比，聚类后属于同一个簇的嵌套实体的数量大大降低，同一个簇内的实体，可以建立起文字与实体标签的一对一关系，可以在簇中使用一个模型。命名实体分簇后，不同簇内的实体可以分别采用下面的基于自适应数据增强的命名实体识别方法使用单独的模型。由于不同簇内的实体使用的模型之间不相关，因此可以并行完成训练和识别。

本发明实施例中的基于自适应数据增强的命名实体识别过程，其输入为训练样本数据集和验证样本数据集，包括上文步骤中的文本标记的结果，其输出训练好的BiLSTM-CRF命名实体识别模型。

令R_a(t)第表示第t轮训练结束后，a类实体在验证集上的F1值。令M_a(t)表示a类实体的数据增强程度控制量，即在第t次训练前通过数据增强增加的a类实体的样本数量。

基于自适应数据增强的命名实体识别过程，首先扫描训练样本数据库，得到所有实体a的D_a及S_a，其中D_a表示训练样本中a类实体包含的词汇集合，S_a表示训练集中包含a类实体的语句编号的集合。然后根据数据增强程度控制量M_a(t)完成数据增强。之后采用BiLSTM-CRF识别模型在训练集上进行训练，并在验证样本数据集上得到R_a(t)。最后判定是否停止模型训练，当所有实体的训练结果均无增加量时，则整个训练过程结束；否则计算第t+1轮训练的数据增强量。数据增强的强度M_a(t)与实体训练结果R_a(t)成反比，与训练结果的增加量R_a(t)-R_a(t-1)及M_a(t-1)成正比；当训练结果不增加，及R_a(t)-R_a(t-1)＜0时，则停止对a类实体的数据增强。

如图4所示，具体地，自适应数据增强的命名实体识别模型进行训练的步骤，具体包括：

步骤S210、扫描初始训练样本语料库，初始化D_a及S_a，其中，D_a表示初始训练样本语料库中命名实体a包含的词汇集合，S_a表示初始训练样本语料库中包含命名实体a的语句编号的集合；

步骤S220、根据当前轮迭代的数据增强程度控制量M_a(t)，对初始训练样本语料库进行数据增强；

步骤S230、采用BiLSTM-CRF识别模型在当前轮迭代增强后的训练样本语料库上进行训练，并在验证集上得到各个命名实体a的训练结果R_a(t)；

步骤S240、判断当前轮迭代中所有的命名实体a是否存在R_a(t)＜R_a(t-1)，若是，则停止迭代，训练结束，若否，则计算下一轮迭代的数据增强控制量，并执行步骤S220。

具体地，根据当前轮迭代的数据增强程度控制量M_a(t)，对初始训练样本语料库进行数据增强，包括：

依次对每种命名实体a，在S_a中随机选择M_a(t)个样本，对于其中的每个样本，随机选择D_a中的词汇进行替换，将新形成的样本添加到初始训练样本语料库中。

具体地，本发明实施例中的数据增强程度控制量M_a(t)采用如下计算公式：

其中，t代表迭代轮次序数，R_a(t)第表示第t轮训练结束后，a类实体在验证集上的F1值。

需要说明的是，本发明实施例中采用的是BiLSTM-CRF模型，也可以采用其他命名实体识别模型，具体可根据应用需要进行选定。

本发明实施例的基于自适应数据增强的命名实体识别方法采用多轮迭代的方式，根据识别模型的训练效果逐步提升数据增强的程度，从而将数据增强的使用强度控制在最佳水平，进而提升识别模型的训练效果。

如图5所示，本发明的第二方面提供一种嵌套命名实体识别系统100，该系统依据于本发明提供的嵌套命名实体识别方法，具体参考前文记载，在此不做赘述。嵌套命名实体识别系统100包括：

标记模块110，用于基于预设的文本标记方法对语料库中的各文本进行标记，得到标记集合，标记集合包括文本及对应的命名实体，并且，至少一个文本对应多个命名实体；

聚类模块120，用于基于预设的聚类方法，将标记集合根据各命名实体进行聚类获得簇集合，簇集合包括文本及与该文本唯一对应的命名实体；

数据增强及识别模块130，用于基于预设的自适应数据增强的命名实体识别模型，分别识别各簇集合中的命名实体。

本发明的第三方面提供一种电子设备，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，能使得一个或多个处理器实现根据本发明提供的的嵌套命名实体方法。

本发明的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，

计算机程序被处理器执行时能实现本发明提供的嵌套命名实体方法。

其中，计算机可读介质可以是本发明的装置、设备、系统中所包含的，也可以是单独存在。

其中，计算机可读存储介质可是任何包含或存储程序的有形介质，其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备，更具体的例子包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或它们任意合适的组合。

其中，计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码，其具体的例子包括但不限于电磁信号、光信号，或它们任意合适的组合。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种嵌套命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的嵌套命名实体识别方法，其特征在于，所述基于预设的聚类方法，将所述标记集合根据各所述命名实体进行聚类获得簇集合，包括：

预先设定聚类结果度量函数；

3.根据权利要求2所述的嵌套命名实体识别方法，其特征在于，所述预先设定聚类结果度量函数，包括：

命名实体t_a与命名实体t_b的相关度定义如下关系式(2)：

E_a,b＝∑_{所有语料库}∑_if(t_a,i)f(t_b,i)(2)；

E表示命名实体之间的距离矩阵；

g_total＝α(∑_i,jg_out(C_i,C_j)-∑_ig_in(C_i))-(1-α)|C|/c (5)；

4.根据权利要求3所述的嵌套命名实体识别方法，其特征在于，所述基于所述聚类结果度量函数，采用层次化聚类方法将所述标记集合根据各所述命名实体进行聚类获得簇集合，包括：

S110、将所述标记集合中每个所述命名实体划分为一个簇；

S120、随机选择两个簇；

5.根据权利要求1-4任一项所述的嵌套命名实体识别方法，其特征在于，还包括对所述自适应数据增强的命名实体识别模型进行训练的步骤，具体包括：

6.根据权利要求5所述的嵌套命名实体识别方法，其特征在于，所述根据当前轮迭代的数据增强程度控制量M_a(t)，对所述初始训练样本语料库进行数据增强，包括：

7.根据权利要求5所述的嵌套命名实体识别方法，其特征在于，数据增强程度控制量M_a(t)采用如下计算公式：

8.一种嵌套命名实体识别系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据权利要求1至8中任意一项所述的嵌套命名实体方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，

所述计算机程序被处理器执行时能实现根据权利要求1至8中任意一项所述的嵌套命名实体方法。