CN115081453B

CN115081453B - 一种命名实体的识别方法及系统

Info

Publication number: CN115081453B
Application number: CN202211010616.8A
Authority: CN
Inventors: 靳雯; 于伟; 赵洲洋; 石江枫; 王全修; 王明超
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-11-04
Anticipated expiration: 2042-08-23
Also published as: CN115081453A

Abstract

本发明涉及数据处理技术领域，具体涉及一种命名实体的识别方法及系统，该方法利用机器学习模型识别第二种语言类别的命名实体，其中所述机器学习模型的训练步骤包括：将第一类文本样本中的第一种语言的命名实体替换为第二种语言命名实体得到虚拟命名实体，利用第一类文本样本中的虚拟命名实体和第二类文本样本中的真实命名实体对机器学习模型进行训练，并根据模型的预测结果计算准确率和召回率，利用准确率、召回率和命名实体在样本中的占比计算需要调整的比例，根据调整比例计算调整虚拟命名实体的数量，利用调整后的训练集再次训练机器学习模型，该方法不仅能过够扩展训练样本，而且能够通过调整扩展的训练样本来进一步提高模型的识别能力。

Description

一种命名实体的识别方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种命名实体的识别方法及系统。

背景技术

在管理系统中保存有大量的文本文件，为了便于管理，一般情况下会将文件进行分类，或者提取大量文本文件中的关键信息自动生成一份简单的信息统计表。而分类和提取关键信息中往往会涉及到命名实体的提取，目前对于命名实体的提取可以采用机器学习模型，例如BERT模型等。

机器学习模型在经过大量样本的训练之后能够准确的识别相应的命名实体。但是对于需要按照命名实体的语言类型进行分类的任务中，由于样本数量较少，很难训练得到准确的机器学习模型。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种命名实体的识别方法及系统，所采用的技术方案具体如下：

第一方面，本发明实施例提供了一种命名实体的识别方法，利用机器学习模型识别第二种语言类别的命名实体，其中所述机器学习模型的训练步骤包括：

步骤S100，获取训练集F，所述训练集F中包括K个第一类文本样本{f₁,f₂,…,f_K}和M个第二类文本样本{e₁,e₂,…,e_M}，其中K>0且M>0；第一类文本样本和第二类文本样本为第一种语言的文本；

其中，第i个第一类文本样本f_i包括Rf(i)个标注有第二种语言命名实体标签的虚拟命名实体{aⁱ ₁,aⁱ ₂,…,aⁱ _Rf(i)}，其中，Rf(i)≥0，i的取值范围为1到K，每个虚拟命名实体是将f_i中第一种语言的命名实体替换为第二种语言的命名实体，所述第一种语言和第二种语言不同；{f₁,f₂,…,f_K}中虚拟命名实体的总数量Rf满足：Rf=∑^K _i=1Rf(i)；

其中，第j个第二类文本样本e_j中包括Re(j)个标注有第二种语言命名实体标签的真实命名实体{n^j ₁,n^j ₂,…,n^j _Re(j)}，其中Re(j)≥0，j的取值范围为1到M，每个真实命名实体为第二种语言的命名实体；{e₁,e₂,…,e_M}中真实命名实体的总数量Re满足：Re=∑^M _j=1Re(j)；

步骤S200，根据F训练机器学习模型得到真实命名实体和虚拟命名实体的预测类别，根据第二种语言命名实体标签和预测类别计算准确率Pre和召回率Rec；

步骤S300，根据Pre、Rec、K、M、Rf和Re得到期望的命名实体的占比Pent，其中，Pent满足以下条件：Pent=(Rf+Re)/(K+M)+(Pre-Rec)/2；

步骤S400，根据Pent调整训练集中虚拟命名实体的总数量Rf´，其中Rf´满足以下条件：Rf´=(K+M)*Pent-Re，使机器学习模型根据调整后的虚拟命名实体数量的训练集进行训练。

第二方面，本发明实施例提供了一种命名实体的识别系统，所述系统包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以上述命名实体的识别方法

本发明具有如下有益效果：

本发明实施例通过将第一类文本样本中的第一种语言的命名实体替换为第二种语言命名实体得到虚拟命名实体，利用第一类文本样本中的虚拟命名实体和第二类文本样本中的真实命名实体对机器学习模型进行训练，并根据模型的预测结果计算准确率和召回率，利用准确率、召回率和命名实体在样本中的占比计算需要调整的比例，根据调整比例来计算调整虚拟命名实体的数量，利用调整后的训练集再次训练机器学习模型，该方法不仅能过够扩展训练样本，而且能够通过调整扩展的训练样本来进一步提高模型的识别能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例提供的机器学习模型训练的流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种命名实体的识别方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种命名实体的识别方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的机器学习模型训练的流程图。本发明实施例提供的一种命名实体的识别方法，该识别方法利用机器学习模型识别命名实体，其中机器学习模型的训练方法包括：

步骤S100，获取训练集F，所述训练集F中包括K个第一类文本样本{f₁,f₂,…,f_K}和M个第二类文本样本{e₁,e₂,…,e_M}，其中K>0且M>0；第一类文本样本和第二类文本样本为第一种语言的文本。

可选的，命名实体为人名或者机构名称。

其中，第一类文本样本和第二类文本样本不同，第一类文本样本和第二类文本样本是预先指定的不同类别，且第二类文本样本的数量比第一类文本样本少，第一类文本样本中原始的命名实体为第一种语言的命名实体，第二类文本样本中原始的命名实体为第二种语言的命名实体。例如，在案件分类中，工作人员会按照案件是否为涉外分为两大类，其中第一类文本样本为普通样本，第二类文本样本为涉外样本，普通样本采用第一语言且可能会记录第一语言的命名实体，涉外样本采用第一语言且可能会记录第二语言的命名实体，也即在涉外样本中的文本采用的是第一语言的表达方式，但是其中的命名实体为第二语言的表达形式。例如涉外样本中记录的中文的表达方式为：“Neeson趁张三挤公交时盗窃手机”，其中Neeson作为人名的命名实体，为英文人名。

可选的，K为M的N倍，其中N为正整数。优选的，N的初始取值范围为[3,15]。更有选的，N的初始取值为5，该值为经验取值，能够快速使机器学习模型调整到最佳比例。

其中，第一种语言为样本数据中主要的语言类别，第二种语言为样本数据中较少的语言表达形式。可选的，第一种语言为中文，第二语言为英文。

进一步，第i个第一类文本样本f_i包括Rf(i)个标注有第二种语言命名实体标签的虚拟命名实体{aⁱ ₁,aⁱ ₂,…,aⁱ _Rf(i)}，其中，Rf(i)≥0，i的取值范围为1到K，每个虚拟命名实体是将f_i中第一种语言的命名实体替换为第二种语言的命名实体，所述第一种语言和第二种语言不同；{f₁,f₂,…,f_K}中虚拟命名实体的总数量Rf满足：Rf=∑^K _i=1Rf(i)。

其中，将文本信息分为两类进行标注，一类为第二种语言命名实体，另一类为非第二种语言命名实体。其中虚拟命名实体和真实命名实体均为第二种语言命名实体，对f_i进行标注的过程为：将f_i中的虚拟命名实体标注为1，其他文本信息为0。

可选的，第二种语言命名实体标签为英文人名实体标签。

优选的，在步骤S100之前还包括：对于f_i中原始的命名实体{cⁱ ₁,cⁱ ₂,…,cⁱ _Rf(i)}，根据第二种语言的命名实体库为第t个第一种语言的命名实体cⁱ _t随机分配一个第二种语言的命名实体aⁱ _t，并利用aⁱ _t替换cⁱ _t，其中t的取值范围为1到Rf(i)，得到Rf(i)个虚拟命名实体{aⁱ ₁,aⁱ ₂,…,aⁱ _Rf(i)}。将第二种语言的命名实体库中已经分配过的命名实体标记为不可用。需要说明的是，第二种语言的命名实体库中具有多个不同的第二种语言的命名实体，为预先配置的实体库。例如，对于第一类文本样本中所记录的第一语言的表达方式为“王五晚上盗窃电动车”，根据第二种语言的命名实体库为命名实体“王五”随机分配第二种语言的命名实体，将第二种语言的命名实体库中的“Dunbar”随机分配给“王五”，并替换掉王五，则得到替换后的文本“Dunbar晚上盗窃电动车”。通过将第一类文本样本中的第一种语言的命名实体随机的替换为第二种语言的命名实体的方式，进一步的扩大训练集中第二种语言的命名实体的样本数据，解决了第二类文本样本数量少的问题。

进一步，第j个第二类文本样本e_j中包括Re(j)个标注有第二种语言命名实体标签的真实命名实体{n^j ₁,n^j ₂,…,n^j _Re(j)}，其中Re(j)≥0，j的取值范围为1到M，每个真实命名实体为第二种语言的命名实体；{e₁,e₂,…,e_M}中真实命名实体的总数量Re满足：Re=∑^M _j=1Re(j)。

其中，真实命名实体和虚拟命名实体的类别相同。命名实体的类别包括人名、地址名和机构名等。可选的，真实命名实体和虚拟命名实体均为人名。

其中，对于e_j进行标注的过程与f_i相似，对e_j进行标注的过程为：将e_j中的真实英文命名实体标注为1，其他文本信息为0。

需要说明的是，真实命名实体为第二类文本样本e_j中原始的命名实体。

步骤S200，根据F训练机器学习模型得到真实命名实体和虚拟命名实体的预测类别，根据第二种语言命名实体标签和预测类别计算准确率Pre和召回率Rec。

可选的，所述机器学习模型为BERT模型。

需要说明的是，机器学习模型得到的预测结果中包括真实命名实体和虚拟命名实体的预测类别，还包括非第二种语言命名实体的预测类别。

其中，准确率为预测结果中被正确预测的比例，准确率满足以下条件：

Pre=(TP+TN)/SUM

式中，SUM为F中第二种语言命名实体和非第二种语言命名实体的标签总数量，TP为样本中的第二种语言命名实体被准确预测为第二种语言命名实体类别的数量，TN为样本中的非第二种语言命名实体被准确预测为非第二种语言命名实体类别的数量。

其中，召回率是样本中的第二种语言命名实体被正确预测的比例，召回率满足以下条件：

Rec=TP/(Rf+Re)

步骤S300，根据Pre、Rec、K、M、Rf和Re得到期望的命名实体的占比Pent，其中，Pent满足以下条件：Pent=(Rf+Re)/(K+M)+(Pre-Rec)/2。

其中，(Rf+Re)/(K+M)为训练集F中第二种语言命名实体的比例，(Pre-Rec)/2为需要调整的虚拟命名实体的比例。在Pre大于Rec时，说明模型识别非第二种语言命名实体的准确率比较高，但是识别第二种语言命名实体的准确率不高，也即模型实际上识别第二种语言命名实体的能力比较差，样本中第二种语言命名实体被正确预测的比例较小，说明训练集中虚拟命名实体所占的比例小，因此在(Rf+Re)/(K+M)的基础上增加需要调整的虚拟命名实体的比例，提高召回率。在Pre小于Rec时，说明模型识别第二种语言命名实体的准确率高，但是识别非第二种语言命名实体的准确率不高，也即模型实际上识别非第二种语言命名实体的能力比较差，说明训练集中第二种语言命名实体的占比大于非第二种语言命名实体的占比，此时需要降低第二种语言命名实体在训练集中的占比，因此在(Rf+Re)/(K+M)的基础上减少调整的虚拟命名实体的比例，提高准确率。召回率与准确率越接近说明模型越能够准确的识别第二种语言命名实体和非第二种语言命名实体。

利用调整后的训练集再次对模型进行训练，并获取模型调整后的准确率和召回率，直至在准确率和召回率之间的差值不再变化时，训练集中真实命名实体和虚拟命名实体在样本中的占比为最佳占比，不再调整训练集中虚拟命名实体的数量，该方法能够提高模型的准确率和召回率，进一步提高模型的识别能力。

综上所述，本发明实施例提供了一种命名实体的识别方法，通过将第一类文本样本中的第一种语言的命名实体替换为第二种语言命名实体得到虚拟命名实体，利用第一类文本样本中的虚拟命名实体和第二类文本样本中的真实命名实体对机器学习模型进行训练，并根据模型的预测结果计算准确率和召回率，利用准确率、召回率和命名实体在样本中的占比计算需要调整的比例，根据调整比例来计算调整虚拟命名实体的数量，利用调整后的训练集再次训练机器学习模型，该方法不仅能过够扩展训练样本，而且能够通过调整扩展的训练样本来进一步提高模型的识别能力。

一种命名实体的识别系统，所述系统包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一个实施例所述的命名实体的识别方法。其中，一种命名实体的识别方法在上述实施例中已经详细说明，不再赘述。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种命名实体的识别方法，其特征在于，利用机器学习模型识别第二种语言类别的命名实体，其中所述机器学习模型的训练步骤包括：

2.根据权利要求1所述的识别方法，其特征在于，所述步骤S100之前还包括：

对于f_i中原始的命名实体{cⁱ ₁,cⁱ ₂,…,cⁱ _Rf(i)}，根据第二种语言的命名实体库为第t个第一种语言的命名实体cⁱ _t随机分配一个第二种语言的命名实体aⁱ _t，并利用aⁱ _t替换cⁱ _t，其中t的取值范围为1到Rf(i)，得到Rf(i)个虚拟命名实体{aⁱ ₁,aⁱ ₂,…,aⁱ _Rf(i)}。

3.根据权利要求1所述的识别方法，其特征在于，所述步骤S200中，Rec满足以下条件：

Rec=TP/(Rf+Re)

式中，TP为样本中标注第二种语言命名实体标签的命名实体被准确预测为第二种语言命名实体的数量。

4.根据权利要求1所述的识别方法，其特征在于，所述步骤S200中，Pre满足以下条件：

Pre=(TP+TN)/SUM

5.根据权利要求1所述的识别方法，其特征在于，所述虚拟命名实体和真实命名实体的实体类别相同。

6.根据权利要求1所述的识别方法，其特征在于，所述K为M的N倍，其中N为正整数。

7.根据权利要求4所述的识别方法，其特征在于，所述N的初始取值范围为[3,15]。

8.根据权利要求1所述的识别方法，其特征在于，所述机器学习模型为BERT模型。

9.一种命名实体的识别系统，其特征在于，所述系统包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项所述的识别方法。