CN115238702A

CN115238702A - 一种实体库处理方法及存储介质

Info

Publication number: CN115238702A
Application number: CN202211148098.6A
Authority: CN
Inventors: 刘羽; 杨波; 秦克良
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-10-25
Anticipated expiration: 2042-09-21
Also published as: CN115238702B

Abstract

本申请涉及电数字数据处理技术领域，特别是涉及一种实体库处理方法及存储介质，所述方法包括以下步骤：利用实体库对未标注文本库进行实体类型标注，得到text；遍历text，如果对text_i,j的实体类型标注结果有误，则将修正后的text_i,j追加到Text_new；利用Text_new对预训练模型进行训练，得到经训练的模型；利用经训练的模型对未标注文本库进行预测，得到T；遍历num，如果实体库中实体类型为type_x的实体不包含Ent_x,y且num_x,y满足第一预设条件，则将Ent_x,y追加到实体库。本发明提高了对未标注文本库标注的全面性。

Description

一种实体库处理方法及存储介质

技术领域

本发明涉及电数字数据处理技术领域，特别是涉及一种实体库处理方法及存储介质。

背景技术

在实际的应用场景中，可能会出现这样的情况：未标注文本库没有进行实体类型标注，但是有这样的一个实体库，实体库中记录着一定数量的实体以及这些实体对应的实体类型；弱监督标注的方法是将实体库与未标注文本库进行匹配，如果未标注文本库中某个实体与实体库中的某个实体匹配，则将未标注文本库中该实体标注为该实体在实体库中对应的实体类型。

但是弱监督标注的方法存在这样一个问题：实体库中某些实体类型包括的实体并不全，只是列出了属于这些实体类型的一些实体，而未标注文本库中可能存在一些属于这些实体类型但并没有出现在实体库中的实体，所以按照上述的弱监督标注方法并不会将未标注文本库中的这些实体标注为对应的实体类型，存在标注不全面的问题。如何提高对未标注文本库标注的全面性，是亟待解决的技术问题。

发明内容

本发明目的在于，提供一种实体库处理方法及存储介质，提高了对未标注文本库标注的全面性。

根据本发明的第一方面，提供了一种实体库处理方法，包括以下步骤：

S100，利用实体库对未标注文本库进行实体类型标注，得到text={text₁，text₂，…，text_i，…，text_N}，text_i={text_i,1，text_i,2，…，text_i,j，…，text_i,Mi}，text_i,j为对未标注文本库中第j个与entity_i匹配的文本进行标注后的文本，j的取值范围是1到Mi，Mi为未标注文本库中与entity_i匹配的文本的总数量，entity_i为实体库中第i个与未标注文本库匹配的实体，i的取值范围为1到N，N为实体库中与未标注文本库匹配的实体的总数量。

S200，遍历text，如果对text_i,j的实体类型标注结果有误，则将修正后的text_i,j追加到Text_new；如果对text_i,j的实体类型标注结果无误，则将text_i,j追加到Text_new；Text_new的初始化为Null。

S300，利用Text_new对预训练模型进行训练，得到经训练的模型。

S400，利用经训练的模型对未标注文本库进行预测，得到带实体类型标注的文本库T。

S500，获取num={num₁，num₂，…，num_x，…，num_P}，num_x={num_x,1，num_x,2，...，num_x,y，...，num_x,Qx}，num_x,y为T中Ent_x,y被标注为type_x的次数，Ent_x,y为T中第y个被标注为type_x的实体，type_x为实体库中的第x个实体类型；x的取值范围为1到P，P为实体库中实体类型的总数量，y的取值范围为1到Qx，Qx为T中被标注为type_x的实体的总数量。

S600，遍历num，如果实体库中实体类型为type_x的实体不包含Ent_x,y且num_x,y满足第一预设条件，则将Ent_x,y追加到实体库；所述第一预设条件包括：num_x,y≥n₀，n₀为预设次数阈值。

本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的实体库处理方法及存储介质可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：

本发明对text中实体类型标注有误的文本进行了修正，得到了准确率较高的带有实体类型标注的文本；基于这些文本，本发明对预训练模型进行了训练，得到的经训练的模型可以更准确地对未标注文本库中实体的实体类型进行预测，由此，可以得到一些出现在T中、未出现在实体库中且实体类型为实体库中实体类型的实体，当这些实体在T中出现的次数超过n₀时即可将这些实体追加到实体库中，实现对实体库的扩充。由此，再利用扩充后的实体库和经训练的模型对未标注文本库标注时，就可以得到标注较为全面的标注结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的实体库处理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的第一方面，提供了一种实体库处理方法，如图1所示，包括以下步骤：

根据本发明，未标注文本库中包括多个文本，这些文本都是未标注的文本。可选的，实体库包括两列内容，第一列为实体，第二列为对应实体的实体类型。实体库中实体与未标注文本库匹配指的是实体库中实体出现在了未标注文本库中。未标注文本库中某个文本与实体库中实体匹配指的是未标注文本库的该文本中出现了实体库中的实体。

可选的，利用实体库对未标注文本库进行实体类型标注的方法包括：

将实体库与未标注文本库进行匹配，如果未标注文本库中某个实体与实体库中的某个实体匹配，则将未标注文本库中该实体标注为该实体在实体库中对应的实体类型。

应当理解的是，对text_i,j的实体类型标注结果有误指的是：text_i,j中出现了属于实体库中实体类型的实体，但是该实体没有被标注为正确的实体类型。例如，text_i,j中出现了cow，其属于动物实体类型，但由于实体库中动物实体类型中并不包括cow实体，导致text_i,j中出现的cow没有被标注为动物实体类型。

可选的，利用人工的方式对text_i,j的实体类型标注结果是否有误进行判断，以及在判断出有误之后对text_i,j进行修正。

本领域技术人员知悉，使用现有技术中任何对标注结果进行修正的方法对实体类型标注有误的text_i,j进行修正均落入本发明的保护范围。

可选的，预训练模型为以BERT为代表的预训练模型。

本领域技术人员知悉，将Text_new作为训练样本，使用现有技术中任何对模型进行训练的方法对预训练模型进行训练均落入本发明的保护范围。

应当理解的是，经训练的模型相较于预训练模型能够更准确地对未标注实体库进行实体类型标注。

根据本发明，经训练的模型具有判断文本中实体的实体类型的功能，由此，将未标注文本库作为经训练的模型的输入，根据经训练的模型的输出可以得到带实体类型标注的文本库T。

作为本发明的第一实施例，实体库中第2个实体类型为动物实体类型，T中被标注为动物实体类型的实体的总数量为3，其中第1个被标注为动物实体类型的为dog，且T中dog被标注为动物实体类型的次数为12；第2个被标注为动物实体类型的为cat，且T中cat被标注为动物实体类型的次数为25；第3个被标注为动物实体类型的为chicken，且T中chicken被标注为动物实体类型的次数为8，那么num₂={12，25，8}。

根据本发明，获取num_x,y包括：

遍历T，如果Ent_x,y被标注为type_x，则更新num_x,y为num_x,y+1；如果Ent_x,y未被标注为type_x，则不对num_x,y进行更新；num_x,y的初始值为0。

作为本发明的第二实施例，T中共出现了10次Ent_x,y，但只有第1-3和5-9次出现的Ent_x,y被标注为type_x，在遍历T的过程中，从开始遍历T至第1次出现Ent_x,y，num_x,y更新为0+1；从第1次出现Ent_x,y至第2次出现Ent_x,y，num_x,y更新为1+1；从第2次出现Ent_x,y至第3次出现Ent_x,y，num_x,y更新为2+1；从第3次出现Ent_x,y至第4次出现Ent_x,y，num_x,y保持为3；从第4次出现Ent_x,y至第5次出现Ent_x,y，num_x,y更新为3+1；以此类推，从第8次出现Ent_x,y至第9次出现Ent_x,y，num_x,y更新为7+1；从第9次出现Ent_x,y至第10次出现Ent_x,y，num_x,y保持为8。可以理解的是，遍历T后num_x,y=8。

根据本发明，如果实体库中第x个实体类型中包含Ent_x,y或num_x,y不满足第一预设条件，则不将Ent_x,y追加到实体库。

优选的，n₀≥5。经小规模实验表明，n₀的值设置在n₀≥5范围内时本发明利用追加后的实体库对未标注文本库标注的准确性较高。

优选的，第一预设条件还包括：num_x,y/N_x,y≥k，k为预设占比阈值，N_x,y为T中Ent_x,y出现的次数。本发明还设置了预设占比阈值，只有当T中Ent_x,y被标注为type_x的次数与T中Ent_x,y出现的次数的比值大于预设占比阈值时，才考虑将Ent_x,y追加到实体库，本发明避免了由于经训练的模型对Ent_x,y实体类型的误判而误将Ent_x,y追加到实体库的情形，提高了利用追加后的实体库对未标注文本库标注的准确性。

优选的，k≥0.3。经小规模实验表明，k的值设置在k≥0.3范围内时本发明利用追加后的实体库对未标注文本库标注的准确性较高。

作为本发明的第三实施例，实体库中实体类型为NLP model实体类型的实体有transformer和BERT，并不包括ELMO；但T中ELMO出现了420次，并且T中ELMO被标注为NLPmodel实体类型的次数为400次，可见，T中ELMO被标注为NLP model实体类型的次数满足第一预设条件，由此，可将ELMO追加至实体库，并且追加后的实体库中ELMO为NLP model实体类型。

作为本发明的第四实施例，实体库中实体类型为NLP model实体类型的实体有transformer和BERT，并不包括car；但T中car出现了100次，并且T中car被标注为NLP model实体类型的次数为4次，可见，T中ELMO被标注为NLP model实体类型的次数并不满足第一预设条件，由此，无需将car追加至实体库。

根据本发明，将Ent_x,y追加到实体库后，还包括：

S610，利用追加后的实体库对未标注文本库进行实体类型标注，得到标注后的文本库。

S620，对标注后的文本库中实体类型标注有误的文本进行修正，得到修正后的文本库。

S630，利用修正后的文本库对经训练的模型进行训练，得到再训练的模型。

S640，利用再训练的模型对未标注文本库进行预测，得到再标注的文本库。

S650，获取num¹={num¹ ₁，num¹ ₂，…，num¹ _x1，…，num¹ _P1}，num¹ _x1={num¹ _x1,1，num¹ _x1,2，...，num¹ _x1,y1，...，num¹ _x1,Qx1}，num¹ _x1,y1为再标注的文本库中Ent_x1,y1被标注为type¹ _x1的次数，Ent_x1,y1为再标注的文本库中第y1个被标注为type¹ _x1的实体，type¹ _x1为追加后的实体库中的第x1个实体类型；x1的取值范围为1到P1，P1为追加后的实体库中实体类型的总数量，y1的取值范围为1到Qx1，Qx1为再标注的文本库中被标注为type¹ _x1的实体的总数量。

应当理解的是，本发明追加后的实体库相较于之前的实体库只是增加了实体库中实体的数量，并没有改变实体库中实体类型的总数量，因此，P1=P。

S660，遍历num¹，如果追加后的实体库中实体类型为type¹ _x1的实体不包含Ent_x1,y1且num¹ _x1,y1满足第二预设条件，则将Ent_x1,y1追加到追加后的实体库，并重复步骤S610-S660，直至没有实体被追加到追加后的实体库；所述第二预设条件包括：num¹ _x1,y1≥n₀。

本发明在得到追加后的实体库和经训练的模型之后，又基于追加后的实体库和经训练的模型执行了步骤S610-S660，应当理解的是，S610-S660与S100-S600的区别在于：步骤S610、S650和S660中利用的是追加后的实体库；S630中是对经训练的模型进行训练，得到的是再训练的模型；S640中利用的是再训练的模型对未标注文本库进行预测。经过步骤S610-S660，本发明的实体库越来越丰富，进行预测的模型对实体类型判断的准确性也越来越高，由此，本发明对未标注文本库标注的全面性和准确性也均有所提高。

本发明实施例还提供了一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行本发明实施例所述的方法。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims

1.一种实体库处理方法，其特征在于，包括以下步骤：

S100，利用实体库对未标注文本库进行实体类型标注，得到text={text₁，text₂，…，text_i，…，text_N}，text_i={text_i,1，text_i,2，…，text_i,j，…，text_i,Mi}，text_i,j为对未标注文本库中第j个与entity_i匹配的文本进行标注后的文本，j的取值范围是1到Mi，Mi为未标注文本库中与entity_i匹配的文本的总数量，entity_i为实体库中第i个与未标注文本库匹配的实体，i的取值范围为1到N，N为实体库中与未标注文本库匹配的实体的总数量；

S200，遍历text，如果对text_i,j的实体类型标注结果有误，则将修正后的text_i,j追加到Text_new；如果对text_i,j的实体类型标注结果无误，则将text_i,j追加到Text_new；Text_new的初始化为Null；

S300，利用Text_new对预训练模型进行训练，得到经训练的模型；

S400，利用经训练的模型对未标注文本库进行预测，得到带实体类型标注的文本库T；

S500，获取num={num₁，num₂，…，num_x，…，num_P}，num_x={num_x,1，num_x,2，...，num_x,y，...，num_x,Qx}，num_x,y为T中Ent_x,y被标注为type_x的次数，Ent_x,y为T中第y个被标注为type_x的实体，type_x为实体库中的第x个实体类型；x的取值范围为1到P，P为实体库中实体类型的总数量，y的取值范围为1到Qx，Qx为T中被标注为type_x的实体的总数量；

2.根据权利要求1所述的方法，其特征在于，S600中，所述第一预设条件还包括：num_x,y/N_x,y≥k，k为预设占比阈值，N_x,y为T中Ent_x,y出现的次数。

3.根据权利要求2所述的方法，其特征在于，S600中，k≥0.3。

4.根据权利要求1所述的方法，其特征在于，S600中，将Ent_x,y追加到实体库后，还包括：

S610，利用追加后的实体库对未标注文本库进行实体类型标注，得到标注后的文本库；

S620，对标注后的文本库中实体类型标注有误的文本进行修正，得到修正后的文本库；

S630，利用修正后的文本库对经训练的模型进行训练，得到再训练的模型；

S640，利用再训练的模型对未标注文本库进行预测，得到再标注的文本库；

S650，获取num¹={num¹ ₁，num¹ ₂，…，num¹ _x1，…，num¹ _P1}，num¹ _x1={num¹ _x1,1，num¹ _x1,2，...，num¹ _x1,y1，...，num¹ _x1,Qx1}，num¹ _x1,y1为再标注的文本库中Ent_x1,y1被标注为type¹ _x1的次数，Ent_x1,y1为再标注的文本库中第y1个被标注为type¹ _x1的实体，type¹ _x1为追加后的实体库中的第x1个实体类型；x1的取值范围为1到P1，P1为追加后的实体库中实体类型的总数量，y1的取值范围为1到Qx1，Qx1为再标注的文本库中被标注为type¹ _x1的实体的总数量；

5.根据权利要求1所述的方法，其特征在于，S600中，n₀≥5。

6.根据权利要求1所述的方法，其特征在于，所述实体库包括两列，第一列为实体的名称，第二列为实体对应的实体类型。

7.根据权利要求1所述的方法，其特征在于，S300中，预训练模型为BERT模型。

8.根据权利要求1所述的方法，其特征在于，S500中，获取num_x,y包括：

9.根据权利要求1所述的方法，其特征在于，S600中，如果实体库中第x个实体类型中包含Ent_x,y或num_x,y不满足第一预设条件，则不将Ent_x,y追加到实体库。

10.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-9中任意一项的所述方法。