CN115221886A

CN115221886A - 一种未标注文本库处理方法及介质

Info

Publication number: CN115221886A
Application number: CN202211141305.5A
Authority: CN
Inventors: 刘羽; 杨波; 秦克良; 谭方亮
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-10-21
Anticipated expiration: 2042-09-20
Also published as: CN115221886B

Abstract

本申请涉及电数字数据处理技术领域，特别是涉及一种未标注文本库处理方法及介质，方法包括以下步骤：获取enc_i={enc_i,1，enc_i,2，…，enc_i,k，…，enc_i,Qi}；获取cluster_i={cluster_i,1，cluster_i,2，…，cluster_i,a，…，cluster_i,Pi}；获取Encod={Encod₁，Encod₂，…，Encod_b，…，Encod_B}；遍历cluster_i和Encod，获取Sim_i,a；如果max_i,a≥Sim₀，则判定Ent_i,a为max_i,a对应的实体类型。本发明提高了对未标注文本库中各实体的实体类型判断的准确性。

Description

一种未标注文本库处理方法及介质

技术领域

本发明涉及电数字数据处理技术领域，特别是涉及一种未标注文本库处理方法及介质。

背景技术

在实际的应用场景中，可能会出现这样的情况：未标注文本库没有进行实体类型标注，但是有这样的一个实体库，实体库中记录着一定数量的实体以及这些实体所属的实体类型；弱监督标注的方法是直接拿这个实体库在未标注文本库中进行匹配，如果未标注文本库中某个实体与实体库中的某个实体匹配，则将未标注文本库中这个实体标注为该实体在实体库中所属的实体类型。

但是弱监督标注的方法存在这样一个问题：实体库中的某些实体存在包括多种含义的情况，即使文本库中某个实体与实体库中的某个实体匹配，但文本库中该实体也不属于该实体在实体库中所属的实体类型。可见，弱监督标注方法存在标注结果准确性不高的问题。如何提高对未标注文本库中各实体的实体类型判断的准确性，是亟待解决的技术问题。

发明内容

本发明目的在于，提供一种未标注文本库处理方法及介质，以提高对未标注文本库中各实体的实体类型判断的准确性。

根据本发明的第一方面，提供了一种未标注文本库处理方法，包括以下步骤：

S100，获取enc_i={enc_i,1，enc_i,2，…，enc_i,k，…，enc_i,Qi}，其中，enc_i,k为entity_i,k的编码向量，entity_i,k为未标注文本库中第k个与entity_i匹配的实体，k的取值范围为1到Qi，Qi为未标注文本库中与entity_i匹配的实体的总数量，entity_i为实体库中第i个与未标注文本库匹配的实体，i的取值范围为1到N，N为实体库中与未标注文本库匹配的实体的总数量。

S200，获取cluster_i={cluster_i,1，cluster_i,2，…，cluster_i,a，…，cluster_i,Pi}，其中，cluster_i,a为对enc_i进行聚类后得到的第a个编码向量簇，a的取值范围为1到Pi，Pi为对enc_i进行聚类后得到的簇的总数量。

S300，获取Encod={Encod₁，Encod₂，…，Encod_b，…，Encod_B}，其中，Encod_b为实体库中第b个实体类型的编码向量，b的取值范围为1到B，B为实体库中包括的实体类型的总数量。

S400，遍历cluster_i和Encod，获取Sim_i,a={Sim_i,a,1，Sim_i,a,2，...，Sim_i,a,b，...，Sim_i,a,B}，其中，Sim_i,a,b为mean_i,a与Encod_b的相似度，mean_i,a为cluster_i,a中编码向量的平均。

S500，遍历cluster_i，如果max_i,a≥Sim₀，则判定Ent_i,a为max_i,a对应的实体类型，max_i,a为Sim_i,a中相似度的最大值，Sim₀为预设相似度阈值，Ent_i,a为cluster_i,a中编码向量对应的实体的集合。

本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的未标注文本库处理方法及存储介质可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：

本发明考虑了实体库中实体可能出现多种语义的情况，没有直接把未标注文本库中实体标注为实体库中匹配的实体的实体类型，而是将未标注文本库中能够与实体库中同一实体匹配的所有实体进行编码，然后对编码得到的编码向量进行分簇，使语义相似的实体分到一个簇，语义不相似的分到其他簇，然后再分别比较每个簇与实体库中出现的各实体类型对应的编码向量的相似度，将相似度最大且相似度值大于预设相似度阈值对应的实体类型赋予对应簇的实体。本发明在未标注文本库中实体与实体库中实体匹配的基础上，还结合实体的语义对实体所属实体类型进行了判断，相较于现有直接将未标注文本库中实体标注为该实体在实体库中所属的实体类型的方法，提高了对未标注文本库中各实体的实体类型判断的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的未标注文本库处理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的第一方面，提供了一种未标注文本库处理方法，如图1所示，包括以下步骤：

根据本发明，未标注文本库中包括多个文本，这些文本都是未标注的文本。实体库包括两列内容，第一列为实体，第二列为对应实体的实体类型。实体库中实体与未标注文本库中实体匹配指的是未标注文本库中出现了实体库中的实体。例如，实体库中包括的一个实体为transformer，如果未标注文本库中某个文本中出现了transformer，即说明未标注文本库中该文本中出现的transformer与实体库中的transformer匹配。

根据本发明，实体库中包括多个实体，未标注文本库中可能会多次出现实体库中的某一实体，但是未标注文本库中多次出现的该实体的可能并不是该实体在实体库中对应的实体类型。例如，实体库中包括transformer这个实体，其在实体库中对应的实体类型为NLP model实体类型；虽然未标注文本库中的文本多次出现了transformer这个实体，但是未标注文本库中的文本中有些transformer的实体类型并不是实体库中transformer对应的NLP model实体类型。

根据本发明，获取enc_i,k的方法包括：

S110，利用预训练模型的编码器对未标注文本库中entity_i,k所在的文本进行编码，得到entity_i,k对应的初始编码向量。

S120，对得到的entity_i,k对应的初始编码向量进行池化（pooling）操作，即可得到enc_i,k。

可选的，预训练模型为以BERT为代表的预训练模型。本发明对实体对应的初始编码向量进行池化操作的目的在于将不同长度的实体对应的不同维度的编码向量压缩到同一维度的编码向量，例如，均压缩为768的编码向量，以便于S400中计算相似度。

优选的，采用无监督聚类方法对enc_i进行聚类，将语义相近的entity_i的编码向量聚在一起，语义不同的entity_i的编码向量聚在不同的簇。可选的，无监督聚类方法为Dbscan算法。

根据本发明，获取Encod_b包括：

S310，获取Ent_b={Ent_b,1，Ent_b,2，…，Ent_b,x，…，Ent_b,Qb}，其中，Ent_b,x为实体库中实体类型为第b个实体类型的第x个实体，x的取值范围为1到Qb，Qb为实体库中实体类型为实体库中第b个实体类型的实体的总数量。

S320，遍历Ent_b，如果Ent_b,x与未标注文本库匹配，则将Ent_b,x追加到J_b={J_b,1，J_b,2，…，J_b,y，…，J_b,Zb}，J_b,y为第y个追加到J_b的实体，y的取值范围为1到Zb，Zb为追加到J_b的实体的总数量，J_b的初始化为Null。

S330，遍历J_b，获取M_b,y，M_b,y为J_b,y在未标注文本库中的编码向量的平均。

根据本发明，J_b,y可能在未标注文本库中出现多次，每次出现的J_b,y对应一个编码向量，那么M_b,y即未标注文本库中所有J_b,y对应的编码向量的平均。例如，J_b,y在未标注文本库中出现了 3次，第一次出现的J_b,y对应的编码向量是[element_1,1，element_1,2，…，element_1,768]，第二次出现的J_b,y对应的编码向量是[element_2,1，element_2,2，…，element_2,768]，第三次出现的J_b,y对应的编码向量是[element_3,1，element_3,2，…，element_3,768]，那么M_b,y=[(element_1,1+element_2,1+ element_3,1)/3，(element_1,2+element_2,2+element_3,2)/3，…，(element_1,768+element_2,768+ element_3,768)/3]。

S340，获取Encod_b=(∑^Zb _y=1M_b,y)/Zb。

根据本发明，Ent_b,x与未标注文本库匹配指的是未标注文本库中出现了Ent_b,x。可选的，如果Ent_b中Ent_b,x均不与未标注文本库匹配，即遍历Ent_b后J_b仍为Null，则根据包含Ent_b,x且Ent_b,x的实体类型为实体库中第b个实体类型的其他文本库获取Ent_b,x的编码向量的平均，并进一步计算Encod_b。

根据本发明，cluster_i,a中entity_i的编码向量是相似的，那么cluster_i,a中包括的entity_i的编码向量的平均mean_i,a即可代表cluster_i,a。

根据本发明，利用实体库中各实体类型包括的各实体的编码向量的平均来代表实体库中各实体类型的编码向量，并计算实体库中各实体类型的编码向量与mean_i,a的相似度。可见，本发明除了考虑cluster_i,a中entity_i为实体库中entity_i的实体类型之外，还考虑了cluster_i,a中entity_i还可能为实体库中其他实体类型的可能，本发明考虑更为全面，提高了本发明对未标注文本库中各实体的实体类型判断的准确性。

本领域技术人员知悉，现有技术中使用任意计算相似度的算法计算Sim_i,a,b均落入本发明的保护范围。可选的，利用余弦相似度算法获取Sim_i,a,b。

根据本发明，如果max_i,a＜Sim₀，则判定Ent_i,a不为实体库中包括的实体类型。

根据本发明，计算实体库中各实体类型的编码向量与mean_i,a的相似度，将相似度最大的实体类型作为cluster_i,a中entity_i最有可能是的实体类型。通过进一步比较max_i,a是否大于等于预设相似度阈值的方法，来最终判定cluster_i,a中entity_i是否为实体库中与其相似度最大的实体类型。

本发明引入了预设相似度阈值，考虑到了实体库中与cluster_i,a中entity_i编码向量最相似的实体类型也不一定是cluster_i,a中entity_i的情形，提高了本发明对未标注文本库中各实体的实体类型判断的准确性。例如，entity_i有三种语义，而实体库中entity_i的实体类型为entity_i第一语义对应的实体类型，而在未标注文本库的文本中仅出现了第二和第三语义的entity_i，且第二和第三语义的entity_i也不是实体库中的其他实体类型，在这种情况下，对未标注文本库中的entity_i进行聚类会得到两个簇，第一簇对应的是第二语义的entity_i，第二簇对应的是第三语义的entity_i，由于本发明S500引入了预设相似度阈值，最终会避免将未标注文本库的entity_i判定为属于实体库中实体类型的情形，可见，本发明提高了对未标注文本库中各实体的实体类型判断的准确性。

优选的Sim₀≥0.6。经小规模实验表明，Sim₀的值设置在Sim₀≥0.6范围内时，本发明对未标注文本库中各实体的实体类型判断的准确性较高。

本发明实施例还提供了一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行本发明实施例所述的方法。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种未标注文本库处理方法，其特征在于，包括以下步骤：

S100，获取enc_i={enc_i,1，enc_i,2，…，enc_i,k，…，enc_i,Qi}，其中，enc_i,k为entity_i,k的编码向量，entity_i,k为未标注文本库中第k个与entity_i匹配的实体，k的取值范围为1到Qi，Qi为未标注文本库中与entity_i匹配的实体的总数量，entity_i为实体库中第i个与未标注文本库匹配的实体，i的取值范围为1到N，N为实体库中与未标注文本库匹配的实体的总数量；

S200，获取cluster_i={cluster_i,1，cluster_i,2，…，cluster_i,a，…，cluster_i,Pi}，其中，cluster_i,a为对enc_i进行聚类后得到的第a个编码向量簇，a的取值范围为1到Pi，Pi为对enc_i进行聚类后得到的簇的总数量；

S300，获取Encod={Encod₁，Encod₂，…，Encod_b，…，Encod_B}，其中，Encod_b为实体库中第b个实体类型的编码向量，b的取值范围为1到B，B为实体库中包括的实体类型的总数量；

S400，遍历cluster_i和Encod，获取Sim_i,a={Sim_i,a,1，Sim_i,a,2，...，Sim_i,a,b，...，Sim_i,a,B}，其中，Sim_i,a,b为mean_i,a与Encod_b的相似度，mean_i,a为cluster_i,a中编码向量的平均；

2.根据权利要求1所述的方法，其特征在于，S300中，获取Encod_b包括：

S310，获取Ent_b={Ent_b,1，Ent_b,2，…，Ent_b,x，…，Ent_b,Qb}，其中，Ent_b,x为实体库中实体类型为第b个实体类型的第x个实体，x的取值范围为1到Qb，Qb为实体库中实体类型为实体库中第b个实体类型的实体的总数量；

S320，遍历Ent_b，如果Ent_b,x与未标注文本库匹配，则将Ent_b,x追加到J_b={J_b,1，J_b,2，…，J_b,y，…，J_b,Zb}，J_b,y为第y个追加到J_b的实体，y的取值范围为1到Zb，Zb为追加到J_b的实体的总数量，J_b的初始化为Null；

S330，遍历J_b，获取M_b,y，M_b,y为J_b,y在未标注文本库中的编码向量的平均；

S340，获取Encod_b=(∑^Zb _y=1M_b,y)/Zb。

3.根据权利要求1所述的方法，其特征在于，步骤S100中，利用BERT预训练模型的编码器获取enc_i,k。

4.根据权利要求3所述的方法，其特征在于，步骤S100中，获取enc_i,k包括：

S110，利用BERT预训练模型的编码器对text_i,k进行编码，获取entity_i,k对应的初始编码向量，text_i,k为未标注文本库中entity_i,k所在的文本；

S120，对entity_i,k对应的初始编码向量进行池化操作，得到enc_i,k。

5.根据权利要求1所述的方法，其特征在于，步骤S200中，利用无监督聚类算法对enc_i进行聚类。

6.根据权利要求5所述的方法，其特征在于，所述无监督聚类算法为Dbscan算法。

7.根据权利要求1所述的方法，其特征在于，步骤S400中，利用余弦相似度算法获取Sim_i,a,b。

8.根据权利要求1所述的方法，其特征在于，步骤S500中，Sim₀≥0.6。

9.根据权利要求1所述的方法，其特征在于，步骤S500中，如果max_i,a＜Sim₀，则判定Ent_i,a不为实体库中包括的实体类型。

10.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-9中任意一项的所述方法。