CN114996389A

CN114996389A - 一种标注类别一致性检验方法、存储介质及电子设备

Info

Publication number: CN114996389A
Application number: CN202210931064.8A
Authority: CN
Inventors: 刘羽; 张正义; 傅晓航; 常鸿宇
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2022-09-02
Anticipated expiration: 2042-08-04
Also published as: CN114996389B

Abstract

本发明涉及数据处理领域，具体涉及一种标注类别一致性检验方法、存储介质及电子设备，所述方法包括：采用m个子模型对数据集分为K组经过一致性检验，获取子模型对数据集的K个第一置信程度，获取K个第一置信程度的离散程度的倒数作为数据集在子模型中的一致程度；根据开源数据集在子模型中的一致程度获取模型权重；将每个子模型对数据集的一致程度和模型权重的加权值归一化作为整体一致性程度Sco；m个子模型对数据集获取m个一致程度，通过调整子模型的模型权重，提高准确率高的子模型在获取整体一致性程度Sco时的占比，能够使最终的整体一致性程度Sco更加客观准确。

Description

一种标注类别一致性检验方法、存储介质及电子设备

技术领域

本发明涉及数据处理领域，特别是涉及一种标注类别一致性检验方法、存储介质及电子设备。

背景技术

数据标注是大部分人工智能算法得以有效运行的关键环节，标注类别的一致性可能直接影响算法运行的速度和准确率。然而对于标注类别的一致性检验是一项非常耗费人力并且容易出现判断失误的工作，现有的对标注类别的一致性检测方法往往是审核员从数据集中进行抽样检测，这种方法可能会出现疏漏。

CN111159167A中公开了一种标注质量检测装置和方法，包括标注前后一致性检测模块，标注协同一致性检测模块，标注准确率检测模块，质量综合模块由上述三个模块分别给出的标注质量值，最终给出综合标注质量值，但是上述现有技术也存在着以下技术问题：

第一，现有技术在标注质量检测中对于一致性的检测只使用一种模型，整体一致性程度Sco的准确率会受到模型对于标注内容误判或单个模型自身一致性检验偏差的影响。

第二，现有技术的一致性检验在标注员的标注过程中进行，无法对已完成标注的数据集进行一致性检验。

发明内容

针对上述技术问题，本发明采用的技术方案为：一种标注类别一致性检验方法、存储介质及电子设备，所述方法包括以下步骤：

S100，将字符串文本数据集data分别输入到m个子模型{Model₁,Model₂,…,Model_i,…,Model_m}中，获取第i个子模型Model_i的第一置信程度集合Scoⁱ，其中，i的取值范围为1到m，所述Scoⁱ的获取步骤包括：

S120，将data随机划分为K组data={data₁,data₂,…,data_j,…,data_K}。

S140，以第j个组data_j作为校验集,其余的K-1组作为验证集输入到Model_i，对比验证集中的标注类别是否与校验集一致，其中，j=1,2,…,K。

S160，当标注类别一致时，data_j的第一置信程度加p,否则data_j的第一置信程度减q，得到data_j的第一置信程度Scoⁱ _j，其中，所述第一置信程度初始值为S，p>0,q>0。

S180，遍历K组，获取K个组的第一置信程度集合Scoⁱ={Scoⁱ ₁, Scoⁱ ₂,…,Scoⁱ _j,…,Scoⁱ _k}。

S200，获取Scoⁱ的离散程度δ^＇(Scoⁱ)。

S300，根据δ^＇(Scoⁱ)获取一致程度δ(Scoⁱ)，所述δ(Scoⁱ)与δ^＇(Scoⁱ)呈负相关。

S400，获取整体一致性程度Sco，所述Sco满足：

Sco=1/c*∑(w_i*δ(Scoⁱ))

其中，i=1,2,…,m，1/c为归一化因子，w_i为Model_i的模型权重。

其中，所述w_i的获取步骤包括：

S410，将开源数据集data＇输入到Model_i中。

S420，获取Model_i的第一置信程度集合Sco0ⁱ={Sco0ⁱ ₁,Sco0ⁱ ₂,…,Sco0ⁱ _k}，i=1,2,…,m。

S430，获取Sco0ⁱ的离散程度δ^＇(Sco0ⁱ)。

S440，根据δ^＇(Sco0ⁱ)获取一致程度δ(Sco0ⁱ)，所述δ(Sco0ⁱ)与δ^＇(Sco0ⁱ)呈负相关。

S450，根据δ(Sco0ⁱ)获取Model_i的模型权重w_i。

本发明至少具有以下有益效果：

第一，每个子模型对数据集获取K个第一置信程度，将其离散程度取倒数作为一致程度；融合数据集data在多个子模型中得到的一致程度，不仅能够消除单个模型自身一致性检验偏差，而且通过调整子模型的权重，提高准确率高的子模型的一致程度，降低准确率低的子模型的一致程度，能够使最终的整体一致性程度Sco的结果更加客观准确。

第二，本发明使用的子模型可以实现数据集的输入，能够对一个或多个标注员已完成标注的数据集进行一致性检验，将同一标注员甚至是不同标注员标注的数据集以同一标准进行对比，输入的数据在子模型中经过一致性检验后输出数据集之间的整体一致性程度Sco，获取的标注类别一致与否的结论更加可靠。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的标注类别一致性检验方法的结构框图；

图2为本发明实施例提供的获取模型权重w_i的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，其示出了本发明实施例提供的一种标注类别一致性检验方法，所述方法包括以下步骤：

S100，将字符串文本数据集data分别输入到m个子模型{Model₁,Model₂,…,Model_i,…,Model_m}中，获取第i个子模型Model_i的第一置信程度集合Scoⁱ，其中，i的取值范围为1到m。

可选的，所述标注类别为文本分类标注，命名实体识别标注等。

其中，数据集data为标注员完成标注的字符串文本数据集，可选的，所述数据集包括单个标注员标注的样本，还可以包括多个标注员标注的样本。

可选的,所述子模型为循环神经网络RNN、Fasttext模型、LSTM模型、BERT模型或Albert模型等。

进一步，所述Scoⁱ的获取步骤包括：

其中，当数据集中的样本为单个标注员标注的样本时，数据集data被随机划分为K组，所述K为数据集data的分组数量；当数据集中的样本为多个标注员标注的样本时，数据集data随机划分为K组的方式有两种：第一、将数据集data随机划分为K组，每一组为一个标注员标注的样本；第二、将数据集data随机划分为K组，每一组为K-1个标注员标注的样本，例如，K=5时，第1组为第2个、第3个、第4个和第5个标注员标注的样本，第2组为第1个、第3个、第4个和第5个标注员标注的样本，第3组为第1个、第2个、第4个和第5个标注员标注的样本,以此类推；其中，所述K为标注员的数量。

S140，以第j个组data_j作为校验集,其余的K-1组作为验证集输入到Model_i，其中，j=1,2,…,K，遍历K组，对比验证集中的标注类别是否与校验集一致。

其中，对比验证集中的标注类别是否与校验集一致包括以下步骤：

S142，Model_i将校验集和验证集文本中具有标注的文本划分为多个关键词。

S144，将具有一个或一个以上相同关键词的任意两个文本进行标注类别对比。

S146，根据标注类别对比判定标注类别是否一致。

例如，在命名实体识别标注中，校验集中被标注为方法类实体的文本为“新型A方法”，“新型A方法”中具有关键词：“新型”、“A”和“方法”；当验证集中标注的文本为“A方法”，“A方法”的关键词为“A”和“方法”，也即“A方法”与“新型A方法”具有两个相同关键词的文本时，进行标注类别对比；当验证集中标注的文本为:“模型”，由于“模型”与“新型A方法”没有相同关键词的文本，不会进行标注类别对比。其中，所述进行标注类别对比为子模型判定验证集中是否标注为方法类实体，具体的，若标注为方法类实体，则判定一致，若标注为其它类实体或未标注实体类别，则判定不一致。

例如，在文本分类标注中，校验集中包括被标注为C类的文本内容，将文本内容作为检验文本，当验证集中某处文本的标注类别为C类时，判断该处的文本内容是否和检验文本为相同内容，相同内容会被子模型判定为一致；反之，会被判定为不一致；其中，所述相同内容为满足：

(b/d)>β

其中，b为验证集中的文本与检验文本相同的关键词数量，d为验证集文本中的关键词总和，所述β为第一阈值，可选的，β=0.5。

S160，当标注类别一致时，data_j的第一置信程度加p,否则data_j的第一置信程度减q，得到data_j的第一置信程度Scoⁱ _j，其中p>0,q>0。

其中，所述获取Scoⁱ _j的过程为：设置初始值Scoⁱ _j=S，当标注类别判定为一致时，执行加操作：Scoⁱ _j=Scoⁱ _j+p；当标注类别判定为不一致时，执行减操作：Scoⁱ _j=Scoⁱ _j-q。优选的，S=60，p=1，q=1。具体的，S1为最大阈值；S2为最小阈值；当S>S1时，子模型不再实施加操作，但数据集data在子模型中的标注类别对比和减操作仍然进行；当S<S2时，子模型不再实施减操作，但数据集data在子模型中的标注类别对比和加操作仍然进行；直到数据集data在子模型完成所有的标注类别对比，加操作、减操作终止。其中，优选的，S1=100；S2=0。

S180，获取Model_i对data的K个Scoⁱ={Scoⁱ ₁, Scoⁱ ₂,…, Scoⁱ _j,…,Scoⁱ _k}，i=1,2,…,m。

其中，Scoⁱ _j为Model_i中获取的第j个第一置信程度。

S200，获取Scoⁱ的离散程度δ^＇(Scoⁱ)。

可选的，离散程度δ^＇(Scoⁱ)满足：

δ^＇(Scoⁱ)=( Scoⁱ _max-Scoⁱ _min)/

其中，Scoⁱ _max为第一置信程度Scoⁱ的最大值，Scoⁱ _min为第一置信程度Scoⁱ的最小值，

为第一置信程度Scoⁱ的平均值。

优选的，离散程度δ^＇(Scoⁱ)为方差。

S300，根据δ^＇(Scoⁱ)获取一致程度δ(Scoⁱ)。

其中，一致程度δ(Scoⁱ)满足：

δ(Scoⁱ)=1/δ^＇(Scoⁱ)。

S400，获取整体一致性程度Sco，所述Sco满足：

Sco=1/c*∑(w_i*δ(Scoⁱ))

其中，i=1,2,…,m，1/c为归一化因子，w_i为Model_i的模型权重。

其中，所述归一化因子为对整体一致性程度Sco进行归一化操作，所述归一化操作为将数据映射到[0,1]范围之内处理，从而减少计算量。

如图2所示，所述模型权重w_i的获取步骤包括：

S410，将开源数据集data＇输入到子模型中。

其中，所述开源数据集为标注类别是公认的正确的标注类别，公众可以获取的数据集。

S420，获取Model_i对数据集data＇的第一置信程度集合Sco0ⁱ={Sco0ⁱ ₁,Sco0ⁱ ₂,…,Sco0ⁱ _k}，i=1,2,…,m。

其中，S420与S120-S180的步骤相同，不再赘述。

S430，获取Sco0ⁱ的离散程度δ^＇(Sco0ⁱ)。

可选的，离散程度δ^＇(Sco0ⁱ)满足：

δ^＇(Sco0ⁱ)=( Sco0ⁱ _max-Sco0ⁱ _min)/

其中，Sco0ⁱ _max为第一置信程度Sco0ⁱ的最大值，Sco0ⁱ _min为第一置信程度Sco0ⁱ的最小值，

为第一置信程度Sco0ⁱ的平均值。

优选的，离散程度δ^＇(Sco0ⁱ)为方差。

S440，根据δ^＇(Sco0ⁱ)获取一致程度δ(Sco0ⁱ)。其中，δ(Sco0ⁱ)满足：

δ(Sco0ⁱ)=1/δ^＇(Sco0ⁱ)。

S450，根据δ(Sco0ⁱ)获取Model_i的模型权重w_i，w_i满足：

w_i=δ(Sco0ⁱ)/ ∑^m _j=1δ(Sco0^j)，i=1,2,…,m。

其中，当获取模型权重时，实施例需要对子模型进行模型评估，所述模型评估为：将开源数据集在子模型中获取的一致程度作为子模型在标注类别一致性检验时的准确率，根据准确率赋予子模型模型权重。当δ(Sco0ⁱ)越大时，子模型模型权重w_i越大；当δ(Sco0ⁱ)越小时，子模型模型权重w_i越小；具体的，δ(Sco0ⁱ)越大时，说明开源数据集在子模型获取的第一置信程度越稳定，子模型的准确率越高，赋予模型权重越大；反之，δ(Sco0ⁱ)越小，说明开源数据集在子模型获取的第一置信程度越不稳定，子模型的准确率越低，赋予模型权重越小。

根据本实施例，当整体一致性程度Sco越趋近于1时，判定数据集的标注类别一致性越好；当整体一致性程度Sco越趋近于0时，判定数据集的标注类别一致性越差。

本实施例采用m个子模型对数据集进行标注类别一致性检验，与现有技术相比，本实施例获取到的整体一致性程度Sco的准确率更高，由于各个模型对于标注类别一致性检验的水平会有所差异，本发明对m个子模型的模型权重和子模型随数据集获取的一致程度做加权归一化处理，因此本发明消除了在获取整体一致性程度Sco时被单一模型误判的概率，受到单一模型一致性检验性能低的影响小，通过调整子模型的模型权重，提高准确率高的子模型的一致程度，降低准确率低的子模型的一致程度；所述准确率为m个子模型对开源数据集进行一致性检验的一致程度，能够使整体一致性程度Sco的结果更加客观准确，增加了获取的整体一致性程度Sco的合理性和准确性。

本实施例获取已完成标注的数据集输入到模型中，所述模型能够对一个或多个标注员已完成标注的数据集进行一致性检验，将同一标注员甚至是不同标注员标注的数据集以同一标准进行对比，输出数据集之间的整体一致性程度Sco，对比过程利用的数据量更大，获取的标注类别是否一致的结论更加可靠。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种标注类别一致性检验方法，其特征在于，所述方法包括以下步骤：

S120，将data随机划分为K组data={data₁,data₂,…,data_j,…,data_K}；

S140，以第j个组data_j作为校验集,其余的K-1组作为验证集输入到Model_i，对比验证集中的标注类别是否与校验集一致，其中，j=1,2,…,K；

S160，当标注类别一致时，data_j的第一置信程度加p,否则data_j的第一置信程度减q，获取data_j的第一置信程度Scoⁱ _j，其中，所述第一置信程度初始值为S，p>0,q>0；

S180，遍历K组，获取K个组的第一置信程度集合Scoⁱ={Scoⁱ ₁, Scoⁱ ₂,…, Scoⁱ _j,…,Scoⁱ _k}；

S200，获取Scoⁱ的离散程度δ^＇(Scoⁱ)；

S300，根据δ^＇(Scoⁱ)获取一致程度δ(Scoⁱ)，所述δ(Scoⁱ)与δ^＇(Scoⁱ)呈负相关；

S400，获取整体一致性程度Sco，所述Sco满足：

Sco=1/c*∑(w_i*δ(Scoⁱ))

其中，1/c为归一化因子，w_i为Model_i的模型权重；

其中，所述w_i的获取步骤包括：

S410，将开源数据集data＇输入到Model_i中；

S420，获取Model_i的第一置信程度集合

Sco0ⁱ={Sco0ⁱ ₁,Sco0ⁱ ₂,…,Sco0ⁱ _k}，i=1,2,…,m；

S430，获取Sco0ⁱ的离散程度δ^＇(Sco0ⁱ)；

S440，根据δ^＇(Sco0ⁱ)获取一致程度δ(Sco0ⁱ)，所述δ(Sco0ⁱ)与δ^＇(Sco0ⁱ)呈负相关；

S450，根据δ(Sco0ⁱ)获取Model_i的模型权重w_i。

2.根据权利要求1所述的方法，其特征在于，所述δ(Scoⁱ)满足：

δ(Scoⁱ)=1/δ^＇(Scoⁱ)。

3.根据权利要求1所述的方法，其特征在于，所述δ(Sco0ⁱ)满足：

δ(Sco0ⁱ)=1/δ^＇(Sco0ⁱ)。

4.根据权利要求1所述的方法，其特征在于，所述δ^＇(Scoⁱ)和δ^＇(Sco0ⁱ)为方差。

5.根据权利要求1所述的方法，其特征在于，所述δ^＇(Sco0ⁱ)满足：

δ^＇(Sco0ⁱ)=( Sco0ⁱ _max-Sco0ⁱ _min)/

其中，Sco0ⁱ _max为Sco0ⁱ中的最大值，Sco0ⁱ _min为Sco0ⁱ中的最小值，

为Sco0ⁱ的平均值。

6.根据权利要求1所述的方法，其特征在于，所述模型权重w_i满足：

w_i=δ(Sco0ⁱ)/ ∑^m _j=1δ(Sco0^j)，i=1,2,…,m。

7.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-6中任意一项的所述方法。

8.一种电子设备，其特征在于，包括处理器和权利要求7中所述的非瞬时性计算机可读存储介质。