CN114996389A - 一种标注类别一致性检验方法、存储介质及电子设备 - Google Patents
一种标注类别一致性检验方法、存储介质及电子设备 Download PDFInfo
- Publication number
- CN114996389A CN114996389A CN202210931064.8A CN202210931064A CN114996389A CN 114996389 A CN114996389 A CN 114996389A CN 202210931064 A CN202210931064 A CN 202210931064A CN 114996389 A CN114996389 A CN 114996389A
- Authority
- CN
- China
- Prior art keywords
- sco
- sco0
- model
- data
- delta
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理领域,具体涉及一种标注类别一致性检验方法、存储介质及电子设备,所述方法包括:采用m个子模型对数据集分为K组经过一致性检验,获取子模型对数据集的K个第一置信程度,获取K个第一置信程度的离散程度的倒数作为数据集在子模型中的一致程度;根据开源数据集在子模型中的一致程度获取模型权重;将每个子模型对数据集的一致程度和模型权重的加权值归一化作为整体一致性程度Sco;m个子模型对数据集获取m个一致程度,通过调整子模型的模型权重,提高准确率高的子模型在获取整体一致性程度Sco时的占比,能够使最终的整体一致性程度Sco更加客观准确。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种标注类别一致性检验方法、存储介质及电子设备。
背景技术
数据标注是大部分人工智能算法得以有效运行的关键环节,标注类别的一致性可能直接影响算法运行的速度和准确率。然而对于标注类别的一致性检验是一项非常耗费人力并且容易出现判断失误的工作,现有的对标注类别的一致性检测方法往往是审核员从数据集中进行抽样检测,这种方法可能会出现疏漏。
CN111159167A中公开了一种标注质量检测装置和方法,包括标注前后一致性检测模块,标注协同一致性检测模块,标注准确率检测模块,质量综合模块由上述三个模块分别给出的标注质量值,最终给出综合标注质量值,但是上述现有技术也存在着以下技术问题:
第一,现有技术在标注质量检测中对于一致性的检测只使用一种模型,整体一致性程度Sco的准确率会受到模型对于标注内容误判或单个模型自身一致性检验偏差的影响。
第二,现有技术的一致性检验在标注员的标注过程中进行,无法对已完成标注的数据集进行一致性检验。
发明内容
针对上述技术问题,本发明采用的技术方案为:一种标注类别一致性检验方法、存储介质及电子设备,所述方法包括以下步骤:
S100,将字符串文本数据集data分别输入到m个子模型{Model1,Model2,…,Modeli,…,Modelm}中,获取第i个子模型Modeli的第一置信程度集合Scoi,其中,i的取值范围为1到m,所述Scoi的获取步骤包括:
S120,将data随机划分为K组data={data1,data2,…,dataj,…,dataK}。
S140,以第j个组dataj作为校验集,其余的K-1组作为验证集输入到Modeli,对比验证集中的标注类别是否与校验集一致,其中,j=1,2,…,K。
S160,当标注类别一致时,dataj的第一置信程度加p,否则dataj的第一置信程度减q,得到dataj的第一置信程度Scoi j,其中,所述第一置信程度初始值为S,p>0,q>0。
S180,遍历K组,获取K个组的第一置信程度集合Scoi={Scoi 1, Scoi 2,…,Scoi j,…,Scoi k}。
S200,获取Scoi的离散程度δ'(Scoi)。
S300,根据δ'(Scoi)获取一致程度δ(Scoi),所述δ(Scoi)与δ'(Scoi)呈负相关。
S400,获取整体一致性程度Sco,所述Sco满足:
Sco=1/c*∑(wi*δ(Scoi))
其中,i=1,2,…,m,1/c为归一化因子,wi为Modeli的模型权重。
其中,所述wi的获取步骤包括:
S410,将开源数据集data'输入到Modeli中。
S420,获取Modeli的第一置信程度集合Sco0i={Sco0 i 1,Sco0 i 2,…,Sco0i k},i=1,2,…,m。
S430,获取Sco0i的离散程度δ'(Sco0i)。
S440,根据δ'(Sco0i)获取一致程度δ(Sco0i),所述δ(Sco0i)与δ'(Sco0i)呈负相关。
S450,根据δ(Sco0i)获取Modeli的模型权重wi。
本发明至少具有以下有益效果:
第一,每个子模型对数据集获取K个第一置信程度,将其离散程度取倒数作为一致程度;融合数据集data在多个子模型中得到的一致程度,不仅能够消除单个模型自身一致性检验偏差,而且通过调整子模型的权重,提高准确率高的子模型的一致程度,降低准确率低的子模型的一致程度,能够使最终的整体一致性程度Sco的结果更加客观准确。
第二,本发明使用的子模型可以实现数据集的输入,能够对一个或多个标注员已完成标注的数据集进行一致性检验,将同一标注员甚至是不同标注员标注的数据集以同一标准进行对比,输入的数据在子模型中经过一致性检验后输出数据集之间的整体一致性程度Sco,获取的标注类别一致与否的结论更加可靠。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的标注类别一致性检验方法的结构框图;
图2为本发明实施例提供的获取模型权重wi的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,其示出了本发明实施例提供的一种标注类别一致性检验方法,所述方法包括以下步骤:
S100,将字符串文本数据集data分别输入到m个子模型{Model1,Model2,…,Modeli,…,Modelm}中,获取第i个子模型Modeli的第一置信程度集合Scoi,其中,i的取值范围为1到m。
可选的,所述标注类别为文本分类标注,命名实体识别标注等。
其中,数据集data为标注员完成标注的字符串文本数据集,可选的,所述数据集包括单个标注员标注的样本,还可以包括多个标注员标注的样本。
可选的,所述子模型为循环神经网络RNN、Fasttext模型、LSTM模型、BERT模型或Albert模型等。
进一步,所述Scoi的获取步骤包括:
S120,将data随机划分为K组data={data1,data2,…,dataj,…,dataK}。
其中,当数据集中的样本为单个标注员标注的样本时,数据集data被随机划分为K组,所述K为数据集data的分组数量;当数据集中的样本为多个标注员标注的样本时,数据集data随机划分为K组的方式有两种:第一、将数据集data随机划分为K组,每一组为一个标注员标注的样本;第二、将数据集data随机划分为K组,每一组为K-1个标注员标注的样本,例如,K=5时,第1组为第2个、第3个、第4个和第5个标注员标注的样本,第2组为第1个、第3个、第4个和第5个标注员标注的样本,第3组为第1个、第2个、第4个和第5个标注员标注的样本,以此类推;其中,所述K为标注员的数量。
S140,以第j个组dataj作为校验集,其余的K-1组作为验证集输入到Modeli,其中,j=1,2,…,K,遍历K组,对比验证集中的标注类别是否与校验集一致。
其中,对比验证集中的标注类别是否与校验集一致包括以下步骤:
S142,Modeli将校验集和验证集文本中具有标注的文本划分为多个关键词。
S144,将具有一个或一个以上相同关键词的任意两个文本进行标注类别对比。
S146,根据标注类别对比判定标注类别是否一致。
例如,在命名实体识别标注中,校验集中被标注为方法类实体的文本为“新型A方法”,“新型A方法”中具有关键词:“新型”、“A”和“方法”;当验证集中标注的文本为“A方法”,“A方法”的关键词为“A”和“方法”,也即“A方法”与“新型A方法”具有两个相同关键词的文本时,进行标注类别对比;当验证集中标注的文本为:“模型”,由于“模型”与“新型A方法”没有相同关键词的文本,不会进行标注类别对比。其中,所述进行标注类别对比为子模型判定验证集中是否标注为方法类实体,具体的,若标注为方法类实体,则判定一致,若标注为其它类实体或未标注实体类别,则判定不一致。
例如,在文本分类标注中,校验集中包括被标注为C类的文本内容,将文本内容作为检验文本,当验证集中某处文本的标注类别为C类时,判断该处的文本内容是否和检验文本为相同内容,相同内容会被子模型判定为一致;反之,会被判定为不一致;其中,所述相同内容为满足:
(b/d)>β
其中,b为验证集中的文本与检验文本相同的关键词数量,d为验证集文本中的关键词总和,所述β为第一阈值,可选的,β=0.5。
S160,当标注类别一致时,dataj的第一置信程度加p,否则dataj的第一置信程度减q,得到dataj的第一置信程度Scoi j,其中p>0,q>0。
其中,所述获取Scoi j的过程为:设置初始值Scoi j=S,当标注类别判定为一致时,执行加操作:Scoi j=Scoi j+p;当标注类别判定为不一致时,执行减操作:Scoi j=Scoi j-q。优选的,S=60,p=1,q=1。具体的,S1为最大阈值;S2为最小阈值;当S>S1时,子模型不再实施加操作,但数据集data在子模型中的标注类别对比和减操作仍然进行;当S<S2时,子模型不再实施减操作,但数据集data在子模型中的标注类别对比和加操作仍然进行;直到数据集data在子模型完成所有的标注类别对比,加操作、减操作终止。其中,优选的,S1=100;S2=0。
S180,获取Modeli对data的K个Scoi={Scoi 1, Scoi 2,…, Scoi j,…,Scoi k},i=1,2,…,m。
其中,Scoi j为Modeli中获取的第j个第一置信程度。
S200,获取Scoi的离散程度δ'(Scoi)。
可选的,离散程度δ'(Scoi)满足:
优选的,离散程度δ'(Scoi)为方差。
S300,根据δ'(Scoi)获取一致程度δ(Scoi)。
其中,一致程度δ(Scoi)满足:
δ(Scoi)=1/δ'(Scoi)。
S400,获取整体一致性程度Sco,所述Sco满足:
Sco=1/c*∑(wi*δ(Scoi))
其中,i=1,2,…,m,1/c为归一化因子,wi为Modeli的模型权重。
其中,所述归一化因子为对整体一致性程度Sco进行归一化操作,所述归一化操作为将数据映射到[0,1]范围之内处理,从而减少计算量。
如图2所示,所述模型权重wi的获取步骤包括:
S410,将开源数据集data'输入到子模型中。
其中,所述开源数据集为标注类别是公认的正确的标注类别,公众可以获取的数据集。
S420,获取Modeli对数据集data'的第一置信程度集合Sco0i={Sco0 i 1,Sco0 i 2,…,Sco0i k},i=1,2,…,m。
其中,S420与S120-S180的步骤相同,不再赘述。
S430,获取Sco0i的离散程度δ'(Sco0i)。
可选的,离散程度δ'(Sco0i)满足:
优选的,离散程度δ'(Sco0i)为方差。
S440,根据δ'(Sco0i)获取一致程度δ(Sco0i)。其中,δ(Sco0i)满足:
δ(Sco0i)=1/δ'(Sco0i)。
S450,根据δ(Sco0i)获取Modeli的模型权重wi,wi满足:
wi=δ(Sco0i)/ ∑m j=1δ(Sco0j),i=1,2,…,m。
其中,当获取模型权重时,实施例需要对子模型进行模型评估,所述模型评估为:将开源数据集在子模型中获取的一致程度作为子模型在标注类别一致性检验时的准确率,根据准确率赋予子模型模型权重。当δ(Sco0i)越大时,子模型模型权重wi越大;当δ(Sco0i)越小时,子模型模型权重wi越小;具体的,δ(Sco0i)越大时,说明开源数据集在子模型获取的第一置信程度越稳定,子模型的准确率越高,赋予模型权重越大;反之,δ(Sco0i)越小,说明开源数据集在子模型获取的第一置信程度越不稳定,子模型的准确率越低,赋予模型权重越小。
根据本实施例,当整体一致性程度Sco越趋近于1时,判定数据集的标注类别一致性越好;当整体一致性程度Sco越趋近于0时,判定数据集的标注类别一致性越差。
本实施例采用m个子模型对数据集进行标注类别一致性检验,与现有技术相比,本实施例获取到的整体一致性程度Sco的准确率更高,由于各个模型对于标注类别一致性检验的水平会有所差异,本发明对m个子模型的模型权重和子模型随数据集获取的一致程度做加权归一化处理,因此本发明消除了在获取整体一致性程度Sco时被单一模型误判的概率,受到单一模型一致性检验性能低的影响小,通过调整子模型的模型权重,提高准确率高的子模型的一致程度,降低准确率低的子模型的一致程度;所述准确率为m个子模型对开源数据集进行一致性检验的一致程度,能够使整体一致性程度Sco的结果更加客观准确,增加了获取的整体一致性程度Sco的合理性和准确性。
本实施例获取已完成标注的数据集输入到模型中,所述模型能够对一个或多个标注员已完成标注的数据集进行一致性检验,将同一标注员甚至是不同标注员标注的数据集以同一标准进行对比,输出数据集之间的整体一致性程度Sco,对比过程利用的数据量更大,获取的标注类别是否一致的结论更加可靠。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (8)
1.一种标注类别一致性检验方法,其特征在于,所述方法包括以下步骤:
S100,将字符串文本数据集data分别输入到m个子模型{Model1,Model2,…,Modeli,…,Modelm}中,获取第i个子模型Modeli的第一置信程度集合Scoi,其中,i的取值范围为1到m,所述Scoi的获取步骤包括:
S120,将data随机划分为K组data={data1,data2,…,dataj,…,dataK};
S140,以第j个组dataj作为校验集,其余的K-1组作为验证集输入到Modeli,对比验证集中的标注类别是否与校验集一致,其中,j=1,2,…,K;
S160,当标注类别一致时,dataj的第一置信程度加p,否则dataj的第一置信程度减q,获取dataj的第一置信程度Scoi j,其中,所述第一置信程度初始值为S,p>0,q>0;
S180,遍历K组,获取K个组的第一置信程度集合Scoi={Scoi 1, Scoi 2,…, Scoi j,…,Scoi k};
S200,获取Scoi的离散程度δ'(Scoi);
S300,根据δ'(Scoi)获取一致程度δ(Scoi),所述δ(Scoi)与δ'(Scoi)呈负相关;
S400,获取整体一致性程度Sco,所述Sco满足:
Sco=1/c*∑(wi*δ(Scoi))
其中,1/c为归一化因子,wi为Modeli的模型权重;
其中,所述wi的获取步骤包括:
S410,将开源数据集data'输入到Modeli中;
S420,获取Modeli的第一置信程度集合
Sco0i={Sco0 i 1,Sco0 i 2,…,Sco0i k},i=1,2,…,m;
S430,获取Sco0i的离散程度δ'(Sco0i);
S440,根据δ'(Sco0i)获取一致程度δ(Sco0i),所述δ(Sco0i)与δ'(Sco0i)呈负相关;
S450,根据δ(Sco0i)获取Modeli的模型权重wi。
2.根据权利要求1所述的方法,其特征在于,所述δ(Scoi)满足:
δ(Scoi)=1/δ'(Scoi)。
3.根据权利要求1所述的方法,其特征在于,所述δ(Sco0i)满足:
δ(Sco0i)=1/δ'(Sco0i)。
4.根据权利要求1所述的方法,其特征在于,所述δ'(Scoi)和δ'(Sco0i)为方差。
6.根据权利要求1所述的方法,其特征在于,所述模型权重wi满足:
wi=δ(Sco0i)/ ∑m j=1δ(Sco0j),i=1,2,…,m。
7.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-6中任意一项的所述方法。
8.一种电子设备,其特征在于,包括处理器和权利要求7中所述的非瞬时性计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210931064.8A CN114996389B (zh) | 2022-08-04 | 2022-08-04 | 一种标注类别一致性检验方法、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210931064.8A CN114996389B (zh) | 2022-08-04 | 2022-08-04 | 一种标注类别一致性检验方法、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114996389A true CN114996389A (zh) | 2022-09-02 |
CN114996389B CN114996389B (zh) | 2022-10-11 |
Family
ID=83023196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210931064.8A Active CN114996389B (zh) | 2022-08-04 | 2022-08-04 | 一种标注类别一致性检验方法、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114996389B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115249015A (zh) * | 2022-09-21 | 2022-10-28 | 中科雨辰科技有限公司 | 基于篇章聚类和语句融合的标注一致性检验方法及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159167A (zh) * | 2019-12-30 | 2020-05-15 | 上海依图网络科技有限公司 | 标注质量检测装置和方法 |
CN112906375A (zh) * | 2021-03-24 | 2021-06-04 | 平安科技(深圳)有限公司 | 文本数据标注方法、装置、设备及存储介质 |
CN113705159A (zh) * | 2021-04-08 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 商户名称的标注方法、装置、设备及存储介质 |
WO2022022045A1 (zh) * | 2020-07-27 | 2022-02-03 | 平安科技(深圳)有限公司 | 基于知识图谱的文本比对方法、装置、设备及存储介质 |
-
2022
- 2022-08-04 CN CN202210931064.8A patent/CN114996389B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159167A (zh) * | 2019-12-30 | 2020-05-15 | 上海依图网络科技有限公司 | 标注质量检测装置和方法 |
WO2022022045A1 (zh) * | 2020-07-27 | 2022-02-03 | 平安科技(深圳)有限公司 | 基于知识图谱的文本比对方法、装置、设备及存储介质 |
CN112906375A (zh) * | 2021-03-24 | 2021-06-04 | 平安科技(深圳)有限公司 | 文本数据标注方法、装置、设备及存储介质 |
CN113705159A (zh) * | 2021-04-08 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 商户名称的标注方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
QINGKAI ZENG 等: "《Validating Label Consistency in NER Data Annotation》", 《ARXIV》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115249015A (zh) * | 2022-09-21 | 2022-10-28 | 中科雨辰科技有限公司 | 基于篇章聚类和语句融合的标注一致性检验方法及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114996389B (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471942B (zh) | 基于证据推理规则的中文评论情感分类方法及装置 | |
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
CN109033305A (zh) | 问题回答方法、设备及计算机可读存储介质 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN108491406B (zh) | 信息分类方法、装置、计算机设备和存储介质 | |
CN110909784B (zh) | 一种图像识别模型的训练方法、装置及电子设备 | |
WO2020082734A1 (zh) | 文本情感识别方法、装置、电子设备及计算机非易失性可读存储介质 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
US11669740B2 (en) | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition | |
WO2022042297A1 (zh) | 文本聚类方法、装置、电子设备及存储介质 | |
CN112836039B (zh) | 基于深度学习的语音数据处理方法和装置 | |
CN111191442A (zh) | 相似问题生成方法、装置、设备及介质 | |
CN112800232B (zh) | 一种基于大数据的案件自动分类方法 | |
CN114996389B (zh) | 一种标注类别一致性检验方法、存储介质及电子设备 | |
CN111930933A (zh) | 一种基于人工智能的检务案件处理方法及装置 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN116167336B (zh) | 基于云计算的传感器数据加工方法、云服务器及介质 | |
CN113536784A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN111460811A (zh) | 众包任务的答案验证方法、装置、计算机设备及存储介质 | |
CN116485185A (zh) | 基于比对数据的企业风险分析系统及方法 | |
CN113469237B (zh) | 用户意图识别方法、装置、电子设备及存储介质 | |
CN114462411B (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN114297389A (zh) | 一种文本分类方法、装置、存储介质及设备 | |
WO2023173541A1 (zh) | 基于文本的情绪识别方法、装置、设备及存储介质 | |
CN116842140B (zh) | 一种机器生成文本的检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |