CN110309309A

CN110309309A - 一种用于评估人工标注数据质量的方法及系统

Info

Publication number: CN110309309A
Application number: CN201910596941.9A
Authority: CN
Inventors: 檀方源; 吕二涛
Original assignee: Chinaso Information Technology Co Ltd
Current assignee: Chinaso Information Technology Co Ltd
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-10-08
Anticipated expiration: 2039-07-03
Also published as: CN110309309B

Abstract

本发明公开了一种用于评估人工标注数据质量的方法及系统，包括根据每个分类的维度，从数据库中读取已标注数据，并根据标注策略对已标注数据进行数据预处理；对进行过数据预处理后的已标注数据，进行低质量标签的贡献度评估、标签丰富度评估、标签准确率评估和高频标签的多样性和贡献度评估；并根据各个评估结果，计算每个标注人员的标注评分。优点是：提供了一种以极低成本监督数据标注质量的技术方案，从标注标签的多样性、总标签数目、高频标签的贡献度、低质量标签的贡献度、标签丰富度以及标注准确度等方面对标注人员标注结果进行评估并排序，避免了以往设置多次品检或安排专职人员对已标注数据进行审核对人力成本和时间成本的消耗。

Description

一种用于评估人工标注数据质量的方法及系统

技术领域

本发明涉及人工标注数据质量评估领域，尤其涉及一种用于评估人工标注数据质量的方法及系统。

背景技术

目前业界为保证人工标注数据的质量，主要的方案是设置多次品检，安排专职人员对已标注数据进行审核；但是对数据标注结果的审核工作，极大的提高了人力成本和时间成本。

发明内容

本发明的目的在于提供一种用于评估人工标注数据质量的方法及系统，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种用于评估人工标注数据质量的方法，包括以下步骤，

S1、根据每个分类的维度，从数据库中读取已标注数据，并根据标注策略对已标注数据进行数据预处理；

S2、对进行过数据预处理后的已标注数据，进行低质量标签的贡献度评估；

S3、对进行过数据预处理后的已标注数据，进行标签丰富度评估；

S4、对进行过数据预处理后的已标注数据，进行标签准确率评估；

S5、对进行过数据预处理后的已标注数据，进行高频标签的多样性和贡献度评估；

S6、根据步骤S2、S3、S4和S5的评估结果，计算每个标注人员的标注评分。

2、根据权利要求1所述的用于评估人工标注数据质量的方法，其特征在于：步骤S1包括如下内容，

S101、如果已标注数据按照专辑标注，则根据专辑名对已标注数据进行去重处理；

S102、若维度中标签为多选，则将该维度中的标签分割成l ist形式。

优选的，步骤S2包括如下内容，

S201、选择标签类型完备、且带有低质量标签的维度作为已标注数据的低质量评估数据源；

S202、对于多选的维度，若标注人员在选择低质量标签的同时亦选择了其他标签，则此条已标注数据不计入低质量标注的数目；

S203、根据标注策略，选择合适的标签作为低质量标签；

S204、分别计算标注人员对S201中所指定的各个维度低质量标签的贡献度，并将各个维度的计算所得结果相加；其中各个维度的计算公式为，标注人员对维度的低质量标签贡献度＝标注人员在该维度所标注低质量标签的数据/该标注人员在当前维度所标注标签的总数。

优选的，步骤S3包括如下内容，

S301、选择“多选”+“必选”维度作为多选标签丰富度评估数据源；

S302、计算S301中所选维度的多选标签丰富度，计算公式为，多选标签丰富度＝标注人员多选维度的标签总量/该标注人员的总标注条数；

S303、选择“非必选”且“非多选”的维度作为非必选标签丰富度评估数据源；

S304、计算步骤S303中所选维度的非必选标签丰富度，计算公式为，非必选标签丰富度＝标注人员非必选维度的标签总量/该标注人员的总标注条数；

S305、若在标注系统中，将每个专辑的标签做了关联处理，则在获取每个标记人员的总标注量时，需要根据专辑名和标签内容做去重处理，即同一个专辑下的相同标注结果计为一条；

S306、计算标注量比例，计算公式为，标注量比例＝每个标注人员的标注数目/总的标注数目。

优选的，步骤S4包括如下内容，

S401、使用数据来源网站自带的标签对已标注数据进行准确率评估，得到第一标注准确率；

S402、基于对偶学习思想对已标注数据进行准确率评估，得到第二标注准确率和文本分类模型测试结果；

S403、根据步骤S401和S402的评估结果，进行标签准确率评估计算；

其中，步骤S401包括如下内容，

S4011、标签准确率评估测试数据的获取；在获取已标注数据时，部分数据来源网站会自带与标注系统中相应的标签；从这类已标注数据中选择部分作为评估标签准确率的测试数据；

S4012、评估已标注数据的第一标注准确率，从已标注数据中获取测试数据的标注结果；并将数据来源网站的标签与标注系统中的标签做映射，对于单条已标注数据，当数据来源网站映射后的标签成功被标注人员标注，则该标签被记为准确的；第一标注准确率的计算公式为，标注准确率＝每个标注人员所标注的准确标签数/测试数据中数据来源网站的标签数；

步骤S402包括如下内容，

S4021、文本分类模型以及数据准备；在获取待标注数据时，部分数据来源网站会自带与标注系统中相应的标签，将这部分数据作为文本分类模型的训练数据，并将这类网站中的标签与标注系统中的标签做映射、得到的标签作为文本分类模型的标签；

S4022、根据标注策略，选择较重要的维度作为评估目标；

S4023、采用基于对偶学习思想的准确率评估方法，进行标签准确率评估；

S4024、根据步骤S4023获取的评估结果，计算标签准确率。

优选的，步骤S4023中的基于对偶学习思想的准确率评估方法包括如下内容，

A、文本分类模型根据已有的训练数据获取初始结果；

B、将已标注数据作为测试集交给文本分类模型，记录得到的文本分类模型正确率；

C、将与文本分类模型结果不相同的已标注数据打回，交给不同的标注人员重新标注；

D、文本分类模型使用重新标注后的数据再次进行训练和测试，并获取测试结果；

E、判断测试结果与最低设定阈值之间的大小关系，若测试结果大于或等于设定阈值，则分别计算每个标注人员的第二标注准确率，计算公式为，第二标注准确率＝每个标注人员所标注的与文本分类模型结果相同的标签数/每个标注人员所标注的标签总数；并执行步骤F；若测试结果小于最低设定阈值，则返回步骤B；

F、判断测试结果与最高设定阈值之间的大小关系，若测试结果大于或等于最高设定阈值，则对于新的待标注数据，针对步骤S4022选择的重要维度，将优先使用文本分类模型进行标注，之后再对该维度标签的准确率进行人工校验。

优选的，步骤S5包括如下内容，

S501、选择高频标签，并计算其权重；

S502、计算标注人员对高频标签的贡献分值；统计标注人员的标注数据中各高频标签的比例，根据各高频标签的比例与其相应的权重，获取该标注人员对各高频标签的贡献分值；并将该标注人员对各高频标签的贡献分值相加，获取该标注人员对高频标签的贡献总分值；

S503、计算标注人员所标注高频标签的多样性；计算公式为，高频标签多样性＝该标注人员所标注高频标签的类别数目/高频标签总类别数目。

优选的，步骤S501包括如下内容，

S5011、从标签中选择最重要的m个维度，统计每个维度中频率最高的topn/m个标签，这些标签即为整体的高频标签；所述topn为m个维度中总的高频标签数；

S5012、高频标签权重的计算公式为，高频标签的权重＝该标签的数目/该维度中所有标签的数目。

优选的，步骤S6包括如下内容，

S601、将以上获取的标注人员对指定维度的低质量标签贡献度、多选标签丰富度、非必选标签丰富度、标注量比例、标签准确率、标注人员对高频标签的贡献分值以及高频标签多样性，记为分数集，并对分数集进行归一化处理，并使分数集中的各个分数全部处于设定区间范围内；

S602、根据标注的质量需求，分别对分数集中的各个分数设定权重；

S603、根据分数集及其权重，计算每个标注人员的标注质量；

S604、将获取每个标注人员的标注质量转换为百分制，即获取每个标注人员的标注评分。

本发明的目的还在于提供一种用于评估人工标注质量的系统，所述系统用于实现上述任一所述的用于评估人工标注质量的方法，所述系统包括，

数据预处理模块；用于根据每个分类的维度从数据库中读取已标注数据，并根据标注策略对已标注数据做数据预处理工作；

低质量标签贡献度评估模块；对进行过数据预处理后的已标注数据，进行低质量标签的贡献度评估；

标签丰富度评估模块；对进行过数据预处理后的已标注数据，进行标签丰富度评估；

标签准确率评估模块；对进行过数据预处理后的已标注数据，进行标签准确率评估；

高频标签多样性和贡献度评估模块；对进行过数据预处理后的已标注数据，进行高频标签的多样性和贡献度评估；

最终评估结果计算模块；根据所述低质量标签贡献度评估模块、所述标签丰富度评估模块、所述标签准确率评估模块和所述高频标签多样性和贡献度评估模块的评估结果，计算每个标注人员的标注评分。

本发明的有益效果是：本发明从标注标签的多样性、总标签数目、高频标签的贡献度、低质量标签的贡献度、标签丰富度以及标注准确度这几个方面对标注人员的标注结果进行评估并排序，避免了以往设置多次品检或者是安排专职人员对已标注数据进行审核的方法对人力成本和时间成本的消耗。

附图说明

图1是本发明实施例中评估方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

实施例一

如图1所示，本发明提供了一种用于评估人工标注数据质量的方法，包括以下步骤，

本实施例中，步骤S1包括如下内容，

S101、如果已标注数据按照专辑标注，则根据专辑名对已标注数据进行去重处理；方便后续标注量统计。

S102、若维度中标签为多选，则将该维度中的标签分割成l ist形式；方便后续丰富度统计。

本实施例中，步骤S2包括如下内容，

S203、根据标注策略，选择合适的标签(如“其他”)作为低质量标签；

S204、分别计算标注人员对S201中所指定的各个维度低质量标签的贡献度，并将各个维度的计算所得结果相加；其中各个维度的计算公式为，标注人员对维度的低质量标签贡献度[score_0]＝标注人员在该维度所标注低质量标签(如“其他”)的数据/该标注人员在当前维度所标注标签的总数。

本实施例中，步骤S3包括如下内容，

S302、计算S301中所选维度的多选标签丰富度[score_1]，计算公式为，多选标签丰富度＝标注人员多选维度的标签总量/该标注人员的总标注条数

S304、计算步骤S303中所选维度的非必选标签丰富度[score_2]，计算公式为，非必选标签丰富度＝标注人员非必选维度的标签总量/该标注人员的总标注条数；

S306、计算标注量比例[score_3]，计算公式为，标注量比例＝每个标注人员的标注数目/总的标注数目。

本实施例中，步骤S4包括如下内容，

S403、根据步骤S401和S402的评估结果，进行标签准确率评估计算。

其中，步骤S401包括如下内容，

S4012、评估已标注数据的第一标注准确率rate_1，从已标注数据中获取测试数据的标注结果；并将数据来源网站的标签与标注系统中的标签做映射，对于单条已标注数据，当数据来源网站映射后的标签成功被标注人员标注，则该标签被记为准确的；第一标注准确率的计算公式为，标注准确率＝每个标注人员所标注的准确标签数/测试数据中数据来源网站的标签数。映射过程如：标注系统中动画片类别的‘虚幻’标签可与数据来源网站的‘奇幻’标签映射。

步骤S402包括如下内容，

S4021、文本分类模型以及数据准备；在获取待标注数据时，部分数据来源网站会自带与标注系统中相应的标签，将这部分数据作为文本分类模型的训练数据，并将这类网站中的标签与标注系统中的标签做映射、得到的标签作为文本分类模型的标签；所述文本分类模型采用决策树模型。

S4022、根据标注策略，选择较重要的维度imp_dim作为评估目标；

S4024、根据步骤S4023获取的评估结果，计算标签准确率。

本实施例中，步骤S4023中的基于对偶学习思想的准确率评估方法包括如下内容，

A、文本分类模型根据已有的训练数据获取初始结果θ_A；

B、将已标注数据θ_B作为测试集交给文本分类模型，记录得到的文本分类模型正确率；

D、文本分类模型使用重新标注后的数据再次进行训练和测试，并获取测试结果f1_score；(此为对文本分类模型的优化)

E、判断测试结果与最低设定阈值low_threshold之间的大小关系，若测试结果大于或等于最低设定阈值，则分别计算每个标注人员的第二标注准确率rate_2(此为对人工标注质量的优化)计算公式为，第二标注准确率＝每个标注人员所标注的与文本分类模型结果相同的标签数/每个标注人员所标注的标签总数；并执行步骤F；若测试结果小于最低设定阈值，则返回步骤B；

F、判断测试结果与最高设定阈值high_threshold之间的大小关系，若测试结果大于或等于最高设定阈值，则对于新的待标注数据，针对步骤S4022选择的重要维度imp_dim，将优先使用文本分类模型进行标注，之后再对该维度标签的准确率进行人工校验。此时已达到对重要维度人工标注质量和分类模型效果提升的目的，将不再需要对这类重要维度进行准确率评估。

本实施例中，步骤S403中，标签准确率[score_4]的计算公式为，标签准确率＝W1*rate_1+W2*rate_2；其中，W1+W2＝1；当文本分类模型的f1_score未达到low_threshold或者大于high_threshold时，W1＝1，W2＝0；当文本分类模型的f1_score达到low_threshold时，W2＝0.5+2*(f1_score-max f1_score)。

本实施例中，使用到的对偶学习思想是一种新的机器学习范式，很多人工智能的应用涉及两个互为对偶的任务(如：机器翻译从中文到英文和从英文到中文的翻译互为对偶)，这些互为对偶的任务模型可以给彼此的训练结果提供反馈，从而相互学习、提高。本发明基于对偶学习思想将人工标注与文本分类任务作为互为对偶的任务，两任务根据彼此的结果互相提高，起到促进标注质量、评估人工标注准确率的作用。

本实施例中，步骤S5包括如下内容，

S501、选择高频标签，并计算其权重；(idf)

S502、计算标注人员对高频标签的贡献分值(tf)；统计标注人员的标注数据中各高频标签(top_x)的比例，根据各高频标签的比例与其相应的权重，获取该标注人员对各高频标签的贡献分值；并将该标注人员对各高频标签的贡献分值相加，获取该标注人员对高频标签的贡献总分值；各高频标签的比例与其相应的权重相乘即得该标注人员对该高频标签(top_x)的贡献分值；以此计算标注人员对各个top_x的贡献分值[score_5]。其中，x＝1、2、3……n。

S503、计算标注人员所标注高频标签的多样性；计算公式为，高频标签多样性[score_6]＝该标注人员所标注高频标签的类别数目/高频标签总类别数目。

本实施例中，步骤S501包括如下内容，

S5011、从标签中选择最重要的m个维度，如动画片数据选择类型和风格维度，统计每个维度中频率最高的topn/m个标签，这些标签即为整体的高频标签；所述topn为m个维度中总的高频标签数；

本实施例中，个人所标注标签包含的高频标签的种类越多，多样性越好；同时高频标签的贡献度综合体现了该标注人员的总标签贡献度和高频标签的分布情况。

本实施例中，步骤S6包括如下内容，

S601、将以上获取的标注人员对指定维度的低质量标签贡献度、多选标签丰富度、非必选标签丰富度、标注量比例、标签准确率、标注人员对高频标签的贡献分值以及高频标签多样性，记为分数集[score_7]，并对分数集进行归一化处理，并使分数集中的各个分数全部处于设定区间范围内；所述分数集表示为[score_0,…,score_6]。本实施例中的设定区间范围为[0,1]。

S602、根据标注的质量需求，分别对分数集中的各个分数设定权重；本实施例中，各分数的权重拟定如下：[weight_7]＝[-0.3,0.2,0.2,0.5,0.4,0.1,0.1]。

S603、根据分数集及其权重，计算每个标注人员的标注质量；标注质量t＝score_0*weight_0+…+score_6*weight_6。

S604、将获取每个标注人员的标注质量转换为百分制，即获取每个标注人员的标注评分person_score。

本实施例中，该评估结果为标注人员所标注标签的多样性、总标签数目、高频标签的贡献度、低质量标签的贡献度、标签丰富度以及标注准确度综合情况的体现。

实施例二

本发明还提供了一种用于评估人工标注质量的系统，所述系统用于实现上述所述的用于评估人工标注质量的方法，所述系统包括，

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明通过提供一种用于评估人工标注数据质量的方法及系统，基于tf*idf思想、对偶学习思想，根据所需标注数据的维度和每位标注人员的标注结果，从标注标签的多样性、总标签数目、高频标签的贡献度、低质量标签的贡献度、标签丰富度以及标注准确度这几个方面对标注人员的标注结果进行评估并排序，避免了以往设置多次品检或者是安排专职人员对已标注数据进行审核的方法对人力成本和时间成本的消耗。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种用于评估人工标注数据质量的方法，其特征在于：包括以下步骤，

2.根据权利要求1所述的用于评估人工标注数据质量的方法，其特征在于：步骤S1包括如下内容，

S102、若维度中标签为多选，则将该维度中的标签分割成list形式。

3.根据权利要求1所述的用于评估人工标注数据质量的方法，其特征在于：步骤S2包括如下内容，

S203、根据标注策略，选择合适的标签作为低质量标签；

4.根据权利要求1所述的用于评估人工标注数据质量的方法，其特征在于：步骤S3包括如下内容，

5.根据权利要求1所述的用于评估人工标注数据质量的方法，其特征在于：步骤S4包括如下内容，

其中，步骤S401包括如下内容，

步骤S402包括如下内容，

S4022、根据标注策略，选择较重要的维度作为评估目标；

S4024、根据步骤S4023获取的评估结果，计算标签准确率。

6.根据权利要求5所述的用于评估人工标注数据质量的方法，其特征在于：步骤S4023中的基于对偶学习思想的准确率评估方法包括如下内容，

A、文本分类模型根据已有的训练数据获取初始结果；

7.根据权利要求1所述的用于评估人工标注数据质量的方法，其特征在于：步骤S5包括如下内容，

S501、选择高频标签，并计算其权重；

8.根据权利要求7所述的用于评估人工标注数据质量的方法，其特征在于：步骤S501包括如下内容，

9.根据权利要求1所述的用于评估人工标注数据质量的方法，其特征在于：步骤S6包括如下内容，

S603、根据分数集及其权重，计算每个标注人员的标注质量；

10.一种用于评估人工标注质量的系统，其特征在于：所述系统用于实现上述权利要求1至9任一所述的用于评估人工标注质量的方法，所述系统包括，