CN112766347A

CN112766347A - 一种结合标注质量控制的主动学习方法

Info

Publication number: CN112766347A
Application number: CN202110036696.3A
Authority: CN
Inventors: 宋艳枝; 王星宇
Original assignee: Hefei Liman Information Technology Co ltd
Current assignee: Hefei Liman Information Technology Co ltd
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-05-07

Abstract

本发明涉及主动学习技术领域，具体涉及一种结合标注质量控制的主动学习方法，包括以下步骤：S1：训练模型；S2：对全部未标注样本进行伪标注；S3:分折计算观测距离S4：基于观测距离挑选待标注和待检查的样本，基于观测距离挑选待标注和待检查的样本，对于需要标注的样本，将其标注后加入已标注样本集，对于需要检查的样本，对其进行一次额外的标注，再基于已有的历史标注确定其标注，然后更新已标注样本集，完成本步骤后返回步骤S1，直到模型性能可以接受，或者达到了标注预算限制；这种结合标注质量控制的主动学习方法，可以在主动学习的同时控制标注质量。

Description

一种结合标注质量控制的主动学习方法

技术领域

本发明涉及主动学习技术领域，具体涉及一种结合标注质量控制的主动学习方法。

背景技术

主动学习，是利用模型选择最有价值的待标注样本的过程。在学习过程中，通过逐次标注最有价值的样本而降低训练模型所需的标注成本。

通常主动学习的模式，是不考虑样本的标注质量的，即认为标注人员给出的标注是可以信赖的。但实际中，标注人员给出错误的标注结果是不可避免的。所以在实际应用时，主动学习方法通常隐含一个标注质量控制方法，以确保获得的标注的质量可以接受。主动学习与标注质量控制都是独立工作的，没有协同工作，这降低了整体的标注效率。

发明内容

本发明的目的是提供一种结合标注质量控制的主动学习方法，可以在主动学习的同时控制标注质量。

为了实现以上目的，本发明采用的技术方案为：一种结合标注质量控制的主动学习方法，包括以下步骤：

S1：训练模型；

S2：对全部未标注样本进行伪标注；

S3:分折计算观测距离

S4：基于观测距离挑选待标注和待检查的样本，基于观测距离挑选待标注和待检查的样本，对于需要标注的样本，将其标注后加入已标注样本集，对于需要检查的样本，对其进行一次额外的标注，再基于已有的历史标注确定其标注，然后更新已标注样本集，完成本步骤后返回步骤S1，直到模型性能可以接受，或者达到了标注预算限制。

进一步的，所述的步骤S3中的观测距离采用分折实验的方法计算。

进一步的，所述的方法还包括选择待标注样本和待检查标注的指标，包括使用预测距离选择待标注样本，使用标注距离选择待检查的标注，还包括基于三角不等式使用观测距离作为预测距离和标注距离的下界。

本发明的技术效果在于：本发明中的结合标注质量控制的主动学习方法可以同时进行主动学习和标注质量控制，并使用模型选择待检查的样本，以降低质量控制的效率，降低总的标注成本。

附图说明

图1为本发明实施例提供的主动学习方法的流程示意图。

图2为本发明实施例提供的主动学习方法中“标注距离-预测距离-观测距离”示意图。

图3为本发明实施例提供的主动学习方法抗冗余实验结果分析。

图4为本发明实施例提供的主动学习方法模拟实验数据。

图5为本发明实施例提供的主动学习方法真实数据实验数据。

图6为本发明实施例提供的主动学习方法真实数据实验数据。

具体实施方式

参照附图1-6，一种结合标注质量控制的主动学习方法，包括以下步骤：

S1：训练模型；

S2：对全部未标注样本进行伪标注；

S3:分折计算观测距离

S4：基于观测距离挑选待标注和待检查的样本，对于需要标注的样本，将其标注后加入已标注样本集，对于需要检查的样本，对其进行一次额外的标注，再基于已有的历史标注确定其标注，然后更新已标注样本集，完成本步骤后返回步骤S1，直到模型性能可以接受，或者达到了标注预算限制。

这种结合标注质量控制的主动学习方法有效地降低标注成本，并同时控制了所获得标注的质量；如果全部样本已有初步的标注，还可以单独仅进行标注质量控制，提升数据集的标注质量；如果确认标注者的标注质量可接受，还可以单独仅进行主动学习，其性能也优于传统的主动学习方法；在进行通常的主动学习方法的选择样本进行标注的过程外，通过在内部整合标注质量控制功能，降低了总体的标注成本。为了同时进行主动学习和标注质量控制，我们设计了一种新的指标以选择待标注样本和待检查样本。

如附图2所示，我们认为样本的真实标注是未知的，标注者可以被视为一个模型，其对样本给出的标注即是该模型的预测结果。在这个视角下，机器学习模型给出的预测结果和标注人员给出的标注结果可以使用同一种指标度量其与样本真实标注间的距离。我们称标注结果与真实标注间的距离为“标注距离”，称模型预测结果与真实标注间的距离为“预测距离”。但由于样本的真实标注是未知的，我们实际可以获得的仅有模型预测结果和标注结果之间的距离“观测距离”。若距离度量满足三角不等式，则我们可以使用“观测距离”来估计“标注距离”和“预测距离”中较大值的下界。

在主动学习中，我们选择标注那些“预测距离”大的样本，它们是当前模型在其上表现不佳的样本；在标注质量控制任务中，我们选择检查那些“预测距离”大的样本，它们是更可能被标注错误的样本。为了同时进行主动学习和标注质量控制任务，我们选择标注那些“标注距离”和“预测距离”中较大值更大的样本。在实践中，也即标注那些和检查那些“观测距离”大的样本。

这种结合标注质量控制的主动学习方法，还可以包括：

使用伪标注方法，满足计算“观测距离”时需要至少一个标注的需求；

使用分折方法计算“观测距离”，解决神经网络容易在训练集上过度拟合进而严重低估“观测距离”的问题。

具体的，因为计算观测距离时需要至少一个标注，所以我们使用伪标注方法来提供最初的标注。我们在使用标注训练集训练完成模型后，使用模型预测每个未标注样本的标注作为其伪标注。

计算观测距离需要标注信息和模型对样本的预测信息。其中标注信息已由真是标注和伪标注提供，而预测信息需要训练一个模型。若直接在当前的标注数据集(含伪标注)上训练模型，则由于神经网络在训练集上容易过度拟合，所得到的观测距离会过小。为了解决该问题，我们使用分折实验的方法，将数据集分割为K组，每次在其中K-1组上训练模型并计算剩余那组样本的观测距离。

分折实验的方法同时增强了本方法在数据集冗余情况下的性能表现。我们可以证明，当分折实验的分组数为K时，对于数据集中任意一组冗余样本，其在同一个批量中被选中的概率小于1/K。若数据集中存在较严重的样本冗余问题，则可以通过增加K的方法来降低其影响。附图3中展示了本方法在模拟的冗余数据集上的性能，可见本方法可以较好的应对数据集冗余的问题。

本方法的整体算法流程如下：

本发明提供的主动学习方法已在模拟数据集和真实数据集上进行了实验验证。如附图4为本发明实施例提供的主动学习方法在模拟数据集上的实验结果，如附图5，附图6为本发明提供的主动学习方法在真实数据集上的实验结果，其中ALQC即为本方法。图中可见本方法显著优于其它的对比方法，即在相同的标注成本下可以取得更好的模型预测性能，使用更少的标注成本达到指定的模型预测性能。

这种结合标注质量控制的主动学习方法，与现有其它主动学习方法相比具有以下优点：可以同时进行标注质量控制，简化了整个标注流程；由于同时进行标注质量控制和主动学习，提升了标注质量控制的效率，降低了总的标注成本。理论证明表明，本发明提供的主动学习方法可以降低数据集中冗余样本的影响，不容易发生在同一个标注批量中标注多个相似样本的低效率标注情况，降低了总的标注成本。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种结合标注质量控制的主动学习方法，包括以下步骤：

S1：训练模型；

S2：对全部未标注样本进行伪标注；

S3:分折计算观测距离

2.根据权利要求1所述结合标注质量控制的主动学习方法，其特征在于：所述的步骤S3中的观测距离采用分折实验的方法计算。

3.根据权利要求1所述结合标注质量控制的主动学习方法，其特征在于：所述的方法还包括选择待标注样本和待检查标注的指标，包括使用预测距离选择待标注样本，使用标注距离选择待检查的标注，还包括基于三角不等式使用观测距离作为预测距离和标注距离的下界。