CN112200273A

CN112200273A - 数据标注方法、装置、设备及计算机存储介质

Info

Publication number: CN112200273A
Application number: CN202011413612.5A
Authority: CN
Inventors: 闾凡兵; 曾海文
Original assignee: Changsha Hisense Intelligent System Research Institute Co ltd
Current assignee: Changsha Hisense Intelligent System Research Institute Co ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-01-08
Anticipated expiration: 2040-12-07
Also published as: CN112200273B

Abstract

本申请公开了一种数据标注方法、装置、设备及计算机存储介质；其中，数据标注方法，包括：将待标注样本数据集输入到教师模型中进行标注，得到第一标注样本集，以及第一标注样本集中每一标注样本的可信度；在一个训练周期内，确定可信度阈值，从第一标注样本集中确定出第二标注样本集，使用第二标注样本集对学生模型进行训练，得到训练后的学生模型，并获取训练后的学生模型的目标评价指标；根据N个训练周期内获取的N个目标评价指标，从在N个训练周期内所确定的N个第二标注样本集中，确定出目标标注样本集，N为大于1的整数。本申请实施例能够实现对目标标注样本集的质量的验证，有效保证目标标注样本集的质量。

Description

数据标注方法、装置、设备及计算机存储介质

技术领域

本申请属于数据处理技术领域，尤其涉及一种数据标注方法、装置、设备及计算机存储介质。

背景技术

通常来说，针对样本数据进行标注，属于对深度学习模型进行训练前常见的环节。目前，在一些应用场合下，为了增加对样本数据的标注效率，可能会采用到自动标注装置实现对样本数据的自动标注。

然而，现有技术对样本数据进行自动标注时，存在难以保证得到的标注样本的质量的问题。

发明内容

本申请实施例提供一种数据标注方法、装置、设备及计算机存储介质，已解决现有技术对样本数据进行自动标注时，难以保证得到的标注样本的质量的问题。

一方面，本申请实施例提供一种数据标注方法，该方法包括：

将待标注样本数据集输入到教师模型中进行标注，得到第一标注样本集，以及第一标注样本集中每一标注样本的可信度；

在一个训练周期内，确定可信度阈值，从第一标注样本集中确定出第二标注样本集，使用第二标注样本集对学生模型进行训练，得到训练后的学生模型，并获取训练后的学生模型的目标评价指标；其中，第二标注样本集中每一标注样本的可信度均大于或等于可信度阈值；

根据N个训练周期内获取的N个目标评价指标，从在N个训练周期内所确定的N个第二标注样本集中，确定出目标标注样本集，N为大于1的整数。

另一方面，本申请实施例提供了一种数据标注装置，该装置包括：

标记模块，用于将待标注样本数据集输入到教师模型中进行标注，得到第一标注样本集，以及第一标注样本集中每一标注样本的可信度；

训练模块，用于在一个训练周期内，确定可信度阈值，从第一标注样本集中确定出第二标注样本集，使用第二标注样本集对学生模型进行训练，得到训练后的学生模型，并获取训练后的学生模型的目标评价指标；其中，第二标注样本集中每一标注样本的可信度均大于或等于可信度阈值；

确定模块，用于根据N个训练周期内获取的N个目标评价指标，从在N个训练周期内所确定的N个第二标注样本集中，确定出目标标注样本集，N为大于1的整数。

再一方面，本申请实施例提供了一种电子设备，设备包括：处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现上述的数据标注方法。

再一方面，本申请实施例提供了一种计算机存储介质，该计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现上述的数据标注方法。

本申请实施例的数据标注方法、装置、设备及计算机存储介质，使用教师模型对待标注样本数据集进行标注，得到第一标注样本集，以及第一标注样本集中每一标注样本的可信度；在多个训练周期内，分别确定可信度阈值，从第一标注样本集中确定出第二标注样本集，使用第二标注样本集对学生模型进行训练，并获取训练后的学生模型的目标评价指标；基于各个训练周期获得的目标评价指标，来从各个训练周期中确定的第二标注样本集中确定目标标注样本集。本申请实施例中，采用教师模型对待标注样本数据集进行标注得到第一标注样本集，采用确定的可信度阈值对第一标注样本集进行筛选，并基于多次筛选得到的第二标注样本集分别在学生模型训练中的表现，从这些第二标注样本集中确定出目标标注样本集，从而能够实现对目标标注样本集的质量的验证，有效保证目标标注样本集的质量。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的数据标注方法的流程示意图；

图2是本申请另一个实施例提供的数据标注方法的流程示意图；

图3是本申请实施提供的数据标注方法的一个具体应用例的流程示意图；

图4是本申请实施例提供的数据标注装置的结构示意图；

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题，本申请实施例提供了一种数据标注方法、装置、设备及计算机存储介质。下面首先对本申请实施例所提供的数据标注方法进行介绍。

图1示出了本申请一个实施例提供的数据标注方法的流程示意图。如图1所示，上述数据标注方法，包括：

步骤101，将待标注样本数据集输入到教师模型中进行标注，得到第一标注样本集，以及第一标注样本集中每一标注样本的可信度；

步骤102，在一个训练周期内，确定可信度阈值，从第一标注样本集中确定出第二标注样本集，使用第二标注样本集对学生模型进行训练，得到训练后的学生模型，并获取训练后的学生模型的目标评价指标；其中，第二标注样本集中每一标注样本的可信度均大于或等于可信度阈值；

步骤103，根据N个训练周期内获取的N个目标评价指标，从在N个训练周期内所确定的N个第二标注样本集中，确定出目标标注样本集，N为大于1的整数。

容易理解的是，对于教师模型与学生模型，可以是迁移学习的一种，其功能可以简单描述为将教师模型的性能迁移到学生模型上；通常来说，教师模型可以认为是一种大型模型，其模型的评价指标，例如准确率、误检率、精确率、召回率或者泛化能力等，相对较优；而学生模型可以认为是待训练的模型或者希望验证的模型，其评价指标在特定场景下具有一定的提升空间。

本实施例中，待标注样本数据集可以是图片、视频等等，此处不做具体限定；教师模型可以用于对待标注样本数据集进行标注。具体来说，对于教师模型，可以是一些现有的标注工具，例如Labelme、EasyDL，或者是在深度学习模型的识别功能的基础上开发得到的标注工具等，此处亦不做具体限定。教师模型对待标注样本数据集进行标注，可以是对待标注样本数据集赋予相应的分类标注或者标签等；标注得到的第一标注样本集，可以认为是与待标注样本数据集相对应的。同时，第一标注样本集中的每一标注样本，可以携带有例如可信度的评价指标。

可信度可以通过概率或者得分的方式进行体现，例如，待标注样本数据集中可以存在多张图片，针对其中一张图片进行标注后，得到的标注结果可能表征为：是动物猫的图片的概率为90%；这里的90%可以认为是上述的可信度。

容易理解的是，虽然教师模型对待标注样本数据集进行标注得到了第一标注样本集，但是第一标注样本集的标注质量难以得到有效保证，因此，本实施例中，可以通过获取第一标注样本集在用于训练学生模型时，对学生模型的一些评价指标的影响，来对第一标注样本集进行质量评价或筛选。

具体来说，可以从分多个训练周期，基于第一标注样本集对学生模型进行训练。在每一个训练周期中，可以确定一可信度阈值，该可信度阈值用于从第一标注样本集确定出第二标注样本集，例如，可以将第一标注样本集中可信度大于或等于可信度阈值的标注样本进行提取，以形成上述的第二标注样本集；而第二标注样本集则用于在该训练周期中，对学生模型进行训练。容易理解的是，对于学生模型，同样具有相应的评价指标，例如准确率、误检率、精确率或者召回率等等，可以将其中的一个评价指标作为目标评价指标。在对学生模型进行训练时，第二标注样本集的质量，将会影响到学生模型的训练效果，这里的训练效果则可以通过目标评价指标进行体现。

具体来说，当第二标注样本集的质量较低时，可能导致训练后的学生模型的目标评价指标较差，例如准确率较低，或者是相对训练前的学习模型的准确率有所降低等；而相对地，当第二标注样本集的质量较高时，则可能导致训练后的学生模型的目标评价指标有所优化。换而言之，基于训练后的学生模型的目标评价指标，实际上可以对第二标注样本集的质量进行验证，或者说对第二标注样本集的质量进行评估。换而言之，对于第二标注样本集，可以认为待验证或者待评估的样本数据集。

而如上文所示，本实施例中，会采用多个训练周期对学生模型进行训练，并获得各个训练周期中训练后的学生模型的目标评价指标。通常来说，需要选择一合适的可信度阈值来对第一标注样本集进行筛选，以使得得到的第二标注样本集在对学生模型的训练中得到较好的表现。而此处的合适的可信度阈值，一方面，应避免过小导致第二标注样本集的质量较差，导致学生模型训练时难以拟合；另一方面，应避免过大使得第二标注样本集数量较少，进而导致训练后学生模型过拟合，泛化性能较差。然而，合适的可信度阈值的确定，可能受到多种因素的影响，例如，教师模型针对不同的待标注样本数据集进行标注时，表现可能存在差异；再例如，在使用第二标注样本集对学生模型进行训练之前，学生模型可能已经得到了一定了训练，但此处的训练程度可能并非是确定的。因此，本实施例采用了在多个训练周期中的每一训练周期中分别确定可信度阈值的方式，来相应获得多个目标评价指标，并基于多个目标评价指标来进行目标标注样本集的确定。

例如，在第一个训练周期中，可以将可信度阈值确定为85%，则可以将第一标注样本集中，可信度大于或等于85%的标注样本进行提取并形成第二标注样本集，以对学生模型进行训练，并获得训练后的学生模型的目标评价指标，记为Ed1；而在第二个训练周期中，可以将可信度阈值确定为86%，类似地，可以将将第一标注样本集中，可信度大于或等于86%的标注样本进行提取并形成第二标注样本集，以对学生模型进行训练，并获得训练后的学生模型的目标评价指标，记为Ed2。当然，在实际应用中，可以会有更多的训练周期，相应地，也会获取到更多个目标评价指标，可以依次记为Ed3、Ed4、……EdN。

本实施例中，会根据多个训练周期内获得的多个目标评价指标，来从多个第二标注样本集中确定出目标标注样本集。简单来说，根据步骤102中针对各训练周期的训练流程的描述，可以认为每一第二标注样本集，可以通过训练周期，关联一目标评价指标。为简化说明，以下可以描述为每一第二标注样本集关联有一目标评价指标。容易理解的是，当目标评价指标表现较优时，关联的第二标注样本集质量通常来说也较高。

在实际应用中，对于目标标注样本集，可以是关联的目标评价指标最优的第二标注样本集；也可以是在各个训练周期中，给目标评价指标带来正面影响的第二标注样本集，例如，结合上述Ed1与Ed2的例子，如果Ed2相对Ed1更优，则可以将第二个训练周期中确定的第二标注样本集作为目标标注样本集。当然，目标标注样本集也可以基于其他的规则进行确定，此处不做具体限定。另外，评判目标评价指标是否较优时，可以采用准确率或者召回率等评价指标进行评判，此处亦不做具体限定。

本申请实施例中，使用教师模型对待标注样本数据集进行标注，得到第一标注样本集，以及第一标注样本集中每一标注样本的可信度；在多个训练周期内，分别确定可信度阈值，从第一标注样本集中确定出第二标注样本集，使用第二标注样本集对学生模型进行训练，并获取训练后的学生模型的目标评价指标；基于各个训练周期获得的目标评价指标，来从各个训练周期中确定的第二标注样本集中确定目标标注样本集。本申请实施例中，采用教师模型对待标注样本数据集进行标注得到第一标注样本集，采用确定的可信度阈值对第一标注样本集进行筛选，并基于多次筛选得到的第二标注样本集分别在学生模型训练中的表现，从这些第二标注样本集中确定出目标标注样本集，从而能够实现对目标标注样本集的质量的验证，有效保证目标标注样本集的质量。

在一个示例中，在第i个训练周期中进行训练的学生模型，为在第i-1个训练周期中训练得到的学生模型；i为大于1且小于或等于N的整数。

换而言之，本示例中，针对学生模型可以认为是不断训练的过程。在第一个训练周期开始之前，初始的学生模型可能并未接收过训练；或者是已经得到了一定程度的训练，其评价指标具有一定的提升空间。相比之下，前一种学生模型在基于第二标注样本集进行训练时，容易出现过拟合的情况，进而难以保证学生模型对第二标注样本集的验证能力。

换而言之，当学生模型得到一定的训练，同时又存在评价指标的提升空间时，可以更好地发挥对第二标注样本集的验证能力。基于这一考虑，本示例中，将一个训练周期中训练得到学生模型作为下一个训练周期中被训练的学生模型，进而使得学生模型能够不断得到训练，更好地起到对第二标注样本集的质量的验证作用。

当然，与此同时，基于上述对学生模型的训练方式，在得到足够多的第二标注样本集的训练后，学生模型的各评价指标可能达到一较优的状态，此时可以直接用来验证教师模型的标注结果是否准确；或者，也可以将学生模型用于对待标注样本数据集进行标注。

在一个示例中，在第i个训练周期中所确定的可信度阈值，大于在第i-1个训练周期中所确定的可信度阈值，且小于或等于预设的可信度阈值上限值；i为大于1且小于或等于N的整数。

换而言之，在本示例中，可以在依次进行的N个训练周期中，依次提升确定的可信度阈值。

例如，假设预设的可信度阈值上限值为95%，且在第一个训练周期中，确定的可信度阈值为85%，可以在后续的训练周期中，分别将可信度阈值确定为86%、87%、……95%。

当然，以上仅仅各个训练周期的可信度阈值的确定方式的一种举例说明，相邻两个训练周期中可信度阈值变化的梯度，或者是可信度阈值上限值的设置，都可以根据实际需要进行调整。

可见，本示例中，通过调整可信度阈值，可以使得在每个训练周期中，所采用的第二标注样本集存在不同，如此，可以针对不同的第二标注样本集进行质量的验证，进而能够从中获得质量较高的目标标注样本集。

当然，除此以外，当在第i个训练周期中进行训练的学生模型，为在第i-1个训练周期中训练得到的学生模型时，采用将可信度阈值不断提高的方式，可以获得以下效果：

容易理解的是，可信度阈值越低，相应的第二标注样本集中标注样本的数量越多，在学生模型训练程度相对较低的情况下，采用标注样本数量较多的第二标注样本集对其训练，可以有效避免学生模型过拟合的情况，保证学生模型的验证能力；另一方面，学习模型在经历多个训练周期的训练后，评价指标数据得到了提升，可以适应对标注样本数量较小的第二标注样本集的质量验证。

可选地，上述步骤102中，使用第二标注样本集对学生模型进行训练，得到训练后的学生模型，并获取训练后的学生模型的目标评价指标，包括：

针对第二标注样本集划分为训练集与第一验证集；

使用训练集对学生模型进行训练，得到训练后的学生模型；

基于第一验证集，获取训练后的学生模型的目标评价指标。

本实施例中，可以将第二标注样本集划分为训练集与第一验证集，训练集用于对学生模型进行训练，通常来说，训练后的学生模型的网络参数会发生相应的变化；而第一验证集则用于对训练后的学生模型进行验证。

以学生模型为分类模型为例，第一验证集中可能具有验证样本以及相应的分类标记；训练后的学生模型可以针对验证样本进行分类，得到分类结果，通过对分类结果与分类标记的比对，来确定训练后的学生模型是否针对验证样本进行正确分类。相似地，根据训练后的学生模型对第一验证集进行分类的表现，可以得到训练后的学生模型的准确率、误检率或者精确率等评价指标，而上述的目标评价指标可以是这些评价指标中的一项或者多项。

当然，以上仅仅是针对学生模型的举例，在实际应用中，学生模型也可以是其他类型的识别模型；目标评价指标也可以是其他类型的评价指标。

本实施例中，基于第一验证集来获取训练后的学生模型的目标评价指标，目标评价指标较为易于获取。

在使用学生模型对不同的第二标注样本集进行质量验证以得到目标标注样本集的过程中，可能存在第二标注样本集中各个标注样本的差异较小的情况，这样，通过训练集训练后的学生模型可能对上述第一验证集的识别表现较强，但是实际上存在泛化度较低的缺陷；换而言之，学生模型对第二标注样本集的质量验证结果，可能因上述情况导致出现偏差。

为克服以上缺陷，可选地，上述基于第一验证集，获取训练后的学生模型的目标评价指标，包括：

获取预设的第二验证集；

基于第一验证集与第二验证集，获取训练后的学生模型的目标评价指标。

具体地，结合图2，本实施例提供的数据标注方法，可以包括：

步骤201，将待标注样本数据集输入到教师模型中进行标注，得到第一标注样本集，以及第一标注样本集中每一标注样本的可信度；

步骤202，确定可信度阈值，从第一标注样本中确定出第二标注样本集，其中，第二标注样本集中每一标注样本的可信度均大于或等于可信度阈值；

步骤203，将第二标注样本划分为训练集与第一验证集；

步骤204，获取预设的第二验证集，将第一验证集与第二验证集合并作为验证集；

步骤205，使用训练集对学生模型进行训练，并基于验证集获取训练后的学生模型的目标评价指标；

步骤206，判断目标评价指标的获取次数是否满足预设条件，若是，则执行步骤207，若否，则返回执行步骤202；

这里的预设条件，可以是这预设的次数，也可以是基于可信度阈值的变化情况确定的次数，例如，可信度阈值存在一个初始值，每一次返回执行步骤202前，可以在该初始值上加上一预设值，当可信度阈值大于一预设的可信度阈值上限值时，则判定目标评价指标的获取次数满足预设条件。

步骤207，依据多次获取到的目标评价指标，从关联的多个第二标注样本集中确定出目标标注样本集。

其中，上述第二验证集可以是预先设定好的，例如，可以是通过人工标注获得，或者是以其他方式单独准备的标注后的样本数据。第二验证集可以不参与到学生模型的训练过程中，而在学生模型每一次基于训练集进行训练后，均可以使用第二验证集进行验证。

也就是说，第二验证集可以并不受到待标注样本数据集或者是第二标注样本集的影响，如此，在对训练后的学生模型进行目标评价指标的获取时，能够有效避免训练集与验证集全部来源于同一待标注样本数据集的情况。相应地，第二验证集的使用，也可以有效避免了一些可能导致训练后的学生模型出现过拟合的第二标注样本集，被验证为高质量的标注样本集而最终作为目标标注样本集的情况，保证学生模型对第二标注样本集的质量验证结果的可靠度。

可选地，上述步骤103，根据N个训练周期内获取的N个目标评价指标，从在N个训练周期内所确定的N个第二标注样本集中，确定出目标标注样本集，包括：

将第n个训练周期内所确定的第二标注样本集，确定为目标标注样本集；

其中，在第n个训练周期获取的目标评价指标为N个目标评价指标中的最优目标评价指标，且第n个训练周期获取的目标评价指标优于初始学生模型的目标评价指标，初始学生模型为第一个训练周期开始之前的学生模型，n为小于或等于N的整数。

如上文实施例所描述的，可以认为每一第二标注样本集，可以通过训练周期，关联一目标评价指标，即每一第二标注样本集关联有一目标评价指标。本实施例中，目标标注样本集的选取，是基于各个第二标注样本集所关联的目标评价指标进行的。

举例来说，目标标注样本集可以是在各个训练周期中确定的第二标注样本集中，关联的目标评价指标最优的第二标注样本集，其关联关系是基于训练周期进行实现的。换而言之，在通过对各个目标评价指标进行比较后，可以通过获取到最优的目标评价指标的训练周期序号n（即对应了上述的第n个训练周期），来获取在该第n个训练周期中确定的第二标注样本集，并将其作为目标标注样本集。

其中，对于最优目标评价指标，可以通过目标评价指标的数值或者是打分等方式进行筛选出。例如，当目标评价指标为准确率时，可以将最高准确率数值作为最优目标评价指标信息；或者，当目标评价指标包括多项评价指标时，可以通过对这些评价指标的综合评分来获取，并将综合评分最高的作为最优目标评价指标信息。

当然，在本实施例中，目标标注样本集除了需要满足关联的目标评价指标最优的条件外，还需要满足关联的目标评价指标优于初始学生模型的目标评价指标的条件。

容易理解的是，初始学习模型可以认为是在第一个训练周期开始前的学生模型，如上文所描述的，该学生模型可以是预先得到了一定程度的训练的模型。本实施例中，在经历N个训练周期后，若每一个训练周期中得到的训练后的学生模型的均劣于初始学习模型的，则可以认为各个第二标注样本集难以给学习模型带来足够的正面影响，或者，可以进一步认为教学模型对某一批待标注样本数据集的标注质量较差，而无法从对应的第一标注样本集中筛选出质量较高的目标标注样本集。

可见，本实施例通过对目标标注样本集的确定条件进行了限定，进而能够有效保证确定的目标标注样本集的质量。

在一个示例中，当N个目标评价指标中的最优目标评价指标仍劣于初始学生模型的目标评价指标时，可以将最优目标评价指标关联的第二标注样本集重新加入到第一标注样本集进行质量验证；或者也可以将对应的第一标注样本集丢弃。

可选地，上述步骤103，根据N个训练周期内获取的N个目标评价指标，从在N个训练周期内所确定的N个第二标注样本集中，确定出目标标注样本集之后，数据标注方法还包括：

获取目标可信度阈值，目标可信度阈值为与目标标注样本集对应的训练周期中所确定的可信度阈值，目标可信度阈值用于指导标注样本集的选取。

本实施例中，针对目标标注样本集对应的训练周期中所确定的可信度阈值进行获取，例如，当目标标注样本集是在第n个训练周期中获取的，在该训练周期中确定的可信度阈值为90%，则可以针对该可信度阈值进行获取，同时，该可信度阈值对应了上述的目标可信度阈值。

目标可信度阈值用于指导标注样本集的选取，例如，结合一个实际应用场景，某一批次待标注样本可能总数较多，可以归入到多个待标注样本数据集中，在一个待标注样本数据集完成了上文实施例中提及的标注、多个训练周期中的获取，以及目标标注样本集的确定的流程后，可以获取到目标可信度阈值。该目标可信度阈值可以用到该批次待标注样本所归入的其他待标注样本数据集的数据标注过程中，例如，可能在第一次的目标标注样本集确定过程中，经历了在多个训练周期中，依次将可信度阈值分别确定为85%、86%……95%的过程；而在此之后，确定了目标可信度阈值为90%；则在第二次的目标标注样本集确定过程中，将各个训练周期的可信度阈值分别确定90%、91%……95%。

本实施例中，通过获取目标可信度阈值，可以为标注样本集的选取提供指导，从而有助于在保证标注质量的基础上，缩短对整批待标注样本的标注时间，提高标注效率。

如图3所示，以下结合一具体应用例对本申请实施例提供的数据标注方法进行说明，该具体应用例具体包括：

1）将需要标注的样本原始数据输入到教师模型（以下记为TModel），进行样本的标注，如分类标注、打标签等，并输出标注后的数据集（对应上文中的第一标注样本集，以下记为IADataset），IADataset中的各个数据带可信度评价指标；

其中，上述需要标注的样本原始数据可以是视频流或者图片等，可以在存入缓存后输入到教师模型中进行标注；标注的具体方式可以是针对这些样本原始数据进行分类或者贴标签。

2）设定可信度这一评价指标的初始阈值（以下记为IFValue）及阈值调整上限(对应上述的预设的可信度阈值上限值，以下记为UPValue)，例如：IFValue可以取0.85，UPValue可以取0.95，并将IADataset数据集中可信度评价指标大于IFValue的数据筛选出来，形成待进行质量验证的样本数据集（以下记为WVDataset）。值得说明的是，IFValue可以认为是一个初始设定的值，在后续的训练中，会根据训练周期的变化而变化。

可以将WVDataset根据模型训练需要，按比例分为训练集（以下记为TDataset）与验证集（以下记为VDataset），例如按TDataset：VDataset＝10:1；

此外，还可以提前根据模型准备初始验证数据集（以下记为IVDataset），并将IVDataset与VDataset合并，形成最终的模型验证集（LVDataset）。其中，LVDataset中IVDataset与VDataset的数据比例可以为1：1。

在一个举例中，IVDataset的数量可以初始设置为5000，具体的数值可以根据学生模型的需要进行调整。

3）将TDataset与LVDataset输入SModel进行训练，得到训练后的SModel的目标评价指标的信息（以下记为EIndex），以及对应设定的评价指标的可信度的阈值（以下记为FValue）及WVDataset；

4）将IFValue+0.01，然后重新第２、第３步，直到完成IFValue+0.01＞UPValue结束，或者说判定IFValue首次大于UPValue时即结束以上循环的过程，每一循环过程可以认为是一个训练周期。

5）对比各个训练周期中得到的EIndex，得到最优的EIndex值，及对应FValue及WVDataset，如果最优的EIndex值优于SModel训练前的EIndex，则认为WVDataset为有效样本集，并将其放入正式的样本库。

在一个举例中，可以在任一个训练周期中（设为第i个训练周期），判断得到的EIndex是否相对于上一训练周期中（即第i-1个训练周期）得到的EIndex有所提升；若有提升，则记录下第i个训练周期中得到的EIndex及对应FValue及WVDataset，以供后续进行最优的EIndex值的获取过程。

本申请实施例可以通过教师模型自动完成对样本原始数据的标注，基于标注后样本数据集对学生模型的训练表现，可以得到高质量标注后的样本数据集，相比人工标注，效率、成本得到了极大的提升。在一些应用场景下，可以为短期内形成千万级甚至更高数量级的高质量标注样本数据库提供可能。

图4示出了本申请实施例提供的数据标注装置的结构示意图。

如图4所示，该数据标注装置包括：

标记模块401，用于将待标注样本数据集输入到教师模型中进行标注，得到第一标注样本集，以及第一标注样本集中每一标注样本的可信度；

训练模块402，用于在一个训练周期内，确定可信度阈值，从第一标注样本集中确定出第二标注样本集，使用第二标注样本集对学生模型进行训练，得到训练后的学生模型，并获取训练后的学生模型的目标评价指标；其中，第二标注样本集中每一标注样本的可信度均大于或等于可信度阈值；

确定模块403，用于根据N个训练周期内获取的N个目标评价指标，从在N个训练周期内所确定的N个第二标注样本集中，确定出目标标注样本集，N为大于1的整数。

可选地，在第i个训练周期中进行训练的学生模型，为在第i-1个训练周期中训练得到的学生模型；i为大于1且小于或等于N的整数。

可选地，在第i个训练周期中所确定的可信度阈值，大于在第i-1个训练周期中所确定的可信度阈值，且小于或等于预设的可信度阈值上限值；i为大于1且小于或等于N的整数。

可选地，上述训练模块402，包括：

划分单元，用于针对第二标注样本集划分为训练集与第一验证集；

训练单元，用于使用训练集对学生模型进行训练，得到训练后的学生模型；

获取单元，用于基于第一验证集，获取训练后的学生模型的目标评价指标。

可选地，基于第一验证集，获取单元，包括：

第一获取子单元，用于获取预设的第二验证集；

第二获取子单元，用于基于第一验证集与第二验证集，获取训练后的学生模型的目标评价指标。

可选地，上述确定模块403，包括：

确定单元，用于将第n个训练周期内所确定的第二标注样本集，确定为目标标注样本集；

可选地，上述数据标注装置还可以包括：

获取模块，用于获取目标可信度阈值，目标可信度阈值为与目标标注样本集对应的训练周期中所确定的可信度阈值，目标可信度阈值用于指导标注样本集的选取。

图5示出了本申请实施例提供的电子设备的硬件结构示意图。

在电子设备设备可以包括处理器501以及存储有计算机程序指令的存储器502。

具体地，上述处理器501可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit ，ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器502可包括硬盘驱动器（Hard Disk Drive，HDD）、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线（Universal Serial Bus，USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器502可在综合网关容灾设备的内部或外部。在特定实施例中，存储器502是非易失性固态存储器。

存储器可包括只读存储器（ROM），随机存取存储器（RAM），磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形（非暂态）计算机可读存储介质（例如，存储器设备），并且当该软件被执行（例如，由一个或多个处理器）时，其可操作来执行参考根据本公开的一方面的方法所描述的操作。

处理器501通过读取并执行存储器502中存储的计算机程序指令，以实现上述实施例中的任意一种数据标注方法。

在一个示例中，电子设备还可包括通信接口503和总线504。其中，如图5所示，处理器501、存储器502、通信接口503通过总线504连接并完成相互间的通信。

通信接口503，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线504包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口（AGP）或其他图形总线、增强工业标准架构（EISA）总线、前端总线（FSB）、超传输（HT）互连、工业标准架构（ISA）总线、无限带宽互连、低引脚数（LPC）总线、存储器总线、微信道架构（MCA）总线、外围组件互连（PCI）总线、PCI-Express（PCI-X）总线、串行高级技术附件（SATA）总线、视频电子标准协会局部（VLB）总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线504可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的数据标注方法，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据标注方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路（ASIC）、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM（EROM）、软盘、CD-ROM、光盘、硬盘、光纤介质、射频（RF）链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种数据标注方法，其特征在于，包括：

将待标注样本数据集输入到教师模型中进行标注，得到第一标注样本集，以及所述第一标注样本集中每一标注样本的可信度；

在一个训练周期内，确定可信度阈值，从所述第一标注样本集中确定出第二标注样本集，使用所述第二标注样本集对学生模型进行训练，得到训练后的学生模型，并获取所述训练后的学生模型的目标评价指标；其中，所述第二标注样本集中每一标注样本的可信度均大于或等于所述可信度阈值；

根据N个训练周期内获取的N个所述目标评价指标，从在所述N个训练周期内所确定的N个第二标注样本集中，确定出目标标注样本集，N为大于1的整数。

2.根据权利要求1所述的方法，其特征在于，在第i个训练周期中进行训练的学生模型，为在第i-1个训练周期中训练得到的学生模型；i为大于1且小于或等于N的整数。

3.根据权利要求1或2所述的方法，其特征在于，在第i个训练周期中所确定的可信度阈值，大于在第i-1个训练周期中所确定的可信度阈值，且小于或等于预设的可信度阈值上限值；i为大于1且小于或等于N的整数。

4.根据权利要求1所述的方法，其特征在于，所述使用所述第二标注样本集对学生模型进行训练，得到训练后的学生模型，并获取所述训练后的学生模型的目标评价指标，包括：

针对所述第二标注样本集划分为训练集与第一验证集；

使用所述训练集对所述学生模型进行训练，得到训练后的学生模型；

基于所述第一验证集，获取所述训练后的学生模型的目标评价指标。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一验证集，获取所述训练后的学生模型的目标评价指标，包括：

获取预设的第二验证集；

基于所述第一验证集与所述第二验证集，获取所述训练后的学生模型的目标评价指标。

6.据权利要求1所述的方法，其特征在于，所述根据N个训练周期内获取的N个所述目标评价指标，从在所述N个训练周期内所确定的N个第二标注样本集中，确定出目标标注样本集，包括：

其中，在所述第n个训练周期获取的目标评价指标为N个所述目标评价指标中的最优目标评价指标，且所述第n个训练周期获取的目标评价指标优于初始学生模型的目标评价指标，所述初始学生模型为第一个训练周期开始之前的学生模型，n为小于或等于N的整数。

7.根据权利要求1所述的方法，其特征在于，所述根据N个训练周期内获取的N个所述目标评价指标，从在所述N个训练周期内所确定的N个第二标注样本集中，确定出目标标注样本集之后，所述方法还包括：

获取目标可信度阈值，所述目标可信度阈值为与所述目标标注样本集对应的训练周期中所确定的可信度阈值，所述目标可信度阈值用于指导标注样本集的选取。

8.一种数据标注装置，其特征在于，所述装置包括：

标记模块，用于将待标注样本数据集输入到教师模型中进行标注，得到第一标注样本集，以及所述第一标注样本集中每一标注样本的可信度；

训练模块，用于在一个训练周期内，确定可信度阈值，从所述第一标注样本集中确定出第二标注样本集，使用所述第二标注样本集对学生模型进行训练，得到训练后的学生模型，并获取所述训练后的学生模型的目标评价指标；其中，所述第二标注样本集中每一标注样本的可信度均大于或等于所述可信度阈值；

确定模块，用于根据N个训练周期内获取的N个所述目标评价指标，从在所述N个训练周期内所确定的N个第二标注样本集中，确定出目标标注样本集，N为大于1的整数。

9.一种电子设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的数据标注方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的数据标注方法。