CN110263934B

CN110263934B - 一种人工智能数据标注方法和装置

Info

Publication number: CN110263934B
Application number: CN201910467458.0A
Authority: CN
Inventors: 吕博
Original assignee: China Academy of Information and Communications Technology CAICT
Current assignee: China Academy of Information and Communications Technology CAICT
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2021-08-06
Anticipated expiration: 2039-05-31
Also published as: CN110263934A

Abstract

本申请提供了一种人工智能数据标注方法和装置，该方法包括：获取待标注的数据集；基于建立的AI模型获取每条待标注的数据的概率分值最高的AI标签，以及概率分值；针对任一待标注数据，确定该概率分值是否大于第一预设阈值；当确定该概率分值大于第一预设阈值，且确定抽检该待标注的数据，或当确定该概率分值不大于第一预设阈值时，为该待标注数据标注人工标签；当确定该概率分值大于第一预设阈值，且确定不抽检该待标注的数据时，使用获取的概率分值最高的AI标签标注该待标注的数据。该方法节省了人工标注成本，以及实现时间成本，并减少人为主观因素和标注人员技术背景引入的标注误差。

Description

一种人工智能数据标注方法和装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种人工智能数据标注方法和装置。

背景技术

随着互联网、机器学习、大数据和云计算等技术的飞速发展，各种信息数据以指数级的速度在持续增长，在大数据时代背景下，人工智能已经依托海量数据为多个行业赋能，滋生出多样化的行业应用。

目前人工智能所依托的机器学习和深度学习算法大部分是数据依赖的，需要大量的数据采用监督或半监督的方式训练算法，做定制化部署。由于我国大数据体量庞大，各行各业的数据类型复杂，数据维度较高，为数据标注任务提出了巨大的挑战。总体来说，目前数据标注中存在以下几项弊端：

数据标注人工成本高：AI算法训练需要海量标注样本，而目前海量的数据标注任务依赖人工方式实现，“有多少人工，就有多少智能”，造成制作数据集的成本高；

数据标注的质量难以保证：标注任务受标注人员和审查人员主观影响大，会引入一定的标注误差，数据一致性难以保证；

专业数据集标注门槛高：专业数据集如医疗、教育，以及电信网络等需要专业领域人员进行标注，相比于海量的数据标注需求，专业领域的标注人员过于稀缺，造成标注门槛过高，标注的尺度也难以保持一致。

可见，人工智能数据的标注成本高，且准确性不高。

发明内容

有鉴于此，本申请提供一种人工智能数据标注方法和装置，节省了人工标注成本，以及实现时间成本，并减少人为主观因素和标注人员技术背景引入的标注误差。

为解决上述技术问题，本申请的技术方案是这样实现的：

在一个实施例中，提供了一种人工智能数据标注方法，所述方法包括：

获取待标注的数据集；

基于建立的AI模型获取每条待标注的数据的概率分值最高的AI标签，以及概率分值；

针对任一待标注数据，确定该概率分值是否大于第一预设阈值；

当确定该概率分值大于第一预设阈值，且确定抽检该待标注的数据，或当确定该概率分值不大于第一预设阈值时，为该待标注数据标注人工标签；

当确定该概率分值大于第一预设阈值，且确定不抽检该待标注的数据时，使用获取的概率分值最高的AI标签标注该待标注的数据。

在另一个实施例中，提供了一种人工智能数据标注装置，所述装置包括：第一获取单元、第二获取单元、确定单元和标注单元；

所述第一获取单元，用于获取待标注的数据集；

所述第二获取单元，用于基于建立的AI模型获取所述第一获取单元获取的数据集中的每条待标注的数据的分值最高的AI标签，以及对应的分值；

所述确定单元，用于针对任一待标注数据，确定所述第二获取单元获取的该分值是否大于预设阈值；

所述标注单元，用于当所述确定单元确定该分值大于预设阈值，且确定抽检该待标注的数据，或当确定该分值不大于预设阈值时，为该待标注数据标注人工标签；当确定该分值大于预设阈值，且确定不抽检该待标注的数据时，使用获取的分值最高的AI标签标注该待标注的数据。

由上面的技术方案可见，上述实施例中通过对AI模型输出的概率分值，设置判定策略使用AI模型标注结合人工标注的人工智能数据标注方案，节省了人工标注成本，以及实现时间成本，并减少人为主观因素和标注人员技术背景引入的标注误差。

附图说明

以下附图仅对本发明做示意性说明和解释，并不限定本发明的范围：

图1为本申请实施例中AI模型建立的流程示意图；

图2为本申请实施例中人工智能数据标注流程示意图；

图3为本申请实施例中将通过AI模型标注的数据作为训练AI模型的数据样本的流程示意图；

图4为本申请实施例中根据准确率确定是否更新第一阈值的流程示意图；

图5为本申请实施例中应用于上述技术的装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图并举实施例，对本发明的技术方案进行详细说明。

本申请实施例中提供一种人工智能数据标注方法，通过对分支

本申请实施例具体实现时，可以通过三部分实现：

第一部分AI模型的建立。

参见图1，图1为本申请实施例中AI模型建立的流程示意图。具体步骤为：

步骤101，获取训练样本集、验证样本集、模型测试样本集和灰度测试样本集。

本步骤的实现时，可以是获取一个大的样本数据集，按照预设比例划分为四个样本集，分别为：训练样本集、验证样本集、模型测试样本集和灰度测试样本集；也可以是直接获取所述四个样本集。

其中，训练样本集用于AI模型的网络参数训练，验证样本集用于AI模型的超参数调整，模型测试集用于模型性能评测，灰度测试集用于评测AI模型的一致性和稳定性。

步骤102，基于所述训练样本集建立初始AI模型。

基于所述训练样本集建立初始AI模型之前需要确定学习算法，具体实现如下：

根据训练样本集的规模进行模型选型，即学习算法的选择，训练样本集的规模通过数据样本条数确定，当所述训练样本集中的样本条数大于预设值时，确定为大规模数据集，该种情况分类任务可以使用深度学习算法，即使用深度学习算法建立初始AI模型；深度学习算法可以为Resnet、GoogleNet或SEnet算法。

当所述训练样本集中的样本跳数不大于预设值时，确定为小规模数据集，该种情况分类任务可以使用机器学习算法，即使用机器学习算法建立初始AI模型；机器学习算法可以为：逻辑回归或支持向量机算法。

步骤103，基于所述验证样本集调整所述初始AI模型的超参数。

基于验证样本集判断所述初始AI模型是否欠/过拟合，并进行模型超参数调整，需调整的超参数根据使用的算法类型确定，如基于深度学习建模，包括的超参数可以为：batch_size、learning_rate、正则化系数、模型层数和通道数等；基于机器学习算法建模，包括的超参数可以为：learning_rate、正则化系数、模型层数和通道数等。

该部分的实现主要通过验证结果，手动输入来调整超参数。

步骤104，基于所述模型测试样本集获取调整超参数的初始AI模型的评测指标。

评测指标可以包括：准确率、精确率、召回率、mAP、RoC、F-score、混淆矩阵等，可以根据实际建立的AI模型增加或减少评测指标。

步骤105，确定获取的评测指标对应的值是否均满足预设指标条件，如果是，执行步骤106；否则，执行步骤109。

本步骤中如果评测指标对应的值满足预设指标条件，可以继续执行稳定性检测；否则，重新建立初始的AI模型。

步骤106，基于所述灰度测试样本集采用PSI指标评测调整超参数的初始AI模型的稳定性。

步骤107，确定评测的稳定性是否满足预设稳定条件，如果是，执行步骤108；否则，执行步骤109。

本申请实施例中采用PSI指标评测调整超参数的初始AI模型的稳定性的过程如下：

如果灰度测试集样本中数据样本条数比较多，如大于预设阈值，可采取无取回策略，对原数据集进行切分，分为灰度测试集A和灰度测试集B两个互斥集合，如果灰度测试集样本数量比较少，如不大于预设阈值，可采取有取回策略，随机抽取样本并放回的方式构造两个灰度测试集A和B；

基于被测的AI模型，对测试集A和B的数据进行推理，每条数据样本均能输出其概率分值s；

设置分桶bucket的数量为N个，并以左开右闭的方式，划分为N个分值区间(0,1/N],(1/N,2/N]，…(1-1/N,1]；

统计A和B所有测试样本推理概率分值落入各个分桶的分值频次，对于第i个桶，频次分别记为pⁱ _A和pⁱ _B，

计算PSI指标如下：

当这里的预设稳定条件为：PSI值大于PSI阈值。则当计算的PSI值大于PSI阈值时，确定稳定性测试通过，执行步骤108；否则，确定稳定性测试未通过，执行步骤109。

通常如果设置默认分桶数量为10，那么PSI阈值一般可以设置为0.25，这里给出的仅是一种举例，并不限于给出的具体数值。

步骤108，将调整超参数的初始AI模型作为已建立的AI模型，结束本流程。

步骤109，再次建立初始AI模型。

再次建立初始AI模型时，可以更换样本集，也可以不更换样本集；可以更换学习算法，也可以不更换，本申请实施例对此均不进行限制。

通过上述方式最终可以建立满足预设指标，且满足预设稳定条件的AI模型。

本申请具体实现时，还可以使用不同的学习算法，和/或不同的样本集建立不同的AI模型，如M个，但是需要M个AI模型的标签类别的个数相同，也就是说每个AI模型的输出对应N个标签类别。

第二部分：AI数据标注。

本申请实施例中可以使用第一步部分训练完成的AI模型进行数据标注。

实施例一

参见图2，图2为本申请实施例中人工智能数据标注流程示意图。具体步骤为：

步骤201，获取待标注的数据集。

步骤202，基于建立的AI模型获取每条待标注的数据的概率分值最高的AI标签，以及对应的概率分值。

在具体实现时，也可以使用1个或多个已建立的AI模型来获取每条待标注的数据的概率分值最高的AI标签，以及对应的概率分值。

以M个AI模型为例，基于建立的AI模型获取每条待标注的数据的概率分值最高的AI标签，以及概率分值，包括：

针对所述待标注的数据基于建立的M个AI模型分别获得该模型对应的每个AI标签对应的概率分值，并将每个标签对应的概率分值归一化为一个归一化概率分值作为该AI标签对应的概率分值；

获取该条待标注的数据的概率分值最高的AI标签，以及概率分值。

本申请实施例中给出如下归一化实现方法，但不限于如下实现方式：

M个AI模型，记为model₁,..model_i，…model_M，，对于单条待标注数据data，可分别得到针对每个AI模型输出AI标签对应的概率分值，即类别class(data,model₁),…class(data,model_i)…class(data,model_M)，对于任意模型model_i，可输出一个概率分值向量：

P(data,model_i)＝[p1(data,model_i),p2(data,model_i),…pN(data,model_i)]；其中p_j(data,model_i)代表待标注数据data，经过模型model_i确定为类classj的概率值；

将M个模型的推理分值进行归一处理，转换为1个AI标签对应的概率分值。归一处理可采用多种策略，本申请实施例中通过平均值的方式实现，但不限于如下方式：

第j类AI标签的归一化的得分s(data,classj)可表示为：

归一处理后，输出概率分值最高的AI标签，即该AI标签对应的类，可表示如下：

步骤203，针对任一待标注数据，确定该概率分值是否大于第一预设阈值。

步骤204，当确定该概率分值大于第一预设阈值，且确定抽检该待标注的数据，或当确定该概率分值不大于第一预设阈值时，为该待标注数据标注人工标签，结束本流程。

本申请实施例中可以根据实际需要设置抽检规则，如预先设置每隔预设条数概率分支大于预设阈值的待标注数据进行抽检，如每隔100条这样的数据抽检一条数据；

还可以是所有待标注数据获得概率分值之后，抽检总数据条数的5％等。

上述仅给出两种抽检方式，但是并不限于上述两种抽检方式。

步骤205，当确定该概率分值大于第一预设阈值，且确定不抽检该待标注的数据时，使用获取的概率分值最高的AI标签标注该待标注的数据。

通过上述方式，本申请实施例中通过对AI模型输出的概率分值，设置判定策略使用AI模型标注结合人工标注的人工智能数据标注方案，节省了人工标注成本，以及实现时间成本，并减少人为主观因素和标注人员技术背景引入的标注误差。

实施例二

参见图3，图3为本申请实施例中将通过AI模型标注的数据作为训练AI模型的数据样本的流程示意图。具体步骤为：

步骤301，获取待标注的数据集。

步骤302，基于建立的AI模型获取每条待标注的数据的概率分值最高的AI标签，以及对应的概率分值。

步骤303，针对任一待标注数据，确定该概率分值是否大于第一预设阈值。

步骤304，当确定该概率分值大于第一预设阈值，且确定抽检该待标注的数据，为该待标注数据标注人工标签。

步骤305，确定人工标签与获取的AI标签是否一致，如果是，执行步骤309；否则，执行步骤308。

步骤306，当确定该概率分值不大于第一预设阈值时，为该待标注数据标注人工标签，确定人工标签与获取的AI标签是否一致，如果是，执行步骤307；否则，执行步骤308。

步骤307，为该数据设置难度级别为第二级，执行步骤310。

步骤308，为该数据设置难度级别为第三级，执行步骤310。

步骤309，为该数据设置难度级别为第一级。

本申请实施例中从第一级到第三级指示分类难度从易到难。

步骤310，获取设置难度级别为第二级和第三级的数据作为样本，对已建立的AI模型再次进行训练、验证和测试。

该实施例的实现，不仅对所有待标注的人工智能数据进行标注，并且对已标注出的数据给出使用AI模型标注的难度级别，这样可以使用难度级别高的样本数据再次训练AI模型，使AI模型对难度分类大的人工智能数据也能实现高质量的自动化标注。

实施例三

参见图4，图4为本申请实施例中根据准确率确定是否更新第一阈值的流程示意图。具体步骤为：

步骤401，获取待标注的数据集。

步骤402，基于建立的AI模型获取每条待标注的数据的概率分值最高的AI标签，以及对应的概率分值。

步骤403，针对任一待标注数据，确定该概率分值是否大于第一预设阈值。

步骤404，当确定该概率分值大于第一预设阈值，且确定抽检该待标注的数据，为该待标注数据标注人工标签；并记录针对该数据的人工标签与获取的AI标签是否一致，执行步骤406。

步骤405，当确定该概率分值不大于第一预设阈值时，为该待标注数据标注人工标签，并记录针对该数据的人工标签与获取的AI标签是否一致。

步骤406，统计第一准确率和第二准确率。

其中，第一准确率为抽样数据中AI标签和人工标签相同的数据条数占总抽样条数的比值；第二准确率为概率分值不大于第一预设阈值的数据的AI标签和人工标签相同的数据条数占概率分值不大于第一预设阈值的数据的比值。

步骤407，当第一准确率大于第二预设阈值，且第二准确率大于第三预设阈值时，根据第一准确率和第二准确率调整第一预设阈值。

在第一准确率大于第二预设阈值，且第二准确率大于第三预设阈值之外的情况，则不调整第一预设阈值。

通过对第一阈值的调整，能够更准确地划分待标注的数据是否需要人工标注，来检验建立的AI模型的功能是否更强大，进而真正实现自动化进行人工智能标注。

结合实施例二和实施例三，本申请实施例中还可以进一步包括：

确定第一准确率是否大于第四预设阈值，如果是，针对未抽样的数据标注AI标签，并为该数据设置难度级别为第一级；否则，在所有标注的数据中再次抽样，进行人工标注，直到第一准确率大于第四预设阈值。

实施例四

本实施例给出一个数据标注、并存储可以再次训练AI模型的样本数据，以及调整阈值参数的实施例，具体如下：

第一步、获取待标注数据集。

单条数据记为data；

第二步、部署AI模型池并分别进行数据推理。

所谓的AI模型池部署，是指基于第一部分训练出的M个模型，记为model₁,..model_i，…model_M，所谓的推理是指，对于同样的单条未标注数据data，可分别得到推理数据的类别class(data,model₁),…class(data,model_i)…class(data,model_M)，对于任意模型model_i，可输出一个概率向量:

P(data,model_i)＝[p1(data,model_i),p2(data,model_i),…pN(data,model_i)]；其中p_j(data,model_i)代表未标注数据data，经过模型model_i推理为classj的概率值；

第三步、将M个模型的推理概率分值进行归一处理，转换为1个标签类别(AI标签对应的类别)和1个概率分值输出。

第四步、判定概率分值是否大于第一预设阈值(记为TH1)。

这里概率分值为s(data,classj)，阈值取人工设定的0～1之间的浮点数，如果分值大于设定阈值TH1，则进入第五步，否则进入第十二步；

第五步、对于概率分值大于阈值的数据集合进行人工数据抽检。

第六步、针对抽检的数据，判定人工标签是否与AI标签一致，如果是，执行第七步，否则执行第八步；

第七步、将最终打标标签记为人工标签(AI标签)，将标记数据写入数据集所在数据库，并增加数据质量评价的flag标识为第一级(“容易”)；

第八步、将最终打标标签记为人工标签，将标记数据写入数据集所在数据库，并增加数据质量评价的flag标识为第三级(“困难”)；

第九步、待所有数据初步确定标签时，统计第一准确率。

假设抽样数据中有Atrue条数据AI标签与人工标签相一致，有Afalse条数据AI标签与人工标签不一致，那么第一准确率可计算为a＝Atrue/(Atrue+Afalse)；

第十步，判定第一准确率是否大于第四预设阈值，如果是，执行第十一步；否则，回退到第五步，即再次抽样进行人工标注。

这是种假设检验的方法，如果超过门限证明这批数据是可以信任的，否则证明不可信任，需要再进行数据抽检，进行人工标注做修正。

第十一步、将非抽样数据的最终标记均设为AI标签，并将这批数据落库，同时设置数据质量标识flag为第一级(“容易”)；

第十二步、当判定概率分值不大于第一预设阈值时，需要进行人工打标；

第十三步、判定人工标签是否等于AI标签，如如果是，执行步骤十四步；否则，执行步骤十五步。

第十四步、将最终标记设置为AI标签，将数据落库，同时设置数据质量标识flag为第二级(“中等”)；

第十五步、将最终标记修正为人工标签，将数据落库，同时设置数据质量标识flag为第三级(“困难”)；

第十六步、待所有数据初步确定标签，统计第二准确率。

假设数据中有Btrue条数据AI标签与人工标签相一致，有Bfalse条数据AI标签与人工标签不一致，那么第二准确率可计算为b＝Btrue/(Btrue+Bfalse)；

第十七步、结合第九步和第十六步中的第一准确率(an)和第二准确率(bn)，基于第一准确率和第二准确率，来确定是否更新当前的第一预设阈值。

针对是否更新第一预设阈值的实现，可以根据实际情况设置对应的规则，如可以但不限于如下实现方式：

当第一准确率大于第二预设阈值，且第二准确率大于第三预设阈值时，根据第一准确率和第二准确率调整第一预设阈值。

本实施例一方面通过AI模型的归一化输出分值，设计判定策略实现数据集的自动标注，节省了人力标注成本，降低了实现时间成本，并减少因人为主观因素和标注人员的技术背景引入的标注误差；另一方面通过对数据的自动标注，根据归一化输出分值，设计判定策略实现了对数据质量的难易度评测，所沉淀总结出的难样本既可对AI模型进行优化，又可根据难易度设计区分度高的测试数据集，用于其他AI模型评测。

第三部分：使用本申请实施例建立的样本集，再次训练已建立的AI模型，具体如下：

基于上述实施例二和实施例四中，获取设置难度级别为第二级和第三级的数据作为样本，对已建立的AI模型再次进行训练、验证和测试。

可以将所有设置难度级别为第二级和第三级的数据作为样本，并划分为训练样本集、验证样本集、模型测试样本集和灰度测试样本集，如果这样的数据的量不够多，可以进行数据扩展，如增加难度级别为第一级别的数据，或新增一些数据。

具体再次训练的过程包括如下：

基于训练样本集训练AI模型；

基于验证样本集调整所述AI模型的超参数；

基于所述模型测试样本集获取调整超参数的AI模型的评测指标；

基于所述灰度测试样本集采用PSI指标评测调整超参数的AI模型的稳定性。

通过上述训练、测试，直到训练出满足评测指标和稳定性的AI模型。

本部分通过第二部分实现的对数据集进行自动标注，对数据质量也进行了评估，增加了“容易”、“中等”和“困难”的质量评价标识。通过标识可提取出“中等”和“困难”的样本进行训练，这部分样本是之前模型容易分类错误的bad case，做修正后对模型的优化也是非常有帮助的。

基于同样的发明构思，本申请实施例中还提供一种人工智能数据标注装置。参见图5，图5为本申请实施例中应用于上述技术的装置结构示意图。该装置包括：第一获取单元501、第二获取单元502、确定单元503和标注单元504；

第一获取单元501，用于获取待标注的数据集；

第二获取单元502，用于基于建立的AI模型获取第一获取单元501获取的数据集中的每条待标注的数据的分值最高的AI标签，以及对应的分值；

确定单元503，用于针对任一待标注数据，确定第二获取单元502获取的该分值是否大于预设阈值；

标注单元504，用于当确定单元503确定该分值大于预设阈值，且确定抽检该待标注的数据，或当确定该分值不大于预设阈值时，为该待标注数据标注人工标签；当确定该分值大于预设阈值，且确定不抽检该待标注的数据时，使用获取的分值最高的AI标签标注该待标注的数据。

优选地，

标注单元504，进一步用于当确定该概率分值大于预设阈值，且确定抽检该待标注的数据时，所述为该待标注数据标注人工标签时，包括：

当确定该概率分值大于第一预设阈值，且确定抽检该待标注的数据时，确定人工标签与获取的AI标签是否一致，如果是，为该数据设置难度级别为第一级；否则，为该数据设置难度级别为第三级；

当确定该概率分值不大于第一预设阈值时，确定人工标签与获取的AI标签是否一致，如果是，为该数据设置难度级别为第二级；否则，为该数据设置难度级别为第三级。

优选地，

确定单元503，进一步用于统计第一准确率和第二准确率；其中，第一准确率为抽样数据中AI标签和人工标签相同的数据条数占总抽样条数的比值；第二准确率为概率分值不大于第一预设阈值的数据的AI标签和人工标签相同的数据条数占概率分值不大于第一预设阈值的数据的比值；

优选地，

确定单元503，进一步用于确定第一准确率是否大于第四预设阈值，如果是，针对未抽样的数据标注AI标签，并为该数据设置难度级别为第一级；否则，在所有标注的数据中再次抽样，进行人工标注，直到第一准确率大于第四预设阈值；

其中，第一准确率为抽样数据中AI标签和人工标签相同的数据条数占总抽样条数的比值。

上述实施例的单元可以集成于一体，也可以分离部署；可以合并为一个单元，也可以进一步拆分成多个子单元。

综上所述，本申请实施例中对需要进行监督学习的AI数据集进行自动标注，此外还可以对数据集的数据质量进行难易度评测，沉淀出不同难易度和区分度的样本集可以做针对性的算法评测。一方面解决了AI数据集标注任务中对人工的依赖性和标注人员技术门槛的依赖性，一方面提供了数据集难易度评估的定量方法，因为该方法是通过与AI模型进行交互得到的，因此在一定程度上解决了AI算法评测的问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种人工智能数据AI标注方法，其特征在于，所述方法包括：

获取待标注的数据集；

当确定该概率分值大于第一预设阈值，且确定不抽检该待标注的数据时，使用获取的概率分值最高的AI标签标注该待标注的数据；

其中，当确定该概率分值大于第一预设阈值，且确定抽检该待标注的数据时，所述为该待标注数据标注人工标签时，所述方法进一步包括：

当确定该概率分值不大于第一预设阈值时，确定人工标签与获取的AI标签是否一致，如果是，为该数据设置难度级别为第二级；否则，为该数据设置难度级别为第三级；

其中，所述方法进一步包括：

获取设置难度级别为第二级和第三级的数据作为样本，对已建立的AI模型再次进行训练、验证和测试。

2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

统计第一准确率和第二准确率；其中，第一准确率为抽样数据中AI标签和人工标签相同的数据条数占总抽样条数的比值；第二准确率为概率分值不大于第一预设阈值的数据的AI标签和人工标签相同的数据条数占概率分值不大于第一预设阈值的数据的比值；

3.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

确定第一准确率是否大于第四预设阈值，如果是，针对未抽样的数据标注AI标签，并为该数据设置难度级别为第一级；否则，在所有标注的数据中再次抽样，进行人工标注，直到第一准确率大于第四预设阈值；

4.根据权利要求1-3任一项所述的方法，其特征在于，已建立的AI模型为M个，M为大于0的整数。

5.根据权利要求4所述的方法，其特征在于，所述基于建立的AI模型获取每条待标注的数据的概率分值最高的AI标签，以及概率分值，包括：

6.根据权利要求4所述的方法，其特征在于，针对每个AI模型的建立，包括步骤：

获取训练样本集、验证样本集、模型测试样本集和灰度测试样本集；

基于所述训练样本集建立初始AI模型；

基于所述验证样本集调整所述初始AI模型的超参数；

基于所述模型测试样本集获取调整超参数的初始AI模型的评测指标；

若确定获取的评测指标对应的值均满足预设指标条件，则基于所述灰度测试样本集采用PSI指标评测调整超参数的初始AI模型的稳定性；

若评测的稳定性满足预设稳定条件，则将调整超参数的初始AI模型作为已建立的AI模型；

若确定获取的评测指标对应的值不满足预设指标条件，或评测的稳定性不满足预设稳定条件，则再次建立初始AI模型。

7.根据权利要求6所述的方法，其特征在于，所述基于所述训练样本集建立初始AI模型，包括：

当所述训练样本集中的样本条数大于预设值时，使用深度学习算法建立初始AI模型；否则，使用机器学习算法建立初始AI模型。

8.一种人工智能数据AI标注装置，其特征在于，所述装置包括：第一获取单元、第二获取单元、确定单元和标注单元；

所述第一获取单元，用于获取待标注的数据集；

所述第二获取单元，用于基于建立的AI模型获取所述第一获取单元获取的数据集中的每条待标注的数据的概率分值最高的AI标签，以及对应的概率分值；

所述确定单元，用于针对任一待标注数据，确定所述第二获取单元获取的该概率分值是否大于预设阈值；

所述标注单元，用于当所述确定单元确定该概率分值大于预设阈值，且确定抽检该待标注的数据，或当确定该概率分值不大于预设阈值时，为该待标注数据标注人工标签；当确定该概率分值大于预设阈值，且确定不抽检该待标注的数据时，使用获取的概率分值最高的AI标签标注该待标注的数据；

其中，所述标注单元，进一步用于当确定该概率分值大于第一预设阈值，且确定抽检该待标注的数据，为该待标注数据标注人工标签时，当确定该概率分值大于第一预设阈值，且确定抽检该待标注的数据时，确定人工标签与获取的AI标签是否一致，如果是，为该数据设置难度级别为第一级；否则，为该数据设置难度级别为第三级；当确定该概率分值不大于第一预设阈值时，确定人工标签与获取的AI标签是否一致，如果是，为该数据设置难度级别为第二级；否则，为该数据设置难度级别为第三级；获取设置难度级别为第二级和第三级的数据作为样本，对已建立的AI模型再次进行训练、验证和测试。