CN108090499A

CN108090499A - 基于最大信息三元组筛选网络的数据主动标注方法和系统

Info

Publication number: CN108090499A
Application number: CN201711115401.1A
Authority: CN
Inventors: 赵鑫; 黄凯奇; 张靖; 康运锋
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2018-05-29
Anticipated expiration: 2037-11-13
Also published as: CN108090499B

Abstract

本发明涉及数据标注领域，具体涉及基于最大信息三元组筛选网络的数据主动标注方法和系统，目的在于缩减人工标注工作量，同时确保标注准确度。本发明根据样本的深度特征选取最具标注价值的未标注样本进行人工标注，并且构建最大信息三元组损失函数；逐步更新数据结构和网络参数，进而更新筛选网络模型。直到，未标注数据与已标注数据的类内最大差异均小于预设的第二阈值且类间最小差异均大于预设的第一阈值时，停止更新筛选网络模型。剩余的数据可利用最后更新的筛选网络模型由计算机完成标注。通过这种方法，在缩减人工标注工作量的同时确保了标注的准确度。

Description

基于最大信息三元组筛选网络的数据主动标注方法和系统

技术领域

本发明涉及数据标注领域，具体涉及基于最大信息三元组筛选网络的数据主动标注方法和系统。

背景技术

随着大数据时代的到来和硬件技术的发展，使得在大规模数据库上的研究不断革新，同时也看到了深度学习在计算机视觉中势不可挡的优势。

但是深度学习的主导地位，离不开海量标注数据的支持。随着数据量的不断扩大，人工标注海量数据不仅成本过高，而且非常耗时耗力。因此，对海量数据的标注一直是图像标注领域备受关注的问题。虽然深度学习技术在计算机视觉上已经取得了令人瞩目的成功，但是因为在图像标注上本身数据中已标注的数据量较少，使得深度学习技术没有更好的发展空间，从而无法得到很好的分类效果。

近些年，利用少量已标注样本去标注数据的主动学习方法成为海量数据标注的主要方法之一。一般基于主动学习的标注方法可以归纳为先利用聚类算法将数据集进行聚类，然后计算每个样本的信息熵，找出单一类内信息量大的样本进行标注。这种方法一般只考虑标注样本在类间的高度不确定性，并且逐个计算每个样本的信息熵然后再评比的过程过于繁琐。有些方法虽然采用了筛选代表性样本进行人工标注，但是在筛选代表性样本时，没有考虑类内的差异性。另外，对分类器的优化并没有充分发挥已筛选数据样本的作用。

发明内容

为了解决现有技术中的上述问题，本发明提出了基于最大信息三元组筛选网络的数据主动标注方法和系统，减少了人工标注的工作量，同时确保了标注的准确度。

本发明的一方面，提出一种基于最大信息三元组筛选网络的数据主动标注方法，包括以下步骤：

步骤S10，根据样本的深度特征，利用深度筛选网络模型结合主动学习筛选最具标注价值的未标注样本进行人工标注，生成人工标注后的数据；

步骤S20，根据所述人工标注后的数据，更新训练数据集，构建最大信息三元组损失函数，并基于更新后的训练数据集和所述最大信息三元组损失函数训练并更新所述深度筛选网络模型；

步骤S30，当更新后的训练数据集中，未标注数据与已标注数据的类内最大差异均小于预设的第二阈值，且类间最小差异均大于预设的第一阈值时执行步骤S40，否则基于步骤S20中更新后的所述深度筛选网络模型重复步骤S10、步骤S20；

步骤S40，采用所述深度筛选网络模型，对剩余的未标注样本进行标注；

其中，

所述最具标注价值的未标注样本，包括：类间最具不确定性的未标注样本，以及类内最具差异性的未标注样本；

筛选所述最具标注价值的未标注样本的方法为：

将每个类别中已标注样本与其他不同类别的未标注样本分别比较，选择各不同类别中深度特征差异最小的未标注样本，作为所述类间最具不确定性的未标注样本；

将每个类别中已标注样本与该类别中的未标注样本比较，选择深度特征差异最大的未标注样本，作为所述类内最具差异性的未标注样本；

所述最大信息三元组损失函数为：

其中，γ为间隔因子，表示限定类间最具不确定性和类内最具差异性样本之间结构关系的一个阈值；为正则化项，λ为正则化参数；表示类别i中已标注样本的深度特征；表示已标注样本的深度特征；表示已标注样本的深度特征；w表示筛选网络模型的参数，i＝1，2，…,C，j＝1，2，…,C，且i≠j；D(f_w(x_a),f_w(x_b))表示样本深度特征之间的距离；C为类别的个数，Q为在每一类中随机抽取的已标注样本个数。

本发明提出的数据主动标注方法中，筛选的样本具有最大的信息量，因此是“最大信息”的。

优选地，所述深度特征差异，采用欧几里得距离度量函数进行衡量：

D(f_w(x_a),f_w(yb))＝||f_w(x_a)-f_w(y_b)||

其中，f_w(x_a)、f_w(y_b)分别表示样本x_a、y_b的深度特征；D(f_w(x_a),f_w(y_b))表示两个图像深度特征之间的距离。

优选地，所述类间最具不确定性的未标注样本，用最小距离方法进行筛选：

将最小距离值对应的样本作为类别i和类别j的类间最具不确定性的未标注样本；

所述类内最具差异性的未标注样本，用最大距离方法进行筛选：

将最大距离值对应的样本作为类别i的类内最具差异性的未标注样本；

其中，表示类别i中已标注样本的深度特征；表示类别j中未标注样本的深度特征；表示类别i中未标注样本的深度特征；i＝1，2，…,C，j＝1，2，…,C，且i≠j；C为类别的个数；A_i为类别i中已标注样本的个数；P为在每一类中随机抽取的未标注样本个数。

优选地，所述更新训练数据集，具体为：

将人工标注过的数据集V，合并入已标注的数据集L中；

从未标注的数据集U中，减去所述人工标注过的数据集V。

优选地，步骤S10之前，还包括预处理步骤S0和S1：

步骤S0，在ImageNet(是一个计算机视觉系统识别项目名称，是目前世界上图像识别最大的数据库，是美国斯坦福的计算机科学家模拟人类的识别系统建立的)数据集上预训练，得到所述深度筛选网络模型；

步骤S1，利用所述深度筛选网络模型，对未标注的数据集U粗分类为C个类别，并提取未标注数据集U和已标注数据集L中样本的深度特征。

优选地，步骤S20中“训练并更新所述深度筛选网络模型”，具体为：

用更新后的训练数据集，对所述深度筛选网络模型进行训练，直到同类别内已标注样本之间的差异小于不同类别内已标注样本之间的差异，得到更新后的网络模型参数w；

根据所述更新后的网络模型参数w，更新所述深度筛选网络模型：

其中，L为已标注的数据集；M_w(t-1)表示训练之前的所述深度筛选网络模型，F(L,M_w(t-1))表示在当前数据集L上对模型M_w(t-1)进行更新，M_w(t)表示更新之后的所述深度筛选网络模型。

本发明的另一方面，提出一种基于最大信息三元组筛选网络的数据主动标注系统，基于上面所述的基于最大信息三元组筛选网络的数据主动标注方法；包括：样本筛选单元、数据更新单元、模型更新单元、自动标注单元；

所述样本筛选单元，用于基于所述深度特征和粗分类结果，度量深度特征之间的距离，主动筛选类间最具不确定性和类内最具差异性的未标注样本用于人工标注；

所述数据更新单元，用于根据所述样本筛选单元筛选出的样本及其人工标注结果，更新训练数据集；

所述模型更新单元，用于基于所述最大信息三元组损失函数，在更新后的训练数据集上训练并更新所述深度筛选网络模型；

所述自动标注单元，用于利用所述模型更新单元最终输出的所述深度筛选网络模型对剩余的未标注样本进行计算机自动标注。

优选地，所述数据标注系统还包括：

数据分类和特征提取单元，用于粗分类待标注数据，并提取未标注数据和已标注数据的深度特征。

优选地，所述数据标注系统还包括：

损失函数构建单元，用于根据所述样本筛选单元的输出构建最大信息三元组损失函数。

本发明的有益效果：

本发明通过在ImageNet数据集上预训练的深度筛选网络模型对未标注数据进行粗分类，并提取训练数据集的深度特征；基于深度特征利用欧几里得距离度量函数主动获取类间最具不确定性和类内最具差异性的样本作为最具标注价值的样本，并且组建最大信息三元组损失函数逐步更新数据结构和网络参数，并在更新后的网络参数基础上微调深度筛选网络模型，从而保证在缩减人工标注工作量的同时确保了计算机标注的准确度。

附图说明

图1是本发明数据主动标注方法实施例的流程示意图；

图2是本发明数据主动标注系统实施例的构成示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明实施例的核心思想是基于深度特征利用欧几里得距离度量函数主动获取类间最具不确定性和类内最具差异性的样本作为最具标注价值的样本，并且构建最大信息三元组损失函数逐步更新数据结构和网络参数获得高精度的分类任务，从而保证在缩减人工标注工作量的同时确保了标注准确度。

本发明的基于最大信息三元组筛选网络的数据主动标注方法的实施例，如图1所示，包括以下步骤：

在步骤S10中，根据样本的深度特征，利用深度筛选网络模型结合主动学习筛选最具标注价值的未标注样本进行人工标注，生成人工标注后的数据。

其中，最具标注价值的未标注样本，包括：类间最具不确定性的未标注样本，以及类内最具差异性的未标注样本。

筛选最具标注价值的未标注样本的方法为：

将每个类别中已标注样本与其他不同类别的未标注样本分别比较，选择各不同类别中深度特征差异最小的未标注样本，作为所述类间最具不确定性的未标注样本；将每个类别中已标注样本与该类别中的未标注样本比较，选择深度特征差异最大的未标注样本，作为所述类内最具差异性的未标注样本。

下面举例说明最具标注价值的未标注样本的筛选方法：

假设目前类别个数为C，每个类别中均可能包含已标注样本和未标注样本，在每个类别中均随机抽取P个未标注样本。

(1)类间最具不确定性的未标注样本筛选方法为：

步骤A1，i＝1，将集合V₁置为空；

步骤A2，若i≤C，则j＝1，转至步骤A3；否则结束；

步骤A3，若i＝j，则j++；

步骤A4，若j≤C，则转至步骤A5；否则i++，转至步骤A2；

步骤A5，将类别i中的已标注样本，分别与类别j中已抽取的P个未标注样本逐一比较，选择一对深度特征差异最小的已标注样本和未标注样本，将其中的未标注样本作为类别i与类别j的类间最具不确定性的未标注样本，并存入集合V₁中；

步骤A6，j++；转至步骤A3。

(2)类内最具差异性的未标注样本筛选方法为：

步骤B1，i＝1，将集合V₂置为空；

步骤B2，若i≤C，则转至步骤B3；否则结束；

步骤B3，将类别i中的已标注样本，分别与该类别i中已抽取的P个未标注样本逐一比较，选择一对深度特征差异最大的已标注样本和未标注样本，将其中的未标注样本作为类别i的类内最具差异性的未标注样本，并存入集合V₂中；

步骤B4；i++，转至步骤B2。

将上面得到的集合V₁和V₂合并，记为集合V，即为筛选出的最具标注价值的未标注样本的集合。

这一步本质上是要摒弃计算过程复杂的、需要单独计算信息熵再评比筛选的方法，直接利用深度特征的类内、类间距离衡量找到未标注样本中最具标注价值的样本。因为对人工标注要求的精度较高，所以这里的人工标注需要由本领域的专家来完成。

在步骤S20中，根据所述人工标注后的数据，更新训练数据集，构建最大信息三元组损失函数，并基于更新后的训练数据集和所述最大信息三元组损失函数训练并更新深度筛选网络模型。

构建的最大信息三元组损失函数，如公式(1)所示：

在步骤S30中，当更新后的训练数据集中，未标注数据与已标注数据类内最大差异均小于预设的第二阈值且类间最小差异均大于预设的第一阈值时执行步骤S40，否则基于步骤S20中更新后的所述深度筛选网络模型重复步骤S10、步骤S20。

在步骤S40中，采用深度筛选网络模型，对剩余的未标注样本进行标注。

本实施例中，深度特征差异可以采用欧几里得距离度量函数进行衡量，如公式(2)所示：

D(f_w(x_a),f_w(y_b))＝||f_w(x_a)-f_w(y_b)|| (2)

具体地，类间最具不确定性的未标注样本，用最小距离方法进行筛选，如公式(3)所示：

将最小距离值对应的样本作为类别i和类别j的类间最具不确定性的未标注样本。

类内最具差异性的未标注样本，用最大距离方法进行筛选，如公式(4)所示：

将最大距离值对应的样本作为类别i的类内最具差异性的未标注样本。

本实施例中，训练数据集包括：已标注过的数据集L，以及未标注的数据集U。步骤S20具体包括：

在步骤S22中，将人工标注过的数据集V，合并入已标注的数据集L中。其中，V＝{x_v},v∈[1,K]，K表示数据集V中的样本个数；L＝{x_l}，l∈[1,A]，A为已标注数据集L中包含的样本个数。随着数据集L的更新，A的值逐渐增大。

在步骤S24中，从未标注的数据集U中，减去所述人工标注过的数据集V。其中，U＝{y_u}，u∈[1,B]，B为未标注数据集U中包含的样本个数。随着数据集U的更新，B的值逐渐变小。

在步骤S26中，构建如公式(1)所示的最大信息三元组损失函数。

在步骤S28中，基于更新后的训练数据集和步骤S26中构建的损失函数，对深度筛选网络模型进行训练，直到同类别内已标注样本之间的差异小于不同类别内已标注样本之间的差异，得到更新后的网络模型参数w。

学习参数w的目的就是让同类已标注样本之间的差异小于不同类已标注样本之间的差异，如公式(5)和(6)所示：

其中，分别为所述深度筛选网络模型对已标注样本的分类结果；表示同类已标注样本之间的差异；表示不同类已标注样本之间的差异；i＝1，2，…,C，j＝1，2，…,C，i、j为类别序号，C为类别个数。

在步骤S29中，根据更新后的网络模型参数w，微调深度筛选网络模型，如公式(7)所示：

通过对网络参数w的微调逐渐提高了深度筛选网络模型的识别精度，网络参数w的更新带动筛选网络模型的更替。

本实施例中，步骤S30具体为：

利用公式(7)得到的模型M_w(t)再一次对未标注数据集U执行步骤S10、步骤S20，直至结果满足如公式(8)和(9)所示的要求：

其中，i＝1，2，…,C，j＝1，2，…,C，i、j为类别序号，C为类别个数；P为每个类别中随机抽取的未标注样本个数；表示类别i中已标注样本的深度特征；表示类别i中未标注样本的深度特征；表示类别j中未标注样本的深度特征；α为预设的第一阈值，表示类内最大间隔；β为预设的第二阈值，表示类间最小间隔。

公式(8)和(9)的物理意义是：当在类别i中随机抽取的P个未标注样本中每一个样本与同一类别中各已标注样本之间的最大差距已经小于允许的类内最大间隔，而且，当在类别j中随机抽取的P个未标注样本中每一个样本与类别i中各已标注样本之间的最小差距大于允许的类间最小间隔时，说明未标注样本集中已经没有了具有标注价值的样本，剩余的未标注样本直接可以利用已经训练并更新的深度筛选网络模型进行计算机标注，从而免去人工标注的工作量，并保证了标注工作的质量。

进一步地，本实施例中在步骤S10之前，还包括预处理步骤S0和S1：

在步骤S0中，在ImageNet数据集上预训练，得到所述深度筛选网络模型。

在该步骤中，采用的筛选网络模型是在ImageNet预训练的深度筛选网络模型。采用预训练的网络模型对未标注数据进行下一步的粗分类操作，要比从头训练的网络模型具有更强的分类能力，从而弥补缺少标注数据而不能得到发挥的缺陷。并通过深度筛选网络模型，来捕捉更加鲁棒的深度特征，以对样本进行更好的表达。

在步骤S1中，利用所述深度筛选网络模型，对未标注的数据集U粗分类为C个类别，并提取未标注数据集U和已标注数据集L中样本的深度特征。

数据集Z中包括已正确标注的数据集L＝{x_l},l∈[1,A]和未标注的数据集U＝{y_u},u∈[1,B]。利用预训练的网络模型对未标注数据进行粗分类，可以在每个类别中随机选择P个样本，并提取深度特征。

其中，L＝{x_l}，U＝{y_u}，l∈[1,A]，u∈[1,B]，A、B分别为数据集L和U中包含的样本个数，在更新训练数据集以后，A、B的值均会变化。

构建这个损失函数的目的，是为了充分发挥已筛选数据样本对分类器的优化作用，避免中间复杂的计算过程。最大信息三元组损失函数的物理意义是：经过数据主动筛选之后，得到类内差距最大的样本集和类间差距最小的样本集。这样，通过在全局范围内充分优化两者构建的损失函数，使得同一类内样本深度特征的最大距离足够小，类之间样本深度特征的最小距离足够大。γ作为间隔因子在损失函数中的作用可以使得同一类别中差距最大样本之间的距离和不同类别中差距最小样本之间的距离差至少保持γ的间隔。即最后结果可以很好地对数据集分类，来自同一类样本要比来自不同类的样本距离更近。衡量两个样本类别之间的相似度关系，在深度特征空间的距离越小，说明未标注样本类别与标注样本的类别有越大的概率是相同的。作为正则化项可以防止筛选网络模型在数据不充足的情况下，发生过拟合的现象。

为了优化这一最大信息三元组损失函数，就需要与之匹配的最大信息三元组数据集，但是与以往三元组数据集不同的是，本发明实施例数据集的结构并不是固定的，而是在专家标注的过程中要不断更新数据集结构和最大信息三元组的组合。在一个可选的实施例中，假设V＝{x_v},v∈[1,K]为专家新标注的数据集。L(θ；X)是在不断更新的数据集上进行不断优化，如公式(10)、(11)所示：

L:L∪V→L (10)

U:U\V→U (11)

其中，公式(10)表示将本次人工标注过的数据集V，合并入已标注的数据集L中；公式(11)表示从未标注的数据集U中，减去本次人工标注过的数据集V。

在该数据集L中，对于每个已标注样本会找到一个与该已标注样本同类别的、深度特征距离最大的已标注样本以及与该已标注样本不同类别的、深度特征距离最小的已标注样本这样，样本和就组成一个最大信息三元组。数据集L随着标注过程会不断扩大这种最大信息三元组的数量，从而充分发挥已筛选数据样本对分类器的优化作用。

给定一个深度筛选网络模型M，通过对损失函数不断优化，也会逐渐学习深度筛选网络模型的参数w。

本发明的另一方面，提出一种基于最大信息三元组筛选网络的数据主动标注系统10，基于上面所述的基于最大信息三元组筛选网络的数据主动标注方法；如图2所示，包括：样本筛选单元11、数据更新单元12、模型更新单元13、自动标注单元14；

所述样本筛选单元11，用于基于所述深度特征和粗分类结果，度量深度特征之间的距离，主动筛选类间最具不确定性和类内最具差异性的未标注样本用于人工标注；

所述数据更新单元12，用于根据所述样本筛选单元11筛选出的样本及其人工标注结果，更新训练数据集；

所述模型更新单元13，用于基于所述最大信息三元组损失函数，在更新后的训练数据集上训练并更新所述深度筛选网络模型；

所述自动标注单元14，用于利用所述模型更新单元最终输出的所述深度筛选网络模型对剩余的未标注样本进行计算机自动标注。

进一步地，所述数据标注系统10还包括：

数据分类和特征提取单元15，用于粗分类待标注数据，并提取未标注数据和已标注数据的深度特征。

进一步地，所述数据标注系统10还包括：

损失函数构建单元16，用于根据所述样本筛选单元11的输出构建最大信息三元组损失函数。

上述系统实施例可以用于执行上述方法实施例，其技术原理、所解决的技术问题及产生的技术效果相似，所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤、单元、子系统，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于最大信息三元组筛选网络的数据主动标注方法，其特征在于，包括以下步骤：

步骤S30，当更新后的训练数据集中，未标注数据与已标注数据的类内最大差异均小于预设的第二阈值且类间最小差异均大于预设的第一阈值时执行步骤S40，否则基于步骤S20中更新后的所述深度筛选网络模型重复步骤S10、步骤S20；

其中，

筛选所述最具标注价值的未标注样本的方法为：

所述最大信息三元组损失函数为：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mrow> <mi>&theta;</mi> <mo>;</mo> <mi>L</mi> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>C</mi> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>Q</mi> </munderover> <mrow> <mo>&lsqb;</mo> <mrow> <mi>&gamma;</mi> <mo>+</mo> <munder> <mi>max</mi> <mrow> <mi>s</mi> <mo>=</mo> <mn>1...</mn> <mi>Q</mi> </mrow> </munder> <mi>D</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>f</mi> <mi>w</mi> </msub> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>k</mi> <mi>i</mi> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>f</mi> <mi>w</mi> </msub> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>s</mi> <mi>i</mi> </msubsup> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mo>-</mo> <munder> <mi>min</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>1...</mn> <mi>Q</mi> </mrow> </munder> <mi>D</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>f</mi> <mi>w</mi> </msub> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>k</mi> <mi>i</mi> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>f</mi> <mi>w</mi> </msub> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>n</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow> <mo>&rsqb;</mo> </mrow> <mo>+</mo> <mfrac> <mi>&lambda;</mi> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow>

2.根据权利要求1所述的数据主动标注方法，其特征在于，所述深度特征差异，采用欧几里得距离度量函数进行衡量：

D(f_w(x_a),f_w(y_b))＝||f_w(x_a)-f_w(y_b)||

其中，f_w(x_a)、f_w(y_b)分别表示样本x_a、y_b的深度特征；D(f_w(x_a),f_w(y_b))表示两个样本深度特征之间的距离。

3.根据权利要求2所述的数据主动标注方法，其特征在于，

所述类间最具不确定性的未标注样本，用最小距离方法进行筛选：

4.根据权利要求1所述的数据主动标注方法，其特征在于，所述更新训练数据集，具体为：

将人工标注过的数据集V，合并入已标注的数据集L中；

从未标注的数据集U中，减去所述人工标注过的数据集V。

5.根据权利要求1所述的数据主动标注方法，其特征在于，步骤S10之前，还包括预处理步骤S0和S1：

步骤S0，在ImageNet数据集上预训练，得到所述深度筛选网络模型；

6.根据权利要求5所述的数据主动标注方法，其特征在于，步骤S20中“训练并更新所述深度筛选网络模型”，具体为：

7.一种基于最大信息三元组筛选网络的数据主动标注系统，其特征在于，基于权利要求1-6中任一项所述的基于最大信息三元组筛选网络的数据主动标注方法；包括：样本筛选单元、数据更新单元、模型更新单元、自动标注单元；

8.根据权利要求7所述的数据主动标注系统，其特征在于，还包括：

9.根据权利要求8所述的数据主动标注系统，其特征在于，还包括：