CN112308139A

CN112308139A - 一种基于主动学习的样本标注方法

Info

Publication number: CN112308139A
Application number: CN202011186817.4A
Authority: CN
Inventors: 陈能; 安竹林; 徐勇军; 程坦
Original assignee: Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Current assignee: Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-02-02
Anticipated expiration: 2040-10-29
Also published as: CN112308139B

Abstract

本发明公开了一种基于主动学习的样本标注方法，包括如下步骤：S1、从样本池中随机小样本抽样并标注，得到初始标注样本；S2、采用度量学习计算初始标注样本与待标注样本的特征距离，生成特征距离图，遍历特征距离图，在样本池中寻找与初始标注样本距离小于阈值的样本并抽取出来；S3、将抽取出来的样本再次进行标注并汇入初始标注样本形成样本训练库，以样本训练库为样本集训练检索模型；S4、通过检索模型从样本池中检索出更多的负样本再次进行标注，并汇入样本训练库，形成最终的训练集。本发明采用计算特征距离及图片检索的方式快速抽取样本池中的负样本，在保持模型精度的前提下，大幅度降低标注时间，节约成本，利于工业智能算法的多产线推广。

Description

一种基于主动学习的样本标注方法

技术领域

本发明涉及计算机技术领域，特别涉及一种基于主动学习的样本标注方法。

背景技术

在工业智能算法中，数据是保证模型精度的一个很重要的因素。为了保证模型具有持续稳定的性能，必须在不同产线部署的同时收集训练样本，并且持续训练模型，而随着模型的大范围部署，将产生大量的待标注样本，标注这些样本将耗费昂贵的人工成本并影响算法的上线时间。

发明内容

为解决上述问题，本发明提供了一种基于主动学习的样本标注方法。

本发明采用以下技术方案：

一种基于主动学习的样本标注方法，包括如下步骤：

S1、从样本池中随机小样本抽样，作为主动学习的初始数据集并标注，得到初始标注样本；

S2、采用度量学习计算初始标注样本与待标注样本的特征距离，生成特征距离图，遍历特征距离图，在样本池中寻找与初始标注样本距离小于阈值的样本并抽取出来；

S3、将抽取出来的样本再次进行标注并汇入初始标注样本形成样本训练库，以样本训练库为样本集训练检索模型；

S4、通过检索模型从样本池中检索出更多的负样本再次进行标注，并汇入样本训练库，形成最终的训练集。

进一步地，步骤S2采用余弦相似度来计算所述特征距离，具体如下：

其中，similarity表示特征距离，A为初始标注样本集，B为待标注样本集。

进一步地，所述阈值为0.95-0.98。

进一步地，所述检索模型为Re-ID模型。

进一步地，步骤S4中的所述检索过程具体为：以负样本作为检索图片，所述检索模型从样本池中挑选出与所述检索图片最相似即特征距离最近的前n张图，然后对检索出来的前n张图进行简单的清洗。

进一步地，所述n的取值为5-15。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

本发明采用计算特征距离及图片检索的方式快速抽取样本池中的负样本，在保持模型精度的前提下，大幅度降低标注时间，节约成本，有利于工业智能算法的多产线推广。

附图说明

图1为本发明的流程示意图；

图2为本发明实施例的检索示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，一种基于主动学习的样本标注方法，包括如下步骤：

S1、从样本池中随机小样本抽样，作为主动学习的初始数据集并标注，得到初始标注样本；(由于工业数据的冗余性，抽样时需要尽可能的随机让小样本数据分布和样本池尽可能相似。)

S2、采用度量学习计算初始标注样本与待标注样本的特征距离，生成特征距离图，遍历特征距离图，在样本池中寻找与初始标注样本距离小于阈值的样本并抽取出来，所述阈值为0.96；

本实施例的度量学习为非线性，以VGG网络为框架，对网络做了相应的修改，不在网络内部做两张特征图的相减操作，而是直接把每张图在不同层次的卷积层中得到的特征图进行池化并各自拼接形成特征向量，然后根据该特征向量进行特征距离的计算；

步骤S2采用余弦相似度来计算所述特征距离，具体如下：

其中，similarity表示特征距离，A为初始标注样本集，B为待标注样本集。NumPy是一个开源Python科学计算库，本实施例采用NumPy进行计算，同时摒弃传统的欧式距离，而采用余弦相似度来计算特征距离，支持并发计算，提高了计算的速度。

所述检索模型为Re-ID模型。

步骤S4中的所述检索过程具体为：以负样本作为检索图片，所述检索模型从样本池中挑选出与所述检索图片最相似即特征距离最近的前10张图，然后对检索出来的前10张图进行简单的清洗。

现有的主动学习的查询函数设计准则主要是不确定准则，即想方设法挑选出模型最不确定的样本，因为该样本包含的信息最丰富，对模型训练最有用。现有的主流的做法基本上是评估分类模型最后的分类权值，分类权值越均衡则表示模型对该样本越不确定。如在二分类中，如果模型最后判断正负的置信度都逼近0.5，则该样本对于模型来说是不确定的一类样本。这种做法一定程度上能筛选出不确定样本，但是忽略了一点，即模型最后的分类输出和样本的不确定性并非成严格的比例关系。

其次，在工业场景中虽然能产生大量的数据，但由于品控的因素，在所产生的大量样本中只有少量的负样本，正负样本相差悬殊，极度不平衡。因此我们的基于主动学习算法的标注方法的一个考量是尽可能的抽取出样本池中的负样本出来。

如图2所示，为了便于说明，以Query作为检索图片，Re-ID模型能够从样本池中挑选出与检索图片最相似的图片，即距离最近的前10张图，如此，以负样本作为检索图片，我们就能够从样本池中抽取出更多的负样本，即便其中包含了部分正样本，但由于这些正样本与检索图片(负样本)较为相似，对于模型来说也是易混淆的数据，因此可以作为信息量比较大的样本加入样本训练库。剩下的样本池基本可以考虑丢弃(如果考虑纳入训练样本的话，由于几乎不存在负样本，清洗起来也是特别快)。通过该方法，可以大幅度地缩减数据样本的标注时间，提高模型部署的效率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于主动学习的样本标注方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种基于主动学习的样本标注方法，其特征在于：步骤S2采用余弦相似度来计算所述特征距离，具体如下：

3.如权利要求1所述的一种基于主动学习的样本标注方法，其特征在于：所述阈值为0.95-0.98。

4.如权利要求1所述的一种基于主动学习的样本标注方法，其特征在于：所述检索模型为Re-ID模型。

5.如权利要求1所述的一种基于主动学习的样本标注方法，其特征在于：步骤S4中的所述检索过程具体为：以负样本作为检索图片，所述检索模型从样本池中挑选出与所述检索图片最相似即特征距离最近的前n张图，然后对检索出来的前n张图进行简单的清洗。

6.如权利要求5所述的一种基于主动学习的样本标注方法，其特征在于：所述n的取值为5-15。