CN112149721A

CN112149721A - 一种基于主动学习降低标注需求的目标检测方法

Info

Publication number: CN112149721A
Application number: CN202010945452.2A
Authority: CN
Inventors: 杨育彬; 江彪
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2020-12-29
Anticipated expiration: 2040-09-10
Also published as: CN112149721B

Abstract

本发明提供了一种基于主动学习降低标注需求的目标检测方法，包括：构建网络模型；对大量数据进行符合主动学习特征的初始数据划分；主动选择过程，确定主动选择过程的挑选策略；主动标注，对挑选出来的数据进行人工标注；模型微调，使用新的人工标注数据对模型进行微调；模型验证，依据当前相关条件及模型表现，以决定是否继续迭代模型；利用最后得到的模型进行目标检测。本发明的提供的方法通过引入主动学习，能大大减少目标检测任务所需的数据标注需求，节省标注成本。本发明对传统的主动学习策略进行了优化，添加聚类过程以使得所选样本更接近数据的真实分布，能提升对富信息样本的挑选效果，并有利于模型的性能提升。

Description

一种基于主动学习降低标注需求的目标检测方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于主动学习降低标注需求的目标检测方法。

背景技术

在计算机视觉领域，目标检测，即从图片中准确检测出指定类别目标区域是一个重要问题，它为理解图片提供了前提条件，是语义分割、自动驾驶等高层视觉任务的基础。

但是，目标检测作为一种复杂的监督学习任务，是需要有标注数据来对模型进行监督学习的。现有的目标检测对数据量的需求是非常大的，同时也有着较高的标注质量需求。这直接导致在正式的目标监测任务开始前，将需要花费大量的时间和人力成本来获取标注数据。

主动学习系统尝试解决样本的标注瓶颈，通过主动选择一些最有价值的未标注样本给相关领域的专家进行标注，这样的样本通常蕴含了丰富的信息，并且对模型调优起着很好的作用。通过主动学习能更有针对性的挑选出当前模型无法正确检测的困难样本，这类样本在人工标注后往往能直接促升当前模型的检测性能。

现有的主动学习任务尚存在许多不足之处。具体的，第一，现有主动学习大多应用在图片分类领域，目标检测领域应用较少；第二，现有的主动学习仅采用了不确定性等策略来挑选富样本数据，而忽略了样本的分布，在数据更新的情况下，有可能导致严重的采样偏差，无法反映数据真实的分布情况，从而使得查询的样本不利于提高模型性能。

发明内容

发明目的：本发明提供了一种基于主动学习降低标注需求的目标检测方法，以解决现有的目标检测任务标注数据量与成本过大的问题，且通过在主动挑选策略中添加进一步的聚类再挑选过程，来解决数据变化时如何保证有效提升模型性能的问题。

本发明所述的一种基于主动学习降低标注需求的目标检测方法，包括如下步骤：

步骤1，构建整个主动学习架构：选定合适的子网络，并微调网络结构以组合构建整体的目标检测网络模型，包括但不限于backbone(特征提取骨干)网络(采用resnet-50，一种深度残差网络，参考文献：He K,Zhang X,Ren S,et al.Deep Residual Learning forImage Recognition[C].computer vision and pattern recognition,2016:770-778.)、检测网络(采用faster-rcnn，一种深度卷积网络，参考文献：Ren S,He K,Girshick R,etal.Faster R-CNN:towards real-time object detection with region proposalnetworks[C].neural information processing systems,2015:91-99.)、数据挑选模块(采用Least Confidence，LC，最小置信度，参考文献：华佳燊.深度主动半监督学习的目标检测[D].2019.；Gaussian Mixture Model，GMM，高斯混合模型，参考文献：李航.统计学习方法.清华大学出版社.2012.162-164.)；

步骤2，准备数据：通过对预先采集的数据进行集合划分，构建主动学习所需要的数据组织结构，同时为主动学习过程准备好初始训练数据；

步骤3，模型初始化：对网络模型相关参数进行适当的初始化；

步骤4，主动选择策略指导下的数据采样：选择合适的主动选择策略，接着通过每一轮训练后得到的当前最优模型对未标注数据进行预测，并将预测结果输入主动选择算法，进而挑选出富信息样本；

步骤5，主动标注：对步骤4得到的富信息样本数据，采用专家人工标注的方式得到标注结果；

步骤6，更新训练数据并微调网络：将人工标注后的数据加入训练集中，更新训练集，并在此基础上继续训练前一轮的模型，进而得到当前调整轮次的最优模型；

步骤7，评估模型：根据现有最优模型在测试集上的表现，判断是否继续重复进行主动学习过程，如果继续，返回步骤4，进行新一轮采样、标注、训练，否则，转步骤8；

步骤8，检测模型：使用已训练好的检测模型进行目标检测。

进一步地，本发明中，步骤1包括：

构建整体网络架构：针对图像特征提取部分，选择50层残差神经网络resnet-50(Deep Residual Network，深度残差网络)作为特征提取骨干网络backbone，并将resnet-50网络最后一层的分类输出层删去，来作为本方法中架构的backbone部分，即图像特征提取部分。接着选择faster-rcnn网络(一种深度卷积网络)，去掉其原有的backbone子网络，保留后续的检测网络部分，作为本方法中架构的检测模型部分。将上述处理后的resnet-50网络和faster-rcnn网络分别作为新网络的特征提取骨干网络backbone部分和检测部分，接着，将主动学习中的挑选过程抽象出来，封装成功能函数类，便于后续步骤向其中注入具体算法逻辑，并将其作为主动选择子模块追加在检测部分之后，从而构成整个主动学习网络架构。

进一步地，本发明中，步骤2包括如下步骤：

针对预先采集的数据，将其依据训练集train、测试集test、未标注集unlabelpool三个集合进行划分。

步骤2-1，针对预先采集的数据，根据3:7的比例划分出两组数据，将比例为3的数据放入测试集test，作为测试数据，此部分数据作为模型测试数据，是带有标注的样本；将比例为7的数据放入未标注集unlabelpool，作为未标注样本；

步骤2-2，在步骤2-1的基础上，从unlabelpool集中挑选出10％的数据，经专家人工标注后放入训练集train，作为初始训练样本，unlabelpool集保留剩余90％未标注样本。

进一步地，本发明中，步骤3包括：

对backbone网络和目标检测网络部分进行参数初始化。对于步骤1构建的网络模型，resnet-50组成的backbone子网络和faster-rcnn组成的检测网络部分包含深度学习结构，对相关参数进行初始化有利于加快模型收敛速度。针对backbone部分，由于其主要进行特征提取任务，本方法采用在COCO数据集上进行分类任务得到的模型对其进行参数初始化。对于检测部分的faster-rcnn网络，采用随机初始化的方式对参数进行初始化。其中COCO(Common Objects in Context，通用目标数据集，参考文献：Lin T,Maire M,BelongieS,et al.Microsoft COCO:Common Objects in Context[C].european conference oncomputer vision,2014:740-755.)是微软开源的图像数据集。

在上述三大初始化过程之后，模型将进入迭代更新阶段，包括初始轮次在内，主动学习每一轮迭代运行过程首先进行数据挑选，因此步骤4包括：

步骤4-1，如果当前是初始训练轮次，表示还没有当前最优模型，也即无法针对模型对数据的反馈来进行主动的数据采样，此时，主动选择策略选择随机挑选策略，即直接采用随机采样的方法，将具体算法逻辑注入步骤1中主动学习子模块中，并利用当前算法策略在unlabelpool集中采样10％数据，并直接跳过后续子步骤进入步骤5的主动标注过程；

步骤4-2，若当前不是初始训练轮次，则主动选择策略采用不确定策略中的最小置信度采样(Least Confidence，LC)LC算法，并向目标检测任务进行算法迁移，LC算法通过计算所有样本的不确定度，最终采样不确定度最高的样本，最初用于图像分类，针对检测任务需做算法拓展。分类任务中，通过下式挑选不确定样本：

其中

表示对于给定的样本x，通过模型预测得到的各类别分类分数中最高的类别，

即为所述类别的预测分数；

为所述样本x的不确定度；p^m为类别m的预测分数；C为类别全集；

是样本全集；LC算法这里只关注模型预测最好的单个类别的分类分数，若分数较低，则认为模型对该样本的预测最不确定，即置信度最小，从而采样该样本。

将最小置信度LC采样策略迁移到目标检测任务中，其拓展公式如下：

其中

表示对于给定输入x样本，通过模型预测得到第k个候选目标所属的类别；

为第k个候选目标预测为m类的概率；

即为第k个目标预测为

类的概率；

之后，将具体算法逻辑注入步骤1中的主动学习子模块中，并利用当前算法每次采样unlablepool集中10％的数据。

通过先计算所有候选目标的不确定度，再从N_b个候选目标中挑选不确定度最大的目标对应的不确定度分数作为对应整张图像的分数，最终采样不确定度最大(即置信度最小的)的图像样本；步骤4-3，对test集中的图像数据进行PCA(principal componentsanalysis，参考文献：周志华.机器学习.清华大学出版社.2016.229.)，即主成分分析，将三维的图像数据映射到一个高维空间中进行表示。首先将图像打平成一维数组表示，将其看作一种高维数据；接着对数据进行中心化操作；最后使用SVD(Singular ValueDecompositionm，参考文献：T.S.Huang and P.M.Narendra,"Image Restoration bySingular Value Decom-position",Applied Optics,Vol.14,No.9,September,pp 2213-2216,(1975).)，即奇异值分解，对中心化后的数据进行降维，即剔除一些冗余维度数据，只保留能反映图像特征的特征维度；此外，如果数据个数小于向量的维数，本方法将不会采用SVD奇异值分解，而是计算维数更小的协方差矩阵XX^T的特征向量，X为数据矩阵，每一行代表一条样本数据，X^T是矩阵X的转置；此过程会将原始图像数据映射到一个高维空间，在此高维空间通过主成分表示原始图像数据。同时生成一个投影矩阵，保留此投影矩阵作为后续图像数据到高维空间映射的转换矩阵；

步骤4-4，通过聚类操作，在通过最小置信度采样算法采样得到的10％数据中进一步得到其中靠近聚类中心的数据(这里选取10％的一半，即unlabelpool的5％)，作为最终的采样数据。聚类算法采用高斯混合聚类(Gaussian Mixture Model，GMM)模型，高斯模型概率密度分布函数φ(x|θ)为：

其中x为输入数据，μ为数据均值(期望)，σ为数据标准差，θ＝(μ，σ²)。

单个高斯模型(GSM)混合组成高斯混合模型GMM(Gaussian Mixture Model)，每个GSM称为GMM的一个聚类簇component，即组成成分，GMM使用分布公式：

即为K个高斯分布的和，其中α_k是样本集合中k类被选中的概率，每个高斯分布有属于自己的μ和σ参数，以及对应的权重参数，权重参数必须为正数；

高斯混合聚类算法首先以test集为样本数据学习其数据分布，得到GMM模型。之后将通过LC策略挑选出的10％的数据经由步骤4-3的投影矩阵映射到test集数据相同的高维空间，取其各自对应的高维向量输入GMM模型，得到当前数据在整体数据中的数据分布情况，并根据返回的各聚类簇距离选择距离最近的一半数据(即整个unlabelpool数据的5％)作为最终的采样结果。

数据挑选过程从unlabelpool中得到的数据是未标注的，所以需要人工标注，因此步骤5包括：

通过步骤4挑选出既能对当前模型造成较高预测不确定度，又同时符合当前测试数据总体特征分布的富信息样本(若是初始训练轮次，则仅是一批随机采样数据)。将将步骤4得到的采样结果从unlabelpool集中取出，经由专家使用标注工具进行标注，生成对应的标注文件，专家标注结果将作为真实的标注ground truth，又称为真值。

标注后得到的标注数据归并后将有效指导模型调整方向，因步骤6包括：

将步骤5中从unlabelpool集中取出的经由专家人工标注的数据连同标注文件加入到train集中，更新当前数据分布，并开始训练。如果当前是初始训练轮次，则直接训练；如果当前不是初始轮次，则需要加载前一轮主动学习过程得到的最优模型，并在此模型上继续训练进行模型微调。一般主动学习依据数据量的多少会选择在每一轮次训练多少个epoch(单轮迭代次数)，本方法设定为每轮训练8个epoch，前3个epoch的学习率(lr)设为0.001，后5个epoch的lr设为0.0001以期收敛，每轮选择8个epoch中最优的模型作为当前轮次的最优模型。

主动学习由于人工参与导致模型是根据人工参与轮次逐轮优化的，需要人工判断是否进行终止，因此步骤7包括：

根据步骤6微调模型过程得到的新最优模型是否相比于前面轮次的最优模型有所提升，以及当前最优模型是否达到指定性能要求，或者是当前资源不足以支持继续进行人工标注，来判断是否继续重复主动训练过程：即重复步骤4～步骤6。如果满足条件则停止，输出最终的模型。

最后得到最优模型，因此步骤8包括：

部署已训练好的检测模型，输入图像数据进行前向传播，最后通过后处理算法输出预测的目标框，实现实际推断预测。

由以上技术方案可知，本发明方法，包括：步骤1，网络结构初始化；步骤2，数据初始化，准备初始数据及划分；步骤3，参数初始化，初始化网络参数；步骤4，使用LC、GMM算法进行主动数据采样；步骤5，专家人工标注；步骤6，迭代训练，更新数据并微调网络；步骤7，模型及迭代评估，确定是否继续迭代训练；步骤8，模型检测运用。

有益效果：本方法相比于现有的目标检测方法，通过人工参与训练过程，并通过主动选择算法，选择具有更典型以及更丰富信息的数据样本，进而能更有效的指导模型调优，在达到同样模型性能的情况下，仅使用了50％左右的标注数据，大大节省了标注成本。本方法相比于现有的主动学习方法，在主动挑选策略中添加GMM聚类过程，进而选择靠近聚类中心的数据，能考虑到数据动态变化带来的数据分布变化对模型的影响，从而更有利于模型性能提升。且本方法将主动选择策略模块设计拆分在目标检测模块之后，能方便的更换主动选择策略而不需要修改网络结构。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1是本发明实施例部分提供的一种基于主动学习降低标注需求的目标检测方法的总体网络架构示意图；

图2是本发明实施例部分提供的一种基于主动学习降低标注需求的目标检测方法中总体逻辑示意图；

图3是本发明实施例部分提供的一种基于主动学习降低标注需求的目标检测方法的某个测试轮次的当前模型指标及主动选择效果对比图；

图4是本发明实施例部分提供的一种基于主动学习降低标注需求的目标检测方法的工作流程示意图；

图5是本发明实施例部分提供的一种基于主动学习降低标注需求的目标检测方法中最终模型目标检测效果图。

图6是主动学习轮次实验结果示意图。

具体实施方式

发明实施例公开一种基于主动学习降低标注需求的目标检测方法，本方法应用于需要降低数据标注量或者在只有少量标注数据的情况下对大量无标注数据进行目标检测的场景。该方法适用于不同的要求的硬件平台，可以通过人工参与来有效减少检测模型的数据标注需求，仅需要普通目标检测任务50％左右的标注量便可达到相似的模型性能，同时能够通过聚类来靠近当前数据分布。本发明提出了新的目标检测方法，总体逻辑和工作流程如图2、图4所示，主要分为三大阶段：第一阶段，准备工作，包括架构、数据、参数的初始化；第二阶段：迭代更新工作，包括主动数据采样、标注、数据更新与模型微调；第三阶段，输出工作，包括输出模型并进行目标检测。本发明实施例所述的一种基于主动学习降低标注需求的目标检测方法具体构建步骤如下：

步骤1，网络模型构建：选定合适的子网络，并微调网络结构以组合构建整体的目标检测网络模型。Backbone(骨干)网络采用resnet-50，一种深度残差网络，主要用于图片特征提取；检测网络采用faster-rcnn，一种深度卷积网络，来进行训练过程中的目标框回归和目标分类任务；数据挑选模块采用LC(Least Confidence最小置信度)、GMM(GaussianMixture Model，高斯混合模型)依次进行不确定性挑选和数据分布特性再挑选，总体网络结构如图1所示，其中x代表上层输入，F(x)表示输出函数，weight layer代表一般卷积层，relu表示激活操作，conv代表卷积操作，maxpool代表最大池化操作，str代表卷积核移动步长，avgpool代表平均池化操作，Generate Anchors代表产生的待测目标框，NMS代表非极大值抑制操作，train、test、unlabelpool依次代表训练、测试、未标注集合；

Resnet-50是一种引入了残差模型的深度学习网络。在多层网络中进行图片的特征提取归纳操作，会导致高层神经层忽略图片底层信息(如纹理、边缘等)，通过引入残差模块，部分低层卷积层输出会直接略过后面基层传递到更后面的卷积层，后面层相当于同时考虑了图片的低级特征和高级特征，避免了特征信息丢失。Faster-rcnn是一种深度卷积网络，主要用来执行目标检测任务，除了基本的特征提取模块，faster-rcnn还包括RPN(Region Proposal Network，目标区域生成网络)和ROIHead(兴趣区域网络头部)部分，RPN是候选区域推荐网络，利用不同尺寸的Anchor(1:1,1:2,2:1)即锚目标框，在特征图上挑选潜在的候选目标区域，ROIHead包含目标框回归和分类预测功能，faster-rcnn利用RPN推荐的区域进行训练检测并同时反馈调整RPN网络的参数以生成更精确的候选目标区域。

步骤2，数据准备：采集相关训练数据，接着通过对预先采集的数据进行集合划分，构建主动学习所需要的数据组织结构，最后为主动学习过程准备好初始训练数据；

步骤3，模型初始化：对模型网络参数进行适当的初始化，具体分为网络参数初始化和训练参数初始化。网络参数初始化：一开始构造的网络结构各神经元参数为空，深度学习模型往往采用梯度下降的方式来寻求最优点，好的初始化操作能大大节省模型在初期优化时的性能表现；训练参数初始化：训练参数是指模型训练过程中的指标及各类阈值设置，用来指导模型在各个部分遵循何种标准执行训练过程，例如训练轮次、候选目标挑选阈值、学习率等。

步骤4，主动选择策略指导下的数据采样：本方法选择不确定度算法和高斯混合模型的组合作为主动选择策略，接着通过前一轮训练得到的当前最优模型对未标注数据进行预测，并将预测结果输入主动选择算法，进而挑选出富信息样本；

步骤5，主动标注：对经由主动挑选策略采样得到的富信息样本数据，采用专家人工标注的方式得到标注结果；

步骤6，更新训练数据并微调网络：将人工标注后的数据加入训练集中，更新训练集，并在此基础上继续训练前一轮得到的模型，进而得到当前调整轮次的最优模型；

步骤7：模型评估：根据现有最优模型在测试集上的表现，判断是否继续进行主动学习过程，如果继续，返回步骤4，进行新一轮采样、标注、训练，否则，进入步骤8；

步骤8：模型检测：使用所述已训练好的检测模型进行目标检测。

本发明中，所述步骤1包括：

首先将resnet-50网络最后的分类输出层(一层1x1的卷积层)删去，来作为本方法中架构的backbone部分，即图像特征提取部分。接着选择faster-rcnn网络，去掉其原有的backbone子网络，保留后续的检测网络，作为本方法中架构的检测模型部分。此外，将主动学习中的挑选过程抽象出来，封装成功能函数类，便于后续步骤向其中注入具体算法逻辑，并将其作为主动选择子模块的公共逻辑代码追加在检测部分之后，从而构成整个主动学习网络架构。

本方法中以上两种网络均基于pytorch深度学习框架实现。主动数据挑选模块不包含神经网络结构，本方法遵循模块化思想，将主动挑选策略算法与聚类算法抽象成两个单独的python函数，函数间通过参数传递图片挑选结果。这样能方便更换主动挑选策略算法和聚类算法。

本发明中，所述步骤2包括：

步骤2-2，在步骤2-1的基础上，从unlabelpool中挑选出10％的数据，经专家人工标注后放入训练集train，作为初始训练样本，unlabelpool保留剩余90％未标注样本。

本方法中的人工数据标注遵循Pascal VOC(参考文献：Mark Everinggham,LucVan Gool,Christopher KI Williams,John Winn,Andrew Zisserman.The pascal visualobject classes(voc)challenge[J].International journal of computer vision,2010.88(2):303-338.)标注数据格式，即典型的XML结构的信息组合方式。

本发明中，所述步骤3包括：

首先对backbone网络和目标检测网络部分进行参数初始化。对于步骤1构建的网络模型，resnet-50组成的backbone子网络和faster-rcnn组成的检测网络部分包含深度学习结构，对相关参数进行初始化有利于加快模型收敛速度。针对backbone子网络，由于其主要进行特征提取任务，本方法采用在COCO数据集上进行分类任务得到的模型对其进行参数初始化。对于faster-rcnn检测网络部分，采用随机初始化的方式对参数进行初始化。其中COCO(Common Objects in Context)是微软开源的图像数据集。接着初始化训练参数，本方法中主要的训练参数初始设置如下：主动学习轮次设置为10次，每一轮挑选unlabelpool中5％的数据(初始轮次挑选10％)，每一轮次训练8个epoch(单轮迭代次数)，其中前3个epoch学习率设为0.001，后5个epoch学习率设为0.0001，不确定度计算时目标框阈值设为0.3，不确定样本与困难样本采样比设为1:3。

本发明中，所述步骤4包括：

步骤4-1，若当前是初始训练轮次，意味着还没有当前最优模型，也即无法针对模型对数据的反馈来进行主动的数据采样。此时，主动选择策略选择随机挑选策略，即直接采用随机采样的方法，将具体算法逻辑注入步骤1中主动学习子模块中，并利用当前算法策略在unlabelpool中采样10％数据，并直接跳过后续子步骤进入步骤5的主动标注过程；

步骤4-2，若当前不是初始训练轮次，则主动选择策略采用不确定策略中的最小置信度采样(Least Confidence，LC)算法，并向目标检测任务进行算法迁移。LC算法本来是用于多分类任务的一种不确定性采样策略，将其迁移到目标检测任务中，其不确定度计算公式如下：

其中

表示对于给定输入x样本，通过模型预测得到第k个候选目标所属的类别，C为类别总数，

为第k个候选目标预测为m类的概率，

即为第k个目标预测为

类的概率，

是样本全集。不确定度代表了当前模型对候选目标检测结果的置信程度，不确定度越高，代表当前模型对当前候选目标的检测能力越差。

之后，将具体算法逻辑注入步骤1中的主动学习子模块中，并利用当前算法每次采样unlablepool集中10％的数据。对待测图片，本方法先通过当前模型对图片进行目标检测，并设定候选目标框的输出阈值为0.3(即只对检测概率大于0.3的框进行输出)，得到整张图片上所有的候选检测框。然后根据检测概率利用上式计算每个检测框所代表的候选目标的不确定度，最后选取最高的不确定度作为整张图片的不确定度。另外，考虑到初期模型效果较差，可能对某些图片无法产生大于0.3阈值的检测框，导致整张图片无检测结果，本方法称这类图片为困难样本，当前模型无法对其做出有效反馈(即有可能是图片问题，也有可能是模型检测性能缺陷)。综合考虑两者，本方法在不确定度采样过程中，通过1:3的比例采样不确定样本和困难样本(若困难样本数量较少，将剩余数据差额分配给不确定样本)；

步骤4-3，对test集中的图像数据进行PCA(principal components analysis)，即主成分分析，将三维的图像数据映射到一个高维空间中进行表示。首先将图像打平成一维数组表示，将其看作一种高维数据；接着对数据进行中心化操作；最后使用SVD(SingularValue Decompositionm)，即奇异值分解，对中心化后的数据进行降维，即剔除一些冗余维度数据，只保留能反映图像特征的主要特征维度；此外，如果数据个数小于向量的维数，本方法将不会采用SVD分解，而是计算维数更小的协方差矩阵XX^T(X为数据矩阵，每一行代表一条样本数据，X^T是矩阵X的转置)的特征向量。此过程会将原始图像数据映射到一个高维空间，在此空间通过主成分表示原始图像数据。同时生成一个投影矩阵，保留此矩阵作为后续图像数据到高维空间映射的转换矩阵；

步骤4-4，通过聚类操作，在通过最小置信度(LC)算法采样得到的10％数据中进一步得到其中靠近聚类中心的数据(这里选取10％的一半，即unlabelpool的5％)，作为最终的采样数据。聚类算法采用高斯混合聚类(Gaussian Mixture Model，GMM)模型，高斯模型概率密度分布函数：

单个高斯模型(GSM)混合组成高斯混合模型(GMM)，每个GSM称为GMM的一个component(组成成分)，GMM使用分布公式：

高斯聚类算法首先以test集为样本数据学习其数据分布，得到GMM模型，本方法在聚类过程中设置聚类中心数初始设为5。之后将通过最小置信度(LC)策略挑选出的10％的数据经由步骤4-3的投影矩阵映射到test集数据相同的高维空间，取其各自对应的高维向量输入GMM模型，返回当前样本距离各聚类簇中心的距离。本方法不考虑聚类簇的区分，选择各聚类簇距离中最近的作为当前样本在现有数据中的聚类距离。对LC选出的10％数据聚类距离进行排序，并从中挑选最近的一半数据(即整个unlabelpool数据的5％)作为最终的采样结果，其中附图3展示了在第五轮(30％标注)的一种采样效果，其中AP(AveragePrecision，平均准确度)较低表示当前模型对该类别检测效果较差，因此会挑选更多包含该类别的图片数据，结果正是如此。

在本发明实施例所述的步骤4中，本发明与现有的主动学习策略不同之处在于：由于训练和测试数据集可能会发生动态的变化，现有策略只依赖于模型自身的不确定性评判结果，而忽略了数据分布的改变，可能会导致挑选出来的样本还是在原数据集标准下的反馈结果。所以本发明实施例通过加入GMM(高斯混合模型)聚类过程同时考虑了数据分布特征，来避免这种现象。

本发明中，所述步骤5包括：

通过步骤4挑选出既能对当前模型造成较高预测不确定度，又同时符合当前测试数据总体特征分布的富信息样本(若是初始训练轮次，则仅是一批随机采样数据)。将这些缺乏标注的样本从unlabelpool集中取出，经由专家使用标注工具进行标注，生成对应的标注文件，专家标注结果将作为ground truth(真实标注，亦称真值)。本方法采用labelme标注工具进行标注，生成Pascal VOC格式的标注文件。

本发明中，所述步骤6包括：

将步骤5中从unlabelpool中取出的经由专家人工标注的数据连同标注文件加入到train集中，更新当前数据分布，并在更新后的数据集上载入模型并进行训练。若当前是初始训练轮次，则直接训练；若当前不是初始轮次，则需要加载上次主动学习过程得到的最优模型，并在此模型上继续训练进行模型微调。虽然训练数据动态增长，但本方法并不更改训练epoch(单轮迭代次数)，依据总数据量，本方法设定每轮训练8个epoch，前3个epoch的学习率(lr)设为0.001，后5个epoch的lr设为0.0001以期收敛，每轮选择8个epoch中最优的模型作为当前轮次的最优模型。若数据样本差距过大，主动学习过程中可调整聚类中心数已获得更好的分布结果，本方法实施例并不做修改。

本发明中，所述步骤7包括：

主动学习迭代过程可以动态的根据当前效果来决定是否停止，其评判指标通常包含以下三点：第一，新的最优模型是否相比于前面轮次的最优模型有所提升；第二，当前最优模型是否达到指定性能要求；第三，当前资源是否足以支持继续进行人工标注和训练。迭代过程即重复：步骤4、步骤5、步骤6，若满足条件则停止，输出最终的模型，相比于普通的目标检测任务，主动学习能动态的决定标注量的多少，而不必事先实现所有标注，是一种弹性的模型训练方式。

本发明中，所述步骤8包括：

部署所述已训练好的检测模型，输入图像数据进行前向传播，最后通过后处理算法输出预测的目标框，实现实际推断预测，图5展示了部分实际检测效果。

实施例：

本发明采用上述方案，在实际项目上取得了令人满意的效果。本发明所应用的实际项目采用自主收集的图片进行目标检测，包含常见的行人和汽车等类别。数据集初始划分时，共含有688张test(测试)图片，1447张unlabelpool(未标注)图片，160张train(训练)图片。

具体实现如下：

步骤1，模型初始化，构建总体网络模型。选定局部子网络，特征提取backbone(骨干网络)采用resnet-50，目标检测选择faster-rcnn，主动采样模块采用最小置信度(LC)和高斯混合模型(GMM)算法自行开发。然后根据实际项目需求对网络细节做出调整，组合成总体模型，采样模块遵循模块化开发的思想。

步骤2，数据初始化，数据准备和初始数据结构划分。采集相关训练数据，接着通过对预先采集的数据依据主动学习策略要求进行集合划分，最后为主动学习过程准备好初始训练和测试数据；

步骤3，参数初始化，合理对网络参数和训练参数进行初始设置。具体如下：

(1)对网络参数初始化：一开始构造的网络结构各神经元参数为空，之后在不断训练的过程中更新调整，好的初始化操作能大大节省模型在初期优化时的性能表现。本方法采用迁移学习思想对backbone网络进行参数初始化，即将在COCO训练集上训练好的模型参数迁移到backbone中；本方法采用随机指定参数的方式对检测网络进行初始化。

(2)训练参数初始化：训练参数是指模型训练过程中的算法参数及各类阈值设置，用来指导模型在各个部分遵循何种标准执行训练过程，例如训练轮次、候选目标挑选阈值、学习率等。本方法通过经验判断的方式对训练参数进行初始化，之后可能会依据训练表现有所调整。

步骤4，主动选择策略指导下的数据采样。本方法选择不确定度算法和高斯混合模型的组合作为主动选择策略，具体采样过程如下：

(1)若当前是初始训练轮次，是无法根据模型预测结果来进行不确定度计算。此时，采取随机采样的方式从unlabelpool中采样10％数据，并跳过后续过程。

(2)若当前不是初始轮次，则根据上一轮次得到的最优模型计算unlabelpool数据的不确定度，不确定策略算法LC(Least Confidence)的不确定计算公式如下：

其中

为第k个候选目标预测为m类的概率，

即为第k个目标预测为

类的概率，

是样本全集。不确定度代表了当前模型对候选目标检测结果的置信程度，不确定度越高，代表当前模型对当前候选目标的检测能力越差。具体计算过程包括：1)利用当前最优模型检测图片，输出候选预测框，利用LC(最小置信度)算法计算所有候选框的不确定度；2)选择最高的不确定度作为整张图片的不确定度；3)对unlabelpool中所有数据执行1)、2)操作；4)挑选不确定度最高的10％数据。

(3)对test集中的图像数据进行主成分分析(PCA)，将三维的图像数据映射到一个高维空间中进行表示，并获得转换矩阵。具体计算过程包括：1)将图像打平成一维数组表示，将其看作一种高维数据；2)对数据进行中心化操作；3)使用奇异值分解(SVD)或计算协方差矩阵的特征向量来对中心化后的数据进行降维，同时生成转移矩阵。

(4)将(3)生成的图片数据的高维特征向量，作为GMM(高斯混合)模型的输入来进行聚类，得到test集数据的聚类模型，之后将(1)、(2)得到的10％数据输入聚类模型并根据输出进一步筛选其中靠近聚类中心的数据(这里选取10％的一半，即unlabelpool的5％)，作为最终的采样数据。高斯混合聚类(GMM)模型分布公式：

即为K个高斯分布的和，其中α_k是样本集合中k类被选中的概率，

是单个高斯模型的密度分布，每个高斯分布有属于自己的μ和σ参数，以及对应的权重参数，权重参数必须为正数。

步骤5，主动标注：对经由步骤4采样得到的数据，将其从unlabelpool中摘除出来，通过标注工具labelme，人工手动进行标注得到Pascal VOC格式的标注结果文件；

步骤6，更新训练数据并微调网络：将人工标注后的数据连同标注文件加入到train集中，更新当前数据分布，并在更新后的数据集上载入模型进行训练。若当前是初始训练轮次，则直接训练；若当前不是初始轮次，则需要加载上次主动学习过程得到的最优模型参数，继续微调训练。通过步骤4、5、6的迭代训练过程，本方法主动学习过程总的数据标注量逐轮增加，分别为：10％、15％、20％、25％、30％、35％、40％、45％、50％、55％。

步骤7，模型评估及迭代判断。根据以下三种评判指标判断是否终止训练过程：1)新的最优模型是否相比于前面轮次的最优模型有所提升；2)当前最优模型是否达到指定性能要求；3)当前资源是否足以支持继续进行人工标注和训练。若满足条件则停止，输出最终的模型，通过此过程达到标注量和性能需求之间的平衡。

步骤8，模型检测：使用所述已训练好的检测模型进行目标检测。本方法在实际项目中的结果如图6所示：其中纵坐标表示所有类别的平均AP(Mean Average Precision，mAP，平均正确率)，横坐标代表使用的标注数据量。

由图6可知，在主动学习目标检测算法中，本发明实施例所述的方法在仅使用45％左右标注数据量时，模型基本就收敛了，得到了与传统目标检测算法相近的性能指标(使用全部数据训练得到的最终AP为0.86)。

由以上技术方案可知，本发明实施例提供一种基于主动学习降低标注需求的目标检测方法，包括：模型初始化，选定子网络组合总体逻辑网络；数据初始化，收集数据进行数据划分并准备初始训练数据；参数初始化，初始化模型的网络和训练参数；主动选择策略指导数据采样；专家人工标注；训练数据更新和网络微调；模型评估；使用已训练好的模型进行目标检测。

现有技术中，目标检测相关的学习任务尚存在许多不足之处：1)现有主动学习大多应用在图片分类领域，目标检测领域应用较少；2)目标检测任务普遍需求大量的标注数据，成本较大；3)现有的主动学习仅采用了不确定性等策略来挑选富样本数据，而忽略了样本的分布，在数据更新的情况下，有可能导致严重的采样偏差，无法反映数据真实的分布情况，从而使得查询的样本不利于提高模型性能。而采用前述方法，将分类领域的不确定策略算法向检测领域迁移，并通过在不确定度采样后添加进一步的聚类采样过程，解决了无法在数据变化的情况下有效更新模型的问题。并且通过模块化的模型构建，提供灵活的子网络和主动选择算法组合方式。在主动学习目标检测方面取得了令人满意的实验结果。因此，相较于现有技术，本方法灵活性好、需要的数据标注量少、模型训练简单且实用性高。

本发明提供了一种基于主动学习降低标注需求的目标检测方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于主动学习降低标注需求的目标检测方法，其特征在于，包括如下步骤：

步骤1，构建整个主动学习网络架构；

步骤3，模型初始化：对网络模型相关参数进行初始化；

步骤5，主动标注：对步骤4得到的富信息样本数据，采用专家标注的方式得到标注结果；

步骤6，更新训练数据并微调网络：将标注后的数据加入训练集中，更新训练集，并在此基础上继续训练前一轮的模型，进而得到当前调整轮次的最优模型；

步骤7，评估模型：根据现有最优模型在测试集上的表现，判断是否继续进行主动学习过程，如果继续，返回步骤4，进行新一轮采样、标注、训练，否则，进入步骤8；

步骤8，检测模型：使用已训练好的检测模型进行目标检测。

2.根据权利要求1所述的方法，其特征在于，步骤1包括：

针对图像特征提取部分，选择50层残差神经网络resnet-50作为特征提取骨干网络backbone，将resnet-50网络最后一层的分类输出层删去，接着选择faster-rcnn网络，去掉其原有的backbone子网络，保留后续的检测网络部分；将上述处理后的resnet-50网络和faster-rcnn网络分别作为新网络的特征提取骨干网络backbone部分和检测部分，接着，将主动学习中的挑选过程抽象出来，封装成功能函数类，并将其作为主动选择子模块追加在检测部分之后，从而构成整个主动学习网络架构。

3.根据权利要求2所述的方法，其特征在于，步骤2包括如下步骤：

步骤2-2，在步骤2-1的基础上，从unlabelpool集中挑选出10％的数据，经标注后放入训练集train，作为初始训练样本，unlabelpool集保留剩余90％未标注样本。

4.根据权利要求3所述的方法，其特征在于，步骤3包括：

对于步骤1构建的网络模型，针对backbone部分，在COCO数据集上进行分类任务得到的模型对其进行参数初始化；对于检测部分的faster-rcnn网络，采用随机初始化的方式对参数进行初始化。

5.根据权利要求4所述的方法，其特征在于，步骤4包括以下步骤：

步骤4-2，如果当前不是初始训练轮次，则主动选择策略采用不确定策略中的最小置信度采样LC算法，并向目标检测任务进行算法迁移；

分类任务中，通过下式挑选不确定样本：

其中

即为所述类别的预测分数；

是样本全集；

其中

为第k个候选目标预测为m类的概率；

即为第k个目标预测为

类的概率；

通过先计算所有候选目标的不确定度，再从N_b个候选目标中挑选不确定度最大的目标对应的不确定度分数作为对应整张图像的分数，最终采样不确定度最大，即置信度最小的图像样本；步骤4-3，对test集中的图像数据进行PCA主成分分析，将三维的图像数据映射到一个高维空间中进行表示：首先将图像打平成一维数组表示，将其看作一种高维数据；接着对数据进行中心化操作；最后使用SVD奇异值分解，对中心化后的数据进行降维，只保留能反映图像特征的特征维度；如果数据个数小于向量的维数，将不采用SVD奇异值分解，而是计算维数更小的协方差矩阵XX^T的特征向量，X为数据矩阵，每一行代表一条样本数据，X^T是矩阵X的转置；此过程会将原始图像数据映射到一个高维空间，在此高维空间通过主成分表示原始图像数据，同时生成一个投影矩阵，保留此投影矩阵作为后续图像数据到高维空间映射的转换矩阵；

步骤4-4，通过聚类操作，在通过最小置信度采样算法采样得到的10％数据中进一步得到其中靠近聚类中心的数据，作为最终的采样数据，聚类算法采用高斯混合聚类模型，高斯模型概率密度分布函数φ(x|θ)为：

其中x为输入数据，μ为数据均值，σ为数据标准差，θ＝(μ，σ²)；

单个高斯模型GSM混合组成高斯混合模型GMM，每个GSM称为GMM的一个聚类簇component，GMM使用分布公式：

高斯混合聚类算法首先以test集为样本数据学习其数据分布，得到GMM模型，之后将通过LC策略挑选出的10％的数据经由步骤4-3的投影矩阵映射到test集数据相同的高维空间，取其各自对应的高维向量输入GMM模型，得到当前数据在整体数据中的数据分布情况，并根据返回的各聚类簇距离选择距离最近的一半数据作为最终的采样结果。

6.根据权利要求5所述的方法，其特征在于，步骤5包括：

将步骤4得到的采样结果从unlabelpool集中取出，经由标注工具进行标注，生成对应的标注文件，标注文件将作为真实的标注ground truth。

7.根据权利要求6所述的方法，其特征在于，步骤6包括：

将步骤5中从unlabelpool集中取出的经由标注的数据连同标注文件加入到train集中，更新当前数据分布，并开始训练，如果当前是初始训练轮次，则直接训练；如果当前不是初始轮次，则需要加载前一轮主动学习过程得到的最优模型，并在此模型上继续训练进行模型微调。

8.根据权利要求7所述的方法，其特征在于，步骤7包括：

根据步骤6微调模型过程得到的新最优模型是否相比于前面轮次的最优模型有所提升，以及当前最优模型是否达到指定性能要求，或者是当前资源不足以支持继续进行标注，来判断是否继续重复主动训练过程：即重复步骤4～步骤6；若满足条件则停止，输出最终的模型。

9.根据权利要求8所述的方法，其特征在于，步骤8包括：