CN115393664A

CN115393664A - 一种用于目标检测的主动学习样本挑选方法

Info

Publication number: CN115393664A
Application number: CN202210897312.1A
Authority: CN
Inventors: 阮系标; 宋海川; 马利庄
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-25

Abstract

本发明公开了一种用于目标检测的主动学习样本挑选方法，其特点是采用主动学习的方法，在每轮利用目标检测模型已学习到的知识为目标检测模型挑选不确定度高的样本数据，加入已标注数据集对目标检测模型进行再训练，具体包括：1）预测未标注数据集的不确定度；2）提取候选集的图像有效信息；3）挑选少数类样本等步骤。本发明与现有技术相比具有能够有效地对未标注数据集进行筛选，将难识别的样本和具有广泛代表性的未标注样本挑选出来加以标注，以此增强同样已标注样本数量下的情况下，利用主动学习的方法来挑选出具有类别代表性的样本和难以识别的样本，进一步提高了目标检测模型的泛化能力，方法简便，使用效果好，具有一定的应用前景。

Description

一种用于目标检测的主动学习样本挑选方法

技术领域

本发明涉及目标检测模型训练技术领域，尤其是一种用于目标检测的主动学习样本挑选方法。

背景技术

现代深度神经网络模型的训练需要大量的标注数据样本作为支撑，而高质量的已标注数据集获取困难，需要耗费大量的人力物力，并且由于每个人的知识训练的不同，想要获取标准的标注信息非常困难且昂贵。有时候大量的数据集往往充斥着冗余的信息，对深度神经网络模型的训练并无益处，而获取高质量并具有广泛代表性的样本成为学界和工业界的研究热点。

目标检测是工业界常用的算法模型，已经有了较好的应用场景，对提升工业运作效率有显著的作用。但是数据集的构建也是目标检测模型所遇到的困难，不同的企业需要不同的数据，而冗余信息数据集往往会导致模型性能下降。因此，亟需一种能够针对目标检测模型进行样本筛选的方法。

现有技术无法利用主动学习的方法来挑选出具有类别代表性的样本和难以识别的样本，目标检测模型训练过程中遇到样本量少、已标注样本集中冗余信息量大等问题。

发明内容

本发明的目的是针对现有技术的不足而提供的一种用于目标检测的主动学习样本挑选方法，采用主动学习的方法，在每轮利用目标检测模型已学习到的知识为目标检测模型挑选不确定度高的样本数据，加入已标注数据集对目标检测模型进行再训练，挑选出具有类别代表性的样本和难以识别的样本，让目标检测模型能够学习到这些样本特征以增强模型的泛化能力，较好的解决了目标检测模型训练过程中遇到样本量少、已标注样本集中冗余信息量大等问题，方法简便，使用效果好，具有一定的应用前景。

实现本发明目的的具体技术方案是：一种用于目标检测的主动学习样本挑选方法，其特点是利用主动学习方法在每轮利用目标检测模型已学习到的知识为目标检测模型挑选不确定度高的样本数据，加入已标注数据集对目标检测模型进行再训练，该方法具体包括以下步骤：

步骤1：目标检测模型预测未标注数据集的不确定度

1-1：针对未标注数据集随机选择1000张样本进行标注，作为所使用的目标检测模型的初始训练集，使得目标检测模型学习到初始训练集中样本数据特征，并将训练后的目标检测模型作为主动学习的挑选器。

1-2：利用已训练的目标检测模型（挑选器），固定其模型参数，对已标注数据集进行图像示例特征提取并记录图像示例特征的预测分类结果和置信分数，先对图像内部示例特征进行相似度对比，去除相似度较高的示例特征，仅保留特征相似度较低的示例特征，以此提高单张图像的有效信息占比。

1-3：在步骤1-2去除图像内部冗余信息的基础上，再对已标记数据集进行图像特征聚类，对不同类别下的图像特征进行相似度计算，从每个分类下选出至少30%的图像特征作为后续插值计算所使用的图像特征，该方法减少所需插值的图像数量，降低计算量。

1-4：利用已训练的目标检测模型（挑选器），对未标注数据集进行图像特征提取，并在输出预测结果前与步骤1-3中选出的已标记数据集图像特征逐一进行插值，插值比例为0.4（未标记数据特征所占比例），再将插值后的特征输入到目标检测模型head部分进行结果预测输出，预测结果与被插值已标记图像的预测结果的每个分类置信分数相减并取绝对值，累加每个分类的计算结果，得到该未标记图像的不确定度，对整个未标记数据集进行上述操作后将所得到的不确定度进行排序，得到难辨别图像样本为图像候选集。

步骤2：提取图像候选集的图像有效信息

2-1：由步骤1所得的图像候选集不确定度可能存在冗余信息的干扰，图像示例类别特征相似度较高，为了尽可能使得下一轮学习的样本数据信息分布更广泛，需对图像候选集的图像特征进行相似度过滤，每次输入一张图像的所有示例特征和其分类置信分数，累加置信分数得到图像内特征不确定度，再对图像内的特征不确定度进行排序，得到该图像的示例候选集。

2-2：对图像的示例候选集进行循环筛选，每轮选择最高不确定度的特征加入正式集，并从示例候选集中删除该示例特征，然后计算示例集中其余示例与本轮所选示例之间的距离，并设定相似度阈值60%，超出阈值的示例视为相似度较高示例从示例候选集中删除。重复上述操作，直至图像示例候选集为空，得到该图像最终的示例集合。

2-3：对每张图像重复操作步骤2-2。可得到剔除图像内部冗余信息的未标注数据集，此时不确定度由于冗余信息的剔除，导致原有不确定度排序失效，将更新每张图像的不确定度并排序。

步骤3：多示例方法挑选少数类样本

3-1：每轮已标记图像中统计示例类别和次数，对这些示例划分类别，根据

次数分为少数类和多数类。

3-2：图像候选集中可能存在示例不平衡现象，一些少数类样本在图像中出现较少使得不确定度方法倾向于多数类样本，为了增加少数类在样本中的比例，使得样本类别分布符合正态分布，采用多示例方法挑选出具有少数类样本的图像。

3-3：未标记图像中存在的不确定度高的示例，即难识别示例，可视为少数类样本，将图像选入少数类集中。

3-4：根据步骤3-2和3-3，将未标记数据集划分为少数类集和多数类集，根据本轮应取图像进行标记的额度倾向少数类集进行分配，一般情况下少数类集取60%，多数类集取40%，若少数类集为空或取不满标记额度的60%，则全由多数类集中获取，以此得到目标检测模型下一轮训练所需要的样本。

所述步骤1-2的挑选器是指选用的目标检测模型在上一轮初始化模型参数，并在新的已标注数据集上进行训练得到的模型结果，因此该模型学习到上一轮已标注数据集的特征。

所述步骤1-2的内部图像示例相似度比较采用的方法是将示例特征表现为向量形式，计算每个示例特征之间的相似度则利用曼哈顿距离来求解，对两个向量的每个分量相减并求其值的平方，并累加所有分量上的结果再开根号，得到内部图像示例相似度的对比值。

所述步骤1-3的图像相似度比较采用的方法是在步骤1-2中删除了图像内部相似度高的示例特征后，仅保留相似度较低的示例特征，而图像特征则创建一个长度等于类别数量的图像特征向量，将图像内所有的示例特征的多分类置信分数逐一累加到对应的图像特征向量分量中，最终结果作为该图像特征。

所述步骤2的提取图像候选集采用的方法是针对未标记数据集内的数据特征进行相似度过滤，图像候选集是由步骤1-4得到的难辨别图像样本。

本发明与现有技术相比具有能够有效地对未标注数据集进行筛选，将难识别的样本和具有广泛代表性的未标注样本挑选出来加以标注，以此增强同样已标注样本数量下的情况下，利用主动学习的方法来挑选出具有类别代表性的样本和难以识别的样本，进一步提高了目标检测模型的泛化能力，较好的解决了目标检测模型训练过程中的数据标注工作量大，已标注数据信息量低无法提升模型性能，

以及目标检测模型训练过程中遇到样本量少、已标注样本集中冗余信息量大等问

题，方法简便，使用效果好，具有一定的应用前景。

附图说明

图1为发明实施流程图；

图2为目标检测模型计算未标注图像不确定度流程图；

图3为图像候选集冗余信息处理流程图；

图4为多示例方法挑选少数类样本流程图。

具体实施方式

本发明采用主动学习的方法，在每轮利用目标检测模型已学习到的知识为目标检测模型挑选不确定度高的样本数据，加入已标注数据集对目标检测模型进行再训练，该方法具体包括以下步骤：

步骤1：目标检测模型预测未标注数据集的不确定度；

步骤2：提取图像候选集的图像有效信息；

步骤3：多示例方法挑选少数类样本。

参阅图1，本发明实施结合步骤1和步骤2完成图像候选集的构建并剔除冗余信息，步骤3增强样本特征的分布，使得新标注样本具有代表性，具体包括以下步骤：

S400：初始已标注数据集由专家人工标注，作为模型的初始学习数据源；

S410：根据初始已标注数据集对目标检测模型进行训练，得到初始的挑选器，为后续样本挑选作准备；

S100-S120：去除已标注数据集的冗余信息，减少用于插值的已标注数据的数量，使得用于插值的样本具有极高的代表性，能够充分表达特征；

S130：由未标注数据集和选择出来用于插值的已标注样本数据集进行特征插值；

S140-S150：目标检测模型对该插值后的数据进行分类判断，并得到图像不确定度；

S200-S250：根据得到的图像候选集，并对其进行去除冗余信息的操作，得到重排序的一个图像候选集；

S300-S340：多示例方法分配下一轮样本的倾向，尽可能增强少数类和难识别类在图像中的占比；

S350：专家对选择出来的数据进行标注；

S420: 将新标注数据加入到原标注样本集生成新的已标注数据集，并加入目标检测模型中进行训练，来训练下一轮的挑选器。

本发明利用现有的目标检测模型对少量已标注数据进行训练，并利用该训练的模型对已标注数据和未标注数据进行图像示例特征抽取，让未标注数据特征与已标注数据特征进行插值，插值后的特征再进行预测，根据预测输出的分类结果来得到未标记数据集的不确定度，不确定度从高到底排序得到候选集。然后对候选数据集中的图像特征进行相似度计算，降低候选集的信息冗余，提取出具有代表性的样本。然后采用多示例方法提高少数类的优先级，增强样本的分布。较好的解决了目标检测模型训练过程中的数据标注工作量大，已标注数据信息量低无法提升模型性能等问题。

为了便于理解本发明，以下结合附图及实施例对本发明进行详细说明。

实施例1

参阅图2，本发明步骤1中初始已标注样本集中训练的目标检测模型作为初始挑选器，来挑选下一轮应该学习的样本，具体步骤如下：

S100：初始样本集用于目标检测模型的初始训练，使得具有一定的检测能力，能够初步提取图像特征并加以判别；

S110-S120：首先对已标注数据集每张图像内部的冗余信息剔除，接着再降低图像间的冗余信息，为后续插值计算减少计算量；

S130：剔除了冗余信息的已标注数据集在每个分类中选择具有代表性的图像用来与未标注图像作插值；

S140-S160：未标注图像与已标注图像进行插值，输入目标检测模型中，若得到检测结果倾向于已标注图像的分类结果则表明该未标注图像信息量较低，而若检测结果与已标注图像不同，则代表未标注图像的信息量较好，将其初步计算不确定度并加入图像候选集。

参阅图3，本发明步骤2对图像候选集中的冗余信息进行剔除，具体步骤如下：

S200-S210：图像候选集中逐个挑选出一张图像，并对图像的所有示例特征进行提取，得到示例候选集；

S220-S230：对示例候选集中的示例进行相似度比较，过滤掉相似度较高的示例，得到一张剔除了内部冗余信息的图像；

S240-S250：将图像候选集中的图像都经过示例相似度剔除的工作，得到剔除冗余信息的图像候选集。

参阅图4，本发明步骤3使用多示例方法对图像候选集进行权重分配，尽可能增加少数类的标注数量，具体步骤如下：

S300-310：统计目前已标注数据集中的分类信息，不同类的示例数量，以此

按比例划分少数类和多数类，将前60%分类数量为多数类，后40%的分类数量为

少数类；

S320：利用多示例方法判断图像候选集中的少数类，只要包含一个少数类示例则增加一点权重，越多少数类示例权重越高；

S330：当前目标检测模型难以判别的图像样本视为少数类，权重最高；

S340-350：根据多示例方法分配权重对图像候选集进行排序，并使得下一轮标记的数据中少数类占60%，若少数类数量不满足，则按不确定度进行选择图像进行标注。

以上只是对本发明作进一步的说明，并非用以限制本专利，凡为本发明等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种用于目标检测的主动学习样本挑选方法，其特征在于采用主动学习的方法，在每轮利用目标检测模型已学习到的知识为目标检测模型挑选不确定度高的样本数据，加入已标注数据集对目标检测模型进行再训练，该方法具体包括以下步骤：

步骤1：目标检测模型预测未标注数据集的不确定度

1-1：针对未标注数据集随机选择1000张样本进行标注，作为所使用的目标检测模型的初始训练集，使得目标检测模型学习到初始训练集中样本数据特征，并将训练后的目标检测模型作为主动学习的挑选器；

1-2：利用已训练的目标检测模型，固定其模型参数，对已标注数据集进行图像示例特征提取，记录图像示例特征的预测分类结果和置信分数，并对图像内部示例特征进行相似度比较，去除相似度较高的示例特征，仅保留特征相似度较低的示例特征，以此提高单张图像的有效信息占比；

1-3：在步骤1-2去除图像内部冗余信息的基础上，对已标记数据集进行图像特征聚类，对不同类别下的图像特征进行相似度计算，并从每个分类下选出至少30%的图像特征作为后续插值计算所使用的图像特征；

1-4：利用已训练的目标检测模型，对未标注数据集进行图像特征提取，并在输出预测结果前与步骤1-3中选出的已标记数据集图像特征逐一进行插值，插值占比为未标记数据特征的40%，将插值后的特征输入到目标检测模型head部分进行结果预测输出，预测结果与被插值已标记图像的预测结果的每个分类置信分数相减并取绝对值，累加每个分类的计算结果，得到该未标记图像的不确定度，对整个未标记数据集进行上述操作，将所得到的不确定度进行排序，得到难辨别的图像样本为图像候选集；

步骤2：提取图像候选集的图像有效信息

2-1：对图像候选集的图像特征进行相似度过滤，每次输入一张图像的所有示例特征和其分类置信分数，累加置信分数得到图像内特征不确定度，再对图像内的特征不确定度进行排序，得到该图像的示例候选集；

2-2：对图像的示例候选集进行循环筛选，每轮选择最高不确定度的特征加入正式集，并从示例候选集中删除该示例特征，然后计算示例集中其余示例与本轮所选示例之间的距离，并设定相似度阈值60%，超出阈值的示例视为相似度较高示例从示例候选集中删除，重复上述操作，直至图像示例候选集为空，得到该图像最终的示例集合；

2-3：对每张图像重复操作步骤2-2，得到剔除图像内部冗余信息的未标注数据集，更新每张图像的不确定度并排序；

步骤3：多示例方法挑选少数类样本

3-1：每轮已标记图像中统计示例类别和次数，并对这些示例划分类别，根据次数分为少数类和多数类；

3-2：采用多示例方法挑选出具有少数类样本的图像；

3-3：将难识别的示例视为少数类样本，并将其图像选入少数类集中；

3-4：根据步骤3-2和3-3将未标记数据集划分为少数类集和多数类集，

将本轮应取图像进行标记的额度倾向少数类集分配，即少数类集取60%，多数类集取40%，若少数类集为空或取不满标记额度的60%，则全由多数类集中获取，以此得到目标检测模型下一轮训练所需要的样本。

2.根据权利要求1所述的用于目标检测的主动学习样本挑选方法，其特征在于所述挑选器是指选用的目标检测模型在上一轮初始化模型参数，并在新的已标注数据集上进行训练，得到的模型结果为学习到上一轮已标注数据集的特征。

3.根据权利要求1所述的一种针对目标检测的主动学习样本挑选方法，其特征在于所述步骤1-2中的图像内部示例特征进行相似度比较是将示例特征表现为向量形式，计算每个示例特征之间的相似度则利用曼哈顿距离求解，对两个向量的每个分量相减并求其值的平方，将所有分量上的结果累加后开根号，得到内部图像示例相似度的对比值。

4.根据权利要求1所述用于目标检测的主动学习样本挑选方法，其特征在于所述步骤1-3的图像特征进行相似度计算是在步骤1-2中删除了图像内部相似度高的示例特征后，仅保留相似度较低的示例特征，而图像特征则创建一个长度等于类别数量的图像特征向量，将图像内所有的示例特征的多分类置信分数逐一累加到对应的图像特征向量分量中，最终结果作为该图像特征。

5.根据权利要求1所述用于目标检测的主动学习样本挑选方法，其特征在于所述步骤2提取图像候选集的图像有效信息是对未标记数据集内的数据特征进行相似度过滤，图像候选集是由步骤1-4得到难辨别图像样本。