CN112800257A

CN112800257A - 一种基于以图搜图快速添加样本训练数据的方法

Info

Publication number: CN112800257A
Application number: CN202110184877.0A
Authority: CN
Inventors: 周珊
Original assignee: Shanghai Lingmou Intelligent Technology Co ltd
Current assignee: Shanghai Lingmou Intelligent Technology Co ltd
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2021-05-14

Abstract

本发明公开了一种基于以图搜图快速添加样本训练数据的方法，涉及计算机视觉领域，通过训练得到目标检测模型和度量模型，目标检测模型可以快速提供大量的搜索源，度量模型可以输出类间差值较小的特征张量，最后通过欧式距离的数值得到相同类别的数据。本发明结合深度学习本身补充少样本的分类数据，只需要训练一个目标检测能力强的深度学习模型和可学习目标对象相似度并输出可量化结果的模型，就可以快速的获得搜索源并通过以图搜图的方式快速获取到少样本的训练数据。

Description

一种基于以图搜图快速添加样本训练数据的方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于以图搜图快速添加样本训练数据的方法。

背景技术

随着科技的进步，人工智能技术在日常生活中有着越来越广泛的应用，其中人工智能的实现又来源于深度学习算法在不断地创新及优化，而深度学习算法必然又离不开足够的训练数据集，因此很多训练数据生产的方法应运而生。

在图像识别模型的训练过程中，有不少采用先检出后分类的两段式实现，训练样本一般都是采用原图中得到的所有标注数据。这样得到的数据经常会存在样本不均衡的情况，这对分类模型训练的效果有很大的影响，这种情况对模型最好的解决办法就是补充样本少的训练数据。目前补充少样本数据方式首先就是补充包含该样本的原始图片，然后，基于原图片进行标注补充少样本的训练数据。但是，无论是补充包含少样本的原图，还是对原图的标注都会耗费大量的人力和物力。

因此，本领域的技术人员致力于开发一种基于以图搜图快速添加样本训练数据的方法。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何在大量数据中快速获取样本的训练数据类别。

为实现上述目的，本发明提供了一种基于以图搜图快速添加样本训练数据的方法，所述方法包括以下步骤：

步骤1、训练得到目标检测模型和度量模型；

步骤2、通过目标检测模型快速提供搜索源；

步骤3、通过度量模型输出特征张量；

步骤4、通过欧式距离的数值得到相同类别的数据。

进一步地，将原图通过目标检测算法预测得到目标对象切图作为待搜索源。

进一步地，所述方法的步骤1还包括：

步骤1.1、对原图进行目标对象标注，得到每个目标对象的外框，并标注其所属分类类别；

步骤1.2、将标绘的原图作为目标检测算法YOLOv3的训练数据，最终迭代训练得到一个目标检测模型；

步骤1.3、将标注数据的切图作为度量学习模型的训练数据，最终迭代训练得到一个可学习相似度的模型。

进一步地，取用所述目标的boundingbox信息作为所述目标检测算法YOLOv3的训练数据训练得到一个通用的目标检出器。

进一步地，根据所述标注目标在原始图像中的boundingbox信息，将其从原始图像中切出来，并结合标注类别对其进行分类，制作成分类数据集。

进一步地，将所述分类数据集作为度量学习网络的训练数据进行训练，利用验证集检验训练的模型效果，若效果达到预定需求，则停止模型训练，得到所述度量模型。

进一步地，所述方法的步骤3还包括：

步骤3.1、通过度量模型提取待搜索源中切图的特征；

步骤3.2、搜集提供待搜图的种子图；

步骤3.3、通过度量模型提取种子图特征。

进一步地，所述方法的步骤4还包括：

步骤4.1、将种子图特征与源特征进行一一计算欧式距离，并排序；

步骤4.2、将与种子图最近的1000张图片取出；

步骤4.3、挑出1000张图片中的杂质即可得到纯净的分类数据。

进一步地，所述目标检测算法为SDD系列。

进一步地，所述目标检测算法为Faster-RCNN。

技术效果：

结合深度学习本身补充少样本的分类数据，只需要训练一个目标检测能力强的深度学习模型和可学习目标对象相似度并输出可量化结果的模型，就可以快速的获得搜索源并通过以图搜图的方式快速获取到少样本的训练数据。

以下将对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

具体实施方式

以下介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

本发明通过以图搜图的方式快速获取目标识别模型需要的某个类别的训练数据，该发明主要应用到了目标检测和度量学习两种模型。

首先，要随机选取一批足够训练出两个模型的原始图片进行目标标注。然后，取用目标的boundingbox信息作为YOLOv3目标检测算法的训练数据训练得到一个通用的目标检出器。再根据标注目标在原始图像中的boundingbox信息，将其从原始图像中切出来，并结合标注类别对其进行分类，制作成分类数据集，将该数据作为度量学习网络的训练数据进行训练，利用验证集检验训练的模型效果，若效果达到预定需求，则停止模型训练，得到度量模型。

在图像目标识别模型的实际使用过程中，会发现有的类别的数据比较少，就可以把这些少样本的数据作为搜图的种子图片。想要快速补充这些少样本数据，首先用训练好的检出器将同源的一批原图将目标全部检出作为搜图的搜索源，并送入度量模型提取其特征。然后，通过以图搜图补充数据，将少样本种子图提取特征，并与搜索源特征一一进行欧式距离计算及排序，得到与其特征距离最近的一批数据，取出需要数量的前n张切图，最后将这批切图中的杂质清洗出去即可得到纯净的少样本数据。

本发明所使用的目标检测算法是YOLOv3，也可以采用其他目标检测算法进行替代，比如SSD系列、Faster-RCNN等目标检测网络。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于以图搜图快速添加样本训练数据的方法，其特征在于，所述方法包括以下步骤：

步骤1、训练得到目标检测模型和度量模型；

步骤2、通过目标检测模型快速提供搜索源；

步骤3、通过度量模型输出特征张量；

步骤4、通过欧式距离的数值得到相同类别的数据。

2.如权利要求1所述的方法，其特征在于，将原图通过目标检测算法预测得到目标对象切图作为待搜索源。

3.如权利要求1所述的方法，其特征在于，所述方法的步骤1还包括：

4.如权利要求3所述的方法，其特征在于，取用所述目标的boundingbox信息作为所述目标检测算法YOLOv3的训练数据训练得到一个通用的目标检出器。

5.如权利要求3所述的方法，其特征在于，根据所述标注目标在原始图像中的boundingbox信息，将其从原始图像中切出来，并结合标注类别对其进行分类，制作成分类数据集。

6.如权利要求5所述的方法，其特征在于，将所述分类数据集作为度量学习网络的训练数据进行训练，利用验证集检验训练的模型效果，若效果达到预定需求，则停止模型训练，得到所述度量模型。

7.如权利要求1所述的方法，其特征在于，所述方法的步骤3还包括：

步骤3.1、通过度量模型提取待搜索源中切图的特征；

步骤3.2、搜集提供待搜图的种子图；

步骤3.3、通过度量模型提取种子图特征。

8.如权利要求1所述的方法，其特征在于，所述方法的步骤4还包括：

步骤4.2、将与种子图最近的1000张图片取出；

步骤4.3、挑出1000张图片中的杂质即可得到纯净的分类数据。

9.如权利要求3所述的方法，其特征在于，所述目标检测算法为SDD系列。

10.如权利要求3所述的方法，其特征在于，所述目标检测算法为Faster-RCNN。