CN112508836A

CN112508836A - 一种基于标注框拼接的深度学习图像增强方法

Info

Publication number: CN112508836A
Application number: CN202011468618.2A
Authority: CN
Inventors: 张晓磊; 华尧
Original assignee: Panji Technology Co ltd
Current assignee: Panji Technology Co ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-16
Anticipated expiration: 2040-12-14
Also published as: CN112508836B

Abstract

一种基于标注框拼接的深度学习图像增强方法，包括以下步骤：步骤1，选取N张图片，把N张图片进行缩放到相同的大小，同时准备一张相同大小的黑板图片；步骤2，对几张图片进行随机排序，随机在图片中定一个拼接点；步骤3，依照这个比例分别在N张图片以及每张图片对应的部分进行裁剪；步骤4，对标注框进行筛选；步骤5，对筛选后的裁剪区域进行缩放、变换、旋转操作；步骤6，重复操作步骤1至步骤5。本发明就是引入语义分割和尺寸判别的方法，对于裁剪类的数据增强算法产生的噪声的拼接的标注框进行识别，以保证拼接类数据增强方法产生数据的质量，提升进行增强后的数据对于模型性能的收益。

Description

一种基于标注框拼接的深度学习图像增强方法

技术领域

本发明属于图像增强技术领域，特别涉及一种基于标注框拼接的深度学习图像增强方法。

背景技术(描述下拼接点)

目前，拼接类数据增强算法因其效果明显、成本低的特点在工业界备受关注，主要思想是对已有的多张标注框图片中的目标，分别裁剪一部分，然后拼接成一个新的状况，并且为每个裁剪的标注框标识为原有的目标种类，训练深度学习网络去识别不同目标之间的区别。例如，Cutout、cutmix[3]以及mosaic[4]等算法。cutout通过对目标框内进行随机删除一部分，一方面通过模拟遮蔽问题，来增加数据的复杂度。另一方面，Cutout能够使得模型专注于目标较难区分的区域，提高模型的性能。Cutmix在cutout的基础上进行改进，因为cutout剪切后留下的没有任何信息的标注框会影响训练效率，cutmix对剪切后空出来的部分进行填充，来提高训练效率。

Mosaic是通过多张图片进行随机裁剪、缩放后融合为一张新的图片并形成新的标注框。Mosaic技术通过随机裁剪的方式丰富目标的背景信息；缩放和变换，模拟不同尺度下的物体。数据增强算法在深度学习的目标检测领域被广泛应用，目标检测是计算机视觉和数字图像处理的一个热门方向，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉减少对人力资本的消耗，具有重要的现实意义。目标检测也是一个具有挑战性的任务，它不仅需要识别类别还需要找出目标的位置。而数据集的制作和标注是成本高昂，数据增强算法在扩充数据的同时，能通过少量具有标签的数据，产生大量带标签的数据。在实际生产中具有非常重要的意义。

在数据增强中类似于cutout，cutmix，mosaic这种裁剪的方式，在实际操作中不可避免的引入噪声(噪声：标注框内包含微量杂乱的信息或者目标的少量信息，却不足以代表该目标的目标标注框)。以使用mosaic算法为例，在拼接的过程中是将目标框跟随裁剪的区域一起合并到新的图片，在对目标框的裁剪过程中难免会出现微小的一部分被当作目标(比如图中的一个窄条被标记成人的类型)的情况最后形成这种不具备辨识度的目标框增加了网络的训练难度，最终影响网络性能较差。

对于选中的的较大的裁剪区域是目标所在的非主体区域，因裁剪的区域过大，同时处于目标的框内且不包含目标主体本身，所以普通的筛选方法并不能过滤掉此类目标的标注框，导致背景信息被当作目标进行训练，从而引入噪声。

发明内容

本发明的目的在于提供一种基于标注框拼接的深度学习图像增强方法，以解决上述问题。

为实现上述目的，本发明采用以下技术方案：

一种基于标注框拼接的深度学习图像增强方法，包括以下步骤：

步骤1，选取具有需要识别的物体掩模的N张图片，把N张图片及其掩模缩放到相同的大小；

步骤2，对N张图片进行随机排序，并顺序选取M张图片；

步骤3，随机在图片区域范围内选定一或者多个拼接点，拼接点将图像区域分割成M个区域；

步骤4：在步骤3中分割的M个区域中依次选取一个区域，并把步骤2中选择M张图片按顺序把选取的区域进行拼接，组成一张完整的新图片；

步骤5，对步骤4组成的新图片，使用拼接到该图片中的掩模的大小、面积、比例、标注框内是否包含掩模条件来筛选该新图片内的标注框；

步骤6，对于判断无效的的标注框，进行舍弃、重新进行步骤3或对选取的图片的拼接区域进行调整；

步骤7，重复操作步骤1至步骤5，直至完成对所有N张图片的增强。

进一步的，步骤6中的调整为随机产生一个新的拼接区域。

进一步的，步骤5中，筛选该新图片内的标注框的方法包括以下方法中的一个或者多个的组合：

(1)判断所有标注框的最小区域的面积或者最短边是否小于阈值，如果小于，则判断为无效标注框；

(2)获取每一个标注框的掩模，每张图片中所选取的待拼接部分，在图片对应的掩模上截取相同的位置，对截取位置内的N个标注框进行依次判断。

进一步的，方法(2)中使用以下的一种或者多种方法：

(1).判断该标注框内是否包含该目标的掩模部分，如果完全不包含，则判断为无效标注框；

(2).本标注框内包含本目标的掩膜的面积，面积小于阈值的舍弃或者返回步骤3；

(3).计算该标注框内其包含的本目标的掩模与全部掩模面积之间的比例，对于小于阈值的标注框判断为无效标注框；

(4).设置一个阈值，当拼接点到该掩模边缘的最短距离小于一个阈值，或认为裁剪的图像不能代表该物体的特征，判断为无效标注框。

进一步的，步骤6中，所述对选取的图片的拼接区域进行调整，是通过对该区域在原图中的位置进行平移来获取有效标注框，移动方式为在原图片中该区域相对于图内的拼接点的反方向进行移动，移动阈值的距离。

进一步的，步骤3中，拼接点的选取范围限制在图片的宽和高尺寸之比为0.2～0.8内。

与现有技术相比，本发明有以下技术效果：

本发明就是引入语义分割和掩模判别的方法，对于裁剪类的数据增强算法产生的噪声的拼接的标注框进行识别，以保证拼接类数据增强方法产生数据的质量，提升进行增强后的数据对于模型性能的收益。通过对拼接类数据增强算法中形成的噪声进行筛选，使得增强的后的数据集质量更高，能够训练出更高性能的模型。

其原理在于，首先通常情况下目标的轮廓是不规则的，使用传统的矩形框对目标进行标注不可避免的会囊括少量的目标以外的信息，但在目标的掩模中只包含目标自身的信息。通过对标注框内目标的坐标与掩模中坐标的对比、计算，可以获取标注框内目标的真实状况，从而实现了对标注框的筛选和移动等操作。

附图说明

图1为引入标注框示例图。

图2为获取每一个目标主体的所在的轮廓示意图；

图3为对截取位置内的N个标注框进行依次判断示意图。

具体实施方式

以下结合附图对本发明进一步说明：

一种基于标注框拼接的深度学习图像增强方法，

1.选取N张图片，把N张图片进行缩放到相同的大小，同时获取上述图片中所述的掩模图片，掩模中图片中每一目标都清晰掩模区域及其位置信息。

2.对几张图片进行随机排序，随机在图片中定一个拼接点，拼接点的选取范围限制在X，Y边长的一个范围内(比如对于N＝4，可以选择这个值为0.2-0.8)之间。

3.依照这个比例分别在N张图片以及每张图片对应的部分(比如N＝4，可以取左上、右上、右下、左下的部分)裁剪下来。(可以参照图1)

4.对标注框进行筛选：图1的方框为标注框。标注框，图片内所有待检测的目标的外围矩形框，如图1中，人物外围的矩形框，标注框会包围整个目标。

(1)判断所有标注框的最小区域的面积或者最短边是否大于一定阈值，否则舍弃该标注框

(2)获取每一个目标主体的所在的轮廓(主体的掩模，如图2右侧的阴影区域)，每张图片中所选取的待拼接部分，在图片对应的掩模上截取相同的位置，对截取位置内的N个标注框进行依次判断(图3)：

A.判断该目标框内是否包含该目标的掩模部分，否则舍弃该标注框。这是因为在裁剪选中的区域正好是标注框内的背景区域，判断为无效框。

B.本目标框内包含本目标的掩膜的面积，面积小于一定阈值的舍弃或者返回步骤3，因其目标框内所包含的目标太过微小，不能代表该目标的特征性质，判断为无效框；

C.计算该标注框内其包含的本目标的掩模与全部掩模面积之间的比例，对于小于一定阈值的标注框判断为无效框；

D.设置一个阈值，当拼接点到该掩模的最短距离小于一个阈值，也可以认为裁剪的图像不能代表该物体的特征，判断为无效框

5.对于不满足条件的无效框，可以采取的方式：

A.对于上述的无效标注框，可直接舍弃该标注框；

B.对于上述的无效标注框，返回步骤2进行重新选取新的拼接点，直到不存在无效标注框为止；

C.对无效框的区域进行在原图中移动，移动时，根据标注框所在区域相对于裁剪区域的中心点的方位，对裁剪区域沿该方向进行移动。

6.对筛选后的裁剪区域进行缩放、变换、旋转等操作，裁剪的区域按照其左上顶点坐标放入新的大小相等的模板上，同时对每一个裁剪区域内的标注框也进行同等坐标变换。

7.进行多次以上操作。

Claims

1.一种基于标注框拼接的深度学习图像增强方法，其特征在于，包括以下步骤：

步骤2，对N张图片进行随机排序，并顺序选取M张图片；

2.根据权利要求1所述的一种基于标注框拼接的深度学习图像增强方法，其特征在于，步骤6中的调整为随机产生一个新的拼接区域。

3.根据权利要求1所述的一种基于标注框拼接的深度学习图像增强方法，其特征在于，步骤5中，筛选该新图片内的标注框的方法包括以下方法中的一个或者多个的组合：

4.根据权利要求2所述的一种基于标注框拼接的深度学习图像增强方法，其特征在于，方法(2)中使用以下的一种或者多种方法：

5.根据权利要求3所述的一种基于标注框拼接的深度学习图像增强方法，其特征在于，步骤6中，所述对选取的图片的拼接区域进行调整，是通过对该区域在原图中的位置进行平移来获取有效标注框，移动方式为在原图片中该区域相对于图内的拼接点的反方向进行移动，移动阈值的距离。

6.根据权利要求1所述的一种基于标注框拼接的深度学习图像增强方法，其特征在于，步骤3中，拼接点的选取范围限制在图片的宽和高尺寸之比为0.2～0.8内。