CN115187950B

CN115187950B - 用于深度学习图像数据增强的新型平衡掩码二次采样方法

Info

Publication number: CN115187950B
Application number: CN202211107032.2A
Authority: CN
Inventors: 王智灵; 龚殿城
Original assignee: Anhui Zhongke Xingchi Autonomous Driving Technology Co ltd
Current assignee: Anhui Zhongke Xingchi Automatic Driving Technology Co ltd
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-11-22
Anticipated expiration: 2042-09-13
Also published as: CN115187950A

Abstract

本发明公开了一种用于深度学习图像数据增强的新型平衡掩码二次采样方法，该方法将特征图上待删除块中的元素在删除和保留之间取得合理的平衡。包括如下步骤：S1：获得原始数据的特征图。S2：生成基础掩码M₁，M₁的生成方式采用已有方法。S3：生成平衡掩码M₂，平衡掩码M₂的设计采用两种形式。第一种是创建一个和M₁等尺寸的矩阵M₂，矩阵内均匀分布若干矩形块，矩形内的元素为1，其余为0。M₂内矩形块的分布，可通过矩形块的长度、宽度、水平、竖直间隔距离改变。第二种是创建一个和M₁等尺寸的矩阵M₂，矩阵内的每个元素服从概率为p的伯努利分布。S4：生成最终掩码M=1‑M₁×M₂。S5：将掩码M应用到特征图上。

Description

用于深度学习图像数据增强的新型平衡掩码二次采样方法

技术领域

本发明涉及深度学习图像数据处理领域，具体地说是一种用于深度学习图像数据增强的新型平衡掩码二次采样方法。本发明可以广泛的应用于自动驾驶、工业自动化等多个领域。

背景技术

深度学习被广泛的应用于自动驾驶、工业自动化等多个领域，基于视觉信息的目标识别就是其中一种典型工况。视觉信息虽然容易受到外界环境如雨、雪、灰尘等的干扰，但是成本低廉，技术上相对比较成熟。基于视觉信息的目标识别方案往往需要大量的数据做基础。一般来说，数据量越大，神经网络可以学习的越好。但是现实中数据量的基数往往都不会很大，因此直接送到神经网络进行训练学习可能会导致过拟合现象，即在训练集上表现得很好，在测试集上表现的很差。

当数据集的大小有限时，现有的解决方案通常通过一些数据增强方法和正则化缓解神经网络过拟合的问题。比如随机在图上添加噪声以盖住部分目标特征，随机删除特征图上的块，从而迫使神经网络学习目标的其他特征，提高神经网络的鲁棒性。但是，这种随机性可能会由于过度删除一个或几个块以及上下文信息而导致剩余的语意信息不足以支撑目标识别，从而导致模型的性能不升反降。

发明内容

有鉴于此，本发明提供了一种用于深度学习图像数据增强的新型平衡掩码二次采样方法，既可以通过屏蔽特征图上部分特征迫使神经网络学习目标的其他特征，又能避免因过度删除一个或几个块以及上下文信息而导致目标的语意信息被完全删除的情况，起到提高模型鲁棒性、准确性的作用。

为了实现上述目的，本发明采用如下技术方案：

一种用于深度学习图像数据增强的新型平衡掩码二次采样方法，其特征在于，包括如下步骤：

S1：获取神经网络卷积之后得到的特征图F^{R∈n×c×h×w}，n为特征图的数量，c为特征图的通道维度，h、w分别为特征图的高度、宽度，R为实数域；

S2：生成基础掩码M₁，M₁的生成方式为：在和特征图等尺寸的空白矩阵上随机生成种子点，以种子点为中心填充一个正方形，正方形内的元素填充为1，其余元素填充为0；

S3：生成平衡掩码M₂；

S4：生成最终掩码M，M=1-M₁×M₂，通过平衡掩码二次采样方法将特征图上待删除块中的元素在删除和保留之间取得合理的平衡；

S5：将掩码M应用到特征图上，F=F×M。

进一步的，所述步骤S3中所述的平衡掩码的生成方式有两种：

方式一：创建一个和M₁等尺寸的矩阵，矩阵内均匀分布若干个小矩形块，矩形内的元素为1，其余为0，矩阵内矩形块的分布，通过每个矩形块的长度、宽度、水平间隔距离、竖直间隔距离改变；

方式二：创建一个和M₁等尺寸的矩阵，矩阵内的每个元素服从概率为p的伯努利分布。

与现有技术相比，本发明的技术方案所带来的有益效果是：

本发明提供了一种用于深度学习训练数据增强的新型平衡掩码二次采样方法。在现阶段已有方法生成的基础掩码之上添加一个平衡掩码，既可以通过屏蔽特征图上部分特征迫使神经网络学习目标的其他特征，又能避免因过度删除一个或几个块以及上下文信息而导致目标的语意信息被完全删除的情况，起到提高模型鲁棒性、准确性的作用。同时，本发明提出的平衡掩码设计十分巧妙，不受具体模型的约束，可以轻松的移植到其他模型中，因此适用范围很广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见的，此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。

图1为应用本发明的平衡掩码（一）；

图2为应用本发明的平衡掩码（二）；

图3为本发明的算法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1所示，本发明实施例1提供了一种用于深度学习训练数据增强的新型平衡掩码二次采样方法，图1中的原始图像数据为无人驾驶车辆在路上采集得到，经过预处理操作后变成分辨率为224×224的三通道RGB图像，包括如下步骤：

S1：获取神经网络卷积之后得到的特征图F^{R∈n×c×h×w}（n为16，c为64，h、w分别为112、112），R为实数域；

S2：生成基础掩码M₁。M₁的生成方式可以采用DropBlock。即在和特征图等尺寸的空白矩阵上随机生成种子点，以种子点为中心填充一个5×5的正方形。正方形内的元素填充为1，其余元素填充为0；

S3：生成平衡掩码M₂。创建一个和M₁等尺寸的矩阵，在矩阵上均匀分布着大小为2×2的小正方形，小正方形与边缘、小正方形与小正方形的水平间隔距离、垂直间隔距离分别为1。小正方形内的元素置为1，其余为0，得到平衡掩码M₂；

S4：生成最终掩码M，M=1-M₁×M₂。利用平衡掩码M₂对基础掩码M₁再次取样，即可达到待删除块中的元素在删除和保留之间取得合理的平衡的效果；

S5：将掩码M应用到特征图上，F=F×M。

图1中的（c）和（d）均为实际基础掩码M₁和平衡掩码M₂的部分截图。

M₂内矩形块的分布，可以通过每个矩形块的长度、宽度、水平间隔距离、竖直间隔距离改变。

实施例2

参见图2所示，本发明实施例2提供了一种用于深度学习训练数据增强的新型平衡掩码二次采样方法，图2中的原始图像数据来自KITTI 2D目标检测数据集，包括如下步骤：

S1：获取神经网络卷积之后得到的特征图F^{R∈n×c×h×w} _；（n为16，c为64，h、w分别为224、224）；

S3：生成平衡掩码M₂，创建一个和M₁等尺寸的矩阵，矩阵内的每个元素服从概率为0.25的伯努利分布；

S4：生成最终掩码M，M=1-M₁×M_2。利用平衡掩码M₂对基础掩码M₁再次取样，即可达到待删除块中的元素在删除和保留之间取得合理的平衡的效果；

S5：将掩码M应用到特征图上，F=F×M。

图2中的（c）和（d）均为实际基础掩码M₁和平衡掩码M₂的部分截图。

在实施例2中，在YOLOV5S模型上，对KITTI 2D数据集进行迭代100轮，采用本发明的数据增强方法，相比DropBlock实现了2%的mAP提升。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用于深度学习图像数据增强的新型平衡掩码二次采样方法，其特征在于，包括如下步骤：

S3：生成平衡掩码M₂；

S5：将掩码M应用到特征图上，F=F×M；

步骤S3中所述的平衡掩码M₂的生成方式有两种：