CN112907605B

CN112907605B - 用于实例分割的数据增强方法

Info

Publication number: CN112907605B
Application number: CN202110305495.9A
Authority: CN
Inventors: 路通; 许聪; 王文海
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2023-11-17
Anticipated expiration: 2041-03-19
Also published as: CN112907605A

Abstract

本发明公开了一种用于实例分割的数据增强方法，涉及实例分割技术领域，解决了实例分割模型的实例分割效果较差的技术问题，其技术方案要点是通过非感兴趣区域去除算法对所述第一图片的非感兴趣区域进行去除，得到非感兴趣区域去除图片，再根据全局自然平均亮度对所述第二图片中的非感兴趣区域进行亮度填充，得到增强图片，将该增强图片加入到原来的训练集训练实例分割模型，从而得到实例分割效果提高、泛化性能提升的实例分割模型。

Description

用于实例分割的数据增强方法

技术领域

本公开涉及实例分割技术领域，尤其涉及一种用于实例分割的数据增强方法。

背景技术

深度学习近几年得到迅速发展，深度神经网络在图像识别、物体检测、实例分割、关键点检测任务上取得了显著的效果。为了提高深度学习模型的鲁棒性和泛化能力，需要大量的数据对神经网络模型进行训练。然而在现实情况下，一方面很难获取大量的数据，另一方面，对于像实例分割、关键点检测等密集预测任务，数据集的标注成本极其昂贵；所以在资源有限的情况下，数据增强技术非常重要。利用数据增强技术能够扩充训练数据，提高模型的泛化能力，实例分割是从一幅图像和一段视频中分割出我们所关心的物体，实例分割不仅能分割出不同类别的物体，也能分割出同种类别的每个物体。

目前，市场上用于实例分割的数据增强方法主要包括：基于图像变换的传统增强方法和基于生成对抗网络的增强方法。“基于图像变换的传统增强方法”是直接对数据集中已有的数据进行水平翻转、裁剪、颜色空间变换，其计算量较小；而“基于生成对抗网络的数据增强方法”旨在生成一批数据分布和原数据集一致的新样本以增加数据的多样性，然而训练生成对抗网络模型效果不稳定，达到同样的图像增强效果需要很多的计算量。

上述两种数据增强方法都是从提高样本的多样性的角度提高模型的泛化能力，并未关注如何增加促进模型学习的样本。

发明内容

本公开提供了一种用于实例分割的数据增强方法，其技术目的是促进实例分割模型的学习，提高实例分割的效果。

本公开的上述技术目的是通过以下技术方案得以实现的：

一种用于实例分割的数据增强方法，包括：

S1:读取训练集中的第一图片及其对应的标注信息，所述标注信息包括物体分割信息和类别信息；

S2:计算所述第一图片的R通道、G通道、B通道各自的全局自然平均亮度；其中，所述R通道表示红色通道，所述G通道表示绿色通道，所述B通道表示蓝色通道；

S3:通过非感兴趣区域去除算法对所述第一图片的非感兴趣区域进行去除，得到非感兴趣区域去除图片即第二图片；

S4:根据所述全局自然平均亮度对所述第二图片中的非感兴趣区域进行亮度填充，得到增强图片即第三图片；

S5:根据所述第一图片的标注信息得到所述第三图片的标注信息；

S6:将所述第三图片及其标注信息加入到所述训练集中用于训练实例分割模型。

进一步地，所述步骤S2包括：

S21：将维度为W×H×3的所述第一图片分离成三个维度为W×H×1的R通道图片、G通道图片和B通道图片；

S22：通过以下式(1)计算R通道、G通道、B通道各自的全局自然平均亮度：

其中，N表示所述训练集中所述第一图片的数量，L(x,y)表示单通道图片在位置坐标为(x,y)处的自然平均亮度值，δ＝0.000001。

进一步地，所述步骤S3包括：

S31：根据所述标注信息提取每个所述第一图片中的已标注的每个实例的掩码矩阵；所述掩码矩阵为二值矩阵，掩码矩阵中的每个元素与第一图片中的每个像素点一一对应，掩码值1表示对应第一图片中的位置是目标实例的一部分，掩码值0表示对应第一图片中的位置为背景或其他实例；

S32：根据所述掩码矩阵和式(2)进行计算得到所述第一图片的掩码矩阵M，具体包括：

其中，M_i表示所述第一图片的第i个感兴趣物理实例的维度为W×H的二值掩码矩阵；k表示所述第一图片共有k个感兴趣物体实例，k的取值为非负整数，当第一图片中没有感兴趣物体实例时，k的取值为0；M表示整个第一图片的掩码矩阵，维度为W×H；

式(2)中的矩阵或运算对相同位置元素的运算规则包括：0∪0＝0，0∪1＝1，1∪0＝1，1∪1＝1；

S33：将所述M按照式(3)的非感兴趣区域去除算法则能得到所述非感兴趣区域去除图片即所述第二图片，包括：

其中，j取值为0、1、2，j为0时表示R通道，j为1时表示G通道，j为2时表示B通道；表示所述第一图片在第j通道上位置坐标为(x,y)处的亮度值，M_x,y表示是根据式(2)得到的在位置坐标为(x,y)处的值，/>表示所述非感兴趣区域去除图片即所述第二图片在第j通道上位置坐标为(x,y)处的亮度值。

进一步地，所述步骤S4中对所述第二图片中的非感兴趣区域进行亮度填充，包括：

其中，表示所述第一图片在第j通道的自然平均亮度值；/>表示对非感兴趣区域进行亮度填充后得到的增强图片即第三图片。

本公开的有益效果在于：本发明通过非感兴趣区域去除算法对所述第一图片的非感兴趣区域进行去除，得到非感兴趣区域去除图片，再根据全局自然平均亮度对所述第二图片中的非感兴趣区域进行亮度填充，得到增强图片，将该增强图片加入到原来的训练集训练实例分割模型，该方法(1)不需要基于深度网络学习的数据增强方法，其生成新数据的效率很高；(2)通过非感兴趣区域去除技术既能达到很好的数据增强效果；(3)不同于以往的数据增强技术，本发明并不是为了增强数据集样本的多样性，而是通过增加没有复杂背景和无关对象的简单样本促进神经网络模型的学习，提高实例分割效果、提升泛化性能；(4)可以和以前的数据增强技术组合在一起使用，不会发生冲突。

附图说明

图1为本发明所述方法的流程图；

图2为非感兴趣区域去除算法的实例示意图。

具体实施方式

下面将结合附图对本公开技术方案进行详细说明。在本申请的描述中，需要理解地是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，仅用来区分不同的组成部分。

图1为本发明所述方法的流程图，如图1所示，步骤S1：读取训练集中的第一图片及其对应的标注信息，所述标注信息包括物体分割信息和类别信息。

步骤S2:计算所述第一图片的R通道、G通道、B通道各自的全局自然平均亮度；其中，所述R通道表示红色通道，所述G通道表示绿色通道，所述B通道表示蓝色通道。

具体地，包括S21：将维度为W×H×3的所述第一图片分离成三个维度为W×H×1的R通道图片、G通道图片和B通道图片。

其中，N表示所述训练集中所述第一图片的数量，L(x,y)表示单通道图片在位置坐标为(x,y)处的自然平均亮度值，δ＝0.000001。δ是一个比较小的常数，它是为了防止亮度值为零，从而导致取对数后值趋向于负无穷大，故将δ的值设为0.000001。

步骤S3:通过非感兴趣区域去除算法对所述第一图片的非感兴趣区域进行去除，得到非感兴趣区域去除图片即第二图片。

具体地，包括S31：根据所述标注信息提取每个所述第一图片中的已标注的每个实例的掩码矩阵；所述掩码矩阵为二值矩阵，掩码矩阵中的每个元素与第一图片中的每个像素点一一对应，掩码值1表示对应第一图片中的位置是目标实例的一部分，掩码值0表示对应第一图片中的位置为背景或其他实例。

式(2)中的矩阵或运算对相同位置元素的运算规则包括：0∪0＝0，0∪1＝1，1∪0＝1，1∪1＝1。根据式(2)就能得到整张图片的掩码矩阵，掩码值为1表示对应位置是实例，而掩码值为0则表示对应位置为非该实例。

步骤S4:根据所述全局自然平均亮度对所述第二图片中的非感兴趣区域进行亮度填充，得到增强图片即第三图片。

具体地，对所述第二图片中的非感兴趣区域进行亮度填充，包括：

步骤S5:根据所述第一图片的标注信息得到所述第三图片的标注信息。由于步骤S3和步骤S4并未改变物体实例在图片中的空间位置，即具有空间不变形特征，所以增强图片的实例标注信息和原图片(第一图片)的实例标注信息一致，复制生成一份原图片的实例标注信息即可得到增强后图片的标注信息。

步骤S6:将所述第三图片及其标注信息加入到所述训练集中用于训练实例分割模型。

本发明的具体实施例拟采用Microsoft COCO 2017Dataset，该数据集对生活中常见的80种物体类别进行了标注，包含约11800张图片的训练集，5000张图片的验证集和20000张图片的测试集，其中测试集并未公开标注信息。首先读取Microsoft COCO2017Dataset训练集及其对应的标注信息，在经过步骤S2到步骤S6，在Microsoft COCO2017Dataset数据集上使用mAP作为指标，与传统数据增强方法训练的深度神经网络模型进行对比，结果如表1所示，由表1可知，本发明方法平均准确率普遍好于传统数据增强方法训练的网络。

方法	模型	骨干网络	mAP
				传统方法	Mask R-CNN	ResNet-50	34.4
本方法	Mask R-CNN	ResNet-50	35.0
				传统方法	Mask R-CNN	ResNet-101	36.2
本方法	Mask R-CNN	ResNet-101	36.7
				传统方法	YOLACT-550	ResNet-101	29.8
本方法	YOLACT-550	ResNet-101	30.6

表1

用减法而非加法的思想设计数据增强方法，由于背景和无关物体复杂多样，所以去除不感兴趣的背景和物体后的样本有助于实例分割模型的学习；本发明还能直接应用到含有实例掩码标注的数据集上的其他任务，例如目标检测和人体关键点检测等计算机视觉任务。

本发明提供了一种用于实例分割的数据增强方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用于实例分割的数据增强方法，其特征在于，包括：

S6:将所述第三图片及其标注信息加入到所述训练集中用于训练实例分割模型；

其中，所述步骤S3包括：

S32：根据所述掩码矩阵和式(1)进行计算得到所述第一图片的掩码矩阵M，具体包括：

式(1)中的矩阵或运算对相同位置元素的运算规则包括：0∪0＝0，0∪1＝1，1∪0＝1，1∪1＝1；

S33：将所述M按照式(2)的非感兴趣区域去除算法则能得到所述非感兴趣区域去除图片即所述第二图片，包括：

其中，j取值为0、1、2，j为0时表示R通道，j为1时表示G通道，j为2时表示B通道；表示所述第一图片在第j通道上位置坐标为(x,y)处的亮度值，M_x,y表示是根据式(1)得到的在位置坐标为(x,y)处的值，/>表示所述非感兴趣区域去除图片即所述第二图片在第j通道上位置坐标为(x,y)处的亮度值。

2.如权利要求1所述的方法，其特征在于，所述步骤S2包括：

S22：通过以下式(3)计算R通道、G通道、B通道各自的全局自然平均亮度：

3.如权利要求1所述的方法，其特征在于，所述步骤S4中对所述第二图片中的非感兴趣区域进行亮度填充，包括：