CN112784844A

CN112784844A - 一种制作语义分割网训练样本的方法、系统及介质

Info

Publication number: CN112784844A
Application number: CN202011639418.9A
Authority: CN
Inventors: 王克贤; 杭天欣; 郑钧友; 陈红新; 马元巍; 潘正颐; 侯大为
Original assignee: Shanghai Weiyi Intelligent Manufacturing Technology Co ltd; Changzhou Weiyizhi Technology Co Ltd
Current assignee: Shanghai Weiyi Intelligent Manufacturing Technology Co ltd; Changzhou Weiyizhi Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-11
Anticipated expiration: 2040-12-31
Also published as: CN112784844B

Abstract

本发明提供了一种制作语义分割网训练样本的方法、系统及介质，涉及深度学习技术领域，该方法包括：步骤1：设定裁剪后获得的训练样本的尺寸，设定单张source_image和mask_image裁剪得到crop_source_image和crop_mask_image图的数量number，设定裁剪标记图crop_mask_image像素值大于0的像素个数阈值the；步骤2：获取起始坐标点point(x，y)；步骤3：在source_image和mask_image上进行裁剪，得到裁剪原图crop_source_image和裁剪标记图crop_mask_image；步骤4：计算裁剪标记图crop_mask_image图中像素值大于0的像素值的个数count；步骤5：将像素个数阈值the和像素值的个数count之间进行比较；步骤6：比较完成后，保存裁切后的裁剪原图crop_source_image和裁剪标记图crop_mask_image；步骤7：判断i是否大于等于number。本发明能够减少重复使用大量的负样本对网络进行训练，平衡正、负样本的数量。

Description

一种制作语义分割网训练样本的方法、系统及介质

技术领域

本发明涉及深度学习技术领域，具体地，涉及一种制作语义分割网训练样本的方法、系统及介质。

背景技术

随着深度学习的不断发展，深度学应用领域也越来越多，语义分割一直是深度学习的一个热门分支，使用的非常广泛，例如，自动驾驶目标分割，医疗影像病灶分割，工业领域缺陷分割、生物领域的细胞检测等等，要想分割网能够很好的检测出目标，前提是要制作出分割网可以使用的样本。目前语义分割网络使用的主流样本包含原图和标记图，原图定义为source_image，标记图定义为mask_image，原图通过网络推理生成特征图，特征图定义为feature_image，mask_image与生成的feature_image一起通过损失函数计算损失值，并通过梯度下降更新网络参数。

在训练样本的制作过程中，现在主要的方法是直接输入产品source_image和mask_image图，然后通过在产品source_image和mask_image上随机剪裁，获得固定尺寸训练样本crop_source_image和crop_mask_image，然后送进语义分割网络进行训练。

针对上述现有技术，存在以下技术缺陷，在一幅图中，目标占一幅图的比例一般很小，因此随机剪裁的方法，容易造成正、负样本不均衡，使负样本数远远大于正样本数，同时使网络收敛速度减慢，从而影响模型的召回率。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种制作语义分割网训练样本的方法、系统及介质，能够减少重复使用大量的负样本对网络进行训练，从而具有更少的负样本，平衡正、负样本的数量。

根据本发明提供的一种制作语义分割网训练样本的方法、系统及介质，所述方案如下：

第一方面，提供了一种制作语义分割网训练样本的方法，所述方法包括：

设定裁剪后获得的训练样本的尺寸：宽度width和高度height，并自动转成离32倍数最近的整数，设定单张source_image和mask_image裁剪得到crop_source_image和crop_mask_image图的数量number，设定裁剪标记图crop_mask_image像素值大于0的像素个数阈值the；

设定完成之后，获取裁剪图在source_image和mask_image上的起始坐标点point(x，y)；

以起始坐标点point为起始点，以宽度width和高度height为尺寸，在source_image和mask_image上进行裁剪，得到裁剪原图crop_source_image和裁剪标记图crop_mask_image；

计算裁剪标记图crop_mask_image图中像素值大于0的像素值的个数count；

将像素个数阈值the和像素值的个数count之间进行比较；

比较完成后，保存裁切后的裁剪原图crop_source_image和裁剪标记图crop_mask_image，做为语义分割网的训练样本，同时i＝i+1；

判断i是否大于等于数量number，当i>＝number，则结束，i<number，则进入步骤2，同时像素个数阈值the恢复到步骤1的设定值。

优选的，所述获取裁剪图在source_image和mask_image上的起始坐标点point(x，y)包括：

在0～source_image图像宽度width之间随机取一个整型数a做为起始坐标点point的x坐标，即x＝a；

在0～source_image图像高度height之间随机取一个整型数b做为起始坐标点point的y坐标，即y＝b。

优选的，所述将像素个数阈值the和像素值的个数count之间进行比较包括：

判断像素值的个数count是否大于像素个数阈值the；

当count>the时，进入步骤6；

当count<the且循环图未找到count>the的时间T大于3秒，则使像素个数阈值the＝the*0.1后，进入步骤2；

当count<the且循环图未找到count>the的时间T小于3秒，则直接进入步骤2。

第二方面，提供了一种制作语义分割网训练样本的系统，所述系统包括：

模块1：设定裁剪后获得的训练样本的尺寸：宽度width和高度height，并自动转成离32倍数最近的整数，设定单张source_image和mask_image裁剪得到crop_source_image和crop_mask_image图的数量number，设定裁剪标记图crop_mask_image像素值大于0的像素个数阈值the；

模块2：设定完成之后，获取裁剪图在source_image和mask_image上的起始坐标点point(x，y)；

模块3：以起始坐标点point为起始点，以宽度width和高度height为尺寸，在source_image和mask_image上进行裁剪，得到裁剪原图crop_source_image和裁剪标记图crop_mask_image；

模块4：计算裁剪标记图crop_mask_image图中像素值大于0的像素值的个数count；

模块5：将像素个数阈值the和像素值的个数count之间进行比较；

模块6：比较完成后，保存裁切后的裁剪原图crop_source_image和裁剪标记图crop_mask_image，做为语义分割网的训练样本，同时i＝i+1；

模块7：判断i是否大于等于数量number，当i>＝number，则结束，i<number，则进入模块2，同时像素个数阈值the恢复到模块1的设定值。

优选的，所述模块2包括：

优选的，所述模块5包括：

判断像素值的个数count是否大于像素个数阈值the；

当count>the时，进入模块6；

当count<the且循环图未找到count>the的时间T大于3秒，则使像素个数阈值the＝the*0.1后，进入模块2；

当count<the且循环图未找到count>the的时间T小于3秒，则直接进入模块2。

与现有技术相比，本发明具有如下的有益效果：

1、在随机选择起始坐标点时，控制了坐标的范围，防止后续裁剪过程中，裁剪样本超出到图像之外；

2、在挑选裁剪样本时，通过裁剪后的标注图像素值大于0的像素个数的阈值，选择保存含目标的样本，过滤掉不含目标或者含极小目标的样本，从而使正、负样本更加平衡；

3、由于每一次裁剪，目标在裁剪图中的位置不一样，从而增加了样本的多样性；

4、使得网络在相同的迭代次数下收敛速度更快，召回率更高。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为样本制作裁剪方法的流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实施例提供了一种制作语义分割网训练样本的方法、系统及介质，参照图1所示，首先设定裁剪后获得的训练样本的尺寸：宽度width和高度height，并自动转成离32倍数最近的整数，设定单张source_image和mask_image裁剪得到crop_source_image和crop_mask_image图的数量number，设定裁剪标记图crop_mask_image像素值大于0的像素个数阈值the。

在设定完成之后，获取裁剪图在source_image和mask_image上的起始坐标点point(x，y)：

其次，以起始坐标点point为起始点，以宽度width和高度height为尺寸，在source_image和mask_image上进行裁剪，得到裁剪原图crop_source_image和裁剪标记图crop_mask_image。再计算裁剪标记图crop_mask_image图中像素值大于0的像素值的个数count，从而将像素个数阈值the和像素值的个数count之间进行比较：

首先判断像素值的个数count是否大于像素个数阈值the，如果判断count>the，则进入下一步骤：保存裁切后的裁剪原图crop_source_image和裁剪标记图crop_mask_image，做为语义分割网的训练样本；

如果判断count<the且循环图未找到count>the的时间T大于3秒，则使像素个数阈值the＝the*0.1后，进入获取裁剪图在source_image和mask_image上的起始坐标点point(x，y)的步骤；

如果判断count<the且循环图未找到count>the的时间T小于3秒，则直接进入获取裁剪图在source_image和mask_image上的起始坐标点point(x，y)的步骤。

上述像素值的个数count与像素个数阈值the之间的比较完成之后，保存裁切后的裁剪原图crop_source_image和裁剪标记图crop_mask_image，做为语义分割网的训练样本，同时i＝i+1。

最后判断i是否大于等于数量number，当i>＝number，则循环结束，i<number，则进入获取裁剪图在source_image和mask_image上的起始坐标点point(x，y)的步骤，同时像素个数阈值the恢复到最初步骤中的设定值。

本发明实施例提供了一种制作语义分割网训练样本的方法、系统及介质，避免了重复使用大量的负样本对网络进行训练，从而具有更少的负样本，用于更加平衡的正、负样本数量，提升了正样本对网络权重的影响，使网络在相同的迭代次数下，具有更快的收敛速度和更高的召回率。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种制作语义分割网训练样本的方法，其特征在于，所述方法包括：

步骤1：设定裁剪后获得的训练样本的尺寸：宽度width和高度height，并自动转成离32倍数最近的整数，设定单张source_image和mask_image裁剪得到crop_source_image和crop_mask_image图的数量number，设定裁剪标记图crop_mask_image像素值大于0的像素个数阈值the；

步骤2：设定完成之后，获取裁剪图在source_image和mask_image上的起始坐标点point(x，y)；

步骤3：以起始坐标点point为起始点，以宽度width和高度height为尺寸，在source_image和mask_image上进行裁剪，得到裁剪原图crop_source_image和裁剪标记图crop_mask_image；

步骤4：计算裁剪标记图crop_mask_image图中像素值大于0的像素值的个数count；

步骤5：将像素个数阈值the和像素值的个数count之间进行比较；

步骤6：比较完成后，保存裁切后的裁剪原图crop_source_image和裁剪标记图crop_mask_image，做为语义分割网的训练样本，同时i＝i+1；

步骤7：判断i是否大于等于数量number，当i>＝number，则结束，i<number，则进入步骤2，同时像素个数阈值the恢复到步骤1的设定值。

2.根据权利要求1所述的方法，其特征在于，所述步骤2包括：

步骤2-1：在0～source_image图像宽度width之间随机取一个整型数a做为起始坐标点point的x坐标，即x＝a；

步骤2-2：在0～source_image图像高度height之间随机取一个整型数b做为起始坐标点point的y坐标，即y＝b。

3.根据权利要求1所述的方法，其特征在于，步骤5包括：

步骤5-1：判断像素值的个数count是否大于像素个数阈值the；

步骤5-2：当count>the时，进入步骤6；

步骤5-3：当count<the且循环图未找到count>the的时间T大于3秒，则使像素个数阈值the＝the*0.1后，进入步骤2；

步骤5-4：当count<the且循环图未找到count>the的时间T小于3秒，则直接进入步骤2。

4.一种制作语义分割网训练样本的系统，其特征在于，所述系统包括：

5.根据权利要求4所述的系统，其特征在于，所述模块2包括：

6.根据权利要求4所述的系统，其特征在于，所述模块5包括：

判断像素值的个数count是否大于像素个数阈值the；

当count>the时，进入模块6；

7.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。