CN112101463A

CN112101463A - 图像语义分割网络训练方法、分割方法、分割装置和介质

Info

Publication number: CN112101463A
Application number: CN202010978424.0A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2020-12-18

Abstract

本发明公开了图像语义分割网络训练方法、分割方法、分割装置和介质，涉及计算机视觉领域，所述方法包括：标注若干图像得到标注后的图像集；裁剪标注后的图像集得到第一图像集；通过数据增强的方式处理第一图像集得到第二图像集；通过生成式对抗网络的方式处理第一图像集得到第三图像集；基于第一至第三图像集得到训练数据集；利用训练数据集训练图像语义分割网络；本发明在数据集输入图像语义分割网络前，通过裁剪、数据增强和GAN网络生成新的图片，接着再将数据集输入到语义分割网络中进行学习，最终能够达到提升语义分割准确率的技术效果。

Description

图像语义分割网络训练方法、分割方法、分割装置和介质

技术领域

本发明涉及计算机视觉领域，具体地，涉及图像语义分割网络训练方法、分割方法、分割装置和介质。

背景技术

语义分割(Semantic Segmentation)是像素级别的分类，属于同一类的像素都要被归为一类，因此语义分割是从像素级别理解图像的。目前，几乎没有大规模公开可用的数据集(例如：SpaceNet)，数据标记始终是分割任务的瓶颈。语义分割在真实环境中面临数据标记较难，标记时长较长等诸多挑战。

发明内容

由于语义分割在真实环境中面临诸多挑战，如数据标记较难，标记时长较长等。基于实际应用场景，本发明提出了丰富数据集的方法来提高语义分割方法的精确度。

为实现上述目的，本发明提供了图像语义分割网络训练方法，所述方法包括：

标注若干图像得到标注后的图像集；

裁剪标注后的图像集得到第一图像集；

通过数据增强的方式处理第一图像集得到第二图像集；

通过生成式对抗网络的方式处理第一图像集得到第三图像集；

基于第一至第三图像集得到训练数据集；

利用训练数据集训练图像语义分割网络。

其中，训练方法的原理为：通过裁剪、数据增强(Data Augmentation)和GAN网络的方式来丰富数据集，增加数据集图片的数量然后，将数据集输入到语义分割网络中进行学习，通过丰富的数据集能够使得语义分割网络获得更好的学习效果，最终能够达到提升语义分割准确率的技术效果。

优选的，在训练方法中，裁剪标注后的图像集具体包括：以预设步长裁剪标注后的图像集中的图像得到第一图像集。通过裁剪能够丰富图像的数量。

优选的，在训练方法中，通过数据增强的方式处理第一图像集得到第二图像集具体包括：通过翻转、旋转、随机crop和添加高斯噪声四种方式的随机结合处理第一图像集中的图像。通过翻转、旋转、随机crop和添加高斯噪声均能够丰富图像的数量。

优选的，在训练方法中，GAN网络：GAN网络是通过生成网络G(Generator)和判别网络D(Discriminator)不断博弈，进而使G学习到数据的分布。

G：生成图片的网络，它主要通过一个随机生成的噪声Z来生成图片，本发明记作G(Z)；

D：判别网络，它的输入是G生成的图片，输出则是代表这张图片是真实图片的概率；

在训练过程中，生成网络G的目标是尽量生成真实的图片使得判别网络D无法判别真伪；

综上，G和D就构成了一个动态的“博弈过程”。

优选的，在训练方法中，所述图像语义分割网络包括EfficientNet网络，本方法训练时使用与EfficientNet-b3相同的深度、宽度系数。其中，EfficientDet网络是一种新架构，结合了EfficientNet和新提出的BiFPN，实现新的SOTA结果。SOTA为state of the art，EfficientDet网络为目前该领域最好/最先进的网络，通过该网络能够使得图像语义分割网络的语义分割达到更好的效果。

优选的，在训练方法中，图像语义分割网络的训练过程包括：

将目标图片经过卷积层转化为MBConv模块需要的输入维度；

目标图片经过MBConv模块提取出特征图；

利用基于Fully-Convlutional-Neural-Network的特征图自适应连接方式，使用卷积网络能够匹配不同尺寸的特征图，并将特征图统一为需要的维度；

最后通过输出的特征图完成图像的语义分割。

本发明还提供了一种图像语义分割网络训练系统，所述系统包括：

标注单元，用于标注若干图像得到标注后的图像集；

裁剪单元，用于裁剪标注后的图像集得到第一图像集；

数据增强单元，用于通过数据增强的方式处理第一图像集得到第二图像集；

生成式对抗网络单元，用于通过生成式对抗网络的方式处理第一图像集得到第三图像集；

训练单元，用于基于第一至第三图像集得到训练数据集，利用训练数据集训练图像语义分割网络。

本发明还提供了一种图像语义分割方法，所述方法包括：

将待处理图像输入图像语义分割网络；

图像语义分割网络对待处理图像进行语义分割处理，输出语义分割结果；

所述图像语义分割网络的训练方法包括：

标注若干图像得到标注后的图像集；

裁剪标注后的图像集得到第一图像集；

通过数据增强的方式处理第一图像集得到第二图像集；

基于第一至第三图像集得到训练数据集；

利用训练数据集训练图像语义分割网络。

本发明还提供了一种图像语义分割系统，所述系统包括：

输入单元，用于将待处理图像输入图像语义分割网络；

语义分割单元，用于基于图像语义分割网络对待处理图像进行语义分割处理，输出语义分割结果。

优选的，在分割方法中，所述图像语义分割网络包括EfficientNet网络，本方法训练时使用与EfficientNet-b3相同的深度、宽度系数。

优选的，在分割方法中，图像语义分割网络的训练过程包括：

将目标图片经过卷积层转化为MBConv模块需要的输入维度；

目标图片经过MBConv模块提取出特征图；

最后通过输出的特征图完成图像的语义分割。

本发明还提供了一种图像语义分割装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述图像语义分割方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述图像语义分割方法的步骤。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明在数据集输入图像语义分割网络前，通过裁剪、数据增强和GAN网络生成新的图片，接着再将数据集输入到语义分割网络中进行学习，最终达到提升语义分割准确率的技术效果。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1为图像语义分割网络训练方法的流程示意图；

图2为本发明中语义分割模型示意图；

图3为图像语义分割网络训练系统的组成示意图；

图4为图像语义分割方法的流程示意图；

图5为图像语义分割系统的组成示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

可以理解的是，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

实施例一

请参考图1，图1为图像语义分割网络训练方法的流程示意图，本发明提供了图像语义分割网络训练方法，所述方法包括：

标注若干图像得到标注后的图像集；

裁剪标注后的图像集得到第一图像集；

通过数据增强的方式处理第一图像集得到第二图像集；

基于第一至第三图像集得到训练数据集；

利用训练数据集训练图像语义分割网络。

请参考图2，图2为本发明中语义分割模型示意图。具体流程为：

(1)数据集的构造：已经打标好的图片有50张，分辨率为1024*1024，由于图片数量较少，本发明通过裁剪、数据增强(Data Augmentation)和GAN网络的方式来丰富数据集，作为网络的输入，其中，图片的数量和分辨率在实际应用中均可调整，本发明实施例不进行具体的限定；

(2)裁剪：在原有图片的基础上以步长256进行裁剪，得到4*4*50＝800张分辨率为256*256的图片，其中，具体的步长值、图片的裁剪数量和方式，以及具体的分辨率在实际应用中均可调整，本发明实施例不进行具体的限定。

(3)数据增强：针对裁剪得到的图片，进行翻转、旋转、crop和添加高斯噪声的方式来增加图片的数量。

a)翻转：将图片围绕对称轴进行左右翻转。

b)旋转：将图片进行随机角度(90°、180°和270°)旋转，其中，在实际的应用过程中也可以采用其他角度进行旋转，本发明不进行具体的限定。

c)crop：从原始图像中随机抽样一个部分，然后将此部分的大小调整为原始图像大小，这种方法通常称为随机crop。

d)高斯噪声：添加适量的噪声，可以增强模型的学习能力。

以上四种方式随机组合生成800张分辨率为256*256的图片，本实施例对图片的分辨率和数量不进行具体的限定，在实际的应用过程中可随机调整。

(4)GAN网络：GAN网络是通过生成网络G(Generator)和判别网络D(Discriminator)不断博弈，进而使G学习到数据的分布。

a)G：生成图片的网络，它主要通过一个随机生成的噪声Z来生成图片，记作G(Z)；

b)D：判别网络，它的输入是G生成的图片，输出则是代表这张图片是真实图片的概率；

c)在训练过程中，生成网络G的目标是尽量生成真实的图片使得判别网络D无法判别真伪；

d)综上，G和D就构成了一个动态的“博弈过程”。

综合(2)(3)(4)步骤，得到了模型输入共2400张图片，接下来将处理得到的图片输入到网络中进行学习。

(5)EfficientDet网络：它是谷歌大脑团队提出的新架构，结合了EfficientNet(同样来自该团队)和新提出的BiFPN，实现新的SOTA结果。本发明的主干网络使用EfficientNet网络。为了使用EfficientNet的预训练权重，本发明使用与EfficientNet-b3相同的深度、宽度系数；

a)将目标图片经过Conv3×3层转化为MBConv模块需要的输入维度；

b)图片经过一系列的MBConv模块提取出feature map，各个MBConv模块的参数进行了精细化调整以适应当前使用环境，组合式的尺度优化方法可以使网络获得更好的感受野；

c)利用基于Fully-Convlutional-Neural-Network的特征图自适应连接方式。使用Conv1x1网络能够适应各种不同尺寸的特征图，并将其统一为需要的维度；

d)最后通过输出的特征图完成图片的语义分割。

本实施例中中，由于可以使用的数据集数量较少，考虑到数据集的图片的数量对于模型训练精度的影响，本发明首先将原始的1024*1024大图以步长256个像素进行裁剪得到800张256*256的图片，接着对裁剪后的图片进行数据增强和GAN网络处理，共得到2400张图片，进而将最终得到的图片通过语义分割网络进行训练。通过这样做的好处是，数据集的丰富有助于精度的提升。实验证明，本发明的方法和模型准确度比直接用原始数据训练的网络的精度要高。

其中，本实施例中图像可以为地质领域拍摄的图像，通过对地质图像进行语义分割，可以获得想要的地质特征图，如山体或河流或岩体的特征图。

其中，本实施例中图像可以为交通图像，通过对路面图像进行语义分割可以分割出路面的标识和车道以及障碍物，进而实现无人驾驶。

其中，本实施例中图像可以为面部图像，通过对面部图像进行语义分割可以分割出人脸的特征，进而实现人脸识别。

其中，本实施例中图像可以为遥感图像，通过对遥感图像进行分割，可以实现重要地物检测。

综上，本发明中的图像语义分割方法可以在很多领域进行应用，包括地质检测，无人驾驶，面部分割以及遥感影像等，本发明对具体的应用领域不进行限定。

实施例二

请参考图3，图3为图像语义分割网络训练系统的组成示意图，实施例二提供了一种图像语义分割网络训练系统，所述系统包括：

标注单元，用于标注若干图像得到标注后的图像集；

裁剪单元，用于裁剪标注后的图像集得到第一图像集；

实施例三

请参考图4，图4为图像语义分割方法的流程示意图，实施例三提供了一种图像语义分割方法，所述方法包括：

将待处理图像输入图像语义分割网络；

所述图像语义分割网络的训练方法包括：

标注若干图像得到标注后的图像集；

裁剪标注后的图像集得到第一图像集；

通过数据增强的方式处理第一图像集得到第二图像集；

基于第一至第三图像集得到训练数据集；

利用训练数据集训练图像语义分割网络。

实施例四

请参考图5，图5为图像语义分割系统的组成示意图，实施例四提供了一种图像语义分割系统，所述系统包括：

输入单元，用于将待处理图像输入图像语义分割网络；

实施例五

本发明实施例五还提供了一种图像语义分割装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述图像语义分割方法的步骤。

其中，所述处理器可以是中央处理器(CPU，Central Processing Unit)，还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(Application Specific Integrated Circuit)、现成可编程门阵列(Fieldprogrammablegate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的数据，实现发明中图像处理装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外，存储器可以包括高速随机存取存储器、还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡，安全数字卡，闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例六

本发明实施例六还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述图像语义分割的步骤。

所述图像语义分割装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序可存储于一计算机可读存介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.图像语义分割网络训练方法，其特征在于，所述方法包括：

标注若干图像得到标注后的图像集；

裁剪标注后的图像集得到第一图像集；

通过数据增强的方式处理第一图像集得到第二图像集；

基于第一至第三图像集得到训练数据集；

利用训练数据集训练图像语义分割网络。

2.根据权利要求1所述的图像语义分割网络训练方法，其特征在于，裁剪标注后的图像集具体包括：以预设步长裁剪标注后的图像集中的图像得到第一图像集。

3.根据权利要求1所述的图像语义分割网络训练方法，其特征在于，通过数据增强的方式处理第一图像集得到第二图像集具体包括：通过翻转、旋转、随机crop和添加高斯噪声四种方式的随机结合处理第一图像集中的图像。

4.根据权利要求1所述的图像语义分割网络训练方法，其特征在于，所述图像语义分割网络包括EfficientNet网络，本方法训练时使用与EfficientNet-b3相同的深度、宽度系数。

5.根据权利要求1-4中任意一个所述的图像语义分割网络训练方法，其特征在于，图像语义分割网络的训练过程包括：

将目标图片经过卷积层转化为MBConv模块需要的输入维度；

目标图片经过MBConv模块提取出特征图；

最后利用输出的特征图完成图像的语义分割。

6.一种图像语义分割方法，其特征在于，所述方法包括：

将待处理图像输入图像语义分割网络；

所述图像语义分割网络的训练方法包括：

标注若干图像得到标注后的图像集；

裁剪标注后的图像集得到第一图像集；

通过数据增强的方式处理第一图像集得到第二图像集；

基于第一至第三图像集得到训练数据集；

利用训练数据集训练图像语义分割网络。

7.根据权利要求6所述的图像语义分割方法，其特征在于，所述图像语义分割网络包括EfficientNet网络，本方法训练时使用与EfficientNet-b3相同的深度、宽度系数。

8.根据权利要求6所述的图像语义分割方法，其特征在于，图像语义分割网络的训练过程包括：

将目标图片经过卷积层转化为MBConv模块需要的输入维度；

目标图片经过MBConv模块提取出特征图；

通过图像语义分割网络输出的特征图完成图像的语义分割。

9.一种图像语义分割装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求6-8中任意一个所述图像语义分割方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求6-8中任意一个所述图像语义分割方法的步骤。