CN110570433A

CN110570433A - 基于生成对抗网络的图像语义分割模型构建方法和装置

Info

Publication number: CN110570433A
Application number: CN201910818647.8A
Authority: CN
Inventors: 吴霞
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-13
Anticipated expiration: 2039-08-30
Also published as: CN110570433B

Abstract

本申请公开了一种基于生成对抗网络的图像语义分割模型构建方法和装置，该方法使用分割模型训练源域数据集，再使用生成对抗网络将源域数据集转换为新的目标域数据集，该新的目标域数据集保留了源域数据集中图像的结构特征但同时具有目标域数据集的全局特征，因此使用新的目标域数据集微调源域分割模型将降低源域和目标域的域移位影响，并且不会对数据的其他图像特征产生负影响，提高了图像语义分割模型的泛化能力，提高了自适应图像语义分割模型的精度和效率。如此，通过使用生成对抗网络有效的减少了源域和目标域间域移位的影响，提高了自适应图像语义分割的准确率和效率，并降低了成本，不用人工的工作也能取得较高的准确度。

Description

基于生成对抗网络的图像语义分割模型构建方法和装置

技术领域

本申请涉及图像识别技术领域，特别是涉及一种基于生成对抗网络的图像语义分割模型构建方法和装置。

背景技术

图像分割是指根据图像内容对指定区域进行标记的计算机视觉任务，具体来讲，图像语义分割的目的在于标记图像中的每一点像素，并将像素和其对应的类别对应起来。在场景理解、医疗图像、无人驾驶等方面具有重要的实际应用价值。

传统的图像语义分割方法有以下几种：

第一种是阈值法，即将一个灰度图像转换为背景分离的二值图像；

第二种是像素聚类的方法，假设图像中有K个类别，采用聚类迭代的方式将图像中的像素点分类；

第三种是图像边缘分割的方法，通常使用边缘检测算法扫描图像得到边缘图像，再利用提取到的边缘图像信息将图像中的不同区域分割出来；

第四种是区域生成的方式，这是一种根据同一物体局部区域内像素具有相似性来聚集像素点的方法。

随着深度学习在计算机视觉领域取得的优秀成果，目前基于深度学习的图像语义分割方法已成为最热门方法。但是深度学习的成功性很大程度上取决于所使用的的训练集的质量，高质量的训练集需要耗费大量的人力物力的消耗，虽然目前已有几个高质量的用于图像语义分割的数据集，能够帮助学者进行相关的研究工作，但由于模型自身泛化能力的限制，无法很好的应用于实际生活中的图像语义分割中，因此图像语义分割模型的自适应问题更为需要解决的热点问题。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于生成对抗网络的图像语义分割模型构建方法，包括：

选取基础数据集，确定出目标域数据集和源域数据集；

采用源域数据集对分割模型进行训练，训练后得到源域分割模型，所述源域分割模型通过双边分割网络进行图像特征提取；

采用生成对抗网络模型对从源域数据集中所提取出的图像与目标域数据集进行对抗训练，使得生成真实的图像样本，并将训练完的图像样本输出构成新的目标域数据集；

采用经分割模型训练后的源域数据集的权重值作为对所述新的目标域数据集进行分割模型训练的起始点，使用所述新的目标域数据集微调所述源域分割模型，其中是使用交叉熵作为损失函数进行微调，最终构建出适用于目标域数据集的语义分割模型。

可选地，采用源域数据集对分割模型进行训练，训练后得到源域分割模型，所述源域分割模型通过双边分割网络进行图像特征提取，包括：

采用深度残差网络作为双边分割网络对源域数据集进行图像特征提取，实现对源域数据集进行若干个批次的训练，在训练过程中使用ADAM作为训练优化器，得到分割精度高的图像。

可选地，采用生成对抗网络模型对从源域数据集中所提取出的图像与目标域数据集进行对抗训练，使得生成真实的图像样本，并将训练完的图像样本输出构成新的目标域数据集，包括：

生成对抗网络由生成器和鉴别器组成；

在生成器中包括编码器和解码器，所述编码器中的卷积层对从源域数据集中所提取出的图像进行采用并将获得的图像的输出特征送至所述解码器，在此过程中使用ReLu函数作为采样用的卷积层的激活函数，所述解码器中的卷积层训练所得到的图像输出特征并结合目标域数据集进行对抗学习进而重建图像的原始特征向量，在解码器的架构中采用dropout来减少过拟合；

在鉴别器中，接收所述生成器生成的图像的原始特征向量作为输入，并将所述原始特征向量进行二进制分类输出，构建图像样本，从而形成新的目标域数据集。

可选地，在鉴别器中，采用softmax函数将所述原始特征向量转换为二进制分类输出，同时以与所述生成器相同的方式，使用ReLu函数作为鉴别器中所有卷积层的激活函数。

根据本申请的另一个方面，提供了一种基于生成对抗网络的图像语义分割模型构建装置，包括：

数据集选取模块，其配置成选取基础数据集，确定出目标域数据集和源域数据集；

源域图像特征提取模块，其配置成首先采用源域数据集对分割模型进行训练，训练后得到源域分割模型，所述源域分割模型通过双边分割网络进行图像特征提取；

对抗网络训练模块，其配置成采用生成对抗网络模型对从源域数据集中所提取出的图像与目标域数据集进行对抗训练，使得生成真实的图像样本，并将训练完的图像样本输出构成新的目标域数据集；

微调模块，其采用经分割模型训练后的源域数据集的权重值作为对所述新的目标域数据集进行分割模型训练的起始点，使用所述新的目标域数据集微调所述源域分割模型，其中是使用交叉熵作为损失函数进行微调，最终构建出适用于目标域数据集的语义分割模型。

可选地，所述源域图像特征提取模块具体配置成：

可选地，所述对抗网络训练模块配置成：

生成对抗网络由生成器和鉴别器组成；

根据本申请的又一个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行如上所述的方法。

本申请所提供的技术方案，首先使用分割模型训练源域数据集，再使用生成对抗网络将源域数据集转换为新的目标域数据集，该新的目标域数据集保留了源域数据集中图像的结构特征但同时具有目标域数据集的全局特征，因此使用新的目标域数据集微调源域分割模型将降低源域和目标域的域移位影响，并且不会对数据的其他图像特征产生负影响，提高了图像语义分割模型的泛化能力，提高了自适应图像语义分割模型的精度和效率。如此，通过使用生成对抗网络有效的减少了源域和目标域间域移位的影响，提高了自适应图像语义分割的准确率和效率，并降低了成本，不用人工的工作也能取得较高的准确度。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的基于生成对抗网络的图像语义分割模型构建方法流程图；

图2是根据本申请另一个实施例的基于生成对抗网络的图像语义分割模型构建装置结构图；

图3是根据本申请另一个实施例的计算设备结构图；

图4是根据本申请另一个实施例的计算机可读存储介质结构图。

具体实施方式

图1是根据本申请一个实施例的基于生成对抗网络的图像语义分割模型构建方法流程图。参见图1，该基于生成对抗网络的图像语义分割模型构建方法包括：

101：选取基础数据集，确定出目标域数据集和源域数据集。本实施例中，采用的数据集为ISPRS(WGII/4)2D语义分割的基准数据集，选取其中的Vaihingen数据集和Potsdam数据集分别作为目标域数据集和源域数据集，这两个数据集中都包含了高分辨率的图像，但两者的分辨率不同，分辨率的区别也是本实验需要解决的问题。两个数据集有六类语义类型，分别是建筑、树、车、不透水表面、低矮植被、背景；

102：采用源域数据集对分割模型进行训练，训练后得到源域分割模型，所述源域分割模型通过双边分割网络进行图像特征提取；

103：采用生成对抗网络模型对从源域数据集中所提取出的图像与目标域数据集进行对抗训练，使得生成真实的图像样本，并将训练完的图像样本输出构成新的目标域数据集；

104：采用经分割模型训练后的源域数据集的权重值作为对所述新的目标域数据集进行分割模型训练的起始点，使用所述新的目标域数据集微调所述源域分割模型，其中是使用交叉熵作为损失函数进行微调，最终构建出适用于目标域数据集的语义分割模型。

本实施例中，可选地，采用源域数据集对分割模型进行训练，训练后得到源域分割模型，所述源域分割模型通过双边分割网络进行图像特征提取，包括：

在本实施例中，首先在源域数据集(Potsdam数据集)上训练分割模型，双边分割网络是目前在Cityscapes数据集上测试的最快分割模型，从而得到源域分割模型。在对源域分割模型进行图像提取时，使用的是深度残差网络(ResNet)中的ResNet101作为图像特征提取器，对Postdam数据集进行80个批次的训练，批量大小为每批1个图像，使用ADAM作为训练优化器，学学习率设置为0.001，平均分割精度超过85％。

生成对抗网络由生成器和鉴别器组成；

在鉴别器中，接收所述生成器生成的图像的原始特征向量作为输入，并将所述原始特征向量进行二进制分类输出，采用softmax函数将所述原始特征向量转换为二进制分类输出，同时以与所述生成器相同的方式，使用ReLu函数作为鉴别器中所有卷积层的激活函数，进而构建图像样本，形成新的目标域数据集。

在本实施例中，在生成器的编码器中一共采用了八个卷积层，其中四个卷积层设置为下采样，四个卷积层用于上采样，并使用ReLU作为采样层的激活函数，从编码器中获得图像的输出特征后将被送至解码器，解码器将学习如何重建原始特征向量，解码器采用了上采样的四个卷积层，并在解码器架构中使用了dropout来减少过拟合。而在鉴别器中，使用了五个卷积层，将生成图像大小为256的特征向量，然后使用softmax函数将此特征向量转换为二进制输出，以与生成器相同的方式，使用ReLU作为所有层的激活函数。鉴别器将尽可能生成真实的图像样本，而鉴别器被训练为不被所生成的图像欺骗并且成功地将它们检测为假的。

本实施例所提供的方法，首先使用分割模型训练源域数据集，再使用生成对抗网络将源域数据集转换为新的目标域数据集，该新的目标域数据集保留了源域数据集中图像的结构特征但同时具有目标域数据集的全局特征，因此使用新的目标域数据集微调源域分割模型将降低源域和目标域的域移位影响，并且不会对数据的其他图像特征产生负影响，提高了图像语义分割模型的泛化能力，提高了自适应图像语义分割模型的精度和效率。如此，通过使用生成对抗网络有效的减少了源域和目标域间域移位的影响，提高了自适应图像语义分割的准确率和效率，并降低了成本，不用人工的工作也能取得较高的准确度。

数据集选取模块201，其配置成选取基础数据集，确定出目标域数据集和源域数据集；

源域图像特征提取模块202，其配置成首先采用源域数据集对分割模型进行训练，训练后得到源域分割模型，所述源域分割模型通过双边分割网络进行图像特征提取；

对抗网络训练模块203，其配置成采用生成对抗网络模型对从源域数据集中所提取出的图像与目标域数据集进行对抗训练，使得生成真实的图像样本，并将训练完的图像样本输出构成新的目标域数据集；

微调模块204，其采用经分割模型训练后的源域数据集的权重值作为对所述新的目标域数据集进行分割模型训练的起始点，使用所述新的目标域数据集微调所述源域分割模型，其中是使用交叉熵作为损失函数进行微调，最终构建出适用于目标域数据集的语义分割模型。

可选地，所述源域图像特征提取模块202具体配置成：

可选地，所述对抗网络训练模块203具体配置成：

生成对抗网络由生成器和鉴别器组成；

本申请实施例还提供了一种计算设备，参照图3，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图4，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于生成对抗网络的图像语义分割模型构建方法，包括：

选取基础数据集，确定出目标域数据集和源域数据集；

2.根据权利要求1所述的方法，其特征在于，采用源域数据集对分割模型进行训练，训练后得到源域分割模型，所述源域分割模型通过双边分割网络进行图像特征提取，包括：

3.根据权利要求1所述的方法，其特征在于，采用生成对抗网络模型对从源域数据集中所提取出的图像与目标域数据集进行对抗训练，使得生成真实的图像样本，并将训练完的图像样本输出构成新的目标域数据集，包括：

生成对抗网络由生成器和鉴别器组成；

4.根据权利要求3所述的方法，其特征在于，在鉴别器中，采用softmax函数将所述原始特征向量转换为二进制分类输出，同时以与所述生成器相同的方式，使用ReLu函数作为鉴别器中所有卷积层的激活函数。

5.一种基于生成对抗网络的图像语义分割模型构建装置，包括：

6.根据权利要求5所述的装置，其特征在于，所述源域图像特征提取模块具体配置成：

7.根据权利要求5所述的装置，其特征在于，所述对抗网络训练模块配置成：

生成对抗网络由生成器和鉴别器组成；

8.根据权利要求7所述的装置，其特征在于，在鉴别器中，采用softmax函数将所述原始特征向量转换为二进制分类输出，同时以与所述生成器相同的方式，使用ReLu函数作为鉴别器中所有卷积层的激活函数。

9.一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的方法。

10.一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1-4中任一项所述的方法。