CN110503052A

CN110503052A - 一种基于改进u-net网络的图像语义分割方法

Info

Publication number: CN110503052A
Application number: CN201910794746.7A
Authority: CN
Inventors: 黄进; 刘子仪; 朱明仓; 李剑波
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-11-26

Abstract

本发明公开了一种基于改进U‑NET网络的图像语义分割方法，包括：步骤1：对输入图像依次进行不同尺度的下采样，并提取不同尺度的图像特征；步骤2：对所提取各尺度的图像特征分别进行空洞卷积操作，之后进行图像特征融合；步骤3：对融合后的图像特征进行通道叠加，并从高维特征逐一映射到低维特征，生成多通道的映射结果；步骤4：对各尺度的映射结果进行上采样，获得预测结果，对预测结果可视化，将one‑hot编码结果转换为可见的图片。本发明基于改进U‑net的图像语义分割方法，将其运用于航拍图像分割问题上，较U‑net有更好的识别准确率。

Description

一种基于改进U-NET网络的图像语义分割方法

技术领域

本发明属于图像分割技术领域，具体涉及一种基于改进U-NET网络的图像语义分割方法。

背景技术

深度学习领域的U-net神经网络最开始是用于医学图像领域。由于U-net神经网络有着很多优点，于是很多学者将其迁移使用到了其他计算机视觉领域上，发现其在不同的图像处理上仍然表现出优异的性能，并在多项相关图像处理比赛上远远超越其他算法，长期位居多项榜首。

发明内容

本发明的目的是将U-net神经网络运用于无人机图像的处理上，提供了一种基于改进U-NET网络的图像语义分割方法。

本发明基于U-net神经网络对无人机航拍的俯瞰图片进行像素级的语义分割，来达到识别地物种类及其所包含的像素。在使用U-net神经网络对航拍图像进行语义分割时发现，若使用传统的U-net神经网络，预测精度还有待提高。因此本发明对传统U-net神经网络做了相应改进。

本发明提供的一种基于改进U-NET网络的图像语义分割方法，包括：

步骤1：对输入图像依次进行不同尺度的下采样，并提取不同尺度的图像特征；

步骤2：对所提取各尺度的图像特征分别进行空洞卷积操作，之后进行图像特征融合；

步骤3：对融合后的图像特征进行通道叠加，并从高维特征逐一映射到低维特征，生成多通道的映射结果；

步骤4：对各尺度的映射结果进行上采样，获得预测结果，对预测结果可视化，将one-hot编码结果转换为可见的图片。

进一步的，步骤1中，利用2×2的最大池化对输入图像进行不同尺度的下采样。

进一步的，步骤3中，利用2×2的反卷积来进行逐一映射。

进一步的，以上步骤中的所有普通卷积和空洞卷积操作之前均进行补零操作。

本发明基于改进U-net的图像语义分割方法，将其运用于航拍图像分割问题上，用同样的小样本数据集进行训练、验证、测试，发现改进后的atrous-unet网络较U-net有更好的识别准确率,能够达到73％以上。

附图说明

图1为传统的U-net神经网络结构示意图；

图2为改进的U-net神经网络结构示意图；

图3为实施例中下采样示意图；

图4为普通卷积和空洞卷积的对比示意图；

图5为实施例中反卷积示意图；

图6为实施例中的训练样本；

图7为实施例中的测试样本；

图8～9为实施例中采用传统U-net神经网络的图像分割结果；

图10～11为实施例中采用改进U-net神经网络的图像分割结果。

具体实施方式

为便于理解本发明，下面将对本发明技术原理、实施过程及技术效果进行详细说明。

参见图1，所示为U-net神经网络的结构示意图，各矩形条上方的数字表示矩阵通道数，即数字3、64、128等分别表示3通道、64通道、128通道等；矩形条左侧的两数值分别表示矩阵的行数和列数，即912×368表示矩阵有912行、368列。下面将结合图1阐述U-net神经网络的运算原理。U-net神经网络包括4种运算步骤：3×3卷积运算(conv 3×3,ReLU)、裁剪并在通道维度上叠加(copy and crop)、最大池化操作(max pool 2×2)、上采样操作(up-conv 2×2)。在神经网络结构图中，不同的运算采用不同的箭头表示，见图1右下角。图中U字型网络左边部分表示图像的下采样，即“在不同尺度上提取图像特征”，图1示出了逐层下采样得到的5种尺度。U字型网络右边部分表示图像的上采样，即“高维特征向低维特征的映射”。图1示出了5次映射，映射的同时会与其相同维度的特征图进行融合，最后获得与原始图像大小相同的n通道分割结果，n表示类别数。由于分割结果上每个像素上的预测值为one-hot编码，无法转化为图片格式，需要对分割结果进行可视化转换，获得RGB三通道的彩色图像。

但是如果将U-net神经网络直接用于无人机航拍图像的分割，还存在若干问题。实际中，输出图像和输入图像尺度并非完全相同，输出预测标签的较输入原始图像有一定程度缩小，其原因是每个尺度上进行卷积处理前没有补充图像，每次卷积运算均会导致特征图变小。另外，U-net神经网络直接用于无人机航拍图像的分割，网络预测精度还有待进一步提高。为了解决上述问题，本发明提供了一种改进的U-net神经网络结构，参见图2。参见图2，在图1所示U-net神经网络结构的基础上，在左部的下采样运算和右部的映射运算之间增加了空洞卷积运算，即在进行各尺度特征图融合前，在通道叠加前，还执行空洞卷积运算。

下面将结合图2，提供本发明基于改进U-net的图像语义分割方法的具体步骤：

步骤1：对输入图像依次进行不同尺度的下采样，并提取不同尺度的图像特征。

参见图3，本步骤利用2×2的最大池化对输入图像进行不同尺度的下采样，具体为：取输入图像的每个2×2大小区域的最大特征值，4个2×2大小区域即可缩小到一个2×2大小区域，即能将图像的尺寸缩小到一半，同时又能保留显著的图像特征。

步骤2：对所提取各尺度的图像特征分别进行空洞卷积操作，在保存图像细节信息的基础上，以融合更多的上下文信息，增大感受野的同时不增加过多的计算量。图4示出了普通卷积与步长为1的空洞卷积之间区别，左图为普通卷积示意图，右图为空洞卷积示意图。

步骤3：对上采样提取的不同尺度的图像特征，从高维特征逐一映射到低维特征，并生成n通道的映射结果。本实施例中，利用2×2的反卷积来进行映射，映射结果见图5。

步骤4：对预测结果进行可视化，将one-hot编码结果转换为可见的图片。

为了让网络输入输出图像大小相同，每次使用卷积操作前均需进行补零，以防止图像缩小。另外，在U-net多尺度卷积基础上增加了空洞卷积的中间步骤，以及在最后预测标签输出前增添了几层大卷积核的卷积层。以上两种做法的目的是让网络预测像素时结合更广的邻域特征信息，以提高网络预测精度。

实施例

本实施例分别采用图1和图2所示的神经网络结构对土地的航拍图像进行处理。

采集航拍图像，共采集280张超大图片，每张原始图片为5472×3648的两千万像素高清无人机图像，主要包含俯视角度下的道路、房屋、荒地、杂草地、树林以及不同种类的农田。本实施例要解决的问题从航拍图像中找出6类地物，以及每一类地物像素的分布位置。将6类地物分别标记为rice、corn、taro、house、soybean、tree。

将280张超大图片人工标记后，随机分为250张的训练样本集和30张的测试样本集，图6所示为训练样本集中的若干训练图像，图7所示为测试样本集中的若干测试图像。图1和图2所示的神经网络均采用代码来实现，利用训练样本集分别训练图1和图2所示神经网络，得到遍历训练样本集10次和15次的训练结果。对每次训练结果进行预测，准确率最高达71.64％。图8和图9所示为基于图1神经网络的预测示意图，图8和图9分别是遍历10次训练和15次训练后的测试集预测效果；其中，黑色像素代表识别目标类别外的background，255灰度的像素代表预测为rice，213灰度的像素代表预测为corn，45灰度的像素代表预测为taro，171灰度的像素代表预测为house，87灰度的像素代表预测为soybean，129灰度的像素代表预测为tree。图10和图11为基于图2神经网络的预测示意图，遍历训练样本集10次和15次的预测准确率均高于U-net的最高准确率，分别为73.66％和72.67％。若使用原本的U-net神经网络来分割图像，在使用含有250张图片的小样本训练集，遍历训练集15次后，使用30张图片的数据集测试能够达到71.64％的精度。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于改进U-NET网络的图像语义分割方法，其特征是，包括：

2.如权利要求1所述的基于改进U-NET网络的图像语义分割方法，其特征是：

步骤1中，利用2×2的最大池化对输入图像进行不同尺度的下采样。

3.如权利要求1所述的基于改进U-NET网络的图像语义分割方法，其特征是：

步骤3中，利用2×2的反卷积来进行逐一映射。

4.如权利要求1所述的基于改进U-NET网络的图像语义分割方法，其特征是：

以上步骤中的所有普通卷积和空洞卷积操作之前均进行补零操作。