CN110569790B

CN110569790B - 基于纹理增强卷积网络的居民区要素提取方法

Info

Publication number: CN110569790B
Application number: CN201910845411.3A
Authority: CN
Inventors: 刘松林; 张丽; 高凯; 徐道柱; 龚辉; 秦进春
Original assignee: 61540 Troops of PLA
Current assignee: 61540 Troops of PLA
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2023-03-28
Anticipated expiration: 2039-09-05
Also published as: CN110569790A

Abstract

本发明涉及基于纹理增强卷积网络的居民区要素提取方法，使用灰度级量化方法提取影像的纹理信息，并对其进行归一化；然后在U‑Net网络的1×1卷积层之前融合CNN特征和影像纹理信息，并使用融合后的特征继续前向传播计算损失，通过损失反向传播实现网络训练。本发明以实现居民区要素高精度提取为目标，通过构建分辨率为2米的光学卫星影像样本库，将影像纹理信息融入CNN特征，提高了语义分割结果的精度，能够有效降低模型推理结果的漏检和虚警，整体性能优于原始U‑Net网络。

Description

基于纹理增强卷积网络的居民区要素提取方法

技术领域

本发明涉及遥感技术领域，具体涉及一种基于纹理增强卷积网络的居民区要素提取方法。

背景技术

语义分割是计算机视觉领域的热点性问题之一，它可以按照预先定义的几类视觉意义，将图像分割为若干个相邻但彼此不重叠的区域，即实现图像的像素级分类。遥感影像语义分割主要用来在遥感影像中实现像素级的地物提取，这在要素测图和地理信息更新方面有较大应用前景。

近年来，以卷积神经网络(Convolutional Neural Network,CNN)为杰出代表的深度学习技术为语义分割研究注入了新的生机。CNN网络最初一般使用卷积层加全连接层完成图像切片分类任务，并且取得了巨大成功。但正是由于全连接层的存在，导致网络无法生成与原始图像尺寸一致的结果，这就限制了CNN在语义分割中的应用。直到 Long等提出全卷积网络(Full Connected Networks,FCN)，才首次实现了端到端的语义分割，但该网络在解码阶段进行上采样和反卷积时，由于没有传递编码阶段的池化操作信息，容易导致上采样后像素位置信息的不准确。基于FCN框架，Badrinarayanan等设计了对称的 SegNet网络，其中的池化层能记录池化后的值在原特征图中的空间位置，使得在上采样时，能够精准地恢复原位置，提高了图像的分割精度。针对医疗图像语义分割，Ronneberger等在2015年提出了U-Net 网络，该网络为“U”形结构，分为对称的编码-解码部分，它可以有效地融合多级别大小的特征图，利用浅层信息处理小目标，利用深层信息判断大目标的分类。

随着可获得的遥感影像数据的逐渐增多，越来越多的学者和研究机构开始投入到遥感影像语义分割的研究之中。Iglovikov等也通过实验证明了U-Net在遥感影像中的高效应用，并取得了Kaggle语义分割比赛第一名的成绩。当同时具有光学影像和LiDAR数据时，Ying Sun等首先利用提取的间模态和内模态特征构造了多通道输入数据，然后通过设计多尺度编解码结构的CNN实现了优于SegNet网络的分割结果；此外，Ying Sun等还融合主动轮廓方法和CNN特征，提升了建筑物轮廓边缘的提取精度。但是，由于与影像同区域的LiDAR数据获取难度较大，该信息融合的方法难以大范围推广。

发明内容

本发明的目的是提供一种基于纹理增强卷积网络的居民区要素提取方法，针对空间分辨率为2米的光学卫星影像中的居民区要素，利用纹理信息对U-Net网络进行改进，获得较高精度的居民区要素提取结果。

本发明所采用的技术方案为：

基于纹理增强卷积网络的居民区要素提取方法，其特征在于：

包括以下步骤：

步骤一：使用灰度级量化方法提取影像的纹理信息，并对其进行归一化；

步骤二：在U-Net网络的1×1卷积层之前融合CNN特征和影像纹理信息，并使用融合后的特征继续前向传播计算损失，通过损失反向传播实现网络训练。

步骤一具体为：

采用一阶统计分析方法，通过对原始影像灰度级进行量化表征纹理特征，设置图像灰度量化级数为k＝16，然后对纹理信息图做最大值归一化操作。

步骤二具体为：

在步骤一获得的原始影像纹理信息图的基础上进行网络训练，网络训练时每次输入3类数据：原始影像、标签图和纹理信息图，使用原始影像进行原始U-Net网络编码和解码运算，在网络1×1卷积层前将解码得到的CNN特征与纹理信息图连接组合，一并输入1×1层和Sigmoid激活函数层获取分割结果，最后根据标签图像进行损失计算并反向传播训练模型。

U-Net网络编码和解码运算具体包括以下步骤：

U-Net的结构总共包含23层，分为编码-解码两个对称部分；左侧编码部分为重复结构，每次重复中都包含2层卷积和1层池化操作，卷积层中卷积核大小均为3×3，激活函数使用ReLU，两个卷积层之后是一个步长为2、大小为2×2的最大值池化层，每一次下采样后网络通道的数量加倍；右侧解码部分中的每一步都首先使用反卷积，每次使用反卷积都将特征通道数量减半，特征图大小加倍，反卷积过后，将反卷积的结果与编码部分中对应步骤的特征图拼接起来，对编码部分中的特征图裁切后进行拼接，每次拼接后对特征图进行2次3 ×3的卷积；最后一层的卷积核大小为1×1，将64通道的特征图转化为特定深度的图像，具体层数根据分类数量确定，将像素分成居民区和其它两类，最终输出为2层，具体实现时，1×1卷积后的2层特征图输出后接Sigmoid激活函数。

ReLU为激活函数，其输出为a＝max(0,z)。

最大值池化的具体操作为，使用一个2×2的滤波器，取出4个中权重最大的一个。

Sigmoid函数的输出值范围在(0,1)之间，对于输入变量z，函数具体定义如下：

本发明具有以下优点：

本发明以实现居民区要素高精度提取为目标，通过构建分辨率为 2米的光学卫星影像样本库，提出了一种基于纹理增强卷积网络的居民区提取方法。首先，使用灰度级量化方法提取影像的纹理信息，并对提取结果归一化；然后，对U-Net网络进行改进，在网络1×1卷积层之前融合CNN特征和影像纹理信息，并使用融合后的特征继续前向传播计算损失；最后，通过损失反向传播实现网络训练。本发明将影像纹理信息融入CNN特征，提高了语义分割结果的精度。实验表明，本发明能够有效降低模型推理结果的漏检和虚警，整体性能优于原始U-Net网络。

附图说明

图1为U-Net网络结构示意图。

图2为影像切片及其纹理信息图示意。

图中，(a)为影像切片，(b)为纹理信息图。

图3为纹理信息增强的U-Net网络结构示意图。

图4为“天绘一号”高分辨影像标注示例。

图中，(a)为居民区，(b)为标签图像。

图5为不同方法训练loss曲线对比。

图中，(a)为本发明方法，(b)为U-Net。

图6为区域1居民区要素提取结果。

图中，(a)为区域1，(b)为区域1标签图像，(c)为U-Net， (d)为本发明。

图7为区域2居民区要素提取结果。

图中，(a)为区域2，(b)为区域2标签图像，(c)为U-Net， (d)为本发明。

具体实施方式

下面结合具体实施方式对本发明进行详细的说明。

U-Net的结构如图1所示，总共包含23层，分为编码-解码两个对称部分。左侧编码部分是一种重复结构，每次重复中都包含2层卷积和1层池化操作，卷积层中卷积核大小均为3×3，激活函数使用 ReLU，两个卷积层之后是一个步长为2、大小为2×2的最大值池化层。每一次下采样后网络通道的数量加倍。右侧解码部分中的每一步都首先使用反卷积，每次使用反卷积都将特征通道数量减半，特征图大小加倍。反卷积过后，将反卷积的结果与编码部分中对应步骤的特征图拼接起来。编码部分中的特征图尺寸稍大，需要将其裁切过后进行拼接，每次拼接后对特征图进行2次3×3的卷积。最后一层的卷积核大小为1×1，将64通道的特征图转化为特定深度的图像，具体层数根据分类数量确定，本发明需要将像素分成居民区和其它两类，因此最终输出为2层。具体实现时，1×1卷积后的2层特征图输出后接Sigmoid激活函数。

下面对这个过程里面使用到的关键操作进行介绍。对于卷积操作，其无论在编码阶段还是在解码阶段，都不改变图像大小，不同的是，在编码阶段，卷积的作用的提取图像特征，在解码阶段，卷积的作用是丰富上采样变大的图像信息，使得在池化过程中丢失的信息可以通过学习获取。ReLU是激活函数，其输出为a＝max(0,z)。

池化在CNN中是使得图片缩小的手段，通常有最大值池化与均值池化两种方式，U-Net使用的是最大值池化。这种池化方法是使用一个2×2的滤波器，取出这4个权重最大的一个。假定原图大小为 4×4，则池化之后大小为2×2。

Sigmoid函数的输出值范围在(0,1)之间，一般用来做二分类。对于输入变量z，函数具体定义如下：

纹理特征一般用来辨别图像中的不同区域，它主要是指图像中保持一定重复性，且间隔规律可以任意安排的空间结构。纹理分析方法可以分为四大类：统计方法、结构方法、模型方法以及基于频谱分析的方法。其中主流方法为统计分析法，这类方法能够较好地描述纹理的细节性，在各类应用中适应性较强。

根据特征计算时所使用的点的个数，统计特征量又可分为一阶、二阶和高阶统计量。为了不增加网络推理过程中的计算量，本发明选用一阶统计分析方法，即通过对原始影像灰度级进行量化的方法来表征纹理特征。通过实验测试，设置图像灰度量化级数为k＝16时可以取得较好分割结果。图2给出了部分影像切片及其纹理信息图示意，为了能够与CNN特征连接组合，本发明对纹理信息图做了最大值归一化操作(找出最大值，然后全图原数值除以最大值)。

融入纹理信息的U-Net网络结构如图3所示，通过上述方法生成原始影像纹理信息图，网络训练时每次输入3类数据：原始影像、标签图和纹理信息图，使用原始影像进行原始U-Net网络编码和解码运算，在网络1×1卷积层前将解码得到的CNN特征与纹理信息图连接组合，一并输入1×1层和Sigmoid激活函数层获取分割结果，最后根据标签图像进行损失计算并反向传播训练模型。

分析发现，本发明设计的纹理信息增强层本质上是在U-Net解码后的CNN特征上叠加了原始纹理信息，该操作可以有效提升网络对影像原始基础信息的利用程度，从而达到提升分割精度的目的。

为验证方法有效性，首先构建样本库，然后将本发明与原始U-Net 网络进行比较实验。实验硬件平台为Intel Core(TM)i7 3.10GHz CPU、32GB RAM、两块GeForce GTX1080GPU，每块显存为8G。U-Net 及其改进网络基于Pytorch 1.0框架，采用Python 3.7编程实现，纹理信息计算采用Matlab 2015a编程实现。

1、样本库与参数设置

样本数据主要包括“天绘一号”卫星高分辨率影像，分辨率2米，共419幅(每幅约1000×1000)，示例图像及其标签图像如图4所示。

实验中随机选取样本库总数的85％作为训练集，剩余15％作为测试集。根据U-Net网络的输入要求，将标注好的训练集裁切为256 ×256大小的切片作为样本库，并剔除不包含任何居民区的切片，裁切后训练集共有13611帧影像切片，测试集共有281帧影像切片，每幅影像切片对应一帧纹理信息图，以mat格式保存。

设置地物要素类别数c＝2，图像灰度量化级数k＝16，学习率初始值为0.01，优化方式为带学习率上限的自适应矩估计方法(Adamax)，损失函数为交叉熵，批大小为16，训练周期数均为50个epochs，其余参数采用默认值。

2、结果分析

本发明采用mIoU(Intersection-over-Union)指数来衡量方法分割性能，IoU表示预测像素正确的交集除以预测像素和原来像素的并集，计算公式如式(2)所示。

两种方法在相同训练集和测试集上的定量实验结果如表1所示，与原始U-Net网络相比，本发明通过相同的训练周期就可以得到更优的性能，居民区IoU提升1.78％。两种方法训练过程中loss值下降曲线在图5给出，从图中可以看出，经过50个epoch的训练，模型均可以获得稳定且较低的损失值。

表1不同算法语义分割结果比较

下面给出具体实验结果，选取区域1和区域2共两组实验数据。图6为区域1居民区要素提取结果，其中图(a)和图(b)分别为原始影像及标注图像，图(c)和图(d)分别是使用原始U-Net网络和本发明方法的居民区提取结果，从图中可以看出，加入纹理信息后，改进网络模型降低了推理中的虚警。

图7是区域2的居民区要素提取结果，从图中可以看出，U-Net 网络结果存在较多居民区漏检和虚警，而本发明方法性能较优。

本发明的内容不限于实施例所列举，本领域普通技术人员通过阅读本发明说明书而对本发明技术方案采取的任何等效的变换，均为本发明的权利要求所涵盖。

Claims

1.基于纹理增强卷积网络的居民区要素提取方法，其特征在于：

包括以下步骤：

步骤二：在U-Net网络的1×1卷积层之前融合CNN特征和影像纹理信息，并使用融合后的特征继续前向传播计算损失，通过损失反向传播实现网络训练；

步骤二具体为：

2.根据权利要求1所述的基于纹理增强卷积网络的居民区要素提取方法，其特征在于：

步骤一具体为：

3.根据权利要求2所述的基于纹理增强卷积网络的居民区要素提取方法，其特征在于：

U-Net网络编码和解码运算具体包括以下步骤：

U-Net的结构总共包含23层，分为编码-解码两个对称部分；左侧编码部分为重复结构，每次重复中都包含2层卷积和1层池化操作，卷积层中卷积核大小均为3×3，激活函数使用ReLU，两个卷积层之后是一个步长为2、大小为2×2的最大值池化层，每一次下采样后网络通道的数量加倍；右侧解码部分中的每一步都首先使用反卷积，每次使用反卷积都将特征通道数量减半，特征图大小加倍，反卷积过后，将反卷积的结果与编码部分中对应步骤的特征图拼接起来，对编码部分中的特征图裁切后进行拼接，每次拼接后对特征图进行2次3×3的卷积；最后一层的卷积核大小为1×1，将64通道的特征图转化为特定深度的图像，具体层数根据分类数量确定，将像素分成居民区和其它两类，最终输出为2层，具体实现时，1×1卷积后的2层特征图输出后接Sigmoid激活函数。

4.根据权利要求3所述的基于纹理增强卷积网络的居民区要素提取方法，其特征在于：

ReLU为激活函数，其输出为a＝max(0,z)。

5.根据权利要求4所述的基于纹理增强卷积网络的居民区要素提取方法，其特征在于：

6.根据权利要求5所述的基于纹理增强卷积网络的居民区要素提取方法，其特征在于：

/>