CN110378344A

CN110378344A - 基于谱维转换网络的卷积神经网络多光谱图像分割方法

Info

Publication number: CN110378344A
Application number: CN201910368493.7A
Authority: CN
Inventors: 陈为; 涂淑琪; 艾渤; 钟章队
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2019-05-05
Filing date: 2019-05-05
Publication date: 2019-10-25
Anticipated expiration: 2039-05-05
Also published as: CN110378344B

Abstract

本发明提供了一种基于谱维转换网络的卷积神经网络多光谱图像分割方法。该方法包括：分别利用CNN网络构建谱维转换网络和像素级类别预测结构；利用谱维转换网络和像素级类别预测结构构建CNN像素级类别预测结构模型，使用带动量的梯度下降算法对CNN像素级类别预测结构模型进行有监督训练，将需要分割的多光谱图像直接输入到训练好的CNN像素级类别预测结构模型，得到需要分割的多光谱图像对应的像素级分割图。本发明通过利用谱维转换网络实现谱维度从多至三的转换，可以采用大数据量的传统彩色图像训练像素级类别预测结构，实现了采用深度学习方法处理低数据量的多光谱图像分割任务，避免过拟合问题的同时提高了多光谱图像像素级分割的准确率。

Description

基于谱维转换网络的卷积神经网络多光谱图像分割方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于谱维转换网络的卷积神经网络(Convolutional Neural Network，CNN)多光谱图像分割方法。

背景技术

图像分割(Image Segmentation)作为计算机视觉的热点研究问题，越来越受到研究人员的关注。许多应用场景需要准确有效的分割机制，例如自动驾驶，室内导航，甚至虚拟或增强现实系统等。传统分割方法往往只运用图像本身的低阶视觉信息(Low-levelVisual Cues)，包括颜色、直方图、梯度等统计特性，该方法的缺点是依赖具体的分割任务。由于不需要多次迭代训练，对计算能力和存储空间要求不高，面向复杂场景或者工业应用有关的分割任务，如果缺少人为辅助过程，适用性不强。

随着人工智能时代的到来，传统图像分割过渡到图像语义分割，它的目标是给图像中每一个像素分配类别，简单的说就是一个像素级别的多类别分类问题。这是利用大量精准标注数据的全监督学习方法，相比于传统的图像分割算法，深度学习方法具备运算单元算法稳定，模型速度较快，网络结构可自主学习进化，且随着数据训练量的增加，系统增益明显提高。图像领域的大数据量满足了训练可靠的深度神经网络模型的要求。

CNN是深度学习的重要模型。其通过采用空间结构关系可以处理许多图像问题，通过线性变换与非线性变换构成的多个处理层对图像数据进行高层抽象的表征学习。随着各种先进深度模型的提出，包括图像超分辨、图像分类、目标识别、图像语义分割和视频行为理解等关键任务的性能不断提高。其中图像语义分割，因为是从像素级别理解图像内容，所以对其它视觉任务可以起到明显的辅助和改善作用。然而主流语义分割模型主要关注性能指标，为了得到高准确率的分割结果，神经网络结构越来越深，这就使得训练过程依赖于大量精准标注的数据。目前数据库中已经存在大量经过精准标注的应用于各种场景的传统彩色图像数据，因此应用于传统彩色图像的CNN分割模型层出不穷。

然而，人工智能、深度学习技术的高速发展，让研究人员不再满足于处理传统的已经趋于成熟的彩色图像，而越来越多地倾向于对多光谱图像、高光谱图像甚至视频数据方向的图像处理。视频图像是由静止的不同帧组合而成的数据，而比彩色图像含有更丰富的光谱和空间信息的多/高光谱数据，具有‘图谱合一’和‘高维冗余’的特性。具有复杂的光谱信息是多光谱图像的特性，CNN想要充分学习到多光谱图像复杂的光谱之间的特征信息，就需要比较复杂的模型。但是，目前数据库中多/高光谱遥感数据种类和数量远远低于传统彩色图像，很难满足很多场景的需求，并不像彩色图像成千上万，这些多/高光谱遥感数据量不足以训练复杂的模型，这就产生了矛盾。与训练集数量级不匹配的数据量，参数过多以及过于复杂的模型，加上训练时间过长都会导致出现较为严重的过拟合现象，具体表现可能是训练的损失函数值下降速度远远大于验证的损失函数值的下降速度，这将直接导致最终多光谱图像的图像分割模型不具有优秀的泛化能力，多光谱图像的分割效果不好。

发明内容

本发明的实施例提供了一种基于谱维转换网络的CNN多光谱图像分割方法，以克服现有技术的问题。

为了实现上述目的，本发明采取了如下技术方案。

一种基于谱维转换网络的卷积神经网络多光谱图像分割方法，包括：

利用CNN网络构建谱维转换网络，利用CNN构建适合于三光谱图像分割的像素级类别预测结构；

利用所述谱维转换网络和所述像素级类别预测结构构建多光谱图像分割网络结构，利用多光谱图像数据集使用带动量的梯度下降算法对所述多光谱图像分割网络结构进行有监督训练，得到训练好的多光谱图像分割模型；

将需要分割的多光谱图像直接输入到训练好的多光谱图像分割模型，输出所述需要分割的多光谱图像对应的像素级分割图。

优选地，所述的利用CNN网络构建谱维转换网络之前还包括：

利用已知的多光谱图像构建适合于CNN训练图像分割任务的多光谱图像数据集，确定所述多光谱图像数据集中的多光谱图像的标签，该标签对应于精确到像素级的类别预测，所述多光谱图像数据集中的每个多光谱图像都具有一组共同的28个采样波长，该采样波长介于430纳米和700纳米之间，增量为10纳米，所述28个采样波长中的18，12，3三个波段分别对应于红、黄、蓝三原色。

优选地，所述的利用CNN网络构建谱维转换网络，包括：

构建CNN中的块结构，该块结构分为三层，每层块结构包含卷积层和激活层，卷积核的尺寸为(3,3)，所述三层的块结构构成了谱维转换网络，将多光谱图像输入到所述谱维转换网络，所述谱维转换网络对输入的多光谱图像进行特征提取，将多光谱图像转换成为三光谱图像数据，将保存上述图像数据作为像素级类别预测网络的输入。

优选地，所述的利用CNN构建适合于三光谱图像分割的像素级类别预测结构，包括：

利用CNN构建适合于三光谱图像分割的像素级类别预测结构，所述像素级类别预测结构包含降采样网络和上采样网络，采用三光谱的彩色图像训练所述像素级类别预测结构，所述像素级类别预测结构的输入数据是彩色图像数据，输出数据为与输入图像尺寸一致的特征图，根据所述特征图得到输入图像的像素级类别预测标签结果。

优选地，采用全卷积网络FCN结构来构建所述像素级类别预测结构，所述FCN结构以VGGNet-19为预训练模型，所述VGGNet-19由六个模块组成，前五个模块由卷积层和池化层组成，最后一个模块由三个全连接层组成，将前五个模块的参数作为FCN初始化，将VGGNet-19维度为4096，4096，1000的后三个全连接层转换为卷积核大小为1×1的卷积层，维度不变，采用三层核大小分别为(4,4),(4,4),(16,16)的反卷积进行上采样，使输出的图像大小与原始图像保持一致，使用交叉熵损失函数计算像素类别预测的输出结果与真实结果图之间误差，将误差进行回传更新像素级类别预测结构的参数。

优选地，所述的利用所述谱维转换网络和所述像素级类别预测结构构建多光谱图像分割网络结构，利用多光谱图像数据集使用带动量的梯度下降算法对所述多光谱图像分割网络结构进行有监督训练，得到训练好的多光谱图像分割模型，包括：

在所述像素级类别预测结构的交叉熵损失函数之前加入导向滤波器结构，将所述谱维转换网络、所述像素级类别预测结构和所述导向滤波器结构依次连接，构建多光谱图像分割网络结构；

利用多光谱图像数据集使用带动量的梯度下降算法对所述多光谱图像分割网络结构进行有监督训练，在所述有监督训练过程中，使用交叉熵损失函数将误差进行回传更新整个网络结构的参数，训练完成后，得到训练好的多光谱图像分割模型。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例通过利用谱维转换网络实现谱维度从多至三的转换，为像素级预测网络提供转换接口。从而可以采用大数据量的传统彩色图像训练像素级类别预测结构，同时可以利用层出不穷的传统彩色图像语义分割的模型，从而作为多光谱图像分割的先验条件。因此，实现了采用深度学习方法处理低数据量的多光谱图像分割任务，避免过拟合问题的同时提高了多光谱图像像素级分割的准确率。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于谱维转换网络的CNN多光谱图像分割方法的实现原理示意图；

图2为本发明实施例提供的一种基于谱维转换网络的CNN多光谱图像分割方法的处理流程图；

图3为本发明实施例提供的一种使用带动量的梯度下降算法对像素级类别预测结构模型进行有监督训练的示意图；

图4为本发明实施例提供的一种像素级类别预测的实施例结果图之一，a-原始图像，b-标签，c-伪彩色图像采用FCN的预测结果，d-本发明结果；

图5为本发明实施例提供的一种像素级类别预测的实施例结果图之二。a-原始图像，b-标签，c-伪彩色图像采用FCN的预测结果，d-本发明结果。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提供了一种基于谱维转换网络的CNN多光谱图像分割方法的实现原理示意图如图1所示，具体处理流程如图2所示，包括以下几个处理步骤：

步骤S210：构建适合于CNN训练图像分割任务的多光谱图像数据集。

利用已知的多光谱图像构建适合于CNN训练图像分割任务的多光谱图像数据集，确定上述多光谱图像数据集中的多光谱图像的标签，该标签对应于精确到像素级的类别预测。上述类别可以为水果、肖像等各种标签。

上述多光谱图像数据集中的多光谱图像已在光谱维度中被截断或插值，每个多光谱图像都具有一组共同的28个采样波长，该采样波长介于430纳米和700纳米之间，增量为10纳米。28个采样波长中的18，12，3三个波段分别对应于红、黄、蓝三原色，抓取多光谱图像中3，12，18三个波段数据组成类似于彩色图像的数据集(记为伪彩色图像)。

步骤S220：利用CNN网络构建谱维转换网络。

该步骤利用CNN网络构建谱维转换网络。利用CNN训练无需手动提取特征的特性构建CNN中的块结构。该块结构分为三层，每层块结构包含卷积层和激活层，卷积核的尺寸为(3,3)。上述三层的块结构就构成了谱维转换网络。

将多光谱图像输入到上述谱维转换网络，谱维转换网络对输入的多光谱图像进行特征提取，不再手动选择其中的某三个波段数据，而是利用网络训练，使其自动学习产生适合于图像分割的类似彩色图像的三光谱数据。具体来说，输入多光谱图像尺寸为(512,512,28)，经过谱维转换网络维度为(3,3,28,64)的第一层，分别对应于卷积核大小(3,3)，输入为28个特征图，输出为64个特征图，从而转换为(512,512,64)的大小。以此类推，第二层将(512,512,64)转换为(512,512,128)；第三层将(512,512,128)转换为(512,512,3)。从而实现了28至3的谱维转换。保存上述输出作为像素级类别预测网络的输入。有了该部分结构的转换作用，接下来的像素级类别预测结构可以采用适合于彩色图像分割的多种模型，并且可以采用多种彩色图像数据对分割结构进行初始训练，作为该部分结构的参数初始化模型。

步骤S230：利用CNN构建适合于三光谱图像分割的像素级类别预测结构。

利用CNN构建适合于三光谱彩色图像分割的像素级类别预测结构，该结构包含降采样网络和上采样网络，两部分网络形成端对端的像素级类别预测网络。该像素级类别预测结构的输入数据是三光谱的图像数据，输出数据为与输入图像尺寸一致的特征图，根据上述特征图可以得到输入图像的像素级类别预测标签结果。将像素级类别预测结果中的各个像素的类别标签与已知的各个像素的正确的类别标签进行对比，可以得到像素类别预测的准确率。

该实施例中，上述像素级类别预测结构可以采用适用图像分割的多种网络来构建，比如，采用全卷积网络(FCN，Full convolutional network)，SegNet网络，Deeplab网络等。FCN结构以VGGNet-19为预训练模型，VGGNet由六个模块(Block)组成，前五个模块由卷积层(记为conv)和池化层(记为pool)组成，最后一个模块由三个全连接层组成。本发明实施例将前五个模块的参数作为FCN初始化，将VGGNet-19维度为4096，4096，1000的后三个全连接层转换为卷积核大小为1×1的卷积层，维度不变。然后，采用三层核大小分别为(4,4),(4,4),(16,16)的反卷积(Deconv)进行上采样，使输出的图像大小与原始图像保持一致。使用交叉熵损失函数计算像素类别预测的输出结果与真实结果图之间误差，将误差进行回传更新像素级类别预测结构的参数。到此，整个像素级类别预测结构构建完成。

该步骤中的像素级类别预测结构可以为多光谱图像分割提供先验条件，即由于步骤S220中的谱维转换网络，对多光谱图像进行了谱维的多至三的转换，适应了步骤S230中的分割网络针对彩色图像的要求。因此可以采用大数据量的彩色图像先训练像素级类别预测结构，而多光谱的图像只需要训练谱维转换网络。基于此，降低了训练多光谱图像的网络深度，避免了由于多光谱图像数据量低而导致过拟合的问题，并提高了预测准确率。

步骤S240：利用导向滤波器结构提高多光谱图像的像素类别的预测结果的准确率。

在步骤S230网络的交叉熵损失函数之前加入导向滤波器结构，利用导向滤波器能从低分辨率图像恢复高分辨率图像的特性，将其改进之后用于本发明网络最后一层，起到优化边缘效应的作用。

在图1中示出了一种导向滤波器的结构，导向滤波器采用低分辨率图像I_l，相应的高分辨率图像I_h和低分辨率输出O_l作为输入，产生高分辨率输出O_h。A_l和b_l用均值滤波器f_μ和给定I_l和O_l的局部线性模型计算，然后通过应用双线性上采样运算符f_↑生成A_h和b_h，最后使用A_h、b_h和I_h作为输入，用线性层产生O_h。r是f_μ的半径，ε是正则化项，本发明将其默认设置为2和10^-4。

步骤S250：将所述谱维转换网络、所述像素级类别预测结构和所述导向滤波器结构依次连接，构建多光谱图像分割网络结构。然后，如图3所示，利用多光谱图像数据集使用带动量的梯度下降算法对多光谱图像分割网络结构进行有监督训练，得到训练好的多光谱图像分割模型。

在上述有监督训练过程中，使用交叉熵损失函数，将误差进行回传更新整个网络结构的参数。训练过程中采用VGGNet-19前五个模块的参数作为FCN模型的参数初始化，使用Siftflow数据集训练FCN模型，以此作为步骤S230的像素级类别预测结构的初始化参数。同时，采用多项式衰减学习率策略，初始值为10^-5。

步骤S260：训练完成后，将需要分割的多光谱图像直接输入到训练好的多光谱图像分割模型，输出上述需要分割的多光谱图像对应的像素级分割图。

由此证明了本发明的有效性。

综上所述，本发明实施例设计了一种谱维转换网络，实现谱维度从多至三的转换，为像素级预测网络提供转换接口。基于此，像素级类别预测结构可以作为多光谱图像分割的先验条件，即该部分结构可以采用大数据量的传统彩色图像训练，同时可以利用层出不穷的传统彩色图像语义分割的模型，从而作为多光谱图像分割的先验条件。因此，实现了采用深度学习方法处理低数据量的多光谱图像分割任务，避免过拟合问题的同时提高了多光谱图像像素级分割的准确率。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于谱维转换网络的卷积神经网络多光谱图像分割方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述的利用CNN网络构建谱维转换网络之前还包括：

3.根据权利要求2所述的方法，其特征在于，所述的利用CNN网络构建谱维转换网络，包括：

4.根据权利要求3所述的方法，其特征在于，所述的利用CNN构建适合于三光谱图像分割的像素级类别预测结构，包括：

5.根据权利要求4所述的方法，其特征在于，采用全卷积网络FCN结构来构建所述像素级类别预测结构，所述FCN结构以VGGNet-19为预训练模型，所述VGGNet-19由六个模块组成，前五个模块由卷积层和池化层组成，最后一个模块由三个全连接层组成，将前五个模块的参数作为FCN初始化，将VGGNet-19维度为4096，4096，1000的后三个全连接层转换为卷积核大小为1×1的卷积层，维度不变，采用三层核大小分别为(4,4),(4,4),(16,16)的反卷积进行上采样，使输出的图像大小与原始图像保持一致，使用交叉熵损失函数计算像素类别预测的输出结果与真实结果图之间误差，将误差进行回传更新像素级类别预测结构的参数。

6.根据权利要求5所述的方法，其特征在于，所述的利用所述谱维转换网络和所述像素级类别预测结构构建多光谱图像分割网络结构，利用多光谱图像数据集使用带动量的梯度下降算法对所述多光谱图像分割网络结构进行有监督训练，得到训练好的多光谱图像分割模型，包括：