CN110991617B

CN110991617B - 万花筒卷积网络的构建方法

Info

Publication number: CN110991617B
Application number: CN201911216109.8A
Authority: CN
Inventors: 陈曦; 李志强; 胡正欣; 刘静静; 刘敏; 丁婕; 侯宇飞
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-12-01
Anticipated expiration: 2039-12-02
Also published as: CN110991617A

Abstract

一种万花筒卷积网络的构建方法，属于深度学习算法网络。本发明针对现有使用空洞滤波器来扩大卷积网络的感受野，当空洞率设置过大产生的边界效应影响特征捕获的问题。包括：构建万花筒滤波器，使万花筒滤波器的外轮廓为正方形，将所述正方形均分为四个分割单元，由四个分割单元的四角确定九个一级采样点；再在每个分割单元中以万花筒式花瓣的交点位置确定三个二级采样点；然后基于多个不同尺寸的所述万花筒滤波器构建万花筒级联空间金字塔池化模块；最后，采用Xception作为主干网，并将万花筒级联空间金字塔池化模块组装在解码器层形成万花筒卷积网络。本发明能够更好地捕获对象的形状特征。

Description

万花筒卷积网络的构建方法

技术领域

本发明涉及万花筒卷积网络的构建方法，属于深度学习算法网络。

背景技术

基于卷积神经网络(CNNs)的深度特征表示极大地改进了语义分割效果。目前，较为成功的基于CNNs的语义分割方法主要依赖于高分辨率表示以及丰富的特征表达。

一般认为，卷积尺寸越大，感受野越大，捕获的特征越精确。这些特征包括纹理特征、形状特征和上下文特征，这些特征对物体的识别至关重要。但较大的卷积滤波器会导致较高的计算成本。

为了以较低的计算成本获得较大感受野，许多传统卷积网络使用大量的3×3滤波器进行串行卷积，然后用池化操作对特征图进行多次下采样。但是常规的CNNs采用的重复下采样会导致特征分辨率和定位精度的下降。为解决这一问题，目前流行的是使用空洞滤波器进行卷积。空洞滤波器是通过在常规实心卷积滤波器中插入空洞来扩大感受野，使用其进行卷积可以代替使用池化下采样操作，获得与下采样相同的感受野。与池化下采样相比，空洞滤波器的使用提高了特征分辨率和定位精度。同时，由于空洞卷积具有可调节的感受野，因此可能捕获上下文特征。但空洞卷积的空洞率若设置过大则会产生边界效应，退化为1×1卷积，从而导致无法获取上下文特征、形状特征及纹理特征。

同时，其它常用的卷积方法和模型均无法同时有效地捕获图像的多样化特征，特别是采用规则的方形卷积滤波器和相对简单的模型，使得分辨率和定位精度不高，感受野小，导致提取到的特征质量较低，信息表达不够准确。

发明内容

针对现有使用空洞滤波器来扩大卷积网络的感受野，当空洞率设置过大产生的边界效应影响特征捕获的问题，本发明提供一种万花筒卷积网络的构建方法。

本发明的一种万花筒卷积网络的构建方法，包括以下步骤：

构建万花筒滤波器，使万花筒滤波器的外轮廓为正方形，将所述正方形均分为四个分割单元，由四个分割单元的四角确定九个一级采样点；再在每个分割单元中以万花筒式花瓣的交点位置确定三个二级采样点，其中一个二级采样点为分割单元的中点，另外两个二级采样点相对于所述一个二级采样点对称分布；

然后基于多个不同尺寸的所述万花筒滤波器构建万花筒级联空间金字塔池化模块；

最后，采用Xception作为主干网，并将万花筒级联空间金字塔池化模块组装在解码器层形成万花筒卷积网络。

根据本发明的万花筒卷积网络的构建方法，所述另外两个二级采样点的确定方法为：

首先将另外两个二级采样点设定为二级采样点一和二级采样点三；将所述一个二级采样点作为二级采样点二；

以四个分割单元中右上角的分割单元为例，以其左侧边框作为直径在分割单元中绘制半圆，再以右侧边框作为半径在分割单元中绘制四分之一圆弧，将所述半圆与四分之一圆弧的交点作为二级采样点一；以万花筒滤波器的中点与二级采样点二的连线作为对称轴，二级采样点三与二级采样点一镜像对称。

根据本发明的万花筒卷积网络的构建方法，

四个分割单元中左上角的分割单元中三个二级采样点与右上角的分割单元中三个二级采样点呈镜像对称；左下角与右下角的两个分割单元中的二级采样点与左上角和右上角的两个分割单元中的二级采样点呈镜像对称。

根据本发明的万花筒卷积网络的构建方法，

所述万花筒级联空间金字塔池化模块包括特征图输入层、全局平均池化层、一级万花筒卷积层、二级万花筒卷积层、三级万花筒卷积层、直接传入层、全局池化结果、输出结果底图及四个RCS模块，

所述特征图输入层用于由主干网Xception中提取得到待识别图像的初级特征图；

所述全局平均池化层用于对初级特征图每一个特征维度下的全部像元计算其平均值，得到全局池化结果，所述全局池化结果为1*1*n的特征向量，其中n为特征维数；

所述一级万花筒卷积层尺寸的Rate值为7或9，用于卷积提取所述初级特征图的一级特征；

所述二级万花筒卷积层尺寸的Rate值为5或7，用于卷积提取所述初级特征图的二级特征；

所述三级万花筒卷积层尺寸的Rate值为3或5，用于卷积提取所述初级特征图的三级特征；

所述直接传入层用于传递特征图输入层提取的初级特征图；

对全局池化结果上采样至所述初级特征图大小，得到输出结果底图；

将所述输出结果底图与所述一级特征逐像元相加，相加结果经一级RCS模块处理后与所述二级特征逐像元相加，相加结果再经二级RCS模块处理后与所述三级特征逐像元相加，相加结果经三级RCS模块处理后与直接传入层传递的所述初级特征图相加，相加结果最后经四级RCS模块处理后，获得图像处理结果，所述图像处理结果为万花筒图像。

根据本发明的万花筒卷积网络的构建方法，

所述万花筒卷积网络包括输入流程、中间流程以及输出流程；所述输入流程、中间流程及输出流程构成主干网Xception，并作为万花筒卷积网络的编码器部分；

所述输入流程包括一级处理、二级处理和三级处理，

所述一级处理包括1层卷积核为3的普通卷积、2层卷积核为3的深度可分离卷积及1层卷积核为3步长为2的深度可分离卷积；所述待识别图像经过所述1层卷积核为3的普通卷积后，做步长为2的1*1卷积得到128维特征构成一级图像侧枝；所述待识别图像经一级处理中所有卷积层卷积后获得一级图像主体，所述一级图像主体与一级图像侧枝逐像元相加得到一级处理特征图；所述二级处理包括2层卷积核为3的深度可分离卷积，1层卷积核为3步长为2的深度可分离卷积；对一级处理特征图做步长为2的1*1卷积得到256维特征构成二级图像侧枝；所述一级处理特征图经二级处理中所有卷积层卷积后获得二级图像主体；所述二级图像主体与二级图像侧枝逐像元相加得到二级处理特征图；所述三级处理包括2层卷积核为3的深度可分离卷积及1层卷积核为3步长为2的深度可分离卷积；对二级处理特征图做步长为2的1*1卷积得到728维特征构成三级图像侧枝；所述二级处理特征图经三级处理中所有卷积层卷积后获得三级图像主体；所述三级图像主体与三级图像侧枝逐像元相加得到三级处理特征图；所述中间流程包括3层卷积核为3的深度可分离卷积，所述3层卷积核为3的深度可分离卷积构成卷积单元；采用卷积单元对三级处理特征图进行处理，获得的结果与所述三级处理特征图相加；重复16次得到中间流程输出结果；

所述输出流程包括四级处理及五级处理；

所述四级处理包括2层卷积核为3的深度可分离卷积和1层卷积核为3步长为2的深度可分离卷积；对中间流程输出结果做步长为2的1*1卷积得到1024维特征构成四级图像侧枝；所述中间流程输出结果经四级处理中所有卷积层卷积后获得四级图像主体；所述四级图像主体与四级图像侧枝逐像元相加得到四级处理特征图；

所述五级处理包括3层卷积核为3的深度可分离卷积；四级处理特征图经五级处理中所有卷积层卷积后获得2048维特征结果图；所述待识别图像为2048维特征结果图尺寸的256倍；

所述2048维特征结果图作为编码器部分的输出。

根据本发明的万花筒卷积网络的构建方法，所述万花筒卷积网络的编码器部分还包括一级万花筒级联空间金字塔池化模块；所述万花筒卷积网络还包括解码器，

所述一级处理特征图、二级处理特征图、三级处理特征图及2048维特征结果图作为解码器的输入；

解码器包括三个万花筒级联空间金字塔池化模块与三个解码RCS模块；2048维特征结果图经一级万花筒级联空间金字塔池化模块处理后，经上采样至尺寸变为2048维特征结果图的两倍，获得一级上采样图像；

三级处理特征图经二级万花筒级联空间金字塔池化模块处理后，获得二级万花筒图像；

所述二级万花筒图像与一级上采样图像逐像元相加，相加结果经一级解码RCS模块获得一级解码图像；

一级解码图像经上采样至尺寸变为三级处理特征图的两倍，获得二级上采样图像；

二级处理特征图经三级万花筒级联空间金字塔池化模块处理后，获得三级万花筒图像；所述三级万花筒图像与二级上采样图像逐像元相加，相加结果经二级解码RCS模块获得二级解码图像；

二级解码图像经上采样至尺寸变为二级处理特征图的两倍，获得三级上采样图像；

一级处理特征图经四级万花筒级联空间金字塔池化模块处理后，获得四级万花筒图像；所述四级万花筒图像与三级上采样图像逐像元相加，相加结果经三级解码RCS模块获得三级解码图像；

所述三级解码图像经上采样至尺寸变为一级处理特征图的两倍，获得四级上采样图像；

所述四级上采样图像作为待识别图像的最终语义分割结果。

根据本发明的万花筒卷积网络的构建方法，

所述多个万花筒级联空间金字塔池化模块被组装到解码器层中以提取待识别图像的上下文特征、形状特征和纹理特征；

在超参数设置中，组装在编码器层中的万花筒滤波器的Rate设置为解码器层中相应万花筒滤波器的Rate的两倍或者三倍。

本发明的有益效果：本发明构建的万花筒卷积网络属于深度学习算法。经实验验证，本发明方法构建的万花筒卷积网络比空洞滤波器能更准确地拟合边界。并且万花筒滤波器可以同时定位两种表征周期性变化的像素。

因此，本发明中基于万花筒滤波器设计的万花筒卷积网络，在能够扩大卷积网络的感受野的同时，还能够更好地捕获对象的形状特征，提高了图像处理的质量，使信息表达更准确。

附图说明

图1是本发明所述万花筒滤波器的构建示意图；图中Rate取值为R；

图2是万花筒级联空间金字塔池化模块的结构示意图；

图3是万花筒卷积网络的结构示意图；

图4是不同尺寸的万花筒滤波器的示意图；

其中(a)为Rate＝5的万花筒滤波器；(b)为Rate＝7的万花筒滤波器；(c)为Rate＝9的万花筒滤波器；

图5是采用本发明中的万花筒滤波器和现有空洞滤波器进行图像处理的形状特征捕获对比图；

其中(a)为待处理图像；(b)为万花筒滤波器的捕获结果图像；(c)为现有空洞滤波器的捕获结果图像；图中class1表示类别1，class2表示类别2，captured area表示捕获的区域，area1表示区域1，area2表示区域2，area3表示区域3；

图6是本发明的万花筒滤波器和现有空洞滤波器对亚麻麻袋的纹理特征进行提取的结果图；

其中(a)为待处理亚麻麻袋图像；(b)为万花筒滤波器的亚麻麻袋捕获结果图像；(c)为现有空洞滤波器的亚麻麻袋捕获结果图像；图中type1表示类型1，type2表示类型2；

图7是本发明的万花筒滤波器和现有空洞滤波器对木材的纹理特征进行提取的结果图；

其中(a)为待处理木材图像；(b)为万花筒滤波器的木材捕获结果图像；(c)为现有空洞滤波器的木材捕获结果图像；

图8是采用两种滤波器提取图像中上下文特征能力比较图；

其中(a)为万花筒滤波器提取图像中上下文特征能力示意图；(b)为现有空洞滤波器提取图像中上下文特征能力示意图；图中target表示分割目标，tree表示树木类别，road表示道路类别，car汽车类别，house表示房屋类别；

图9是对测试集中的图像进行分割的示意图；

其中(a)为Vaihingen测试集中的图像；(b)为HUSTW5标签(总体准确性F1＝91.6％)分割结果；(c)为万花筒卷积网络的分割结果；其中HUSTW5标签包括六类：在原始图像中，硬化道路(白色)，建筑物(蓝色)，树木(绿色)，低植被(青色)，汽车(黄色)和杂乱类别(红色)；图像变为灰度图像后，标签变为相应的灰度颜色；

图10是Vaihingen测试集中的09cm_area22图像的分割结果图；

其中(a)为Vaihingen测试集中的09cm_area22图像；(b)为HUSTW5分割结果；；(c)为万花筒卷积网络的分割结果；

图11是对Cityscapes数据集的图像的识别图；

其中(a)为Cityscapes数据集的图像；(b)为Cityscapes数据集中图像的真实标记图；(c)为对Cityscapes数据集中图像采用本发明的万花筒卷积网络的预测结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

具体实施方式一、结合图1至图3所示，本发明提供了一种万花筒卷积网络的构建方法，包括以下步骤：

然后基于多个不同尺寸的所述万花筒滤波器构建万花筒级联空间金字塔池化模块(KCSPP)；

最后，采用Xception作为主干网，并将万花筒级联空间金字塔池化模块组装在解码器层形成万花筒卷积网络。(KCN)。

进一步，结合图1所示，所述另外两个二级采样点的确定方法为：

再进一步，结合图1所示，四个分割单元中左上角的分割单元中三个二级采样点与右上角的分割单元中三个二级采样点呈镜像对称；左下角与右下角的两个分割单元中的二级采样点与左上角和右上角的两个分割单元中的二级采样点呈镜像对称。

通过构造二级采样点首先可以使得其能够使用线段对圆弧进行二次近似描述，如图5所示，本发明方法可以通过三到四个采样点近似描述一个分割单元中的几条圆弧，相较于仅使用一级采样点具有更强的边缘精细特征描述能力。

其次，二级采样点的设置扩充了其与中心点的距离，其与一级采样点共同构成了四个到中心点的距离，如图6所示，本方法可以根据其多个采样点到中心距离的差异获取多个距离下不同的像素周期性变化，从而在周期性变化特征上减少其信息丢失。

所述万花筒滤波器的具体细节如图1所示，以R表示万花筒滤波器尺寸，即R表为一个分割单元的边长。在笛卡尔坐标系下，K₂的坐标为(R/2，R/2)，K₃的坐标可通过公式

计算，解得K₃为(4R/5，2R/5)，同时由于K₁与K₃是对称的(对称轴y＝-x)，所以K₁为(2R/5，4R/5)。在下标i相同的情况下，K_i'，K_i″，K_i″′,分别与K_i对称(Y轴，中心，X轴)，其坐标可以依次求得。由于在卷积中采样点的坐标位置应当为整数，因而对采样点坐标作四舍五入处理。例如，如果卷积核尺寸R＝3，则K₁＝(1，2)，K₂＝(2，2)，K₃＝(2，1)；如果卷积核尺寸R＝5，则K₁＝(2，4)，K₂＝(3，3)，K₃＝(4，2)。需注意的是，此处的卷积核尺寸R不同于空洞卷积中的尺寸,它等于空洞卷积核的尺寸加1。

图4(a)、(b)和(c)中分别显示了尺寸为5、7和9的万花筒卷积滤波器。万花筒卷积可以被视为一个尺寸为3的空洞滤波器与三个尺寸为2的空洞滤波器的叠加。此处的尺寸k(k＝2或3)表明空洞卷积有k×k个可训练参数。在空洞滤波器中的几个关键的空间采样点都填充了可训练的参数来拟合目标的潜在边缘，边缘帮助形成物体形状。万花筒滤波器还可以更好的捕捉到纹理特征。因此，万花筒滤波器不仅具有较大的感受野，而且比空洞卷积具有更好的特征提取能力。

再进一步，结合图2所示，所述万花筒级联空间金字塔池化模块包括特征图输入层110、全局平均池化层120、一级万花筒卷积层130、二级万花筒卷积层140、三级万花筒卷积层150、直接传入层160、全局池化结果170、输出结果底图180及四个RCS模块，

所述特征图输入层110用于由主干网Xception中提取得到待识别图像的初级特征图；

所述全局平均池化层120用于对初级特征图每一个特征维度下的全部像元计算其平均值，得到全局池化结果170，所述全局池化结果170为1*1*n的特征向量，其中n为特征维数；

所述一级万花筒卷积层130尺寸的Rate值为7或9，用于卷积提取所述初级特征图的一级特征；

所述二级万花筒卷积层140尺寸的Rate值为5或7，用于卷积提取所述初级特征图的二级特征；

所述三级万花筒卷积层150尺寸的Rate值为3或5，用于卷积提取所述初级特征图的三级特征；

所述直接传入层160用于传递特征图输入层110提取的初级特征图；

对全局池化结果170上采样至所述初级特征图大小，得到输出结果底图180；

将所述输出结果底图180与所述一级特征逐像元相加，相加结果经一级RCS模块处理后与所述二级特征逐像元相加，相加结果再经二级RCS模块处理后与所述三级特征逐像元相加，相加结果经三级RCS模块处理后与直接传入层160传递的所述初级特征图相加，相加结果最后经四级RCS模块处理后，获得图像处理结果，所述图像处理结果为万花筒图像。

本实施方式所述万花筒级联空间金字塔池化模块中包括三个万花筒滤波器。在实际使用中，每个万花筒级联空间金字塔池化模块中可以选择使用3至5个万花筒滤波器。

由于一个万花筒卷积只能捕捉有限的上下文、形状和纹理特征，如果要清晰地区分图像中的所有对象，仅使用一个万花筒滤波器不能满足需求。为此，本实施方式通过结合三个不同大小的万花筒滤波器，产生万花筒级联空间金字塔池化模块(KCSPP)。图2展示了KCSPP。不同尺度的万花筒滤波器可以在不同尺度上捕捉不同的特征，获得更精确的形状特征和纹理特征。为了提升KCSPP的性能，使用了ASPP模型和上下文聚合模型中的全局平均池化特征图、原始输入特征图、RCS和级联架构。全局平均池化特征图中每一个像素的值是原始输入特征映射中所有像素值的全局平均值。它与万花筒卷积的特征图和原始输入特征图一起，形成一个金字塔，位于金字塔的顶部。研究发现，对图像金字塔中相邻图像的减法结果求和可以生成显著区域，对图像金字塔中的所有图像直接求和也可以产生相似的显著区域，将显著性图谱引入语义分割的特征图中，能够提高分割精度。因此，在KCSPP中引入了全局平均池化特征图，并使用了求和运算。此外，引入原始输入特性图有两方面的原因。一方面，它们是金字塔的重要组成部分，可以以此增强显著区域；另一方面，来自万花筒卷积的特征图大多包含语义、形状和纹理特征，而原始输入中每个像素的位置、颜色和强度信息严重丢失。通过引入原始输入特征图，可以恢复损失信息。对于采取直接堆积的办法组合金字塔中的特征图。则忽略了相邻尺度的物体的等级依赖性。由于不同特征图中语义间隙会引起固定残差，忽略这种等级依赖性会将固定残差引入最后的结果，导致分割精度下降。通过在KCSPP中使用级联结构，充分考虑了这种层次依赖性，减少了固定残差。

再进一步，结合图3所示，所述万花筒卷积网络包括输入流程200、中间流程300以及输出流程400；所述输入流程200、中间流程300及输出流程400构成主干网Xception，并作为万花筒卷积网络的编码器部分；

所述输入流程200包括一级处理210、二级处理220和三级处理230，

所述一级处理210包括1层卷积核为3的普通卷积、2层卷积核为3的深度可分离卷积及1层卷积核为3步长为2的深度可分离卷积；所述待识别图像经过所述1层卷积核为3的普通卷积后，做步长为2的1*1卷积得到128维特征构成一级图像侧枝；所述待识别图像经一级处理210中所有卷积层卷积后获得一级图像主体，所述一级图像主体与一级图像侧枝逐像元相加得到一级处理特征图；所述二级处理220包括2层卷积核为3的深度可分离卷积，1层卷积核为3步长为2的深度可分离卷积；对一级处理特征图做步长为2的1*1卷积得到256维特征构成二级图像侧枝；所述一级处理特征图经二级处理220中所有卷积层卷积后获得二级图像主体；所述二级图像主体与二级图像侧枝逐像元相加得到二级处理特征图；所述三级处理230包括2层卷积核为3的深度可分离卷积及1层卷积核为3步长为2的深度可分离卷积；对二级处理特征图做步长为2的1*1卷积得到728维特征构成三级图像侧枝；所述二级处理特征图经三级处理230中所有卷积层卷积后获得三级图像主体；所述三级图像主体与三级图像侧枝逐像元相加得到三级处理特征图；所述中间流程300包括3层卷积核为3的深度可分离卷积，所述3层卷积核为3的深度可分离卷积构成卷积单元；采用卷积单元对三级处理特征图进行处理，获得的结果与所述三级处理特征图相加；重复16次得到中间流程输出结果；

所述输出流程400包括四级处理410及五级处理420；

所述四级处理410包括2层卷积核为3的深度可分离卷积和1层卷积核为3步长为2的深度可分离卷积；对中间流程输出结果做步长为2的1*1卷积得到1024维特征构成四级图像侧枝；所述中间流程输出结果经四级处理410中所有卷积层卷积后获得四级图像主体；所述四级图像主体与四级图像侧枝逐像元相加得到四级处理特征图；

所述五级处理420包括3层卷积核为3的深度可分离卷积；四级处理特征图经五级处理420中所有卷积层卷积后获得2048维特征结果图；所述待识别图像为2048维特征结果图尺寸的256倍；

所述2048维特征结果图作为编码器部分的输出。

所述万花筒卷积网络的编码器部分还包括一级万花筒级联空间金字塔池化模块510；

所述万花筒卷积网络还包括解码器500，

所述一级处理特征图、二级处理特征图、三级处理特征图及2048维特征结果图作为解码器500的输入；

解码器500包括三个万花筒级联空间金字塔池化模块与三个解码RCS模块；2048维特征结果图经一级万花筒级联空间金字塔池化模块510处理后，经上采样至尺寸变为2048维特征结果图的两倍，获得一级上采样图像；

三级处理特征图经二级万花筒级联空间金字塔池化模块520处理后，获得二级万花筒图像；

所述二级万花筒图像与一级上采样图像逐像元相加，相加结果经一级解码RCS模块550获得一级解码图像；

二级处理特征图经三级万花筒级联空间金字塔池化模块530处理后，获得三级万花筒图像；所述三级万花筒图像与二级上采样图像逐像元相加，相加结果经二级解码RCS模块560获得二级解码图像；

一级处理特征图经四级万花筒级联空间金字塔池化模块540处理后，获得四级万花筒图像；所述四级万花筒图像与三级上采样图像逐像元相加，相加结果经三级解码RCS模块570获得三级解码图像；

所述四级上采样图像作为待识别图像的最终语义分割结果。

本实施方式中的一级万花筒级联空间金字塔池化模块510与输入流程200、中间流程300及输出流程400共同构成主干网Xception，并作为万花筒卷积网络的编码器部分；解码器500包括二级万花筒级联空间金字塔池化模块520、三级万花筒级联空间金字塔池化模块530、四级万花筒级联空间金字塔池化模块540、一级解码RCS模块550、二级解码RCS模块560及三级解码RCS模块570。

再进一步，所述多个万花筒级联空间金字塔池化模块被组装到解码器层中以提取待识别图像的上下文特征、形状特征和纹理特征；

在编码器提取的特征中，每个对象都相对较小，因此KCSPP提取的大多数特征都是上下文特征。解码器的特征图包含了相对较大的对象和更多的细节，提取的为大对象的形状和纹理特征，以及小对象的上下文特征。由于原始输入特征图也包含在KCSPP中，因此KCSPP的输出也保留了解码器特征图中的所有原始特征，这确保了细节不会丢失。这些KCSPP模块的输出特征图共同构成了一个金字塔。该金字塔具有与KCSPP生成的金字塔相同的属性。因此，为了更好地融合这些特征图，使用了求和运算、RCS和级联结构。

由图5(a)所示，应该用更多的空间采样位置来捕获对象，例如房屋和树木。通过填充空洞卷积的关键位置，可以引入更多的空间采样位置，更好地捕获对象的形状特征。由图5(b)和(c)对比可知，万花筒滤波器比空洞滤波器能更准确地拟合边界。

纹理是指在一定大小的区域内像素表现出有规律的周期性变化。实心卷积滤波器的感受野越大，提取纹理特征的能力越强。空洞滤波器通过插入空洞以扩大感受野，满足提取纹理需要大的感受野的条件，但是空洞滤波器少数空间采样点无法捕捉纹理中不同类型像素的周期性变化。由图6和图7可知，空洞滤波器只能定位一种像素值彼此接近的像素，但它无法定位另一种像素。相比之下，万花筒滤波器可以同时定位两种表征周期性变化的像素。

上下文特征是指对应于对象共同出现语义关系。上下文特性可用于修正错误的对象标签。如图8所示，汽车更可能出现在道路、绿化带、树木、房屋和附近的汽车周围。与空洞滤波器相比，万花筒滤波器增加了空间采样点的数目，从而能够将更多的对象作为上下文。

图9为Vaihingen测试集中三幅大小约2500*2000的图像及其对应的分割结果。其中(a)为原始图像；(b)是现有HUSTW5方法(现有网站上最好的方法)的分割结果；(c)是本发明方法的分割结果。在原始图像中，四个矩形框用来标记四个建筑区域。这些建筑有清晰的纹理和形状信息。相比之下本发明方法可以更精确地分割它们。

从图10可以看出，本发明方法成功地识别了阴影中的车辆，而HUSTW5方法则失败了。这也在一定程度上证明了本发明方法减少了阴影的影响，可以提取出更好的上下文信息。

图11为Cityscapes验证集中的多幅图像、对应的真实标记图、以及本方法的预测结果。可以看出使用本发明方法得到的结果接近事实。特别是对应(a)、(b)及(c)中最后一列图像的右上角，标记图将其标记为建筑区域，本方法将其预测为天空区。

下面通过具体实施例对本发明方法构建的万花筒卷积网络的性能进行说明：

本实施例在Vaihingen Challenge数据集、Postdam Challenge数据集和Cityscapes数据集上评估本发明。前两个数据集是高分辨率的遥感数据集，由三波段的IRRG(红外，红色，绿色)图像数据和对应的DSM数据组成。Vaihingen Challenge数据集包含33张图：16张图有标记数据,其中5张被选作验证集(区域11,15,28,30,34)，其它的作为训练集；无标记数据的17张图作为在线测试集；Postdam Challenge数据集包含38张图：24张有标记数据,其中四张(2_12,5_11,7_9,7_11)被选作验证集，其它的作为训练集；无标记数据的14张图作为在线测试集。通过mIOU和F1 Score来对性能进行评估。

具体实现细节如下：

将Xception作为骨干网，采用多元学习策略；动量和权重的衰减率分别设为0.9和0.00004。由于Vaihingen Challenge数据集和Postdam Challenge数据集中的图片太大，无法直接输入模型进行训练。因此将图片分割成大小为769×769的图像块。另外，由于这两个数据集中的图片数量比较少，所以使用了数据增强、批标准化(Batch Normalization)、迁移学习、Dropout和正则化来减少过拟合。

数据增强的步骤包括:1)将原图分割成一系列部分重合、大小为769×769的图像块；2)旋转每个图像块：90度，180度，270度；3)将每个图像块以y轴为对称轴旋转；4)模糊每个图像块；5)调整每个图像块的亮度；6)在每个图像块上加入噪声(高斯噪声，椒盐噪声)。在训练过程中，通过随机将图像块在0.5倍2倍之间缩小或放大，以及左右翻转操作，进一步扩充数据集。批标准化(Batch Normalization)参数设置为：批处理大小为16，裁剪窗口大小为513×513,衰减率为0.9997。

剥离实验：

在所有的剥离实验中，骨干网Xception 71和Xception 65的参数均由DeeplabV3+在Cityscapes上进行预训练模型初始化。

先对比万花筒滤波器与空洞滤波器的性能，以及KCSPP与ASPP的性能。表1记录了比较的结果。在表1中,DeeplabKC是将DeeplabV3+中ASPP的空洞滤波器替换为万花筒滤波器后的模型的缩写，DeeplabKCSPP是用KCSPP取代DeeplabV3+中的ASPP后的模型的简称。DeeplabKC和DeeplabKCSPP中的三个万花筒滤波器的尺寸分别为7，11，15。

DeeplabKCSPP的训练方案按照本发明方法设置。DeeplabKC和DeeplabV3+的训练方案按照提出DeeplabV3+模型的文献的方法设置。从实验结果来看，DeeplabKC优于DeeplabV3+，DeeplabKCSPP优于DeeplabV3+和DeeplabKC，使用网络骨干Xception71的模型优于使用网络骨干Xception65的模型。

其次,对比装配KCSPP的数量对万花筒卷积网络性能的影响。对于Vaihingen数据集和Potsdam数据集，将来自KCN的编码器层的KCSPP中的三个万花筒卷积核的尺寸设置为7、5和3，而对于Cityscapes dataset，它们被设置为15、11和7。对于解码器层中的每个KCSPP，三个万花筒卷积核的尺寸分别设置为7、5和3。

在剥离实验中,将KCSPP按输出步长从8到2的顺序配置到解码器层，并且比较相应模型的结果。其中输出步长为输入图像空间分辨率与最终输出图像分辨率之比。表2给出了实验结果的对比。对于Cityscapes数据集，最好的结果来自于所有解码器层都装配了KCSPP的模型。但对于Potsdam和Vaihingen数据集，得到最好结果的是输出步长为8,4配有KCSPP的解码器层和输出步长为2的解码器层没有KCSPP的模型。

原因如下:1)对于Cityscape数据集，图像尺度越大，每个对象的纹理和形状信息越清晰，万花筒滤波器提取的纹理和形状特征值越精确；2)在Potsdam和Vaihingen数据集中，有两个因素导致了所有解码器层都有KCSPP的模型的性能下降。首先，草坪类植物含有多种不同的杂质或噪声。如果图像尺度越大，这些物体的纹理和形状特征就越不规则。其次，低景观绿化植被属于低植被类群，但图像尺度越大，纹理和形状特征与树木越相似，容易被误分类为乔木类群。

为了与其他先进的方法进行比较，针对每个数据集，选取最佳的KCN。Cityscapes采用Xception71+KCSPP(8,4,2),Vaihingen和Potsdam选取Xception71+KCSPP(8,4)。对于Cityscapes验证集的测试，在粗糙的标记数据集上对模型进行迭代500K次的预训练，初始学习率为0.01。对于Vaihingen和Potsdam测试集的测试，将验证数据作为训练数据放入训练集中。此外Vaihingen和Potsdam互相作为预训练的数据集。预训练进行100K迭代，初始学习率为0.01。然后在训练数据集上对预训练模型进行训练，迭代次数200K，初始学习率为0.01。最后，固定批标准化参数，然后在训练数据集上再进行300K次迭代训练；训练时的裁剪大小为769×769，基础学习率为0.001。在固定批标准化参数前，裁剪大小设置为513×513。表3给出了比较结果。从表中可以看出，本发明方法优于HUSTW5，达到了最先进的性能,使Vaihingen测试集的结果提高了0.5％。

表1

表1中，mIOU表示均交并比，为语义分割的标准度量；F1又称平衡F分数，被定义为精确率和召回率的调和平均数。

表2

表3

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims

1.一种万花筒卷积网络的构建方法，其特征在于，包括以下步骤：

最后，采用Xception作为主干网，并将万花筒级联空间金字塔池化模块组装在解码器层形成万花筒卷积网络；

所述万花筒卷积网络包括输入流程(200)、中间流程(300)以及输出流程(400)；所述输入流程(200)、中间流程(300)及输出流程(400)构成主干网Xception，并作为万花筒卷积网络的编码器部分；

所述输入流程(200)包括一级处理(210)、二级处理(220)和三级处理(230)，

所述一级处理(210)包括1层卷积核为3的普通卷积、2层卷积核为3的深度可分离卷积及1层卷积核为3步长为2的深度可分离卷积；待识别图像经过所述1层卷积核为3的普通卷积后，做步长为2的1*1卷积得到128维特征构成一级图像侧枝；所述待识别图像经一级处理(210)中所有卷积层卷积后获得一级图像主体，所述一级图像主体与一级图像侧枝逐像元相加得到一级处理特征图；所述二级处理(220)包括2层卷积核为3的深度可分离卷积，1层卷积核为3步长为2的深度可分离卷积；对一级处理特征图做步长为2的1*1卷积得到256维特征构成二级图像侧枝；所述一级处理特征图经二级处理(220)中所有卷积层卷积后获得二级图像主体；所述二级图像主体与二级图像侧枝逐像元相加得到二级处理特征图；所述三级处理(230)包括2层卷积核为3的深度可分离卷积及1层卷积核为3步长为2的深度可分离卷积；对二级处理特征图做步长为2的1*1卷积得到728维特征构成三级图像侧枝；所述二级处理特征图经三级处理(230)中所有卷积层卷积后获得三级图像主体；所述三级图像主体与三级图像侧枝逐像元相加得到三级处理特征图；所述中间流程(300)包括3层卷积核为3的深度可分离卷积，所述3层卷积核为3的深度可分离卷积构成卷积单元；采用卷积单元对三级处理特征图进行处理，获得的结果与所述三级处理特征图相加；重复16次得到中间流程输出结果；

所述输出流程(400)包括四级处理(410)及五级处理(420)；

所述四级处理(410)包括2层卷积核为3的深度可分离卷积和1层卷积核为3步长为2的深度可分离卷积；对中间流程输出结果做步长为2的1*1卷积得到1024维特征构成四级图像侧枝；所述中间流程输出结果经四级处理(410)中所有卷积层卷积后获得四级图像主体；所述四级图像主体与四级图像侧枝逐像元相加得到四级处理特征图；

所述五级处理(420)包括3层卷积核为3的深度可分离卷积；四级处理特征图经五级处理(420)中所有卷积层卷积后获得2048维特征结果图；所述待识别图像为2048维特征结果图尺寸的256倍；

所述2048维特征结果图作为编码器部分的输出；

所述万花筒卷积网络的编码器部分还包括一级万花筒级联空间金字塔池化模块(510)；

所述万花筒卷积网络还包括解码器(500)，

所述一级处理特征图、二级处理特征图、三级处理特征图及2048维特征结果图作为解码器(500)的输入；

解码器(500)包括三个万花筒级联空间金字塔池化模块与三个解码RCS模块；2048维特征结果图经一级万花筒级联空间金字塔池化模块(510)处理后，经上采样至尺寸变为2048维特征结果图的两倍，获得一级上采样图像；

三级处理特征图经二级万花筒级联空间金字塔池化模块(520)处理后，获得二级万花筒图像；

所述二级万花筒图像与一级上采样图像逐像元相加，相加结果经一级解码RCS模块(550)获得一级解码图像；

二级处理特征图经三级万花筒级联空间金字塔池化模块(530)处理后，获得三级万花筒图像；所述三级万花筒图像与二级上采样图像逐像元相加，相加结果经二级解码RCS模块(560)获得二级解码图像；

一级处理特征图经四级万花筒级联空间金字塔池化模块(540)处理后，获得四级万花筒图像；所述四级万花筒图像与三级上采样图像逐像元相加，相加结果经三级解码RCS模块(570)获得三级解码图像；

所述四级上采样图像作为待识别图像的最终语义分割结果；

多个万花筒级联空间金字塔池化模块被组装到解码器层中以提取待识别图像的上下文特征、形状特征和纹理特征；

2.根据权利要求1所述的万花筒卷积网络的构建方法，其特征在于，所述另外两个二级采样点的确定方法为：

3.根据权利要求2所述的万花筒卷积网络的构建方法，其特征在于，

4.根据权利要求1至3中任一项所述的万花筒卷积网络的构建方法，其特征在于，

所述万花筒级联空间金字塔池化模块包括特征图输入层(110)、全局平均池化层(120)、一级万花筒卷积层(130)、二级万花筒卷积层(140)、三级万花筒卷积层(150)、直接传入层(160)、全局池化结果(170)、输出结果底图(180)及四个RCS模块，

所述特征图输入层(110)用于由主干网Xception中提取得到待识别图像的初级特征图；

所述全局平均池化层(120)用于对初级特征图每一个特征维度下的全部像元计算其平均值，得到全局池化结果(170)，所述全局池化结果(170)为1*1*n的特征向量，其中n为特征维数；

所述一级万花筒卷积层(130)尺寸的Rate值为7或9，用于卷积提取所述初级特征图的一级特征；

所述二级万花筒卷积层(140)尺寸的Rate值为5或7，用于卷积提取所述初级特征图的二级特征；

所述三级万花筒卷积层(150)尺寸的Rate值为3或5，用于卷积提取所述初级特征图的三级特征；

所述直接传入层(160)用于传递特征图输入层(110)提取的初级特征图；

对全局池化结果(170)上采样至所述初级特征图大小，得到输出结果底图(180)；

将所述输出结果底图(180)与所述一级特征逐像元相加，相加结果经一级RCS模块处理后与所述二级特征逐像元相加，相加结果再经二级RCS模块处理后与所述三级特征逐像元相加，相加结果经三级RCS模块处理后与直接传入层(160)传递的所述初级特征图相加，相加结果最后经四级RCS模块处理后，获得图像处理结果，所述图像处理结果为万花筒图像。