CN114596463A

CN114596463A - 一种基于图像的地块类型分类方法

Info

Publication number: CN114596463A
Application number: CN202210188605.2A
Authority: CN
Inventors: 王智慧; 王宇; 王佳凯; 邵一鸣
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-06-07

Abstract

本发明属于计算机技术应用领域，具体涉及一种基于图像的地块类型分类方法。本发明采用神经网络区分从原始卫星图像中以路网信息作为边界划分出的地块单元的类型。神经网络由特征提取器、自适应金字塔池化层以及分类器组成。特征提取器具体包括卷积、批量归一化、ReLU以及最大池化处理；述自适应金字塔池化层利用不同数目及大小的池化窗口对特征提取器得到的特征数据进行最大池化操作，之后再对池化结果进行拼接处理；分类器是将得到的特征向量映射到输入数据的实际标签空间。经过训练的网络模型对地块数据进行类型预测。

Description

一种基于图像的地块类型分类方法

技术领域

本发明属于计算机技术应用领域，具体涉及一种基于图像的地块类型分类方法。

背景技术

高分辨率卫星图像的有关研究已经发展到多个领域，其中针对城市卫星图像的地块分类是一项十分重要且具有前景的工作，其结果可以很好地应用于生活中如城市轨道交通选址等有价值的方向，也可以为城市规划和建设的提供一定的数据支持。

卷积神经网络具有强大的表示能力，可以很自然地被引入到卫星图像的场景分类之中。然而传统神经网络架构由于全连接层的存在，往往只能接收单一尺度图像作为输入数据。而在卫星图像地块分类的任务之中，所有的地块信息都是基于道路网络信息得到的，所以它们大部分都是不规则的且在形状，规格以及尺寸上具有较大的变化。在面临卫星图像地块分类这种多尺度图像数据的分类问题时，传统卷积神经网络显然不再适用。而且，在实际卫星图像之中，不同类别的地块之间可能会存在较高的相似度，比如不同类别的地块中都有的建筑物相对集中的区域；而同一类别的地块中又可能会存在很大的差异，比如同为住宅区的地块纸张可能会有不同的屋顶颜色以及不同的建筑物位置分布等。同时，对卫星图像进行语义识别还需要考虑一些相关的干扰因素，比如卫星图像在光谱反射率，对比度以及阴影方面都存在较大差异。

为了解决以上问题，本发明以卷积神经网络作为切入点，以残差网络架构作为基础，用于提取深层次语义信息。通过引入自适应金字塔池化层的方式，使得整个网络架构可以处理任意尺度的卫星图像中地块数据，进而得到了一种用于处理卫星图像地块分类问题的解决方案。该研究方案通过对卫星图像中进行地块数据的分割，可以把城市土地划分成一个个的地块数据用于具体类型的分类。

发明内容

本发明的目的在于提出一种基于图像的地块类型分类方法。

本发明提出的基于图像的地块类型分类方法，其中地块数据是原始卫星图像中以路网信息作为边界划分出的地块单元，本发明采用神经网络，区分这些地块单元的类型。

本发明以残差网络为基础，结合具体数据特点，提出了城市卫星图像中地块类型分类方法，整个神经网络由三个部分组成，分别是特征提取器，自适应金字塔池化层以及分类器。其中：

特征提取器；首先，所有的地块图像数据都是结合大规模高分辨率卫星图像中的路网信息切分得到的，因此所有的图像在尺寸以及纵横比上都有较大差距。其次，城市中道路并不是平行的，因此直接得到的地块数据必然形状不规则。除此之外，所有数据都不可避免地携带有边界信息，而这些边界信息几乎都是无意义的黑色像素。如果不加处理直接用于分类，则必然会对最终的分类结果产生一定的影响。因此在对残差网络原始架构进行分析之后，本发明决定以原始残差网络作为基础，在其残差块之间增加最大池化层，以最大池化的方式保留特征图某一区域内最显著的特征用于后续计算，进而在边界处能够在一定程度上摒弃掉一部分由边界信息所带来的影响。在进行特征提取时，输入图像在进入第一个残差块之前还会首先经过一个被称为初始化层的结构。这个初始化层的作用是在对输入数据进行卷积处理提取特征之前对其先进行一些初始化处理，具体包括卷积、批量归一化、ReLU以及最大池化处理。

其中，对原始图像进行卷积时的步长为2，卷积核尺寸为7*7，共计64个。之后，针对提取到的特征进行批量归一化处理。再之后引入了ReLU操作，以增强网络架构的非线性处理能力。最后，针对ReLU函数的输出结果，使用3*3的池化窗口以2个像素为移动步长进行池化操作。可以计算出原始图像数据在经过初始层后的尺寸大小(单通道上的总像素数)仅为原始尺寸的1/16。但是由于卷积操作使用了64个卷积核进行特征提取，初始化层的输出结果具有多达64的通道数。初始化层之后是一系列卷积层，这些卷积层所使用的卷积核的数目会随着网络的加深而相应增加。因此可以根据卷积核数目的不同将所有卷积层分为四个残差块。在每一个残差块中，每三个卷积层又组成一个残差单元，这三个卷积层的卷积核的大小分别是[1*1,3*3,1*1]。第一个残差块可以直接接收初始化层的输出结果作为输入数据，并产生可以直接用于后续网络块的输出数据。为了减弱输入图像中的边界信息的影响，进一步增强整个特征提取器得到的特征的有效性，本发明在每两个残差块之间添加了一个最大池化层。每个残差块和最大池化层的组合可以将输入数据的尺寸(单通道上的总像素数)降低到原来的1/4。因此，在经过所有卷积层之后的数据尺寸(单通道上的总像素数)仅为网络块输入数据尺寸的1/64，但是却具有高达2048的通道数。一个初始化层和四个残差块以及最大池化层的组合共同组成了本发明所设计网络架构的特征提取器。

自适应金字塔池化层；自适应金字塔池化层就是利用不同数目及大小的池化窗口对特征提取器得到的特征数据进行最大池化操作，之后再对池化结果进行拼接处理。

自适应金字塔池化层金字塔层工作时，需要设置池化窗口的数目参数[n₀，n₁，...]，这参数是一个序列，序列下中每一个参数表示该参数下标所对应的池化层使用的池化窗口数目。除此之外，由于特征图不完全是正方形的，所以池化窗口也不完全是正方形，而会根据特征图的尺寸自适应地进行调整，而且进行池化操作时池化窗口横向和纵向的移动步长也不尽相同。池化窗口尺寸以及移动步长的计算方法如下：

式1和式2分别表示了对尺寸为a*b的特征图进行n*n的池化操作时所使用的x*y的滑动窗口尺寸以及该池化窗口在横向和纵向的移动步长的计算方式。其中[z]表示对数值z进行上取整，

表示对数值z进行下取整，n是预先设置的自适应金字塔池化层参数序列中的具体参数。引入自适应金字塔池化层的卷积神经网络主要具有两点优势。第一，整个网络架构在引入自适应金字塔池化层之后，可以将任意比例和尺寸的地块图像数据作为输入，并为全连接层提供固定长度的特征向量用于分类；第二，自适应金字塔池化层可以合并不同尺度下的特征，进而能够获得更加丰富的特征数据，这一点对之后分类器的分类有一定的帮助。

分类器；分类器部分的作用就是将经过卷积层以及池化层之后得到的特征向量映射到该输入数据的实际标签空间。这个层次的核心操作就是利用向量乘积的方式将前一层的输出映射到另一个概率分布之中。经过全连接层之后，自适应金字塔卷积得到的特征向量被映射成维度为类别数目的特征向量，该特征向量再经过一个Softmax函数就可以得到输入数据关于各个类别的置信概率。在本发明的分类器部分，全连接层可以接收自适应金字塔池化层产生的输出作为输入数据，之后会经过一个为了防止过拟合而引入的Dropout层。经过Dropout之后的特征向量会被映射成维度为分类类别的特征向量，然后经过Softmax函数以计算关于各个类别的置信概率，最终实现对类别的区分。Softmax函数的计算方式如下：

训练完成之后，可以使用训练得到的模型对地块数据进行类型预测。预测时，为了进一步提高预测准确度，本发明会对同一个地块数据的不同位置进行多次预测。

本发明所设计的卫星图像地块分类网络由特征提取器、自适应金字塔池化层以及分类器三个部分组成。特征提取器以残差网络架构为基础，加入最大池化层以减弱边界信息带来的影响。通过引入自适应金字塔池化层的方式，使得不同维度下的特征数据能够被组合在一起，并生成的统一长度的特征向量。在分类器中，为了防止过拟合而引入了Dropout层，最后通过Softmax函数来得到输入图像数据关于各个类别的置信概率。

附图说明

图1展示了本发明所设计分类网络的整体架构。

图2展示了本发明所设计的特征提取器的组成。

图3展示了自适应金字塔池化层的工作原理。

图4展示了本发明所设计的分类器的组成.

图5展示了本发明在预测地块数据类型时的工作原理。

具体实施方式

下面结合附图对本发明的具体实施方式进行说明。

图1展示了本发明所设计分类网络的整体架构。在本发明具体实施时，输入的地块图像会先经过特征提取器进行初始特征提取。不同大小的地块数据在经过特征提取器后会产生不同尺寸的特征图。例如图1中所展示的，如果分别将尺寸为[256*256,224*224,192*192]的地块图像作为输入，那么经过特征提取器之后，将会分别输出尺寸为[8*8,7*7,6*6]的具有2048个通道数的特征图。这些不同尺寸的特征图经过自适应金字塔池化层之后，它们所包含的不同维度下的特征数据将会被进一步组合，并且产生尺寸为1*1*22624的特征向量。最终这些特征向量会被分类器所区分。

图2中，每一个模块下方的数字表示该模块输出的特征图的维度，如“256*256*3”表示一个三通道的256*256像素的图像。而各个卷积块中的符号则表示卷积核尺寸以及数目，“conv3-64”就表示该卷积层使用64个尺寸3*3的卷积核进行卷积操作。例如，图2所展示的一个尺寸为256*256*3的地块图像作为原始输入时，该图像会先经过初始化层，该层会对输入数据进行一些初始化处理，具体包括卷积、批量归一化、ReLU以及最大池化处理，之后数据尺寸会变成64*64*64。紧接着，数据会依次经过三组残差块和最大池化层组成的处理单元，此时特征图的尺寸已经变成了16*16*1024。最后，这个特征图会再经过过一个残差块的处理，最终生成尺寸为8*8*2048的特征数据。

自适应金字塔池化层对数据的处理过程如图3所示，某一个原始地块数据在经过特征提取器之后得到了一个尺寸为8*8*2048特征图，这个特征图会经过自适应金字塔池化层。此时设置池化窗口的数目参数为[3,2,1]。则改特征数据会依次由数目为3*3，2*2以及1*1的池化窗口进行最大池化操作，对应池化窗口大小分别为[3*3,4*4,8*8]，步长分别为[2,4,8]。这三层最大池化操作得到的结果展平之后将分别得到为尺寸为1*1*18432，1*1*8192以及1*1*2048的三个特征向量，之后将这三个特征向量进行拼接，得到最终尺寸为1*1*22634的特征向量，即用于全连接层的分类。值得注意的是，即使不同尺寸的特征图被输入到自适应金字塔池化层中，也会进行同样的操作，最终都会得到相同维度的特征向量。

如图4，分类器在接收到尺寸为1*1*22634的特征向量之后，会以计算向量外积的方式对特征数据进行维度映射，最终生成长度为分类类别的特征向量，例如，分类类别为3时，最终会生成一个1*1*3的向量。这个最终的向量会经过softmax函数，以生成对应类别的概率，例如最终结果为[0.9,0.2,0.1]，则该图像类别为1。

图5展示了对某一个具体地块的不同位置进行多次预测的方式。图5所示的地块数据会进行6次预测，分别是整体地块以及其中心区域和四个角落。图5所示的地块在使用本发明的方法进行预测时，6次预测的结果分别是[1,1,1,1,3,2]，因此，确定该地块的类别最终为1。

Claims

1.一种基于图像的地块类型分类方法，其中地块数据是原始卫星图像中以路网信息作为边界划分出的地块单元，其特征在于，采用神经网络，区分这些地块单元的类型；

所述神经网络由三个部分组成，分别是特征提取器，自适应金字塔池化层以及分类器；其中：

所属特征提取器，在对残差网络原始架构进行分析之后，以原始残差网络作为基础，在其残差块之间增加最大池化层，以最大池化的方式保留特征图某一区域内最显著的特征用于后续计算，进而在边界处，摒弃掉一部分由边界信息所带来的影响；在进行特征提取时，输入图像在进入第一个残差块之前首先经过一个被称为初始化层的结构；这个初始化层的作用是在对输入数据进行卷积处理提取特征之前对其先进行一些初始化处理；具体包括卷积、批量归一化、ReLU以及最大池化处理；

其中，对原始图像进行卷积时的步长为2，卷积核尺寸为7*7，共计64个；之后，针对提取到的特征进行批量归一化处理；再之后引入了ReLU操作，以增强网络架构的非线性处理能力；最后，针对ReLU函数的输出结果，使用3*3的池化窗口以2个像素为移动步长进行池化操作；计算出原始图像数据在经过初始层后的尺寸大小，仅为原始尺寸的1/16；由于卷积操作使用64个卷积核进行特征提取，初始化层的输出结果具有多达64的通道数；初始化层之后是一系列卷积层，这些卷积层所使用的卷积核的数目随着网络的加深而相应增加；因此根据卷积核数目的不同将所有卷积层分为四个残差块；在每一个残差块中，每三个卷积层又组成一个残差单元，这三个卷积层的卷积核的大小分别是[1*1,3*3,1*1]；第一个残差块直接接收初始化层的输出结果作为输入数据，并产生可以直接用于后续网络块的输出数据。为了减弱输入图像中的边界信息的影响，进一步增强整个特征提取器得到的特征的有效性；在每两个残差块之间添加一个最大池化层；每个残差块和最大池化层的组合可以将输入数据的尺寸降低到原来的1/4；因此，在经过所有卷积层之后的数据尺寸仅为网络块输入数据尺寸的1/64；但是却具有高达2048的通道数；一个初始化层和四个残差块以及最大池化层的组合共同组成所设计网络架构的特征提取器；

所述自适应金字塔池化层，是利用不同数目及大小的池化窗口对特征提取器得到的特征数据进行最大池化操作，之后再对池化结果进行拼接处理；

自适应金字塔池化层金字塔层工作时，设置池化窗口的数目参数[n₀，n₁，...]，这参数是一个序列，序列下中每一个参数表示该参数下标所对应的池化层使用的池化窗口数目；此外，由于特征图不完全是正方形的，池化窗口也不完全是正方形，而根据特征图的尺寸自适应地进行调整，池化窗口尺寸以及移动步长的计算方法如下：

式1和式2分别表示了对尺寸为a*b的特征图进行n*n的池化操作时所使用的x*y的滑动窗口尺寸以及该池化窗口在横向和纵向的移动步长的计算方式；其中

表示对数值z进行上取整，

表示对数值z进行下取整，n是预先设置的自适应金字塔池化层参数序列中的具体参数；

所述分类器，其作用就是将经过卷积层以及池化层之后得到的特征向量映射到该输入数据的实际标签空间；这个层次的操作就是利用向量乘积的方式将前一层的输出映射到另一个概率分布之中；经过全连接层之后，自适应金字塔卷积得到的特征向量被映射成维度为类别数目的特征向量，该特征向量再经过一个Softmax函数就，得到输入数据关于各个类别的置信概率；

在分类器部分，全连接层可以接收自适应金字塔池化层产生的输出作为输入数据，之后经过一个为了防止过拟合而引入的Dropout层；经过Dropout之后的特征向量被映射成维度为分类类别的特征向量，然后经过Softmax函数以计算关于各个类别的置信概率，最终实现对类别的区分；Softmax函数的计算方式如下：

训练完成之后，使用训练得到的模型对地块数据进行类型预测。