CN105989336B

CN105989336B - 基于带权重的解卷积深度网络学习的场景识别方法

Info

Publication number: CN105989336B
Application number: CN201510080035.5A
Authority: CN
Inventors: 袁媛; 卢孝强; 付敏
Original assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Current assignee: XiAn Institute of Optics and Precision Mechanics of CAS
Priority date: 2015-02-13
Filing date: 2015-02-13
Publication date: 2020-11-17
Anticipated expiration: 2035-02-13
Also published as: CN105989336A

Abstract

一种基于带权重的解卷积深度网络学习的场景识别方法，其包括以下步骤：1)构建带权重的解卷积深度网络模型，对原始输入图像利用带权重的解卷积深度网络模型学习，得到每幅图像不同尺度上的特征图；2)利用空间金字塔模型对步骤1)中学习到的特征图进行特征抽样，形成每幅图像的特征向量表达；3)将原始输入图像分为训练集和测试集，然后将这些图像的特征向量表达分别输入到支持向量机分类器中完成分类训练和测试，最终得到不同场景的识别结果。本发明提供的基于带权重的解卷积深度网络学习的场景识别方法，通过建立不同尺度上的场景的表达，以使场景表达更为精细和充分，从而提高场景分类的精度。

Description

基于带权重的解卷积深度网络学习的场景识别方法

技术领域

本发明属于信息处理技术领域，涉及一种遥感图像的场景识别与理解方法，尤其涉及一种基于带权重的解卷积深度网络学习的场景识别方法。

背景技术

随着我国航天技术的发展，越来越多的高分卫星被发射到太空中以获取地球表面数据，达到灾害监测、农业估产以及军事侦查等目的。通常从卫星传送到地面上的数据画幅巨大，为了充分利用这些大量的大幅高分遥感数据，场景分类是非常重要的预处理手段，它对后续进一步的目标识别、变化检测、图像检索等任务有着重要帮助。

目前，对于遥感影像进行场景分类的方法主要分为四类：

一是自底向上的分层场景建模的方法，该方法首先从图像像素开始分类，对每个像素赋予一个标签，然后通过迭代区域分割的方法得到图像中不同区域的类别标记，最后通过分析各区域之间的空间关系，得到整幅图像的场景类别。具体方法见参考文献“Learning Bayesian Classifiers for Scene Classification With a VisualGrammar,IEEE Transactions on Remote Sensing,43(3):581-589,2005”。

二是基于词包模型(Bag of Words,BOW)的方法，在场景分类中，该方法首先将训练图像打块，提取这些图像块中特征向量；然后对这些特征进行聚类并将聚类中心作为字典，进而计算每幅图像的特征与字典的距离，并统计落入每个字典中的特征点的个数，这样得到每幅图像的特征直方图；最后利用支持向量机(Support Vector Machine,SVM)分类器进行分类得到最终的场景分类结果。具体方法见参考文献“Video Google:a textretrieval approach to object matching in videos,in Proc.9th IEEEInt.Conf.Computer Vision,2:1470-1477,2003”。

三是基于主题模型的方法，该方法最初是用于文本分析领域，在场景分类中，将图像特征作为文本分析中的单词，每幅图像即为文档，每幅图像的场景类别即为文档的主题，因此通过主题模型分析，可以得到每幅图像的场景类别。具体方法见参考文献“LatentDirichlet Allocation for Spatial Analysis of Satellite Images,IEEETransactions on Geoscience and Remote Sensing,51(5):2770-2786,2013”。

四是稀疏表达的方法，该方法首先利用稀疏字典学习的方法得到一组基，然后将每幅图像特征通过稀疏编码的方法投影到这一组基上得到图像的稀疏表达，最后利用SVM分类器得到场景分类的结果，具体方法见参考文献“Saliency-Guided UnsupervisedFeature Learning for Scene Classification,IEEE Transaction on Geoscience andRemote Sensing,53(4):2175-2184,2014”。

上述四种方法虽然取得了较好的结果，但是它们均忽略了遥感图像的地物复杂、不同场景类别相似性很大的特点，从而导致分类精度不高。例如，机场场景中不仅有飞机，还有跑道和候机楼等，其中跑道和道路场景难以区分，而候机楼容易与居民区混淆；再如城市和密集活动房，它们属于不同的场景，但是即便是从人类视觉上看，它们也有很大的相似性，因而阻碍了分类精度的进一步提升；此外，这些现有方法中大多数都采用人为设计好的特征，如：尺度不变特征旋转描述子、颜色直方图等，相比于从数据本身学习到的特征来讲，它们的普适性更差。

发明内容

为了解决背景技术中存在的上述技术问题，本发明提供了一种基于带权重的解卷积深度网络学习的场景识别方法，通过建立不同尺度上的场景的表达，以使场景表达更为精细和充分，从而提高场景分类的精度。

本发明的技术解决方案是：

本发明提供了一种基于带权重的解卷积深度网络学习的场景识别方法，其特殊之处在于：包括以下步骤：

1)构建带权重的解卷积深度网络模型，对原始输入图像利用带权重的解卷积深度网络模型学习，得到每幅图像不同尺度上的特征图；

上述步骤1)中构建的带权重的解卷积深度网络模型为：

其中，C(l)是带权重的解卷积深度网络模型的目标函数，l是带权重的解卷积深度网络结构的层数，λ_l是正则项参数，y是原始输入图像，

是由第l层的特征图向下重构得到的图像，z_k,l是第l层第k个特征图，K_l是第l层的特征图总数，| |₁是对特征图的稀疏约束；

对于带权重的解卷积深度网络结构中的第一层，

其中，z_k,1表示第1层第k个特征图，f_k,1表示第1层第k个滤波器，w_k,1表示第1层第k个滤波器的权重，

表示由第1层的特征图向下重构得到的图像，*表示卷积；公式(3)是将卷积操作和求和操作综合为矩阵的相乘操作，W₁是由w_k,1组成的向量，F₁是由f_k,1组成的滤波器组，z₁是由z_k,1组成的特征图矩阵；

对于带权重的解卷积深度网络结构中的其他层，

A_l＝F₁W₁U₁F₂W₂U₂…F_lW_l (5)

其中，z_l表示第l层的特征图，F_l表示第l层的滤波器组，W_l表示第l层滤波器组的权重，U_l表示第l层去融合的过程。

上述步骤1)中对原始输入图像利用带权重的解卷积深度网络模型学习的方法包括以下步骤：

1.1)通过迭代收缩阈值化方法学习特征图z：

1.1.1)对公式(1)求z的偏导，得到特征图z的梯度：

其中

是A_l的逆过程；

1.1.2)利用梯度下降更新z_l：z_l＝z_l-λ_lβ_lg_l，其中β_l是梯度下降步长；

1.1.3)利用收敛操作，使z_l中值较小的元素变为0，

即z_l＝max(|z_l|-β_l，0)sign(z_l)；

1.2)迭代学习滤波器组F：

1.2.1)对公式(1)求F_l的偏导，并令求偏导后的结果等于0，得：

其中，i表示第i幅图像，N为图像总数，

表示第i幅图像第l层的特征图向量的转置，

表示对第i幅图像第l-1层的特征图的融合过程，

表示对第i幅图像第l层的特征图进行A的逆操作，

表示第i幅图像的特征图从第l层向下重构得到的重构图像，yⁱ表示第i幅原始输入图像；

1.2.2)利用共轭梯度下降方法，结合公式(6)以及

求解，得到更新后的F_l；

1.3)迭代学习滤波器的权重W：

1.3.1)对公式(1)求W_l的偏导，并令求偏导后的结果等于0，得：

其中，i表示第i幅图像，N为图像总数，

表示第i幅图像第l层的特征图向量的转置，

表示对第i幅图像第l-1层的特征图的融合过程，

表示对第i幅图像第l层的特征图进行A的逆操作，

1.3.2)利用共轭梯度下降方法，结合公式(7)以及

求解，得到更新后的W_l；

1.4)输入一幅原始图像y以及训练的层数l、迭代次数、正则项参数λ_l、特征图总数K_l和梯度下降步长β_l，初始化该层的特征图z、滤波器组F以及滤波器组的权重W，然后根据步骤1.1)学习特征图z；

所有图像的特征图z学完后，根据步骤1.2)和步骤1.3)分别学习滤波器组F和滤波器组的权重W；

1.5)所有层迭代学习完成后，输出每幅图像的特征图z、滤波器组F以及滤波器组的权重W；2)利用空间金字塔模型对步骤1)中学习到的特征图进行特征抽样，形成每幅图像的特征向量表达；

3)将原始输入图像分为训练集和测试集，然后将这些图像的特征向量表达分别输入到支持向量机分类器中完成分类训练和测试，最终得到不同场景的识别结果。

上述基于带权重的解卷积深度网络学习的场景识别方法在步骤3)之后还包括：

4)根据步骤3)所得不同场景的识别结果，分别计算分类精度与混淆矩阵。

上述步骤2)的具体实现方式是：

2.1)对图像的特征图z用3×3的格网进行打块，设z的大小为m×n，则提取到(m/3+1)×(n/3+1)＝Q个块，将每个块的特征拉成特征向量，得到数据矩阵X∈R^Q×9K，其中K是当前层特征图的个数，R是实数集；

2.2)对数据矩阵X进行k-means聚类，共聚50类，并将聚类中心作为字典，得到字典矩阵D∈R^50×9K；

2.3)计算数据矩阵X与字典矩阵D之间的距离，得到距离矩阵dis∈R^Q×50；

2.4)将每一个特征向量分配给距离其最近的聚类中心，得到图像的字典索引向量index∈R^Q，然后将字典索引向量变形为矩阵，得到图像的单词分布图M；

2.5)对步骤2.4)所得的单词分布图M，分别在图像的1×1、2×2、4×4的尺度上统计不同单词出现的频率，得到统计直方图，然后将统计直方图连接成向量作为图像的特征向量表达；

2.6)对于每一层的特征图，均按照步骤2.1)至步骤2.5)的顺序进行处理，得到最终的图像的特征向量表达。

上述步骤4)中分类精度的计算方式为：将步骤3)所得不同场景的识别结果与测试集的真实结果对比，统计分类正确的个数B，则：

分类精度＝B/B_总×100％；其中，B_总为测试集的总样本个数；

所述步骤4)中混淆矩阵的计算方式为：以待分类图像的所有场景类别分别建立横、纵坐标轴，将每一类分类正确的百分比一一对应作为混淆矩阵的对角线元素，将各当前行的类别错分到当前列的类别的百分比作为混淆矩阵的其他元素。

本发明的优点是：

本发明提供了一种基于带权重的解卷积深度网络学习的场景识别方法，该场景识别方法充分考虑了遥感图像地物复杂、不同类别场景之间相似性很大的情况，利用解卷积深度网络学习到了一系列包含遥感图像场景的细节信息的特征图，然后利用空间金字塔模型(Spatial Pyramid Matching,SPM)对这些特征图进行特征抽样，因此可以在不同尺度上对图像场景进行描述，使得对场景的表达更加细化，同时无监督地学习图像特征，使得学习到的特征更具有泛化性，从而提高了场景分类的精度。

附图说明

图1是本发明提供的基于带权重的解卷积深度网络学习的场景识别方法的流程图；

图2是本发明中带权重的解卷积深度网络结构第一层的框架示意图；

图3是本发明中带权重的解卷积深度网络多层结构的总体示意图；

图4是利用本发明在Sydney数据库上实验所得的混淆矩阵结果。

具体实施方式

参见图1，本发明提供了一种基于带权重的解卷积深度网络学习的场景识别方法，其包括以下步骤：

构建带权重的解卷积深度网络模型：

如图2所示，对于带权重的解卷积深度网络结构中的第一层，

如图3所示，对于带权重的解卷积深度网络结构中的其他层，在由第l层的特征图向下重构时，首先特征图z_l和滤波器组F_l进行卷积后乘以当前层的权重W_l，然后进行一个去融合的过程，之后再与下一层的滤波器组F_l-1以及滤波器组的权重W_l-1进行相乘直至第一层，得到重构后的

即：

A_l＝F₁W₁U₁F₂W₂U₂…F_lW_l (5)

对原始输入图像利用带权重的解卷积深度网络模型学习的方法包括以下步骤：

1.1)通过迭代收缩阈值化方法学习特征图z：

1.1.1)对公式(1)求z的偏导，得到特征图z的梯度：

其中

是A_l的逆过程；

1.1.3)利用收敛操作，使z_l中值较小的元素变为0，即z_l＝max(|z_l|-β_l，0)sign(z_l)；其中sign是一个符号函数：当z_l>0，sign(z_l)＝1；当z_l＝0，sign(z_l)＝0；当z_l<0，sign(z_l)＝-1；

1.2)迭代学习滤波器组F：

1.2.1)对公式(1)求F_l的偏导，并令求偏导后的结果等于0，得：

其中，i表示第i幅图像，N为图像总数，

表示第i幅图像第l层的特征图向量的转置，

表示对第i幅图像第l-1层的特征图的融合过程，

表示对第i幅图像第l层的特征图进行A的逆操作，

1.2.2)利用共轭梯度下降方法，结合公式(6)以及

求解，得到更新后的F_l；

1.3)迭代学习滤波器的权重W：

1.3.1)对公式(1)求W_l的偏导，并令求偏导后的结果等于0，得：

其中，i表示第i幅图像，N为图像总数，

表示第i幅图像第l层的特征图向量的转置，

表示对第i幅图像第l-1层的特征图的融合过程，

表示对第i幅图像第l层的特征图进行A的逆操作，

1.3.2)利用共轭梯度下降方法，结合公式(7)以及

求解，得到更新后的W_l；

1.5)所有层迭代学习完成后，输出每幅图像的特征图z、滤波器组F以及滤波器组的权重W。

2)利用空间金字塔模型对步骤1)中学习到的特征图进行特征抽样，形成每幅图像的特征向量表达；

4)根据步骤3)所得不同场景的识别结果，分别计算分类精度与混淆矩阵，即：将步骤3)所得不同场景的识别结果与测试集的真实结果对比，统计分类正确的个数B，则：分类精度＝B/B_总×100％；其中，B_总为测试集的总样本个数；

步骤4)中混淆矩阵的计算方式为：以待分类图像的所有场景类别分别建立横、纵坐标轴，将每一类分类正确的百分比一一对应作为混淆矩阵的对角线元素，将各当前行的类别错分到当前列的类别的百分比作为混淆矩阵的其他元素。

下面通过以下仿真实验说明本发明的有益效果：

1)仿真条件

在中央处理器为Intel(R)Core i3-2130 3.4GHZ、内存16G、WINDOWS8操作系统上，运用MATLAB软件进行仿真试验；仿真实验数据利用美国地质调查局(the U.S.GeologicalSurvey,USGS)提供的UCM数据库以及武汉大学测绘遥感国家重点实验室公布的Sydney数据库。

2)仿真内容

采用不同分类方法对遥感图像进行场景分类：

2.1)在UCM数据库上，分别采用本发明提供的基于带权重的解卷积深度网络学习的场景识别方法，传统的词包模型方法、主题模型方法以及稀疏编码方法进行场景分类，得到最终的分类精度，实验结果如表1所示。

2.2)在Sydney数据库上，分别采用本发明提供的基于带权重的解卷积深度网络学习的场景识别方法，传统的词包模型方法、主题模型方法以及稀疏编码方法进行场景分类，得到最终的分类精度，实验结果如表2所示。

从表1、表2的分类精度结果以及图4的混淆矩阵结果可知，本发明与传统的词包模型方法、主题模型方法以及稀疏编码方法相比，分类精度有了10％以上的提升。这是因为本发明利用了解卷积深度网络学习以及空间金字塔模型(SPM)进行特征抽样，在不同尺度上对图像进行了更为准确和精细的描述，从而获得了更好的分类精度，进一步验证了本发明的先进性。

表1 UCM数据库上不同分类方法的场景分类精度

表2 Sydney数据库上不同分类方法的场景分类精度

本发明与现有方法相比，充分考虑了遥感图像在不同尺度上的表达，克服了遥感图像地物复杂、类间相似性大的难点，同时也克服了传统方法中利用人为设定的特征的缺陷，极大的提高了识别率，可用于地理国情勘察、军事侦察和环境监测等方面。