CN110929080B

CN110929080B - 基于注意力和生成对抗网络的光学遥感图像检索方法

Info

Publication number: CN110929080B
Application number: CN201911171794.7A
Authority: CN
Inventors: 刘超; 马晶晶; 唐旭; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2022-03-22
Anticipated expiration: 2039-11-26
Also published as: CN110929080A

Abstract

本发明公开了一种基于注意力和生成对抗网络的光学遥感图像检索方法，主要解决现有技术中光学遥感图像检索精度低的问题。本发明具体步骤如下：(1)构建深度卷积网络；(2)构建注意力网络；(3)构建生成对抗网络；(4)构建哈希学习网络；(5)训练网络；(6)获取每幅光学遥感图像的哈希编码向量；(7)检索光学遥感图像。本发明构建注意力网络，提取图像的可判别性特征，提高了图像特征的表达能力；构建生成对抗网络，提取图像哈希编码向量，减小了量化误差；最终提高了光学遥感图像的检索精度。

Description

基于注意力和生成对抗网络的光学遥感图像检索方法

技术领域

本发明属于图像处理技术领域，更进一步涉及光学遥感图像检索技术领域中的一种基于注意力和生成对抗网络的光学遥感图像检索方法。本发明可以实现从海量光学遥感图像中快速、准确地查询到用户感兴趣的图像。

背景技术

随着卫星遥感和航空遥感技术的发展，遥感图像的数据量以及图像的分辨率不断增长,可以从遥感图像中获得更多有用的数据和信息。而针对不同场合的应用，对遥感图像的处理也有着不同的要求,所以为了有效地对这些遥感图像数据进行分析和管理，需要根据图像内容快速查询从海量的遥感图像库中检索出感兴趣的图像。而遥感图像的哈希检索就是解决该类问题的一种重要途径。哈希检索指的是提取遥感图像的特征，并且将这些特征映射为哈希编码，利用哈希编码去检索。因此，遥感图像特征提取方法和映射为哈希编码的方法是光学遥感图像检索的两个关键环节，该两种方法的鲁棒性直接影响到系统的运行效率和检索效果。

武汉大学在其申请的专利文献“基于显著性和卷积神经网络的遥感图像检索方法及系统”(专利申请号：201810862331.4，公开号：109086405A)中公开了一种深度学习的光学遥感图像检索方法。该方法首先用预训练的卷积神经网络，提取图像的各层卷积特征，并将所获得的各层卷积特征融合，得到合成的卷积特征。其次提取图像的显著图，利用显著图对合成的卷积特征进行加权整合，得到最终的图像特征。最后通过词袋模型对最终的图像特征进行编码，得到图像特征向量。通过图像特征向量完成图像的相似度度量和检索。这种方法通过联合利用显著性图和卷积神经网络的特征，增强了图像的特征的表征能力，从而提高了检索的精确度。但是，该方法仍然存在的不足之处是：仅仅依靠词袋模型对图像的特征进行编码，得到的图像特征向量，利用这种图像特征向量对海量的光学遥感图像检索，时间消耗是非常大。

Fang Zhao在其发表的论文“Deep Semantic Ranking Based Hashing forMulti-Label Image Retrieval”(IEEE Transactions on Pattern Analysis andMachine Intelligence，2015)中提出了一种深度卷积网络Alexnet的图像检索方法。该方法首先利用卷积网络Alexnet获取图像的深度特征，并引入哈希层学习哈希函数，将图像的深度特征学习和哈希函数学习在同一过程中完成，挖掘图像的深度特征与哈希函数内在关系，该方法虽然克服了现有技术中利用图像的底层特征而导致特征表达能力不强、检索精度低的问题，大大提高图像检索准确率。但是，该方法仍然存在不足之处是：由于哈希函数是离散的，因此从图像的深度特征到哈希编码存在量化误差，然而该方法并没有有效的机制去减小量化误差，从而影响最终的检索精度。

发明内容

本发明的目的是针对上述现有技术的不足，提出一种基于注意力和生成对抗网络的光学遥感图像检索方法。

本发明实现上述目的的思路是：利用注意力机制去学习光学遥感图像复杂的图像内容，从而捕捉鲁棒性强的图像特征，通过生成对抗网络的模型，使得学习到的图像特征转化为量化误差小的哈希编码向量。

本发明实现的具体步骤包括如下：

(1)构建深度卷积网络：

搭建一个11层的深度卷积网络，其结构依次为：输入层→第一卷积层→第一池化层→第二卷积层→第二池化层→第三卷积层→第四卷积层→第五卷积层→第一融合层；其中第三卷积层通过第一残差层与第一融合层连接，第四卷积层通过第二残差层与第一融合层连接；

设置各层参数如下：

将输入层特征映射图的总数设置为3个；

第一至五卷积层的特征映射图的总数分别设置为64、128、384、256、256，卷积核的大小分别设置为11×11、5×5、3×3、3×3、3×3；

第一、二池化层的特征映射图的大小均设置为3×3；

第一、二残差层均由卷积层构成，卷积层的特征映射图的总数均设置为256，卷积核的大小均设置为1×1；

(2)构建注意力网络：

搭建一个由卷积编码模块、分类模块、注意力图模块构成的注意力网络，其中卷积编码模块结构依次为：第一卷积层→第二卷积层；分类模块结构依次为：第一卷积层→第一池化层→分类层；注意力图模块结构依次为：第一卷积层→注意力层；

设置各层参数如下：

将卷积编码模块的第一、二卷积层的特征映射图的总数分别设置为256、光学遥感图像的类别个数，卷积核的大小分别设置为3×3、1×1；

将分类模块的第一卷积层特征映射图的总数设置为光学遥感图像的类别个数，卷积核的大小设置为1×1；

将分类模块的第一池化层特征映射图的大小设置为13×13；

将分类模块的分类层的特征映射图的总数设置为光学遥感图像的类别个数；

将注意力图模块的第一卷积层的特征映射图的总数设置为1，卷积核的大小设置为1×1；

将注意力图模块注意力层的激活函数设置为sigmoid；

(3)构建生成对抗网络：

搭建一个5层的对抗网络，其结构依次为：输入层→第一连接层→第二连接层→第三连接层→判别层；搭建一个4层的生成网络，其结构依次为：第一连接层→第二连接层→哈希层→分类层；

设置对抗网络各层参数如下：

将输入层特征映射图的总数设置为哈希编码的位数；

将第一、二、三连接层的特征映射图的总数均设置为4096；

将判别层的特征映射图总数设置为1；

设置生成网络各层参数如下：

将生成网络的第一、二连接层特征映射图的总数均设置为4096；

将生成网络的哈希层特征映射图的总数设置为哈希编码的位数，激活函数设置为sigmoid；

将生成网络的分类层特征映射图的总数设置为光学遥感图像的类别个数；

(4)搭建哈希学习网络：

将搭建的深度卷积网络、注意力网络、生成对抗网络依次拼接，构成哈希学习网络；

(5)构建训练集：

(5a)从光学遥感图像数据集的每一个类别中至少选取80幅图像，将数据集中所有类别所选的图像组成训练集；

(5b)对训练集中的每一幅光学遥感图像进行归一化处理；

(5c)构造符合离散均匀分布性质的离散分布的向量，且该向量的每位可取数值为0或1；

(6)训练网络：

(6a)将归一化后的训练集中的图像输入到哈希学习网络中，经过深度卷积网络输出每幅图像的多尺度特征矩阵；

(6b)每幅图像的多尺度特征矩阵经过注意力网络中分类模块的分类层和注意力图模块的注意力层，输出每幅图像的类别预测概率和注意力图矩阵；

(6c)用注意力图矩阵与多尺度特征矩阵相乘，得到每幅图像的可判别性特征矩阵；

(6d)每幅图像的可判别性特征矩阵经过生成对抗网络中生成网络的哈希层和分类层，输出每幅图像的伪哈希编码向量和伪哈希编码向量的类别预测概率；

(6e)每幅图像的伪哈希编码向量经过生成对抗网络中对抗网络的判别层，输出伪哈希编码向量的判别概率；

(6f)将步骤(5c)构造的符合离散均匀分布的向量输入到生成对抗网络中，经过对抗网络的判别层，输出该向量的判别概率；

(6g)用每幅图像的类别预测概率、伪哈希编码向量、伪哈希编码向量的类别预测概率构建哈希学习的损失函数，用伪哈希编码向量的判别概率构建生成网络的损失函数，用构造的符合离散均匀分布向量的判别概率构建对抗网络的损失函数，通过随机梯度优化算法，优化对抗网络的损失函数，直至对抗网络损失函数收敛，得到训练好的对抗网络；再用训练好的对抗网络权重参数，交替优化哈希学习的损失函数和生成网络的损失函数，直至哈希学习的损失函数收敛，得到训练好的哈希学习网络；

(7)获取每幅光学遥感图像的哈希编码向量：

(7a)对光学遥感图像数据集中的每幅图像进行归一化处理；

(7b)将归一化后的图像输入到训练好哈希学习网络，输出每幅图像对应的一个伪哈希编码向量；

(7c)对每个伪哈希编码向量进行离散化处理，得到每幅图像的哈希编码向量；

(8)检索光学遥感图像：

(8a)将待检索的光学遥感图像输入到训练好的哈希学习网络中，输出待检索图像的伪哈希编码向量，再对该向量进行离散化，得到待检索图像的哈希编码向量；

(8b)利用相似度公式，计算待检索图像的哈希编码向量与每幅光学遥感图像的哈希编码向量两两之间的相似度；

(8c)根据相似度从小到大的顺序，将对应的每幅光学遥感图像排序；

(8d)用户按其需求选取排名靠前的图像，作为检索的光学遥感图像结果。

本发明与现有的技术相比具有以下优点：

第一，本发明通过构建哈希学习网络，使用哈希学习网络中的对抗网络对哈希学习网络输出的伪哈希编码向量进行判别，再将伪哈希编码向量进行离散化处理，克服了现有技术中提取图像的哈希编码向量存在量化误差的问题，使得本发明的哈希编码向量量化误差小，提高了光学遥感图像检索的精度。

第二，本发明通过将注意力图模块注意力层输出的注意力图矩阵与图像的多尺度特征矩阵相乘，得到图像的可判别性特征矩阵，克服了现有技术提取光学遥感图像特征鲁棒性不强，造成了对于信息复杂度高的图像检索能力较弱的问题，使得本发明对于信息复杂度高的图像的检索精度得到提高。

附图说明

图1是本发明的流程图；

图2是本发明构建的哈希学习网络的结构示意图。

具体实施方式

下面结合附图对本发明做进一步的详细描述。

参照附图1，对本发明的步骤做进一步的详细描述。

步骤1，构建深度卷积网络。

搭建一个11层的深度卷积网络，其结构依次为：输入层→第一卷积层→第一池化层→第二卷积层→第二池化层→第三卷积层→第四卷积层→第五卷积层→第一融合层；其中第三卷积层通过第一残差层与第一融合层连接，第四卷积层通过第二残差层与第一融合层连接。

设置各层参数如下：

将输入层特征映射图的总数设置为3个。

第一至五卷积层的特征映射图的总数分别设置为64、128、384、256、256，卷积核的大小分别设置为11×11、5×5、3×3、3×3、3×3。

第一、二池化层的特征映射图的大小均设置为3×3。

第一、二残差层均由卷积层构成，卷积层的特征映射图的总数均设置为256，卷积核的大小均设置为1×1。

步骤2，构建注意力网络。

搭建一个由卷积编码模块、分类模块、注意力图模块构成的注意力网络，其中卷积编码模块结构依次为：第一卷积层→第二卷积层；分类模块结构依次为：第一卷积层→第一池化层→分类层；注意力图模块结构依次为：第一卷积层→注意力层。

设置各层参数如下：

将卷积编码模块的第一、二卷积层的特征映射图的总数分别设置为256、光学遥感图像的类别个数，卷积核的大小分别设置为3×3、1×1。

将分类模块的第一卷积层特征映射图的总数设置为光学遥感图像的类别个数，卷积核的大小设置为1×1。

将分类模块的第一池化层特征映射图的大小设置为13×13。

将分类模块的分类层的特征映射图的总数设置为光学遥感图像的类别个数。

将注意力图模块的第一卷积层的特征映射图的总数设置为1，卷积核的大小设置为1×1。

将注意力图模块注意力层的激活函数设置为sigmoid。

步骤3，构建生成对抗网络。

搭建一个5层的对抗网络，其结构依次为：输入层→第一连接层→第二连接层→第三连接层→判别层；搭建一个4层的生成网络，其结构依次为：第一连接层→第二连接层→哈希层→分类层。

设置对抗网络各层参数如下：

将输入层特征映射图的总数设置为哈希编码的位数。

将第一、二、三连接层的特征映射图的总数均设置为4096。

将判别层的特征映射图总数设置为1。

设置生成网络各层参数如下：

将生成网络的第一、二连接层特征映射图的总数均设置为4096。

将生成网络的哈希层特征映射图的总数设置为哈希编码的位数，激活函数设置为sigmoid。

将生成网络的分类层特征映射图的总数设置为光学遥感图像的类别个数。

步骤4，搭建哈希学习网络。

将搭建的深度卷积网络、注意力网络、生成对抗网络依次拼接，构成哈希学习网络。

参照附图2，对搭建的哈希学习网络的结构做进一步的描述。

将深度卷积网络的第一融合层与注意力网络的卷积编码模块的第一卷积层相连接，深度卷积网络的第一融合层和注意力网络注意力图模块的注意力层共同与生成网络的第一连接层相连接。

步骤5，构建训练集。

从光学遥感图像数据集的每一个类别中至少选取80幅图像，将数据集中所有类别所选的图像组成训练集。

对训练集中的每一幅光学遥感图像进行归一化处理。

所述的归一化是指，对训练集、光学遥感图像数据集中的每幅图像减去该幅图像的最小值，并除以该幅图像的最大值与最小值的差值。

构造符合离散均匀分布性质的离散分布的向量，且该向量的每位可取数值为0或1。

步骤6，训练网络。

将归一化后的训练集中的图像输入到哈希学习网络中，经过深度卷积网络输出每幅图像的多尺度特征矩阵。

每幅图像的多尺度特征矩阵经过注意力网络中分类模块的分类层和注意力图模块的注意力层，输出每幅图像的类别预测概率和注意力图矩阵。

用注意力图矩阵与多尺度特征矩阵相乘，得到每幅图像的可判别性特征矩阵。

每幅图像的可判别性特征矩阵经过生成对抗网络中生成网络的哈希层和分类层，输出每幅图像的伪哈希编码向量和伪哈希编码向量的类别预测概率。

每幅图像的伪哈希编码向量经过生成对抗网络中对抗网络的判别层，输出伪哈希编码向量的判别概率。

将步骤5构造的符合离散均匀分布的向量输入到生成对抗网络中，经过对抗网络的判别层，输出该向量的判别概率。

用每幅图像的类别预测概率、伪哈希编码向量、伪哈希编码向量的类别预测概率构建哈希学习的损失函数，用伪哈希编码向量的判别概率构建生成网络的损失函数，用构造的符合离散均匀分布向量的判别概率构建对抗网络的损失函数，通过随机梯度优化算法，优化对抗网络的损失函数，直至对抗网络损失函数收敛，得到训练好的对抗网络；再用训练好的对抗网络权重参数，交替优化哈希学习的损失函数和生成网络的损失函数，直至哈希学习的损失函数收敛，得到训练好的哈希学习网络。

所述的哈希学习的损失函数由伪哈希编码向量的铰链损失函数、伪哈希编码向量的类别预测概率的交叉熵、伪哈希编码向量中每一位的交叉熵和注意力网络中输出的类别预测概率的交叉熵共四个损失函数相加构成。

步骤7，获取每幅光学遥感图像的哈希编码向量。

对光学遥感图像数据集中的每幅图像进行归一化处理。

将归一化后的图像输入到训练好哈希学习网络，输出每幅图像对应的一个伪哈希编码向量。

对每个伪哈希编码向量进行离散化处理，得到每幅图像的哈希编码向量。

所述离散化处理是指对于每幅图像的伪哈希编码向量中的每位，当该位的值大于0.5时，将该位的值设置为1，否则，设置为0。

步骤8，检索光学遥感图像。

将待检索的光学遥感图像输入到训练好的哈希学习网络中，输出待检索图像的伪哈希编码向量，再对该向量进行离散化，得到待检索图像的哈希编码向量。

利用下述相似度公式，计算待检索图像的哈希编码向量与每幅光学遥感图像的哈希编码向量两两之间的相似度：

其中，d_j表示待检索图像的哈希编码向量与第j幅光学遥感图像的哈希编码向量的相似度，d_j的值越小表示两幅图像的相似度越大，K表示哈希编码向量位数的总数，x_i表示待检索图像的哈希编码向量中的第i位元素，y_ji表示第j幅光学遥感图像哈希编码向量中的第i位元素，|·|表示取绝对值操作。

根据相似度从小到大的顺序，将对应的每幅光学遥感图像排序。

用户按其需求选取排名靠前的图像，作为检索的光学遥感图像结果。

下面结合仿真实验对本发明的效果做进一步的说明。

1.仿真条件：

本发明的仿真实验的硬件平台为：处理器为Intel E5-2650 CPU，主频为2.20GHz，内存256GB。

本发明的仿真实验的软件平台为：Ubuntu16.04操作系统和Pytorch。

本发明仿真实验所使用的输入图像为UC-Merced光学遥感图像，该光学遥感图像由加利福尼亚大学提取自美国国家地质勘探局公布的国家城市地区图像数据，每幅图像大小为256×256个像素，共有2100幅图像和21种场景类别，图像格式为tif。

仿真内容与结果分析：

本发明的仿真实验是使用本发明的方法和三个现有技术(深度量化网络DQN检索方法、深度有监督哈希DSH检索方法、深度柯西哈希学习DCH检索方法)分别对UC-Merced光学遥感图像中2100幅图像，进行图像检索，获取每幅检索图像与光学遥感图像之间相似度。

在仿真实验中，采用的三个现有技术分别如下：

现有技术深度量化网络DQN检索方法是指，Y.Gao等人在其发表的论文“Deepquantizationnetwork for efficient image retrieval”(inThirtieth AAAIConference onArtificial Intelligence,2016)中提出的图像检索方法，简称深度量化网络DQN检索方法。

现有技术深度有监督哈希DSH检索方法是指，H.Liu,等人在其发表的论文“Deepsupervised hashing forfast image retrieval”(in Proceedings of the IEEEconference on computervision and pattern recognition,2016)中提出的图像检索方法，简称深度有监督哈希DSH检索方法。

现有技术深度柯西哈希学习DCH检索方法是指，Y.Gao等人在其发表的论文“Deepcauchy hashing forhamming space retrieval”(in Proceedings of the IEEEConference onComputer Vision and Pattern Recognition,2018)中提出的图像检索方法，简称深度柯西哈希学习DCH检索方法。

为了验证本发明的效果，将本发明仿真实验获取的所有检索图像与光学遥感图像之间相似度按照相似度从小到大进行排序，提取排名前60的图像的场景类别，采用平均精度均值mAP指标，分别对本发明和三个现有技术，深度量化网络DQN检索方法、深度有监督哈希DSH检索方法和深度柯西哈希学习DCH检索方法的检索结果进行评价。

利用下式，分别计算本发明和三个现有技术检索结果的平均精度均值mAP：

其中，AP表示每幅检索图像的平均精度，N为返回的检索结果个数，S_r表示第r个检索结果，若S_r与检索图像的场景类别相同，则S_r＝1，否则S_r＝0，S_m表示第m个检索结果，若S_m与检索图像的场景类别相同，则S_m＝1，否则S_m＝0；Q表示检索图像的个数，AP(q)为第q个检索图像的平均精度。mAP表示检索图像的平均精度均值。

将本发明和三个现有技术对光学遥感图像的平均精度均值mAP的计算结果记录在表1中。其中DQN表示深度量化网络DQN检索方法，DSH表示深度有监督哈希DSH检索方法，DCH表示深度柯西哈希学习DCH检索方法；32位、64位、128位和256位分别表示哈希编码向量的位数为32、64、128和256。

表1.四种检索方法效果一览表

	32位	64位	128位	256位
					本发明	97.22％	98.20％	98.33％	98.15％
DQN	89.36％	91.30％	90.36％	85.28％
					DSH	96.09％	94.12％	96.60％	94.53％
DCH	96.74％	97.28％	97.05％	96.43％

表2.四种检索方法的单类平均精度均值mAP一览表

从表1可见，本发明的平均精度均值mAP，在哈希编码向量位数分别为32、64、128和256时，均高于三种现有技术方法，证明本发明可以得到更好的光学遥感图像检索效果。

为了验证本发明的效果，将本发明仿真实验获取的所有检索图像与光学遥感图像之间相似度按照相似度从小到大进行排序，提取排名前60的图像的场景类别，采用平均精度均值mAP指标，分别对本发明和深度量化网络DQN检索方法、深度有监督哈希DSH检索方法和深度柯西哈希学习DCH检索方法对于UC-Merced光学遥感图像中每一类检索结果进行评价。

将本发明和三个现有技术对光学遥感图像的单类平均精度均值mAP的计算结果记录在表2中，其中表格左边第一列表示21类图像中每一类的平均精度均值mAP，DQN表示深度量化网络DQN检索方法，DSH表示深度有监督哈希DSH检索方法，DCH表示深度柯西哈希学习DCH检索方法。

从表2可见，本发明对于信息含量较为丰富的图像如密集住宅区、中等密度住宅区、式子路口、公园这些类别图像的单类平均精度均值mAP，明显高于三种现有技术方法，证明本发明可以对于信息含量较为丰富的图像有较高的检索精度。

综上所述，本发明通过构建深度哈希学习网络，利用训练好的深度哈希学习网络中的注意力网络，提取光学遥感图像的可判别性特征，能够提升特征的表征能力，从而提高了图像的检索精度；利用训练好的深度哈希学习网络中的生成网络，将光学遥感图像的可判别性特征转化为哈希编码向量，能够得到更加有效的哈希编码向量，从而进一步提高了图像的检索精度。

Claims

1.一种基于注意力和生成对抗网络的光学遥感图像检索方法，其特征在于，分别构建并训练深度卷积网络、注意力网络和生成对抗网络，利用训练好的深度卷积网络提取光学遥感图像的多尺度特征矩阵，通过训练好的注意力网络得到图像的可判别性特征矩阵，通过训练好的生成对抗网络将图像的可判别性特征矩阵映射为哈希编码向量；该方法的具体步骤包括如下：

(1)构建深度卷积网络：

设置各层参数如下：

将输入层特征映射图的总数设置为3个；

第一、二池化层的特征映射图的大小均设置为3×3；

(2)构建注意力网络：

设置各层参数如下：

将分类模块的第一池化层特征映射图的大小设置为13×13；

将注意力图模块注意力层的激活函数设置为sigmoid；

(3)构建生成对抗网络：

设置对抗网络各层参数如下：

将输入层特征映射图的总数设置为哈希编码的位数；

将第一、二、三连接层的特征映射图的总数均设置为4096；

将判别层的特征映射图总数设置为1；

设置生成网络各层参数如下：

(4)搭建哈希学习网络：

(5)构建训练集：

(5b)对训练集中的每一幅光学遥感图像进行归一化处理；

(6)训练网络：

(7)获取每幅光学遥感图像的哈希编码向量：

(7a)对光学遥感图像数据集中的每幅图像进行归一化处理；

(8)检索光学遥感图像：

2.根据权利要求1所述的基于注意力和生成对抗网络的光学遥感图像检索方法，其特征在于，步骤(6g)中所述的哈希学习的损失函数是由伪哈希编码向量的铰链损失函数、伪哈希编码向量的类别预测概率的交叉熵、伪哈希编码向量中每一位的交叉熵和注意力网络中输出的类别预测概率的交叉熵共四个损失函数相加构成。

3.根据权利要求1所述的基于注意力和生成对抗网络的光学遥感图像检索方法，其特征在于，步骤(7c)中所述离散化处理是指对于每幅图像的伪哈希编码向量的每位，当该位的值大于0.5时，将该位的值设置为1，否则，设置为0。

4.根据权利要求1所述的基于注意力和生成对抗网络的光学遥感图像检索方法，其特征在于，步骤(8b)中所述相似度公式如下：