CN112650877B

CN112650877B - 一种基于改进的深度残差卷积神经网络和深度哈希的高清遥感图像快速检索方法

Info

Publication number: CN112650877B
Application number: CN202110073782.1A
Authority: CN
Inventors: 卓力; 谢斌; 郝鑫岩; 南云昊; 余清华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2024-06-25
Anticipated expiration: 2041-01-20
Also published as: CN112650877A

Abstract

一种基于改进的深度残差卷积神经网络和深度哈希的高清遥感图像快速检索方法属于计算机视觉和遥感图像检索领域。该方法对深度残差神经网络进行了改进，用于提取遥感图像的深度特征；然后采用了深度哈希算法DPSH(Deep Pairwise‑Supervised Hashing)将提取的深度特征映射为二值哈希码，通过汉明距离度量两幅图像哈希码之间的相似性。该方法可以在获得高检索精度的同时，实现快速检索，对发挥遥感数据效应具有重要的意义，在资源勘探、海洋环境保护、自然灾害评估、军事、国防等各种领域均具有重要的应用价值。

Description

一种基于改进的深度残差卷积神经网络和深度哈希的高清遥感图像快速检索方法

技术领域

本发明属于计算机视觉和遥感图像检索领域，具体涉及深度学习、遥感图像处理等技术。

背景技术

遥感图像检索是对海量遥感图像进行高效管理和共享的重要手段，是发挥遥感图像数据效应的关键所在。基于内容的图像检索(Content Based Image Retrieval,CBIR)根据图像的内容来衡量图像之间的相似度，从而实现图像的检索，是目前主流的遥感图像检索方案。CBIR提取图像的特征来表征图像的内容，建立图像特征库，并通过这些特征为每幅图像建立索引。查询时，将提取到的查询图像特征与特征数据库中的特征逐一比较，确定特征之间的相似度，并按照相似度的大小进行排序，将特征最相似的若干幅图像作为结果返回给用户。

在早期研究中，计算机通过提取图像的低层视觉特征(如颜色、纹理、轮廓、统计特征等)来表征图像的内容，而用户对图像的理解是通过更加抽象的图像高层语义特征来完成的，这两种特征具有不一致性，从而导致了低层视觉特征与高层语义特征之间固有的差距，被称为“语义鸿沟”，使得基于低层视觉特征的检索方法难以准确反映用户的真实检索意图。

近年来，深度学习在计算机视觉领域取得了巨大的突破，获得了远超过传统方法的性能。其中，最具代表性的是卷积神经网络(Convolutional Neural Network,CNN)，CNN含有复杂的多层网络架构，能够对原始图像数据进行逐层提取和抽象，获取多层次的图像特征表达，在表达图像的高层语义信息方面具有明显的优势。然而，采用CNN提取到的深度特征维度往往都很高，应用于高清遥感图像检索时会导致检索速度非常慢，对于海量遥感图像数据库来说甚至不可能完成。

近年来，近似最邻近搜索(Approximate Nearest Neighbor Search)技术发展迅猛，其中哈希(hashing)作为一种代表性方法，受到了广泛关注。哈希算法将样本表示成一串固定长度的二值编码，相似的样本具有相似的二值编码。人们将哈希用于图像检索中，将图像特征转换为哈希码，通过汉明距离来度量两个哈希码之间的相似性，大大降低了对存储空间的需求，实现了海量图像的快速检索。

本发明针对高清遥感图像检索的需求和特点，提出了一种基于深度残差卷积神经网络和深度哈希的高清遥感图像快速检索方法。该方法对深度残差神经网络进行了改进，用于提取遥感图像的深度特征；然后采用了深度哈希算法DPSH(Deep Pairwise-Supervised Hashing)将提取的深度特征映射为二值哈希码，通过汉明距离度量两幅图像哈希码之间的相似性。该方法可以在获得高检索精度的同时，实现快速检索，对发挥遥感数据效应具有重要的意义，在资源勘探、海洋环境保护、自然灾害评估、军事、国防等各种领域均具有重要的应用价值。

发明内容

本发明的目的是提出一种兼具检索精度和速度的高清遥感图像检索方法。为此，本发明设计如下的技术方案，主要分为如下几个步骤：

步骤1：特征提取与降维

本发明将特征提取与降维操作结合在一起，利用改进后的深度残差卷积神经网络，可以实现特征提取、降维两个功能。具体来说，本发明在原有的深度残差卷积神经网络结构的最后一个池化层后面添加了两个全连接层，将最后一个全连接层的输出提取出来，作为遥感图像的深度特征。与原有的网络结构相比，所提取的特征维度大大降低，仅为96维。

步骤2：哈希码生成

采用深度哈希算法DPSH对步骤1产生的低维深度特征进行哈希映射，将低维深度特征映射为由1、-1组成的二值哈希码。

步骤3：相似性比对

步骤3.1遥感图像哈希特征库的建立

将高清遥感图像数据集中的图像逐一执行步骤1、2，得到每幅图像的二值哈希特征，构建哈希特征库H，并通过哈希特征库为每幅图像建立索引。H中储存着每幅图像的信息，具体包括该图像的二值哈希码、存储物理地址及其低维深度特征。

步骤3.2相似性比对

对于用户输入的待检索图像，执行步骤1、2得到该图像的哈希特征h，然后逐一计算H中的哈希特征与h之间的汉明距离，并对计算得到的所有汉明距离按从小到大的顺序进行排序，将距离最小的前n张遥感图像作为检索结果返回给用户。

步骤3.3重排序

为了进一步提高检索精度，利用返回的n张遥感图像的低维深度特征进行重排序操作，将最终的排序结果返回给用户。

具体的，一种基于改进的深度残差卷积神经网络和深度哈希的高清遥感图像快速检索方法，其特征在于：

步骤1：构建数据集

使用的原始数据集为公共遥感图像数据集，对图像进行缩放或裁剪，归一化为224×224大小；

步骤2.1：深度残差卷积神经网络结构的改进

在现有的ResNeXt-50的最后一个池化层后面再连接了2个全连接层，以实现将ResNeXt-50原有的2048维深度特征降维至96维；第1个全连接层包含512个神经元，该全连接层后连接ReLU激活函数进行非线性变换，再添加一个dropout来避免过拟合，其中dropout参数采用默认值p＝0.5；进行dropout处理后连接第2个全连接层，其包括有96个神经元，将特征维度降维至96维；

步骤2.2：网络训练

利用ImageNet数据集对ResNeXt-50进行预训练，得到初始的网络模型参数；接下来，将ImageNet预训练的网络模型迁移到遥感图像数据集上，即对ResNeXt-50后面连接的2个全连接层参数进行随机初始化；

损失函数设为Likelihood Loss+Quantization Loss；其中Likelihood Loss(J₁)和Quantization Loss(J₂)分别表示为：

J₁＝-s*Θ+Θ'+log(1+e^-Θ) (1)

J₂＝η||X-sgn(X)||² (2)

Loss＝mean(J₁)+mean(J₂) (3)

其中：

s＝LY^T为1×C的行矩阵，L＝[0,x_t,…,0]^T为1×N维的行矩阵，该矩阵中仅有一个元素x_t＝10≤t≤N-1，其余组成元素均为0，表示训练集图片对应的类别标签，其中N为图像类别数；

为1×C维的行矩阵，C为训练集图像数目，X＝[x₁,x₂,…,x_M]^T为最后一个全连接层的输出，M为特征维数；

U为C×M维的矩阵，而U中每行数据将利用索引对应的X进行更新，即最后一个全连接层输出的图像的低维深度特征；

Θ'是将Θ中小于0的元素均置0后得到的矩阵；

Y为C×N维的矩阵，Y中每行数据将利用索引对应的L进行更新，η是用来正则化的超参数，设置为η＝0.1；

*表示哈达马乘积，mean(·)表示计算矩阵中所有元素平均值，sgn(·)为哈希函数；

利用随机梯度下降算法方法对参数进行迭代训练40个epochs，得到优化后的网络模型；

步骤2.3：低维深度特征的提取

利用训练得到的改进ResNeXt-50作为骨干网络，将最后一个全连接层的输出提取出来，作为图像的低维深度特征；该特征用矢量X表示，X＝[x₁,x₂,…,x_M]^T，M表示特征维数；中M＝96；

步骤3：特征哈希库的生成与关联

利用DPSH算法中的哈希函数对步骤.3中生成的低维深度特征进行哈希映射，得到二值哈希码；哈希函数表示如下：

其中x_i∈X，i＝1,2…,M；

经过映射，得到低维深度特征对应的二值哈希码，哈希码的维数与低维深度特征的维数相同；

将每幅图像的物理地址低维深度特征、二值哈希码与一一对应，建立“图像物理地址—低维深度特征—二值哈希码”关联对，并将这些关联存储至数据库系统，构建哈希特征库，作为索引，用于检索；

步骤4：遥感图像的快速检索；

步骤4.1：对待检索的遥感图像大小进行归一化处理，处理后的图像大小为224×224；

步骤4.2：将归一化的遥感图像输入到训练得到的网络模型中，提取图像的低维特征，再利用步骤3生成哈希码；

步骤4.3：将哈希码与构建的特征哈希库的哈希码逐一进行相似性比较，比较时使用汉明距离来衡量两个哈希码之间的相似度，计算公式如下：

其中，X＝(x₁,x₂,…,x_M)和Y＝(y₁,y₂,…,y_M)分别表示两个哈希码，M为哈希编码长度(为96)，d为二者之间的汉明距离；d值越小，则表明两幅图像的相似度越高；

对特征哈希库中的所有记录与待检索图像的哈希码逐一进行相似度比较，并按照d值由小至大进行排序，取出排序靠前的若干条记录中的低维特征；

步骤4.4：将步骤4.3取出的低维深度特征与待检索图像的低维深度特征进行L2距离度量，并按照相似度大小进行重排序，按照重排序结果从数据库中提取出遥感图像返回给用户；

n维空间中两个点x₁(x₁₁,x₁₂,…,x_1n)与x₂(x₂₁,x₂₂,…,x_2n)间的L2距离定义如下；

与现有技术相比，本发明具有以下明显的优势和有益效果：

1、可以提高检索精度。与传统的“人工提取特征+相似性”方案相比，使用改进的深度残差卷积神经网络进行特征提取，能够获得低维、抽象的多层次特征表达，更好地表达图像的语义信息，从而获得更高的检索精度；

2、可以提升检索速度。与常用的“深度特征+欧式距离相似性度量”方案相比，本发明采用深度哈希算法将深度特征转化为二值码，再利用汉明距离度量相似性，一方面大幅降低特征存储所需的空间，另一方面也可以大大降低相似性比对所需的计算复杂度，做到兼顾检索精度与速度，可以满足海量遥感图像检索的需求。

附图说明

图1基于深度残差卷积神经网络和深度哈希的遥感图像快速检索流程图

图2改进后的深度残差卷积神经网络结构

具体实施方式

以下结合附图进一步说明本发明的具体实施方式。

步骤1：构建数据集

本发明使用的原始数据集为公共遥感图像数据集，每个数据集中均包含一定数量、不同类别的遥感图像。为了使训练样本尽可能充足，本发明采用了数据扩充，通过旋转、尺度变换等方式对一幅图像进行变换，扩充样本数据量。对扩充后的图像进行缩放或裁剪，归一化为224×224大小，用于训练深度神经网络模型。

步骤2：深度特征提取与降维

本发明采用增强版的深度残差网络ResNeXt-50作为骨干网络提取图像的深度特征，并对原来的网络架构进行了改进，使其能够降维。利用步骤1中构建的数据集对该网络进行训练，得到遥感图像的低维深度特征。

步骤2.1：深度残差卷积神经网络结构的改进

本发明对ResNeXt-50进行了改进，以获取低维的深度特征。改进后的ResNeXt-50网络结构如图2所示。本发明在现有的ResNeXt-50的最后一个池化层后面再连接了2个全连接层，以实现将ResNeXt-50原有的2048维深度特征降维至96维。第1个全连接层包含512个神经元，该全连接层后连接ReLU激活函数进行非线性变换，由于该全连接层的参数比较多，因此在后面再添加一个dropout来避免过拟合，其中dropout参数采用默认值p＝0.5。进行dropout处理后连接第2个全连接层，其包括有96个神经元，可以将特征维度进一步降维至96维。利用这种改进后的ResNeXt-50，可以获得低维、紧凑的深度特征。

步骤2.2：网络训练

本发明采用“预训练+细调”的方式对改进的ResNeXt-50进行训练。首先，利用ImageNet数据集对ResNeXt-50进行预训练，得到初始的网络模型参数。ImagNet拥有千万级的数据量，共有约2×10⁴个物体类别,训练出来的网络模型具有很好的抗干扰能力和泛化能力。接下来，将ImageNet预训练的网络模型迁移到遥感图像数据集上，即，利用步骤1构建的遥感图像数据集对改进后的ResNeXt-50网络模型参数进行微调。微调时，对ResNeXt-50后面连接的2个全连接层参数进行随机初始化，损失函数设为Likelihood Loss+Quantization Loss。其中Likelihood Loss(J₁)和Quantization Loss(J₂)分别表示为：

J₁＝-s*Θ+Θ'+log(1+e^-||Θ||) (1)

J₂＝η||X-sgn(X)||² (2)

Loss＝mean(J₁)+mean(J₂) (3)

其中：

Θ'是将Θ中小于0的元素均置0后得到的矩阵；

Y为C×N维的矩阵，Y中每行数据将利用索引对应的L进行更新，η是用来正则化的超参数，训练时设置为η＝0.1；

*表示哈达马乘积(Hadamard Product)，mean(·)表示计算矩阵中所有元素平均值，sgn(·)将在步骤3中介绍。

利用随机梯度下降算法(SGD)方法对参数进行迭代训练40个epochs，得到优化后的网络模型。

步骤2.3：低维深度特征的提取

利用步骤2.3中训练得到的改进ResNeXt-50作为骨干网络，将最后一个全连接层的输出提取出来，作为图像的低维深度特征。该特征用矢量X表示，X＝[x₁,x₂,…,x_M]^T，M表示特征维数。本发明中M＝96。

步骤3：特征哈希库的生成与关联

本发明利用DPSH算法中的哈希函数对步骤2中生成的低维深度特征进行哈希映射，得到二值哈希码。哈希函数表示如下：

其中x_i∈X，i＝1,2…,M。

经过映射，得到低维深度特征对应的二值哈希码，哈希码的维数与低维深度特征的维数相同。

将每幅图像的物理地址低维深度特征、二值哈希码与一一对应，建立“图像物理地址—低维深度特征—二值哈希码”关联对，并将这些关联存储至数据库系统，构建哈希特征库，作为索引，用于检索。

步骤4：遥感图像的快速检索。

步骤4.1：对待检索的遥感图像大小进行归一化处理，处理后的图像大小为224×224。

步骤4.2：将归一化的遥感图像输入到利用步骤2训练得到的网络模型中，提取图像的低维特征，再利用步骤3生成哈希码。

步骤4.3：将哈希码与步骤4构建的特征哈希库的哈希码逐一进行相似性比较，比较时使用汉明距离来衡量两个哈希码之间的相似度，计算公式如下：

其中，X＝(x₁,x₂,…,x_M)和Y＝(y₁,y₂,…,y_M)分别表示两个哈希码，M为哈希编码长度(本发明为96)，d为二者之间的汉明距离。d值越小，则表明两幅图像的相似度越高。

对特征哈希库中的所有记录与待检索图像的哈希码逐一进行相似度比较，并按照d值由小至大进行排序，取出排序靠前的若干条记录中的低维特征，用于进行重排序。

步骤4.4：将步骤4.3取出的低维深度特征与待检索图像的低维深度特征进行L2距离度量，并按照相似度大小进行重排序，按照重排序结果从数据库中提取出遥感图像返回给用户。采用重排序，可以获得更高的检索准确性。

n维空间中两个点x₁(x₁₁,x₁₂,…,x_1n)与x₂(x₂₁,x₂₂,…,x_2n)间的L2距离定义如下。

检索精度与检索速度实验：

以图像检索领域常用的性能指标MAP(mean average precision)为衡量标准，本发明分别在公共遥感图像数据集UCM、WHU-RS19和RSSCN7上进行了性能测试，且将改进的ResNeXt-50网络分别与ResNet-50、ResNeSt-50进行了比较，对比结果如表1所示。对比实验中，分别采用不同的网络结构提取深度特征，均采用DPSH哈希算法生成哈希码。

表1本发明所提出方法在不同数据集上的检索性能测试结果

从表1可以看出，除了WHU-RS19数据集，与ResNet-50、ResNeSt-50相比，采用改进的ResNeXt-50网络结构可以有效提升检索性能。这表明改进的ResNeXt-50网络结构可以有效提升特征的表达与区分能力。

本方法与其他7种方法的性能对比结果如表2所示。从表2可以看出，采用本发明方法可以获得最优的检索性能，UCM、WHU-RS19和RSSCN7三个数据集集上的检索精度分别达到了99.6％、98％和95.8％。

表2本发明方法与其他方法的性能对比实验结果

为了测试本发明的检索速度，我们进行了测试。测试在一个笔记本电脑上进行，具体配置如下：Intel i5处理器、Nvidia GTX 1050Ti显卡，Pytorch开源平台、操作系统为Windows10。共输入了100幅图像进行测试，将每幅图像的检索时间平均后，作为最后的测试结果。测试结果表明，采用GPU(笔记本电脑上配置的1050Ti显卡)进行加速后，输入一张图片检索并返回最相似的10幅图片用时为0.4s～0.5s。

本发明将深度学习技术与哈希技术相结合，提出一种基于深度卷积神经网络和深度哈希的遥感图像快速检索方法。本发明提出的方法可以在保证遥感图像检索精度的同时，有效提高检索的速度。

Claims

1.一种基于改进的深度残差卷积神经网络和深度哈希的高清遥感图像快速检索方法，其特征在于：

步骤1：构建数据集

步骤2.1：深度残差卷积神经网络结构的改进

步骤2.2：网络训练

J₁＝-s*Θ+Θ'+log(1+e^-||Θ||) (1)

J₂＝η||X-sgn(X)||² (2)

Loss＝mean(J₁)+mean(J₂) (3)

其中：

s＝LY^T为1×C的行矩阵，L＝[0,x_t,…,0]^T为1×N维的行矩阵，该矩阵中仅有一个元素x_t＝1，0≤t≤N-1，其余组成元素均为0，表示训练集图片对应的类别标签，其中N为图像类别数；

U为C×M维的矩阵，而U中每行数据利用索引对应的X进行更新，即最后一个全连接层输出的图像的低维深度特征；

Θ'是将Θ中小于0的元素均置0后得到的矩阵；

Y为C×N维的矩阵，Y中每行数据利用索引对应的L进行更新，η是用来正则化的超参数，设置为η＝0.1；

利用随机梯度下降算法对参数进行迭代训练40个epochs，得到优化后的网络模型；

步骤2.3：低维深度特征的提取

利用训练得到的改进ResNeXt-50作为骨干网络，将最后一个全连接层的输出提取出来，作为图像的低维深度特征；该特征用矢量X表示，X＝[x₁,x₂,…,x_M]^T，M表示特征维数；M＝96；

步骤3：特征哈希库的生成与关联

利用DPSH算法中的哈希函数对步骤2.3中生成的低维深度特征进行哈希映射，得到二值哈希码；哈希函数表示如下：

其中x_i∈X，i＝1,2…,M；

将每幅图像的物理地址、低维深度特征与二值哈希码一一对应，建立“图像物理地址—低维深度特征—二值哈希码”关联对，并将这些关联存储至数据库系统，构建哈希特征库，作为索引，用于检索；

步骤4：遥感图像的快速检索；