CN114036326A

CN114036326A - 一种图像检索与分类方法、系统、终端及存储介质

Info

Publication number: CN114036326A
Application number: CN202111177496.6A
Authority: CN
Inventors: 宋伟伟; 崔金强; 丁玉隆; 尉越; 商成思
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2022-02-11
Anticipated expiration: 2041-10-09
Also published as: CN114036326B

Abstract

本发明公开了一种图像检索与分类方法、系统、终端及存储介质，所述方法包括：获取待查询图像；将所述待查询图像输入目标哈希分类网络，得到所述待查询图像对应的预测哈希码和预测图像类别；获取目标数据库哈希码，根据所述目标数据库哈希码和所述预测哈希码确定所述待查询图像对应的目标图像集。本发明采用哈希码的方式来确定待查询图像的图像类别和其对应的一组相似图像，解决了现有的基于内容的图像检索方法无法获取图像的场景类别的问题，有助于图像的进一步分析和处理。

Description

一种图像检索与分类方法、系统、终端及存储介质

技术领域

本发明涉及图像处理领域，尤其涉及的是一种图像检索与分类方法、系统、终端及存储介质。

背景技术

高空间分辨率对地观测时代的来临催生了遥感数据的爆炸式增长，然而相较于目前已经获取的遥感数据体量而言，遥感图像的利用率仍然远远低于人们的预期。面对海量复杂的遥感图像，如何更有效地从已有的数据库中搜索出用户感兴趣的场景是后续遥感图像解译与应用的基础，是当前遥感大数据时代具有挑战且亟需解决的重要问题。

对于遥感图像检索，其中的挑战在于如何设计一个检索系统以实现准确、高效的方式返回与查询图像相似的样本。早期的检索方法主要利用手动注释标签(例如地理位置、采集时间或传感器类型)来搜索相似图像，这类方法称为基于文本的图像检索(Text-basedImage Retrieval,TBIR)。由于人工注释标签无法完全表征图像的视觉信息，因此，基于TBIR的方法通常无法获得精确的检索结果。相比之下，基于内容的图像检索(Content-based Image Retrieval,CBIR)提取图像特征进行相似度检索，在近年来取得了巨大的成功。然而目前基于内容的图像检索方法只能将相似图像从数据库返回给用户，却无法获取图像的场景类别，阻碍了图像的进一步分析和处理。

因此，现有技术还有待改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种图像检索与分类方法、系统、终端及存储介质，旨在解决现有的基于内容的图像检索方法无法获取图像的场景类别，阻碍了图像的进一步分析和处理的问题。

本发明解决问题所采用的技术方案如下：

第一方面，本发明实施例提供一种图像检索与分类方法，其中，所述方法包括：

获取待查询图像；

将所述待查询图像输入目标哈希分类网络，得到所述待查询图像对应的预测哈希码和预测图像类别；

获取目标数据库哈希码，根据所述目标数据库哈希码和所述预测哈希码确定所述待查询图像对应的目标图像集。

在一种实施方式中，所述将所述待查询图像输入目标哈希分类网络，得到所述待查询图像对应的预测哈希码和预测图像类别，包括：

将所述待查询图像输入目标哈希分类网络中的特征提取层，通过所述特征提取层基于所述待查询图像输出语义特征信息；

将所述语义特征信息输入所述目标分类网络中的哈希层，通过所述哈希层基于所述语义特征信息输出预测哈希码；

将所述预测哈希码输入所述目标分类网络中的分类层，通过所述分类层基于所述预测哈希码输出所述待查询图像对应的预测图像类别。

在一种实施方式中，所述特征提取层包括深度残差网络和特征融合层，所述将所述待查询图像输入目标哈希分类网络中的特征提取层，通过所述特征提取层基于所述待查询图像输出语义特征信息，包括：

将所述待查询图像输入所述深度残差网络，得到所述待查询图像对应的局部特征数据；

获取所述待查询图像对应的全局特征数据，将所述局部特征数据和所述全局特征数据输入所述特征融合层，得到所述语义特征信息。

在一种实施方式中，所述目标哈希分类网络和所述目标数据库哈希码预先由若干训练批次迭代训练而成，其中，每一所述训练批次均采用相同的数据库图像集作为训练数据，每一所述训练批次包括第一轮训练和第二轮训练，所述第一轮训练用于对未完成训练的哈希分类网络进行网络参数更新，以得到所述目标哈希分类网络，所述第二轮训练用于对未完成训练的数据库哈希码进行更新，以得到所述目标数据库哈希码。

在一种实施方式中，所述第一轮训练，包括：

获取所述数据库图像集，根据所述数据库图像集生成查询图像集；

从所述数据库图像集中获取数据库图像，并从所述查询图像集中获取查询图像，其中，每一所述查询图像均含有对应的图像类别标签；

确定所述数据库图像对应的初始数据库哈希码；

将所述查询图像输入所述哈希分类网络，得到训练预测哈希码和训练预测图像类别；

根据所述初始数据库哈希码、所述训练预测哈希码、所述训练预测图像类别以及所述图像类别标签，确定所述哈希分类网络对应的网络损失函数；

根据所述网络损失函数对所述哈希分类网络进行网络参数更新。

在一种实施方式中，所述根据所述初始数据库哈希码、所述训练预测哈希码、所述训练预测图像类别以及所述图像类别标签，确定所述哈希分类网络对应的网络损失函数，包括：

根据所述初始数据库哈希码和所述训练预测哈希码，确定相似度损失函数；

根据所述训练预测图像类别和所述图像类别标签，确定语义损失函数；

根据所述相似度损失函数和所述语义损失函数，确定所述网络损失函数。

在一种实施方式中，所述根据所述初始数据库哈希码和所述训练预测哈希码，确定相似度损失函数包括：

获取所述查询图像和所述数据库图像对应的相似度标签，其中，所述相似度标签用于反映所述查询图像和所述数据库图像是否属于同一图像类别；

确定所述初始数据库哈希码与所述训练预测哈希码之间的乘积，并确定所述乘积与所述相似度标签之间的损失，得到第一损失函数；

确定所述初始数据库哈希码与所述训练预测哈希码之间的损失，得到第二损失函数；

根据所述第一损失函数和所述第二损失函数，确定所述相似度损失函数。

在一种实施方式中，所述根据所述网络损失函数对所述哈希分类网络进行网络参数更新，包括：

根据所述网络损失函数对所述哈希分类网络进行反向传播，通过所述反向传播依次对所述分类层、所述哈希层以及所述特征提取层进行梯度更新；

根据所述分类层更新后的梯度对所述分类层进行参数更新；

根据所述哈希层更新后的梯度对所述哈希层进行参数更新；

根据所述特征提取层更新后的梯度对所述特征提取层进行参数更新。

在一种实施方式中，所述第二轮训练，包括：

将所述网络损失函数转换为矩阵形式，得到数据库损失函数；

根据所述数据库损失函数对所述数据库哈希码进行更新。

在一种实施方式中，所述根据所述目标数据库哈希码和所述预测哈希码确定所述待查询图像对应的目标图像集，包括：

依次计算所述预测哈希码与所述目标数据库哈希码中每一图像的哈希码之间的汉明距离，得到若干汉明距离；

将若干所述汉明距离从小到大进行排序，并根据预设顺序位之前的若干所述汉明距离分别对应的图像确定所述目标图像集。

第二方面，本发明实施例还提供一种图像检索与分类系统，其中，所述系统包括：

分类模块，用于获取待查询图像，将所述待查询图像输入目标哈希分类网络，得到所述待查询图像对应的预测哈希码和预测图像类别；

检索模块，用于获取目标数据库哈希码，根据所述目标数据库哈希码和所述预测哈希码确定所述待查询图像对应的目标图像集，其中，所述目标图像集中每一图像与所述待查询图像之间的相似度均高于相似度阈值。

第三方面，本发明实施例还提供一种终端，其中，所述终端包括有存储器和一个或者一个以上处理器；所述存储器存储有一个或者一个以上的程序；所述程序包含用于执行如上述任一所述的图像检索与分类方法的指令；所述处理器用于执行所述程序。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有多条指令，其中，所述指令适用于由处理器加载并执行，以实现上述任一所述的图像检索与分类方法的步骤。

本发明的有益效果：本发明实施例通过获取待查询图像；将所述待查询图像输入目标哈希分类网络，得到所述待查询图像对应的预测哈希码和预测图像类别；获取目标数据库哈希码，根据所述目标数据库哈希码和所述预测哈希码确定所述待查询图像对应的目标图像集。本发明采用哈希码的方式来确定待查询图像的图像类别和其对应的一组相似图像，解决了现有的基于内容的图像检索方法无法获取图像的场景类别，有助于图像的进一步分析和处理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的图像检索与分类方法的流程示意图。

图2是本发明实施例提供的目标哈希分类网络的网络框图。

图3是本发明实施例提供的单个残差块的结构示意图。

图4是本发明实施例提供的哈希码非对称学习示意图。

图5是本发明实施例提供的图像检索与分类系统的内部模块连接图。

图6是本发明实施例提供的终端的原理框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

针对现有技术的上述缺陷，本发明提供一种图像检索与分类方法，所述方法通过获取待查询图像；将所述待查询图像输入目标哈希分类网络，得到所述待查询图像对应的预测哈希码和预测图像类别；获取目标数据库哈希码，根据所述目标数据库哈希码和所述预测哈希码确定所述待查询图像对应的目标图像集。本发明采用哈希码的方式来确定待查询图像的图像类别和其对应的一组相似图像，解决了现有的基于内容的图像检索方法无法获取图像的场景类别的问题，有助于图像的进一步分析和处理。

如图1所示，所述方法包括如下步骤：

步骤S100、获取待查询图像。

具体地，本实施例中的待查询图像即为需要进行检索和分类的图像。其中，待查询图像可以为卫星、航天飞机或无人机拍摄的高空间分辨率对地观测影像中的图像，也可以为其他方式获得的遥感图像。

如图1所示，所述方法还包括如下步骤：

步骤S200、将所述待查询图像输入目标哈希分类网络，得到所述待查询图像对应的预测哈希码和预测图像类别。

具体地，面对海量复杂的遥感图像，本实施例预先训练出了一个目标哈希分类网络用于进行图像分类和后续的图像检索。目标哈希分类网络可以针对输入的待查询图像提取哈希码和进行图像分类，从而输出待查询图像对应的预测哈希码和预测图像类别。其中，预测哈希码可以反映待查询图像所属类别的图像的特征信息，而预测图像类别则可以反映待查询图像所述类别。

在一种实现方式中，所述步骤S200，具体包括如下步骤：

步骤S201、将所述待查询图像输入目标哈希分类网络中的特征提取层，通过所述特征提取层基于所述待查询图像输出语义特征信息；

步骤S202、将所述语义特征信息输入所述目标分类网络中的哈希层，通过所述哈希层基于所述语义特征信息输出预测哈希码；

步骤S203、将所述预测哈希码输入所述目标分类网络中的分类层，通过所述分类层基于所述预测哈希码输出所述待查询图像对应的预测图像类别。

简单来说，本实施例中的目标哈希分类网络主要包括三个层，依次为特征提取层、哈希层以及分类层。其中，哈希层的设置主要是考虑到特征提取层提取的深度特征具有高维特性，会增加后续的计算代价，因此在目标哈希分类网中嵌入一层哈希层，通过该哈希层将高维实值的深度特征映射为低维的哈希码，从而达到节约后续的计算开销的目的。具体地，特征提取层主要是用于对输入的待查询图像进行特征提取，以输出待查询图像特征对应的语义特征信息；哈希层主要是用于根据语义特征信息进行哈希码预测，以输出待查询图像对应的预测哈希码；分类层主要是根据预测哈希码进行图像分类，以输出待查询图像对应的预测图像类别。

在一种实现方式中，所述特征提取层包括深度残差网络和特征融合层，所述步骤S201，具体包括：

步骤S2011、将所述待查询图像输入所述深度残差网络，得到所述待查询图像对应的局部特征数据；

步骤S2012、获取所述待查询图像对应的全局特征数据，将所述局部特征数据和所述全局特征数据输入所述特征融合层，得到所述语义特征信息。

具体地，本实施例的中的特征提取层主要包括两个部分，一部分是用于提取待查询图像的局部特征数据的深度残差网络，另一部分则是用于融合待查询图像的全局特征数据和局部特征数据的特征融合层，从而使得特征提取层最终输出的语义特征信息可以融合待查询图像不同维度的特征信息，进而提高模型预测的精度。

在一种实现方式中，所述深度残差网络由多个残差块堆叠而成，且所述深度残差网络采用了残差学习机制(Residual Learning)来有效克服传统深度模型因网络过度加深导致性能下降的问题。

具体地，残差学习的主要依据是：当增加的若干卷积层被近似为恒等映射(Identity Mapping)时，网络的训练误差不会增加。为了使网络学习恒等映射，本实施例中的特征提取层采用跳跃连接(Skip Connection)驱使网络残差为零。由于跳跃连接没有增加网络参数，同时还能优化整个网络的训练，因此可以使得网络在很深的结构下达到更优的网络性能。

举例说明，如图3所示，每个残差块由输入层、两个卷积层和一个输出层组成。假定F(X)为残差块需要学习的映射函数，其中X表示残差块的输入。通过求解目标函数F(X)＝X来使得残差块学习恒等映射。

由于直接求解上述目标函数的效果不太理想。因此可以引入残差函数G(X)＝F(X)-X，通过约束G(X)＝0来间接得到上述的优化目标。

如上所述，通过网络的前向传播，该残差块提取的特征可表示为：

F(X)＝G(X)+X

其中，G(X)可通过两次离散卷积得到，即：

G(X)＝σ(W₂*σ(W₁*X+b₁)+b₂)

其中，W₁和W₂表示卷积核，b₁和b₂表示偏置向量，*表示离散卷积操作，σ表示激活函数。

在一种实现方式中，由于神经网络中不同等级的层可以捕获不同类型的图像特征，例如低层通常捕获图像的细节特征(即颜色、外观、轮廓信息等)，而高层可以提取图像的抽象特征(即语义信息)。因此，本实施例中的特征融合层采用了一种特征融合机制来充分利用不同维度的层之间的相关信息。具体地，特征融合层先通过相同数目、预设大小的卷积核对不同等级的层捕获的特征进行维度匹配，并对维度匹配后的所有特征图进行逐元素平均操作，以实现不同维度之间的特征的融合，得到语义特征信息。

举例说明，假定F_L、F_M和F_H分别表示三个不同等级层提取的特征。由于F_L、F_M和F_H的特征图数目可能不一致，因此不能直接对其进行特征融合。为此，首先采用相同数目、大小为1×1的卷积核对上述三种特征进行维度匹配，使得卷积后的特征图数目一致；最后采用逐元素平均操作进行特征级融合，以上步骤可表示为：

f＝pooling(g₁(F_L)+g₂(F_M)+g₃(F_H))

其中，f表示融合后的深度特征，g₁、g₂和g₃分别表示维度匹配函数，即卷积操作，pooling表示全局平均池化操作。

在一种实现方式中，所述哈希层具体可表示为：

u＝W_hf+b_h＝W_hΦ(x；θ)+v_h

其中，w_h和v_h分别表示哈希层的权重和偏置，Φ表示抽象的网络函数，θ为网络参数。

在一种实现方式中，所述分类层具体可表示为：

t＝soft max(W_su+v_s)

其中，w_s和v_s分别表示分类层的权重和偏置，t为分类层的输出，给出了待查询图像的类别概率分布。

根据以上对目标哈希分类网络的结构的描述，本实施例中的目标哈希分类网络构建可以包含以下4个步骤：

1.将自然图像数据集(如ImgaNet)上训练好的特征提取层进行迁移，并去掉最后的全连接层，得到目标哈希分类网络中特征提取的基准网络。

2.然后在池化层之前加入个特征融合层，充分利用不同等级层之间的相关信息。例如，整个网络有18层，可以粗略地将1-6层视为低层，7-12层视为中层，13-18层视为高层。因为不同等级网络层关注的信息不同，通过融合可以提高特征的表达能力。在一种实现方式中，可以选择代表性的输出数据进行融合，比如分别选择低层、中层和高层的各一个输出进行融合。

3.然后，在池化层之后新建一个全连接层，即哈希层，用于提取图像样例的预测哈希码。可以理解的是，由于哈希码是一组离散的值，而目标哈希分类网络无法直接得到这种离散值，因此只能驱使目标哈希分类网络学习一组靠近-1或者1的近似值，比如b＝[-0.99,-1.0004,1.05,0.98]就可以表示一组近似的哈希码，即预测哈希码实际是一种近似哈希码。

4.最后，在哈希层之后再新建一个激活函数为softmax的全连接层，即分类层，用于生成图像类别的概率分布。例如，分类层的输出可以为一组概率分布值，每个概率值即为该图像被分类为这个类别的概率，通过取最大值，就可以得到输入图像的类别。

如图1所示，所述方法还包括如下步骤：

步骤S300、获取目标数据库哈希码，根据所述目标数据库哈希码和所述预测哈希码确定所述待查询图像对应的目标图像集。

具体地，本实施例还预先训练了一个数据库，该数据库中包含有不同图像类别的图像及其对应哈希码，即目标数据库哈希码。通过将待查询图像对应的预测哈希码与目标数据库哈希码进行比对，就可以确定数据库中与待查询图像高度相似的一组图像，即得到目标图像集。

在一种实现方式中，所述目标哈希分类网络和所述目标数据库哈希码预先经过若干训练批次迭代训练而成，其中，每一所述训练批次均采用相同的数据库图像集作为训练数据，每一所述训练批次包括第一轮训练和第二轮训练，所述第一轮训练用于对未完成训练的哈希分类网络进行网络参数更新，以得到所述目标哈希分类网络，所述第二轮训练用于对未完成训练的数据库哈希码进行更新，以得到所述目标数据库哈希码。

简单来说，本实施例中的目标哈希分类网络和目标数据库哈希码都是预先经过训练的。其中，为了节约训练样本和训练时间，目标哈希分类网络与目标数据库哈希码是一起进行训练的。具体地，整个训练过程可以分为多个训练批次，这些训练批次都采用同一个数据库图像作为训练样本。其中，数据库图像可以为卫星、航天飞机或无人机拍摄的高空间分辨率对地观测影像，具有观测范围广，空间信息丰富等特点。并且针对数据库图像中的每一图像均需要预先人为定义一种场景类别，即生成各图像分别对应的图像类别标签。

每一训练批次可以分为两轮训练，通过这两轮训练对未完成训练的哈希分类网络和数据库哈希码进行交替更新。哈希分类网络和数据库哈希码更新后达到训练要求时，整个训练过程结束，最后将训练完毕的哈希分类网络作为目标哈希分类网络，训练完毕的数据库哈希码作为目标数据库哈希码。

在一种实现方式中，所述第一轮训练，具体包括如下步骤：

步骤S10、获取所述数据库图像集，根据所述数据库图像集生成查询图像集；

步骤S11、从所述数据库图像集中获取数据库图像，并从所述查询图像集中获取查询图像，其中，每一所述查询图像均含有对应的图像类别标签；

步骤S12、确定所述数据库图像对应的初始数据库哈希码；

步骤S13、将所述查询图像输入所述哈希分类网络，得到训练预测哈希码和训练预测图像类别；

步骤S14、根据所述初始数据库哈希码、所述训练预测哈希码、所述训练预测图像类别以及所述图像类别标签，确定所述哈希分类网络对应的网络损失函数；

步骤S15、根据所述网络损失函数对所述哈希分类网络进行网络参数更新。

具体地，本实施例中的训练样本为数据库图像集，训练时会从数据库图像集中抽取一部分作为查询图像集。每一训练批次从数据库图像集和查询图像集中分别抽取出数据库图像和查询图像，通过抽取出的数据库图像和查询图像完成当前这一批次的训练。在这一批次训练的第一轮训练中，将数据库哈希码作为固定参数，对哈希分类网络的网络参数进行更新。

由于传统训练中需要采用对称的方式同时生成查询图像和数据库图像的哈希码，即无论是查询图像还是数据库图像均需要输入哈希分类网络中以得到各自对应的哈希码。因此一旦训练样本数量过大时，传统训练方法就需要耗费大量的时间来进行网络的前馈运算。本实施例为了提高网络训练的效率，采用了非对称式的方式生成查询图像和数据库图像的哈希码。如图4所示，本实施例只将查询图像输入哈希分类网络中，并对数据库哈希码进行初始化，以得到数据库图像对应的初始数据库哈希码。

查询图像输入哈希分类网络中以后，哈希分类网络会自动对查询图像的哈希码和图像类别进行预测，输出查询图像对应的训练预测哈希码和训练预测图像类别。由于哈希分类网络未完成网络训练，因此查询图像对应的图像类别标签与训练预测图像类别之间有较大差距，查询图像对应的训练预测哈希码与初始数据库哈希码之间也有较大差距。为了减小这些差距，提高模型预测的准确性，本实施例基于初始数据库哈希码、训练预测哈希码、训练预测图像类别以及图像类别标签可以确定哈希分类网络输出的预测结果与真实结果之间的差距，即网络损失函数，并以此为导向对哈希分类网络进行网络参数更新，从而收敛网络损失函数，减小哈希分类网络输出的预测结果与真实结果之间的差距。

在一种实现方式中，所述步骤S14具体包括如下步骤：

步骤S141、根据所述初始数据库哈希码和所述训练预测哈希码，确定相似度损失函数；

步骤S142、根据所述训练预测图像类别和所述图像类别标签，确定语义损失函数；

步骤S143、根据所述相似度损失函数和所述语义损失函数，确定所述网络损失函数。

具体地，为了提高样例特征和哈希码的表征能力，本实施例在哈希分类网络的网络损失函数中融入了训练样本的相关性和语义性，即本实施例中的网络损失函数包括两种损失函数，一种是相似度损失函数，另一种是语义损失函数。其中，相似度损失函数用于反映初始数据库哈希码和训练预测哈希码之间的差距，语义损失函数用于反映训练预测图像类别与图像类别标签之间的差距，本实施例采用这两类差距一起表征哈希分类网络输出的预测结果与真实结果之间的差距。

在一种实现方式中，所述步骤S141、具体包括如下步骤：

步骤S1411、获取所述查询图像和所述数据库图像对应的相似度标签，其中，所述相似度标签用于反映所述查询图像和所述数据库图像是否属于同一图像类别；

步骤S1412、确定所述初始数据库哈希码与所述训练预测哈希码之间的乘积，并确定所述乘积与所述相似度标签之间的损失，得到第一损失函数；

步骤S1413、确定所述初始数据库哈希码与所述训练预测哈希码之间的损失，得到第二损失函数；

步骤S1414、根据所述第一损失函数和所述第二损失函数，确定所述相似度损失函数。

具体地，对于任意一对查询图像和数据库图像，本实施例都预先对其定义了一个相似度标签，该相似度标签可以用于反映两者是否输入同一类别的图像。例如，查询图像集和数据库图像集分别表示为：

和

其中m和n分别为图像总数，相应的类别标签集分别表示为：

和

此外，对于任一图像对

定义相似度标签S_ij，满足以下性质：若

和

来自相同类别，则S_ij＝1；反之，则S_ij＝0。

为了学习样例之间的相似信息，即相同类别的训练样本的哈希码应该尽可能相似，不同类别的训练样本的哈希码应该具有较大差异，因此本实施例还需要考虑初始数据库哈希码与训练预测哈希码之间的乘积损失，即初始数据库哈希码与训练预测哈希码之间的乘积与相似度标签之间的损失，从而得到第一损失函数。

此外，由于查询图像集是从数据库图像集中随机采样构成，因此对于查询图像来说其应该有两种哈希码表示，一种哈希码表示是基于初始化后的数据库哈希码得到的，即初始数据库哈希码；另一种哈希码表示则是基于哈希分类网络得到的，即训练预测哈希码。因此在设计相似度损失函数时还需要参考这两种表示之间的误差，即得到第二损失函数。最后，通过融合第一损失函数和第二损失函数，得到最终的相似度损失函数。

举例说明，本实施例考虑了查询图像与数据库图像哈希码的乘积损失，即：

其中，

表示查询图像集和数据库图像集的哈希码矩阵，

表示数据库图像集的哈希码矩阵。由于查询图像的哈希码直接由上述的深度哈希网络生成(即哈希层的输出)。因此，上述公式可改写为：

其中，sign为符号函数，存在以下性质：

若x≥0，则sign(x)＝1；

若x＜0，则sign(x)＝-1。

然而，由于sign不可导，采用标准的梯度下降算法无法将梯度传递至前面层。为此，本实施例采用双曲正切函数来近似符号函数：

鉴于本实施例中的查询图像集是从数据库图像集中抽取出来的，即

其中

表示由查询图像集Ω指示的数据库图像集。因此本实施例使用Γ＝{1,2,...,n}表示所有数据库图像索引，Ω＝{i₁,i₂,...,i_m}∈Γ表示查询图像索引。基于以上符号定义，损失函数可表示为：

此外，本实施例考虑到Ω∈Γ，对于查询图像

i∈Ω有两种哈希码表示。第一种表示是数据库哈希码矩阵元素

第二种表示是由哈希分类网络输出的近似哈希码

因此，在上述损失函数基础上增加一约束项，使两种表示尽可能接近，即最终的相似度损失函数的表现形式为：

其中，λ为超参数，用于约束两种哈希码表示误差。

最后，融合了相似度损失函数和语义损失函数的网络损失函数的表现形式为：

其中，γ为超参数，用于平衡相似度损失和语义损失权重。

在一种实现方式中，所述步骤S15，具体包括如下步骤：

步骤S151、根据所述网络损失函数对所述哈希分类网络进行反向传播，通过所述反向传播依次对所述分类层、所述哈希层以及所述特征提取层进行梯度更新；

步骤S152、根据所述分类层更新后的梯度对所述分类层进行参数更新；

步骤S153、根据所述哈希层更新后的梯度对所述哈希层进行参数更新；

步骤S154、根据所述特征提取层更新后的梯度对所述特征提取层进行参数更新。

简单来说，针对哈希分类网络，本实施例采用了标准的梯度下降算法更新网络参数，即通过反向传播依次更新哈希分类网络中每一层的梯度，再基于各层更新后的梯度分别更新各层的参数。由于在正向传播阶段，信号传播顺序首先是特征提取层，其次是哈希层，最后是分类层，因此在反向传播阶段，更新顺序首先是分类层，其次是哈希层，最后是特征提取层。

在一种实现方式中，所述第二轮训练，包括：

步骤S20、将所述网络损失函数转换为矩阵形式，得到数据库损失函数；

步骤S21、根据所述数据库损失函数对所述数据库哈希码进行更新。

简单来说，针对数据库哈希码，本实施例采用了矩阵运算规则依次对数据库哈希码的每一列进行更新。其中，在当前这一训练批次中的第二轮训练时，将哈希分类网络作为固定参数的网络，对数据库哈希码进行更新。具体地，将网络损失函数转换为矩阵形式，得数据库损失函数。之后，逐次更新数据库哈希码中的每一列。其中，更新时除了当前更新的一列外，其他列为固定形式。

在一种实现方式中，所述根据所述目标数据库哈希码和所述预测哈希码确定所述待查询图像对应的目标图像集，具体包括如下步骤：

步骤S301、依次计算所述预测哈希码与所述目标数据库哈希码中每一图像的哈希码之间的汉明距离，得到若干汉明距离；

步骤S302、将若干所述汉明距离从小到大进行排序，并根据预设顺序位之前的若干所述汉明距离分别对应的图像确定所述目标图像集。

具体地，由于预测哈希码是基于训练后的目标哈希分类网络输出的，因此其与待查询图像对应的真实哈希码十分接近，可以基于预测哈希码在数据库哈希码中检索得到其对应的相似图像。具体地，检索时需要计算数据库哈希码中每一图像的哈希码与预测哈希码之间的汉明距离，其中，汉明距离定义为两个相同长度的字符在对应位置上不同字符的数目。例如，字符串“01010101”和“01010110”，它们之间的汉明距离等于2。然后将汉明距离从小到大进行排序，将前若干个汉明距离对应的图像均作为待查询图像对应的高度相似图像，基于这些图像生成待查询图像对应的目标图像集。

为了清楚地解释本实施例中哈希分类网络和数据库哈希码交替迭代训练的过程，本实施例将网络损失函数的最小化形式作为目标函数，并给出详细的推导过程：

目标函数可表示为最小化损失函数L₆，即：

首先固定B_d，求解Θ。为求解所有网络参数，需依次推导出目标函数对分类层参数(w_s和v_s)、哈希层参数(w_h和v_h)，以及特征提取层参数(θ)的梯度。首先计算目标函数E对预测类别概率分布

的偏导数，即：

进而计算目标函数E对分类层参数(w_s和v_s)的梯度，即：

其中，

操作符⊙表示逐元素相乘。其次，计算目标函数E对

的偏导数，即：

得到上述偏导数后，进而计算目标函数E对哈希层参数(w_h和v_h)的梯度，即：

最后根据

可计算出目标函数对深度残差网络的梯度，即：

当求得所有参数的梯度后，采用标准的梯度下降算法更新所有参数，即：

ζ＝W_s，W_h，v_s，v_h，θ其中，μ表示学习率。

然后固定Θ，求解B_d。当Θ固定时，上述的网络损失函数可改成成矩阵形式，即：

其中，

s、Y_d及T_d分别为对应变量的矩阵形式，

为索引集Ω指定的查询图像哈希码矩阵，‘const’表示与B_d无关的常数。之后，定义新的变量

满足：

因此，网络损失函数可进一步改写为：

其中，

之后，采取逐次更新B_d的某一列，固定其他列的方式来学习整个B_d。假定B_d、

和

分别为B_d、

和Q的第k列，

和

分别为B_d、

和Q除去第k列后的矩阵。基于以上定义，目标函数可进一步改写为：

通过求解上述目标函数，可逐步更新

即：

哈希分类网络训练完毕以后，即得到目标哈希分类网络，对于任一待查询图像而言，将其输入目标哈希分类网络，通过目标哈希分类网络中的二值化网络哈希层输出可得到待查询图像的哈希码(如图2所示)，即：

通过目标哈希分类网络中的分类层，即softmax的输出还可以得到待查询图像的预测图像类别：

最后基于预测哈希码去查询数据库哈希码可以得到待查询图像对应的目标图像集，目标图像集中的每一图像均与待查询图像高度相似。

为了验证本发明方法的有效性，发明人在University of California,MercedDataset(UCMD)、WHU-RS Dataset和Aerial Image Dataset(AID)三个公开的高分辨率遥感影像数据集上进行了一系列图像检索和分类的实验。

其中，UCMD是从美国地质调查局下载的遥感影像数据集，包含21种地物类别，每个类别包含100个256×256像素的图像，每个像素的空间分辨率为0.3米。WHU-RS是从GoogleEarth上收集的遥感场景数据集。该数据集总共有19种场景类别，每个场景类别约有50张600×600像素的影像。AID包含30种场景类别，该数据集中的影像来自不同的成像传感器，空间分辨率在0.5米到8米之间。

在进行实验之前，相关实验设置如下：对于UCMD、WHU-RS和AID三个数据集，每类随机取20％、50％和50％作为查询样例集，其余样本作为数据库集。目标函数中两个超参数设置如下：λ＝200，γ＝20。

对于图像检索实验，比较方法包括深度逐对有监督哈希(Deep PairwiseSupervised Hashing,DPSH)、深度哈希卷积神经网络(Deep Hashing ConvolutionalNeural Network,DHCNN)、基于L2正则化深度哈希网络(Deep Hashing Neural Networkswith L2 Regularization,DHNNs-L2)、非对称有监督哈希(Asymmetric Deep SupervisedHashing,ADSH)等深度哈希方法。实验结果采用平均精度均值(Mean Average Precision,MAP)来评估不同方法的检索性能。表1展示了不同方法在三个数据集上的检索结果(MAP值)和测试时间(秒)比较。

表1.不同方法在三个数据集上的检索结果(MAP值)与测试时间比较

由表1可得如下结论：(1)与DPSH、DHNNs-L2和ADSH相比，DHCNN和本发明方法同时利用了样本间的相似信息和样本本身的语义信息，实现了较大的性能提升；(2)本发明方法在三个数据集上都获得了最高的MAP值，验证了本发明方法对遥感影像图像检索的有效性；(3)基于非对称哈希码生成方法(如ADSH和本发明方法)的测试时间远远低于基于对称方法(如DPSH、DHNNs-L2和DHCNN)的测试时间，验证了基于非对称哈希码学习方式的高效性。

对于图像分类实验，比较方法包括深度哈希卷积神经网络(Deep HashingConvolutional Neural Network,DHCNN)、梯度提升随机卷积网络(Gradient BoostingRandom Convolutional Network,GBRCN)、基于判别相关分析的深度特征融合(DeepFeature Fusion based on Discriminant Correlation Analysis,DCA-Fusion)，以及一些采用深度特征的分类方法，这些方法从CaffeNet、GoogLeNet和VGG-VD16网络中提取第一个全连接层特征。实验结果采用总体分类精度(Overall Accuracy,OA)来评估不同方法的分类性能。表2展示了不同方法在三个数据集上的分类结果比较。

表2.不同方法在三个数据集上的分类结果(OA)比较

方法	UCMD	WHU-RS	AID
				CaffeNet	0.9502	0.9562	0.8953
VGG-VD16	0.9521	0.9412	0.8964
				GoogLeNet	0.9432	0.9574	0.8639
GBRCN	0.9553	0.9134	0.9140
				DCA-Fusion	0.9584	0.9556	0.9187
DHCNN	0.9768	0.9622	0.9348
				本方明方法	0.9897	0.9743	0.9479

由表2可知，相比其他对比方法，本发明方法在三个数据集上都获得了最高的分类精度，验证了本方法对遥感图像分类的有效性。

基于上述实施例，本发明还提供了一种图像检索与分类系统，如图5所示，所述系统包括：

分类模块01，用于获取待查询图像，将所述待查询图像输入目标哈希分类网络，得到所述待查询图像对应的预测哈希码和预测图像类别；

检索模块02，用于获取目标数据库哈希码，根据所述目标数据库哈希码和所述预测哈希码确定所述待查询图像对应的目标图像集。

基于上述实施例，本发明还提供了一种终端，其原理框图可以如图6所示。该终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏。其中，该终端的处理器用于提供计算和控制能力。该终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现图像检索与分类方法。该终端的显示屏可以是液晶显示屏或者电子墨水显示屏。

本领域技术人员可以理解，图6中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一种实现方式中，所述终端的存储器中存储有一个或者一个以上的程序，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行图像检索与分类方法的指令。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

综上所述，本发明公开了一种图像检索与分类方法、系统、终端及存储介质，所述方法包括：获取待查询图像；将所述待查询图像输入目标哈希分类网络，得到所述待查询图像对应的预测哈希码和预测图像类别；获取目标数据库哈希码，根据所述目标数据库哈希码和所述预测哈希码确定所述待查询图像对应的目标图像集。本发明采用哈希码的方式来确定待查询图像的图像类别和其对应的一组相似图像，解决了现有的基于内容的图像检索方法无法获取图像的场景类别的问题，有助于图像的进一步分析和处理。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种图像检索与分类方法，其特征在于，所述方法包括：

获取待查询图像；

2.根据权利要求1所述的图像检索与分类方法，其特征在于，所述将所述待查询图像输入目标哈希分类网络，得到所述待查询图像对应的预测哈希码和预测图像类别，包括：

3.根据权利要求2所述的图像检索与分类方法，其特征在于，所述特征提取层包括深度残差网络和特征融合层，所述将所述待查询图像输入目标哈希分类网络中的特征提取层，通过所述特征提取层基于所述待查询图像输出语义特征信息，包括：

4.根据权利要求2所述的图像检索与分类方法，其特征在于，所述目标哈希分类网络和所述目标数据库哈希码预先由若干训练批次迭代训练而成，其中，每一所述训练批次均采用相同的数据库图像集作为训练数据，每一所述训练批次包括第一轮训练和第二轮训练，所述第一轮训练用于对未完成训练的哈希分类网络进行网络参数更新，以得到所述目标哈希分类网络，所述第二轮训练用于对未完成训练的数据库哈希码进行更新，以得到所述目标数据库哈希码。

5.根据权利要求4所述的图像检索与分类方法，其特征在于，所述第一轮训练，包括：

确定所述数据库图像对应的初始数据库哈希码；

6.根据权利要求5所述的图像检索与分类方法，其特征在于，所述根据所述初始数据库哈希码、所述训练预测哈希码、所述训练预测图像类别以及所述图像类别标签，确定所述哈希分类网络对应的网络损失函数，包括：

7.根据权利要求6所述的图像检索与分类方法，其特征在于，所述根据所述初始数据库哈希码和所述训练预测哈希码，确定相似度损失函数包括：

8.根据权利要求5所述的图像检索与分类方法，其特征在于，所述根据所述网络损失函数对所述哈希分类网络进行网络参数更新，包括：

根据所述分类层更新后的梯度对所述分类层进行参数更新；

根据所述哈希层更新后的梯度对所述哈希层进行参数更新；

9.根据权利要求5所述的图像检索与分类方法，其特征在于，所述第二轮训练，包括：

根据所述数据库损失函数对所述数据库哈希码进行更新。

10.根据权利要求1所述的图像检索与分类方法，其特征在于，所述根据所述目标数据库哈希码和所述预测哈希码确定所述待查询图像对应的目标图像集，包括：

11.一种图像检索与分类系统，其特征在于，所述系统包括：

12.一种终端，其特征在于，所述终端包括有存储器和一个或者一个以上处理器；所述存储器存储有一个或者一个以上的程序；所述程序包含用于执行如权利要求1-10中任一所述的图像检索与分类方法的指令；所述处理器用于执行所述程序。

13.一种计算机可读存储介质，其上存储有多条指令，其特征在于，所述指令适用于由处理器加载并执行，以实现上述权利要求1-10任一所述的图像检索与分类方法的步骤。