CN112860935A

CN112860935A - 一种跨源图像检索方法、系统、介质及设备

Info

Publication number: CN112860935A
Application number: CN202110137096.6A
Authority: CN
Inventors: 马晶晶; 史端鹏; 唐旭; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-05-28
Anticipated expiration: 2041-02-01
Also published as: CN112860935B

Abstract

本发明公开了一种跨源图像检索方法、系统、介质及设备，生成训练集；将训练集输入构建的特异特征和公共空间特征提取模块，得到两种模态图像公共空间特征和特异空间特征；对公共空间特征提取模块输出的公共空间特征进行稀疏学习，对特异特征提取模块输出的特异特征进行特异特征转移；对稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束，训练稀疏学习模块和特异特征转移模块；利用训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作，然后作为图像的最后特征表示，进行跨源检索工作。本发明增强了图像的特征表示，使得图像获得更具鲁棒性的特征，从而提升检索效果。

Description

一种跨源图像检索方法、系统、介质及设备

技术领域

本发明属于图像处理技术领域，具体涉及一种跨源图像检索方法、系统、介质及设备。

背景技术

随着科技的不断发展，对于遥感图像的获得技术更加多样，从无人机拍摄到卫星技术，得到的数据内容也变得更加复杂多样。不同技术所获得的遥感图像产生的数据，分辨率，图像通道数等方面可能不同，也称其为不同源域的数据或异构信息。对遥感图像的跨源检索，即检索图像和待检索的图像属于不同模态。图像的跨源检索，能充分使不同分布的数据交互。然而由于不同源域的数据分布不同，如何使得异构信息相互之间进行有效的检索，成为一个巨大的挑战。

现有方法因为在没有考虑到去除投射到公共空间的特征的冗余信息，所以异构图像被投射到公共空间的特征会存在大量冗余信息，从而会导致检索结果较差；或仅考虑了使老师网络和学生网络在共享层，通过使用监督信息的约束进行优化，但是没有考虑到在共享层的输出特征可能会存在信息冗余，从而影响优化效果。只考虑到将不同源域的图像投射到同一个空间，但是没有考虑到特异特征对检索任务能够起到促进作用，造成检索结果不是特别理想。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种跨源图像检索方法、系统、介质及设备，可用于对于两种甚至多种源域遥感图像的检索任务。

本发明采用以下技术方案：

一种跨源图像检索方法，包括以下步骤：

S1、生成训练集；

S2、将步骤S1构造的训练集输入构建的公共空间特征和特异特征提取模块，得到两种源域模态图像公共空间特征和特异特征；

S3、对步骤S2公共空间提取模块输出的公共空间特征进行稀疏学习，对特异特征提取模块输出的特异特征进行特异特征转移；

S4、对步骤S3稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束，训练稀疏学习模块和特异特征转移模块；

S5、利用步骤S4训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作，然后作为图像的最后特征表示，进行跨源检索工作。

具体的，步骤S1中，将单通道数据复制四份，变成四通道数据，多通道数据 resize成224×224；再将每个像素点除以255.0进行归一化处理后组成训练集，训练集分为多通道图像和单通道图像两份。

具体的，步骤S2具体为：搭建两个特异特征提取卷积网络和一个公共空间特征提取卷积网络；设置全局和多尺度全卷积网络的参数，第一层卷积核大小为 1×1，步长为1；第二层卷积核大小为3×3，步长为1；第三层卷积核大小为1×1，步长为1；输出层使用2D的(2，2)平均池化；全连接层使用一个softmax激活函数将输入降低到类别数；Resnet50的网络参数中第一、二、三、四、五卷积模块的输入的特征映射图依次设置为3、64、64、128、512个，输出的特征映射图依次设置为64、64、128、512、2048个。

进一步的，搭建两个特异特征提取卷积网络和一个公共空间特征提取卷积网络具体为：

提取多通道图像特异特征网络：输入层→conv1→conv2_x→conv3_x→输出层；

提取单通道图像特异特征网络：输入层→conv1→conv2_x→conv3_x→输出层；

提取单通道和多通道公共空间特征网络：输入层→conv4_x→conv5_x→输出层；

提取多通道图像特异特征网络和提取单通道图像特异特征网络参数不共享，提取公共空间特征网络参数共享；并且conv1→conv2_x→conv3_x→conv4_x→ conv5_x构成Resnet50模型，公共空间特征网络的输入为两个特异特征网络的输出，Resnet50模型中第一层卷积核大小为1×1，步长为1，第二层卷积核大小为 3×3，步长为1，第三层卷积核大小为1×1，步长为1，输出层使用2D的(2,2) 平均池化；全连接层使用一个softmax激活函数将输入降低到类别数；

conv1：由一个卷积层组成，卷积核大小为7×7，步长为2，卷积输出通道为64；

conv2_x：有三个block组成，每个block里包含三个卷积；

conv3_x：有四个block组成，每个block里包含三个卷积；

conv4_x：有六个block组成，每个block里包含三个卷积；

conv5_x：有三个block组成，每个block里包含三个卷积；

conv2_x,conv3_x,conv4_x,conv5_x包含的block为：第一层卷积→BN层 →ReLU激活函数→第二层卷积→BN层→ReLU激活函数→第三层卷积→BN层 →ReLU激活函数；

当输入block和输出block的数据维度是相同的时候，输入block数据可以和输出block数据直接相加；如果维度不同，增加一个conv2d layer使得输入block数据和输出block数据直接相加；

输出层由平均池化层和全连接层构成，平均池化层的输出作为图像的特征，全连接的输出作为分类所需的预测值。

具体的，步骤S3具体为：

稀疏学习通过学习两个稀疏矩阵来得到公共空间特征的最有效特征表示；对于多通道图像和单通道图像，设置两个随机矩阵W1和W2，随机初始化W1和 W2分别作为多通道和单通道图像待优化的稀疏矩阵，根据输出图像特征维度设定待优化稀疏矩阵的维度；W1和W2的维度为2048*2048；

特征转移包括两个模态转移矩阵，每一种模态图像对应一个模态转移矩阵： W_m对应多通道图像，多通道图像记为MSP；W_p对应单通道图像，单通道图像记为PAN；MSP图像经过W_m获得PAN图像的特征表征，PAN图像经过 W_p经过W_p获得MSP图像的特征表征；单通道和多通道特征由稀疏学习模块得到的公共空间特征和转移后的特异特征级联后的特征表示；

损失函数为Cross-Entropy交叉熵损失函数和Triplet-loss三元组损失，损失函数先将实际标签从原始类别索引转换成one-hot编码，再对预测类标进行 softmax计算，最后再计算交叉熵作为loss值。

具体的，步骤S4具体为：

S401、将特异特征和公共空间特征提取卷积网络的输出作为稀疏学习的输入，将稀疏学习的输出作为中间层的特征表示，将中间层特征表示输入特异特征转移模块，将特异特征转移的输出级联中间层的特征表示作为图像的最终特征表示；

S402、使用Adam优化算法迭代地更新网络权重值，直到损失函数收敛，得到训练好的特异特征和公共空间特征提取卷积网络，稀疏学习矩阵和特异特征转移网络。

具体的，步骤S5中，跨源检索工作包括多通道检索单通道图像和单通道检索多通道图像，多通道检索单通道图像具体为：将每幅待检索的多通道图像resize 成224×224，再将每幅图像除以255.0进行归一化处理后输入到训练好的多通道特异特征，公共空间特征提取网络以及稀疏学习模块提取到公共空间的特征，然后级联通过特异特征转移网络的转移特征，得到待检索图像的特征表示；对于单通道检索图像库，得到最后的特征表示；通过计算带检索图像和检索图像库中的特征的欧几里得距离，按照距离从小到大排序，得到检索的图像；

单通道检索多通道图像具体为：将每幅待检索的单通道图像resize成 224×224，再将每幅图像除以255.0进行归一化处理后输入到训练好的单通道特异特征，公共空间特征提取网络以及稀疏学习提取到公共空间的特征，将此特征级联通过特异特征转移网络的转移特征，得到待检索图像的特征表示，对于单通道检索图像库，得到最后的特征表示，通过计算带检索图像和检索图像库中的特征的欧几里得距离，按照距离从小到大排序，得到检索的图像。

本发明的另一个技术方案是，一种跨源图像检索系统，包括：

数据模块，用于生成训练集；

网络模块，将数据模块的训练集输入构建的共享空间特征和特异特征提取模块，得到两种源域图像公共空间特征和特异特征；

学习转移模块，对网络模块公共空间特征提取模块输出的公共空间特征进行稀疏学习，对特异特征提取模块输出的特异特征进行特异特征转移；

训练模块，对学习转移模块稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束，训练稀疏学习模块和特异特征转移模块；

检索模块，利用训练模块训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作，然后作为图像的最后特征表示，进行跨源检索工作。

本发明的另一个技术方案是，一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

本发明的另一个技术方案是，一种计算设备，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种跨源图像检索方法，通过从公共特征空间和特异特征空间两方面出发，更好的对图像特征进行优化。对于公共特征空间，通过对特征的稀疏学习，祛除冗余信息得到更为有效的图像特征表示；通过特异特征转移模块，可以得到模态特征之间的互相表征。最后级联公共空间特征和特异特征模块转移特征，作为图像的最终特征，从而提高图像检索的效果。

进一步的，步骤S1通过构造训练集作为网络输入，并且作为检索过程的待检索集。

进一步的，步骤S2通过参数共享的网络来提取公共空间的MSP和PAN图像特征；通过不共享参数网络提取MSP和PAN图像的特异特征，作为步骤S3 模态转移模块的输入。

进一步的，共享参数网络能够提取MSP和PAN两种模态图像的公共空间特征，在同一空间中，图像特征才可以进行相似度度量，并基于此来进行损失函数的约束；通过不共享参数网络提取MSP和PAN图像的特异特征，作为步骤S3 模态转移模块的输入，在特异空间通过模态转移模块后的特征，进行损失函数的约束。

进一步的，使用稀疏学习，能够祛除公共空间MSP和PAN图像特征的冗余信息，从而得到更为有效的图像特征表示；基于MSP的特异特征能够由同类的 PAN特异特征表征这一想法，通过构造模态转移矩阵，使得MSP图像的特异特征能够由同类的PAN图像的特异特征表征，PAN图像的特异特征能够由同类的 MSP图像的特异特征表征，在特异空间使用损失函数来学习两种模态的特征表示。

进一步的，使用三元组损失函数来跟别约束由步骤S3输出的公共空间稀疏特征和特异特征模态转移特征，从而能够在公共空间和特异空间分别得到图像的特征表征。

进一步的，使用公共空间稀疏特征和特异空间转移特征作为图像的最终特征表示，进行图像检索过程。

综上所述，本发明通过级联公共空间的有效信息和特异空间的图像模态转移特征作为图像的特征表示，增强了图像的特征表示，使得图像获得更具鲁棒性的特征，从而提升检索效果。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的流程图；

图2为本发明的特征提取网络主要构成部分示意图；

图3为特征提取网络的一个block结构示意图；

图4为本发明的主要框架示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该” 意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种跨源图像检索方法，利用稀疏学习模块提取公共空间图像的有效表示，并利用到了特异特征的补充，使得图像的表示更为完整，具有特异性，检索精度高，鲁棒性强。

请参阅图1，本发明一种跨源图像检索方法，提取不同源域的有效信息，并通过监督信息的约束将不同源域的特征映射到同一特征空间。利用特异特征转移网络进行特征转移，将公共空间特征和转移的特征作为最后的图像特征进行跨源图像检索工作；包括以下步骤：

S1、生成训练集；

S101、将单通道数据复制四份，变成四通道数据，多通道数据resize成256×256大小；

S102、将每个像素点除以255.0进行归一化处理后组成训练集，训练集分为多通道图像和单通道图像两份；

S2、将步骤S1构造的训练集输入构建的特异特征和公共空间特征提取模块，得到两种模态图像公共空间特征和特异空间特征；

S201、搭建两个特异特征提取卷积网络和一个公共空间特征提取卷积网络；

上述提取多通道图像特异特征网络和提取单通道图像特异特征网络参数不共享，提取公共空间特征网络参数共享。并且conv1→conv2_x→conv3_x→ conv4_x→conv5_x构成Resnet50模型，公共空间特征网络的输入为两个特异特征网络的输出，Resnet50模型中第一层卷积核大小为1×1，步长为1，第二层卷积核大小为3×3，步长为1，第三层卷积核大小为1×1，步长为1，输出层使用 2D的(2,2)平均池化；全连接层使用一个softmax激活函数将输入降低到类别数。

conv2_x：有三个block组成，每个block里包含三个卷积；

conv3_x：有四个block组成，每个block里包含三个卷积；

conv4_x：有六个block组成，每个block里包含三个卷积；

conv5_x：有三个block组成，每个block里包含三个卷积；

conv2_x,conv3_x,conv4_x,conv5_x包含的block为：第一层卷积→BN层 →ReLU激活函数→第二层卷积→BN层→ReLU激活函数→第三层卷积→BN层 →ReLU激活函数。

另，当输入block和输出block的数据维度是相同的时候，输入block数据可以和输出block数据直接相加；如果维度不同时，需要增加一个conv2d layer使得输入block数据和输出block数据可以直接相加。

S202、设置全局和多尺度全卷积网络的参数如下：

第一层卷积核大小为1×1，步长为1；

第二层卷积核大小为3×3，步长为1；

第三层卷积核大小为1×1，步长为1；

输出层使用2D的(2，2)平均池化；全连接层使用一个softmax激活函数将输入降低到类别数；

Resnet50的网络参数中第一、二、三、四、五卷积模块的输入的特征映射图依次设置为3、64、64、128、512个，输出的特征映射图依次设置为64、64、128、 512、2048个。

S3、对步骤S2公共空间特征提取模块输出的公共空间特征进行稀疏学习，对特异特征提取模块输出的特异特征进行特异特征转移；

S301、请参阅图4，稀疏学习通过学习两个稀疏矩阵来得到公共空间特征的最有效特征表示。对于多通道图像和单通道图像，设置两个随机矩阵W1和W2，随机初始化W1和W2分别作为多通道和单通道图像待优化的稀疏矩阵，根据输出图像特征维度设定待优化稀疏矩阵的维度；W1和W2的维度为2048*2048。

S302、特征转移模块由两个模态转移矩阵组成，每一种模态图像对应一个模态转移矩阵：W_m对应于多通道图像，多通道图像记为MSP；W_p对应于单通道图像，单通道图像记为PAN。MSP图像经过W_m可以获得PAN图像的特征表征，PAN图像经过W_p经过W_p可以获得MSP图像的特征表征。单通道和多通道特征由稀疏学习模块得到的公共空间特征和转移后的特异特征级联后的特征表示。

损失函数为Cross-Entropy交叉熵损失函数和Triplet-loss三原组损失，该损失函数先将实际标签从原始类别索引转换成one-hot编码，再对预测类标进行 softmax计算，最后再计算交叉熵作为loss值，交叉熵计算公式如下：

H_y'(y)＝-∑y'logy

三元组损失如下：

其中，y'为训练集的实际类标，y为训练集预测的标签值，log为以10为底的对数操作；L_Triplet表示三元组的损失，目的是为了使anchor和正例的距离越来越近，anchor和负例的距离越来越远，代表作为anchor的一个模态的特征及另一个模态的的正例与负例，F_t是通过网络训练得到的特征，α表示正样本对和负样本对之间的约束，通过不断优化使损失达到最小，就能使得网络得到最优。

S401、将特异特征和公共空间特征提取卷积网络的输出作为稀疏学习模块的输入，将稀疏学习模块的输出作为中间层的特征表示，将中间层特征表示输入特异特征转移模块，将特异特征转移模块的输出级联中间层的特征表示作为图像的最终特征表示。

S402、使用Adam优化算法，迭代地更新网络权重值，直到损失函数收敛，得到训练好的特征提取网络，稀疏学习矩阵和特异特征转移网络，如图2所示。

S501、多通道检索单通道图像：将每幅待检索的多通道图像resize成256×256 大小，再将每幅图像除以255.0进行归一化处理后输入到训练好的多通道特异特征，公共空间特征提取网络以及稀疏学习模块提取到公共空间的特征，然后级联通过特异特征转移网络的转移特征，得到待检索图像的特征表示。

类似的，对于单通道检索图像库，得到最后的特征表示。通过计算带检索图像和检索图像库中的特征的欧几里得距离，距离越近代表相似程度越高，按照距离从小到大排序，得到检索得到的图像。

S502、单通道检索多通道图像：将每幅待检索的单通道图像resize成256×256 大小，再将每幅图像除以255.0进行归一化处理后输入到训练好的单通道特异特征，公共空间特征提取网络以及稀疏学习模块提取到公共空间的特征，将此特征级联通过特异特征转移网络的转移特征，得到待检索图像的特征表示。

请参阅图3，是一个残差快，也是组成网络的基本模块，在保护信息完整性的同时，不会增加信息复杂度，同时还可以有效解决过拟合问题。

请参阅图4，对整个本发明的工作步骤做进一步的描述。

将训练集的图片分别输入到构建好的特征提取卷积网络，将输出特征输入稀疏学习模块得到公共空间的有效特征表示。将特异特征模块提取的特异特征，输入特异特征转移模块得到包含对方模态样本的信息表示。然后将公共空间的特征表示级联转移模块的输出特征，作为样本最后的特征表示。

本发明再一个实施例中，提供一种跨源图像检索系统，该系统能够用于实现上述跨源图像检索，具体的，该跨源图像检索系统包括数据模块、网络模块、学习转移模块、训练模块以及检索模块。

其中，数据模块，用于生成训练集；

网络模块，将数据模块的训练集输入构建的公共空间特征和特异特征提取模块，得到两种模态图像公共空间特征和特异空间特征；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital SignalProcessor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于跨源图像检索的操作，包括：

生成训练集；将训练集输入构建的特异特征和公共空间空间特征提取模块，得到两种模态图像公共空间特征和特异空间特征；对公共空间特征提取模块输出的公共空间特征进行稀疏学习，对特异特征提取模块输出的特异特征进行特异特征转移；对稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束，训练稀疏学习模块和特异特征转移模块；利用训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作，然后作为图像的最后特征表示，进行跨源检索工作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器 (non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关跨源图像检索方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

下面结合仿真实验对本发明的效果做进一步的描述。

1.仿真条件：

本发明的仿真实验的硬件平台为：CPU为Intel(R)Core(TM)i7-8700X，主频为3.2GHz，内存64GB，GPU为NVIDIA 1080Ti。

本发明的仿真实验的软件平台为：Linux操作系统和python3.6。

2.仿真内容与结果分析：

本发明的仿真实验是采用本发明和三个现有技术(基于深度哈希学习方法，基于蒸馏学习的协同优化方法，基于公共空间学习的跨源检索方法)使用训练图像对特征提取网络，系数学习模块和特异特征转移模块进行训练。使用训练好的模型提取最后特征进行检索工作。

本发明仿真实验所使用的训练图像和待分割图像均为“Learning Source-Invariant Deep Hashing Convolutional Nerual Network for Cross-Source RemoteSensing Image Retrieval”发布的双源图像数据集。该航拍图像数据集采集自八个地区，八类图像包括农场，云，森林，高楼，矮楼，田地，河流，水域。每一个场景对应两类图像，即两种模态的图像。单通道图像大小为256×256，空间分辨率为2米；多通道图像大小为64×64，空间分辨率为8米。

在仿真实验中，采用的三个现有技术是指：

基于深度哈希学习方法是指Yansheng Li等人在其发表的论文“LearningSource-Invariant Deep Hashing Convolutional Nerual Network for Cross-SourceRemote Sensing Image Retrieval”(TGARS 2018)”中提出的跨源图像检索方法，该方法使用哈希学习的方法生成投射到公共空间的哈希码进行检索工作。

基于蒸馏学习的协同优化方法是指，WeiXiong等人在其发表的论文“ADiscriminative Distillation Network for Cross-Source Remote Sensing ImageRetrieval”(IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS ANDREMOTE SENSING，2020)中提出的基于蒸馏学习进行协同优化训练网络的方法。

基于公共空间学习的跨源检索方法是指，Ushasi Chaudhuri等人在在其发表的论文“CMIR-NET:A Deep Learning Based Model For Cross-ModalRetrieval In RemoteSensing”(TGARS，2020)中提出的通过学习公共空间的特征表示方法。

利用两个评价指标(AP，MAP)分别对四种方法对获得的。利用下面公式， AP，MAP，将计算结果绘制成表1：

其中，m为样本总数，_ni为与检索图像相关的图像。

表1中的“本发明”代表本发明提出的方法，“SIDHCNN”代表Yansheng Li 等人提出的基于蒸馏学习进行协同优化训练网络的方法，“Distillation”代表 WeiXiong等提出的基于蒸馏学习进行协同优化训练网络的方法，“CMIR-NET” Ushasi Chaudhuri等人提出的通过学习公共空间的特征表示方法。

表1本发明与现有跨模态模型性能评价表

结合表1可以看出，本发明的多通道检索单通道的AP为98.99％，单通道检索多通道的AP为98.33％；多通道检索单通道的MAP为98.62％，单通道检索多通道的MAP为98.56％。这两个指标均高于IDHCNN和Distillation_50，与 CMIR-NET比较中，对于PAN->MUL检索任务，超过此方法3％，在MUL->PAN 检索任务中，与CMIR-NET持平，证明本发明可以得到更稳定的检索精度。

以上仿真实验表明：本发明方法利用搭建的特异，公共空间特征模块能够有效的提取特征。使用稀疏学习的模块能够更好的提取到共享层输出特征的有效信息。使用特异特征转移模块，能够有效地利用特异特征的信息，补充共享层输出特征的特异性，从而更好地表示图像特征。解决了现有技术方法提取公共空间特征会存在冗余信息的问题，未考虑到特异特征对样本特征表示的重要性。实验证明，本发明是一种非常实用的跨模态检索方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种跨源图像检索方法，其特征在于，包括以下步骤：

S1、生成训练集；

2.根据权利要求1所述的方法，其特征在于，步骤S1中，将单通道数据复制四份，变成四通道数据，多通道数据resize成224×224；再将每个像素点除以255.0进行归一化处理后组成训练集，训练集分为多通道图像和单通道图像两份。

3.根据权利要求1所述的方法，其特征在于，步骤S2具体为：搭建两个特异特征提取卷积网络和一个公共空间特征提取卷积网络；设置全局和多尺度全卷积网络的参数，第一层卷积核大小为1×1，步长为1；第二层卷积核大小为3×3，步长为1；第三层卷积核大小为1×1，步长为1；输出层使用2D的(2，2)平均池化；全连接层使用一个softmax激活函数将输入降低到类别数；Resnet50的网络参数中第一、二、三、四、五卷积模块的输入的特征映射图依次设置为3、64、64、128、512个，输出的特征映射图依次设置为64、64、128、512、2048个。

4.根据权利要求3所述的方法，其特征在于，搭建两个特异特征提取卷积网络和一个公共空间特征提取卷积网络具体为：

提取多通道图像特异特征网络和提取单通道图像特异特征网络参数不共享，提取公共空间特征网络参数共享；并且conv1→conv2_x→conv3_x→conv4_x→conv5_x构成Resnet50模型，公共空间特征网络的输入为两个特异特征网络的输出，Resnet50模型中第一层卷积核大小为1×1，步长为1，第二层卷积核大小为3×3，步长为1，第三层卷积核大小为1×1，步长为1，输出层使用2D的(2,2)平均池化；全连接层使用一个softmax激活函数将输入降低到类别数；

conv2_x：有三个block组成，每个block里包含三个卷积；

conv3_x：有四个block组成，每个block里包含三个卷积；

conv4_x：有六个block组成，每个block里包含三个卷积；

conv5_x：有三个block组成，每个block里包含三个卷积；

conv2_x,conv3_x,conv4_x,conv5_x包含的block为：第一层卷积→BN层→ReLU激活函数→第二层卷积→BN层→ReLU激活函数→第三层卷积→BN层→ReLU激活函数；

5.根据权利要求1所述的方法，其特征在于，步骤S3具体为：

稀疏学习通过学习两个稀疏矩阵来得到公共空间特征的最有效特征表示；对于多通道图像和单通道图像，设置两个随机矩阵W1和W2，随机初始化W1和W2分别作为多通道和单通道图像待优化的稀疏矩阵，根据输出图像特征维度设定待优化稀疏矩阵的维度；W1和W2的维度为2048*2048；

特征转移包括两个模态转移矩阵，每一种模态图像对应一个模态转移矩阵：W_m对应多通道图像，多通道图像记为MSP；W_p对应单通道图像，单通道图像记为PAN；MSP图像经过W_m获得PAN图像的特征表征，PAN图像经过W_p经过W_p获得MSP图像的特征表征；单通道和多通道特征由稀疏学习模块得到的公共空间特征和转移后的特异特征级联后的特征表示；

损失函数为Cross-Entropy交叉熵损失函数和Triplet-loss三元组损失，损失函数先将实际标签从原始类别索引转换成one-hot编码，再对预测类标进行softmax计算，最后再计算交叉熵作为loss值。

6.根据权利要求1所述的方法，其特征在于，步骤S4具体为：

7.根据权利要求1所述的方法，其特征在于，步骤S5中，跨源检索工作包括多通道检索单通道图像和单通道检索多通道图像，多通道检索单通道图像具体为：将每幅待检索的多通道图像resize成224×224，再将每幅图像除以255.0进行归一化处理后输入到训练好的多通道特异特征，公共空间特征提取网络以及稀疏学习模块提取到公共空间的特征，然后级联通过特异特征转移网络的转移特征，得到待检索图像的特征表示；对于单通道检索图像库，得到最后的特征表示；通过计算带检索图像和检索图像库中的特征的欧几里得距离，按照距离从小到大排序，得到检索的图像；

单通道检索多通道图像具体为：将每幅待检索的单通道图像resize成224×224，再将每幅图像除以255.0进行归一化处理后输入到训练好的单通道特异特征，公共空间特征提取网络以及稀疏学习提取到公共空间的特征，将此特征级联通过特异特征转移网络的转移特征，得到待检索图像的特征表示，对于单通道检索图像库，得到最后的特征表示，通过计算带检索图像和检索图像库中的特征的欧几里得距离，按照距离从小到大排序，得到检索的图像。

8.一种跨源图像检索系统，其特征在于，包括：

数据模块，用于生成训练集；

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至7所述的方法中的任一方法。

10.一种计算设备，其特征在于，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至7所述的方法中的任一方法的指令。