CN112860935A - 一种跨源图像检索方法、系统、介质及设备 - Google Patents

一种跨源图像检索方法、系统、介质及设备 Download PDF

Info

Publication number
CN112860935A
CN112860935A CN202110137096.6A CN202110137096A CN112860935A CN 112860935 A CN112860935 A CN 112860935A CN 202110137096 A CN202110137096 A CN 202110137096A CN 112860935 A CN112860935 A CN 112860935A
Authority
CN
China
Prior art keywords
image
module
output
specific
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110137096.6A
Other languages
English (en)
Other versions
CN112860935B (zh
Inventor
马晶晶
史端鹏
唐旭
焦李成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110137096.6A priority Critical patent/CN112860935B/zh
Publication of CN112860935A publication Critical patent/CN112860935A/zh
Application granted granted Critical
Publication of CN112860935B publication Critical patent/CN112860935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种跨源图像检索方法、系统、介质及设备,生成训练集;将训练集输入构建的特异特征和公共空间特征提取模块,得到两种模态图像公共空间特征和特异空间特征;对公共空间特征提取模块输出的公共空间特征进行稀疏学习,对特异特征提取模块输出的特异特征进行特异特征转移;对稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束,训练稀疏学习模块和特异特征转移模块;利用训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。本发明增强了图像的特征表示,使得图像获得更具鲁棒性的特征,从而提升检索效果。

Description

一种跨源图像检索方法、系统、介质及设备
技术领域
本发明属于图像处理技术领域,具体涉及一种跨源图像检索方法、系统、介 质及设备。
背景技术
随着科技的不断发展,对于遥感图像的获得技术更加多样,从无人机拍摄到 卫星技术,得到的数据内容也变得更加复杂多样。不同技术所获得的遥感图像产 生的数据,分辨率,图像通道数等方面可能不同,也称其为不同源域的数据或异 构信息。对遥感图像的跨源检索,即检索图像和待检索的图像属于不同模态。图 像的跨源检索,能充分使不同分布的数据交互。然而由于不同源域的数据分布不 同,如何使得异构信息相互之间进行有效的检索,成为一个巨大的挑战。
现有方法因为在没有考虑到去除投射到公共空间的特征的冗余信息,所以异 构图像被投射到公共空间的特征会存在大量冗余信息,从而会导致检索结果较 差;或仅考虑了使老师网络和学生网络在共享层,通过使用监督信息的约束进行 优化,但是没有考虑到在共享层的输出特征可能会存在信息冗余,从而影响优化 效果。只考虑到将不同源域的图像投射到同一个空间,但是没有考虑到特异特征 对检索任务能够起到促进作用,造成检索结果不是特别理想。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种跨源 图像检索方法、系统、介质及设备,可用于对于两种甚至多种源域遥感图像的检 索任务。
本发明采用以下技术方案:
一种跨源图像检索方法,包括以下步骤:
S1、生成训练集;
S2、将步骤S1构造的训练集输入构建的公共空间特征和特异特征提取模块, 得到两种源域模态图像公共空间特征和特异特征;
S3、对步骤S2公共空间提取模块输出的公共空间特征进行稀疏学习,对特 异特征提取模块输出的特异特征进行特异特征转移;
S4、对步骤S3稀疏学习模块输出特征和特异特征转移模块输出的特征进行 损失函数的约束,训练稀疏学习模块和特异特征转移模块;
S5、利用步骤S4训练好的稀疏学习模块的输出特征和特异特征转移模块输 出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。
具体的,步骤S1中,将单通道数据复制四份,变成四通道数据,多通道数据 resize成224×224;再将每个像素点除以255.0进行归一化处理后组成训练集,训练 集分为多通道图像和单通道图像两份。
具体的,步骤S2具体为:搭建两个特异特征提取卷积网络和一个公共空间特 征提取卷积网络;设置全局和多尺度全卷积网络的参数,第一层卷积核大小为 1×1,步长为1;第二层卷积核大小为3×3,步长为1;第三层卷积核大小为1×1, 步长为1;输出层使用2D的(2,2)平均池化;全连接层使用一个softmax激活函数 将输入降低到类别数;Resnet50的网络参数中第一、二、三、四、五卷积模块的 输入的特征映射图依次设置为3、64、64、128、512个,输出的特征映射图依次 设置为64、64、128、512、2048个。
进一步的,搭建两个特异特征提取卷积网络和一个公共空间特征提取卷积网 络具体为:
提取多通道图像特异特征网络:输入层→conv1→conv2_x→conv3_x→输出 层;
提取单通道图像特异特征网络:输入层→conv1→conv2_x→conv3_x→输出 层;
提取单通道和多通道公共空间特征网络:输入层→conv4_x→conv5_x→输出 层;
提取多通道图像特异特征网络和提取单通道图像特异特征网络参数不共享, 提取公共空间特征网络参数共享;并且conv1→conv2_x→conv3_x→conv4_x→ conv5_x构成Resnet50模型,公共空间特征网络的输入为两个特异特征网络的输 出,Resnet50模型中第一层卷积核大小为1×1,步长为1,第二层卷积核大小为 3×3,步长为1,第三层卷积核大小为1×1,步长为1,输出层使用2D的(2,2) 平均池化;全连接层使用一个softmax激活函数将输入降低到类别数;
conv1:由一个卷积层组成,卷积核大小为7×7,步长为2,卷积输出通道为64;
conv2_x:有三个block组成,每个block里包含三个卷积;
conv3_x:有四个block组成,每个block里包含三个卷积;
conv4_x:有六个block组成,每个block里包含三个卷积;
conv5_x:有三个block组成,每个block里包含三个卷积;
conv2_x,conv3_x,conv4_x,conv5_x包含的block为:第一层卷积→BN层 →ReLU激活函数→第二层卷积→BN层→ReLU激活函数→第三层卷积→BN层 →ReLU激活函数;
当输入block和输出block的数据维度是相同的时候,输入block数据可以和输 出block数据直接相加;如果维度不同,增加一个conv2d layer使得输入block数据 和输出block数据直接相加;
输出层由平均池化层和全连接层构成,平均池化层的输出作为图像的特征, 全连接的输出作为分类所需的预测值。
具体的,步骤S3具体为:
稀疏学习通过学习两个稀疏矩阵来得到公共空间特征的最有效特征表示;对 于多通道图像和单通道图像,设置两个随机矩阵W1和W2,随机初始化W1和 W2分别作为多通道和单通道图像待优化的稀疏矩阵,根据输出图像特征维度设 定待优化稀疏矩阵的维度;W1和W2的维度为2048*2048;
特征转移包括两个模态转移矩阵,每一种模态图像对应一个模态转移矩阵: W_m对应多通道图像,多通道图像记为MSP;W_p对应单通道图像,单通道图 像记为PAN;MSP图像经过W_m获得PAN图像的特征表征,PAN图像经过 W_p经过W_p获得MSP图像的特征表征;单通道和多通道特征由稀疏学习模块 得到的公共空间特征和转移后的特异特征级联后的特征表示;
损失函数为Cross-Entropy交叉熵损失函数和Triplet-loss三元组损失,损失 函数先将实际标签从原始类别索引转换成one-hot编码,再对预测类标进行 softmax计算,最后再计算交叉熵作为loss值。
具体的,步骤S4具体为:
S401、将特异特征和公共空间特征提取卷积网络的输出作为稀疏学习的输 入,将稀疏学习的输出作为中间层的特征表示,将中间层特征表示输入特异特征 转移模块,将特异特征转移的输出级联中间层的特征表示作为图像的最终特征表 示;
S402、使用Adam优化算法迭代地更新网络权重值,直到损失函数收敛,得 到训练好的特异特征和公共空间特征提取卷积网络,稀疏学习矩阵和特异特征转 移网络。
具体的,步骤S5中,跨源检索工作包括多通道检索单通道图像和单通道检 索多通道图像,多通道检索单通道图像具体为:将每幅待检索的多通道图像resize 成224×224,再将每幅图像除以255.0进行归一化处理后输入到训练好的多通道 特异特征,公共空间特征提取网络以及稀疏学习模块提取到公共空间的特征,然 后级联通过特异特征转移网络的转移特征,得到待检索图像的特征表示;对于单 通道检索图像库,得到最后的特征表示;通过计算带检索图像和检索图像库中的 特征的欧几里得距离,按照距离从小到大排序,得到检索的图像;
单通道检索多通道图像具体为:将每幅待检索的单通道图像resize成 224×224,再将每幅图像除以255.0进行归一化处理后输入到训练好的单通道特 异特征,公共空间特征提取网络以及稀疏学习提取到公共空间的特征,将此特征 级联通过特异特征转移网络的转移特征,得到待检索图像的特征表示,对于单通 道检索图像库,得到最后的特征表示,通过计算带检索图像和检索图像库中的特 征的欧几里得距离,按照距离从小到大排序,得到检索的图像。
本发明的另一个技术方案是,一种跨源图像检索系统,包括:
数据模块,用于生成训练集;
网络模块,将数据模块的训练集输入构建的共享空间特征和特异特征提取模 块,得到两种源域图像公共空间特征和特异特征;
学习转移模块,对网络模块公共空间特征提取模块输出的公共空间特征进行 稀疏学习,对特异特征提取模块输出的特异特征进行特异特征转移;
训练模块,对学习转移模块稀疏学习模块输出特征和特异特征转移模块输出 的特征进行损失函数的约束,训练稀疏学习模块和特异特征转移模块;
检索模块,利用训练模块训练好的稀疏学习模块的输出特征和特异特征转移 模块输出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。
本发明的另一个技术方案是,一种存储一个或多个程序的计算机可读存储介 质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计 算设备执行所述的方法中的任一方法。
本发明的另一个技术方案是,一种计算设备,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在 所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括 用于执行所述的方法中的任一方法的指令。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种跨源图像检索方法,通过从公共特征空间和特异特征空间两方面 出发,更好的对图像特征进行优化。对于公共特征空间,通过对特征的稀疏学习, 祛除冗余信息得到更为有效的图像特征表示;通过特异特征转移模块,可以得到 模态特征之间的互相表征。最后级联公共空间特征和特异特征模块转移特征,作 为图像的最终特征,从而提高图像检索的效果。
进一步的,步骤S1通过构造训练集作为网络输入,并且作为检索过程的待 检索集。
进一步的,步骤S2通过参数共享的网络来提取公共空间的MSP和PAN图 像特征;通过不共享参数网络提取MSP和PAN图像的特异特征,作为步骤S3 模态转移模块的输入。
进一步的,共享参数网络能够提取MSP和PAN两种模态图像的公共空间特 征,在同一空间中,图像特征才可以进行相似度度量,并基于此来进行损失函数 的约束;通过不共享参数网络提取MSP和PAN图像的特异特征,作为步骤S3 模态转移模块的输入,在特异空间通过模态转移模块后的特征,进行损失函数的 约束。
进一步的,使用稀疏学习,能够祛除公共空间MSP和PAN图像特征的冗余 信息,从而得到更为有效的图像特征表示;基于MSP的特异特征能够由同类的 PAN特异特征表征这一想法,通过构造模态转移矩阵,使得MSP图像的特异特 征能够由同类的PAN图像的特异特征表征,PAN图像的特异特征能够由同类的 MSP图像的特异特征表征,在特异空间使用损失函数来学习两种模态的特征表 示。
进一步的,使用三元组损失函数来跟别约束由步骤S3输出的公共空间稀疏 特征和特异特征模态转移特征,从而能够在公共空间和特异空间分别得到图像的 特征表征。
进一步的,使用公共空间稀疏特征和特异空间转移特征作为图像的最终特征 表示,进行图像检索过程。
综上所述,本发明通过级联公共空间的有效信息和特异空间的图像模态转移 特征作为图像的特征表示,增强了图像的特征表示,使得图像获得更具鲁棒性的 特征,从而提升检索效果。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的流程图;
图2为本发明的特征提取网络主要构成部分示意图;
图3为特征提取网络的一个block结构示意图;
图4为本发明的主要框架示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的 实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前 提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包 含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一 个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的 目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那 样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该” 意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包 括这些组合。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按 比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些 细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是 示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人 员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明提供了一种跨源图像检索方法,利用稀疏学习模块提取公共空间图像 的有效表示,并利用到了特异特征的补充,使得图像的表示更为完整,具有特异 性,检索精度高,鲁棒性强。
请参阅图1,本发明一种跨源图像检索方法,提取不同源域的有效信息,并 通过监督信息的约束将不同源域的特征映射到同一特征空间。利用特异特征转移 网络进行特征转移,将公共空间特征和转移的特征作为最后的图像特征进行跨源 图像检索工作;包括以下步骤:
S1、生成训练集;
S101、将单通道数据复制四份,变成四通道数据,多通道数据resize成256×256大小;
S102、将每个像素点除以255.0进行归一化处理后组成训练集,训练集分为 多通道图像和单通道图像两份;
S2、将步骤S1构造的训练集输入构建的特异特征和公共空间特征提取模块, 得到两种模态图像公共空间特征和特异空间特征;
S201、搭建两个特异特征提取卷积网络和一个公共空间特征提取卷积网络;
提取多通道图像特异特征网络:输入层→conv1→conv2_x→conv3_x→输出 层;
提取单通道图像特异特征网络:输入层→conv1→conv2_x→conv3_x→输出 层;
提取单通道和多通道公共空间特征网络:输入层→conv4_x→conv5_x→输出 层;
上述提取多通道图像特异特征网络和提取单通道图像特异特征网络参数不 共享,提取公共空间特征网络参数共享。并且conv1→conv2_x→conv3_x→ conv4_x→conv5_x构成Resnet50模型,公共空间特征网络的输入为两个特异特 征网络的输出,Resnet50模型中第一层卷积核大小为1×1,步长为1,第二层卷 积核大小为3×3,步长为1,第三层卷积核大小为1×1,步长为1,输出层使用 2D的(2,2)平均池化;全连接层使用一个softmax激活函数将输入降低到类别数。
conv1:由一个卷积层组成,卷积核大小为7×7,步长为2,卷积输出通道为64;
conv2_x:有三个block组成,每个block里包含三个卷积;
conv3_x:有四个block组成,每个block里包含三个卷积;
conv4_x:有六个block组成,每个block里包含三个卷积;
conv5_x:有三个block组成,每个block里包含三个卷积;
conv2_x,conv3_x,conv4_x,conv5_x包含的block为:第一层卷积→BN层 →ReLU激活函数→第二层卷积→BN层→ReLU激活函数→第三层卷积→BN层 →ReLU激活函数。
另,当输入block和输出block的数据维度是相同的时候,输入block数据可以 和输出block数据直接相加;如果维度不同时,需要增加一个conv2d layer使得输 入block数据和输出block数据可以直接相加。
输出层由平均池化层和全连接层构成,平均池化层的输出作为图像的特征, 全连接的输出作为分类所需的预测值。
S202、设置全局和多尺度全卷积网络的参数如下:
第一层卷积核大小为1×1,步长为1;
第二层卷积核大小为3×3,步长为1;
第三层卷积核大小为1×1,步长为1;
输出层使用2D的(2,2)平均池化;全连接层使用一个softmax激活函数将输入 降低到类别数;
Resnet50的网络参数中第一、二、三、四、五卷积模块的输入的特征映射图 依次设置为3、64、64、128、512个,输出的特征映射图依次设置为64、64、128、 512、2048个。
S3、对步骤S2公共空间特征提取模块输出的公共空间特征进行稀疏学习, 对特异特征提取模块输出的特异特征进行特异特征转移;
S301、请参阅图4,稀疏学习通过学习两个稀疏矩阵来得到公共空间特征的 最有效特征表示。对于多通道图像和单通道图像,设置两个随机矩阵W1和W2, 随机初始化W1和W2分别作为多通道和单通道图像待优化的稀疏矩阵,根据输 出图像特征维度设定待优化稀疏矩阵的维度;W1和W2的维度为2048*2048。
S302、特征转移模块由两个模态转移矩阵组成,每一种模态图像对应一个模 态转移矩阵:W_m对应于多通道图像,多通道图像记为MSP;W_p对应于单通 道图像,单通道图像记为PAN。MSP图像经过W_m可以获得PAN图像的特征 表征,PAN图像经过W_p经过W_p可以获得MSP图像的特征表征。单通道和 多通道特征由稀疏学习模块得到的公共空间特征和转移后的特异特征级联后的 特征表示。
损失函数为Cross-Entropy交叉熵损失函数和Triplet-loss三原组损失,该损 失函数先将实际标签从原始类别索引转换成one-hot编码,再对预测类标进行 softmax计算,最后再计算交叉熵作为loss值,交叉熵计算公式如下:
Hy'(y)=-∑y'logy
三元组损失如下:
Figure RE-GDA0003012242550000101
其中,y'为训练集的实际类标,y为训练集预测的标签值,log为以10为底 的对数操作;LTriplet表示三元组的损失,目的是为了使anchor和正例的距离越来越 近,anchor和负例的距离越来越远,代表作为anchor的一个模态的特征及另一个 模态的的正例与负例,Ft是通过网络训练得到的特征,α表示正样本对和负样本 对之间的约束,通过不断优化使损失达到最小,就能使得网络得到最优。
S4、对步骤S3稀疏学习模块输出特征和特异特征转移模块输出的特征进行 损失函数的约束,训练稀疏学习模块和特异特征转移模块;
S401、将特异特征和公共空间特征提取卷积网络的输出作为稀疏学习模块的 输入,将稀疏学习模块的输出作为中间层的特征表示,将中间层特征表示输入特 异特征转移模块,将特异特征转移模块的输出级联中间层的特征表示作为图像的 最终特征表示。
S402、使用Adam优化算法,迭代地更新网络权重值,直到损失函数收敛, 得到训练好的特征提取网络,稀疏学习矩阵和特异特征转移网络,如图2所示。
S5、利用步骤S4训练好的稀疏学习模块的输出特征和特异特征转移模块输 出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。
S501、多通道检索单通道图像:将每幅待检索的多通道图像resize成256×256 大小,再将每幅图像除以255.0进行归一化处理后输入到训练好的多通道特异特 征,公共空间特征提取网络以及稀疏学习模块提取到公共空间的特征,然后级联 通过特异特征转移网络的转移特征,得到待检索图像的特征表示。
类似的,对于单通道检索图像库,得到最后的特征表示。通过计算带检索图 像和检索图像库中的特征的欧几里得距离,距离越近代表相似程度越高,按照距 离从小到大排序,得到检索得到的图像。
S502、单通道检索多通道图像:将每幅待检索的单通道图像resize成256×256 大小,再将每幅图像除以255.0进行归一化处理后输入到训练好的单通道特异特 征,公共空间特征提取网络以及稀疏学习模块提取到公共空间的特征,将此特征 级联通过特异特征转移网络的转移特征,得到待检索图像的特征表示。
类似的,对于单通道检索图像库,得到最后的特征表示。通过计算带检索图 像和检索图像库中的特征的欧几里得距离,距离越近代表相似程度越高,按照距 离从小到大排序,得到检索得到的图像。
请参阅图3,是一个残差快,也是组成网络的基本模块,在保护信息完整性 的同时,不会增加信息复杂度,同时还可以有效解决过拟合问题。
请参阅图4,对整个本发明的工作步骤做进一步的描述。
将训练集的图片分别输入到构建好的特征提取卷积网络,将输出特征输入稀 疏学习模块得到公共空间的有效特征表示。将特异特征模块提取的特异特征,输 入特异特征转移模块得到包含对方模态样本的信息表示。然后将公共空间的特征 表示级联转移模块的输出特征,作为样本最后的特征表示。
本发明再一个实施例中,提供一种跨源图像检索系统,该系统能够用于实现 上述跨源图像检索,具体的,该跨源图像检索系统包括数据模块、网络模块、学 习转移模块、训练模块以及检索模块。
其中,数据模块,用于生成训练集;
网络模块,将数据模块的训练集输入构建的公共空间特征和特异特征提取模 块,得到两种模态图像公共空间特征和特异空间特征;
学习转移模块,对网络模块公共空间特征提取模块输出的公共空间特征进行 稀疏学习,对特异特征提取模块输出的特异特征进行特异特征转移;
训练模块,对学习转移模块稀疏学习模块输出特征和特异特征转移模块输出 的特征进行损失函数的约束,训练稀疏学习模块和特异特征转移模块;
检索模块,利用训练模块训练好的稀疏学习模块的输出特征和特异特征转移 模块输出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及 存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述 处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单 元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital SignalProcessor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者 其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端 的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执 行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的 处理器可以用于跨源图像检索的操作,包括:
生成训练集;将训练集输入构建的特异特征和公共空间空间特征提取模块, 得到两种模态图像公共空间特征和特异空间特征;对公共空间特征提取模块输出 的公共空间特征进行稀疏学习,对特异特征提取模块输出的特异特征进行特异特 征转移;对稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数 的约束,训练稀疏学习模块和特异特征转移模块;利用训练好的稀疏学习模块的 输出特征和特异特征转移模块输出特征进行级联操作,然后作为图像的最后特征 表示,进行跨源检索工作。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读 存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于 存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设 备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机 可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存 储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令 可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的 计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器 (non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令, 以实现上述实施例中有关跨源图像检索方法的相应步骤;计算机可读存储介质中 的一条或一条以上指令由处理器加载并执行如下步骤:
生成训练集;将训练集输入构建的特异特征和公共空间空间特征提取模块, 得到两种模态图像公共空间特征和特异空间特征;对公共空间特征提取模块输出 的公共空间特征进行稀疏学习,对特异特征提取模块输出的特异特征进行特异特 征转移;对稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数 的约束,训练稀疏学习模块和特异特征转移模块;利用训练好的稀疏学习模块的 输出特征和特异特征转移模块输出特征进行级联操作,然后作为图像的最后特征 表示,进行跨源检索工作。
下面结合仿真实验对本发明的效果做进一步的描述。
1.仿真条件:
本发明的仿真实验的硬件平台为:CPU为Intel(R)Core(TM)i7-8700X,主 频为3.2GHz,内存64GB,GPU为NVIDIA 1080Ti。
本发明的仿真实验的软件平台为:Linux操作系统和python3.6。
2.仿真内容与结果分析:
本发明的仿真实验是采用本发明和三个现有技术(基于深度哈希学习方法, 基于蒸馏学习的协同优化方法,基于公共空间学习的跨源检索方法)使用训练图 像对特征提取网络,系数学习模块和特异特征转移模块进行训练。使用训练好的 模型提取最后特征进行检索工作。
本发明仿真实验所使用的训练图像和待分割图像均为“Learning Source-Invariant Deep Hashing Convolutional Nerual Network for Cross-Source RemoteSensing Image Retrieval”发布的双源图像数据集。该航拍图像数据集采集 自八个地区,八类图像包括农场,云,森林,高楼,矮楼,田地,河流,水域。 每一个场景对应两类图像,即两种模态的图像。单通道图像大小为256×256,空 间分辨率为2米;多通道图像大小为64×64,空间分辨率为8米。
在仿真实验中,采用的三个现有技术是指:
基于深度哈希学习方法是指Yansheng Li等人在其发表的论文“LearningSource-Invariant Deep Hashing Convolutional Nerual Network for Cross-SourceRemote Sensing Image Retrieval”(TGARS 2018)”中提出的跨源图像检索方法,该 方法使用哈希学习的方法生成投射到公共空间的哈希码进行检索工作。
基于蒸馏学习的协同优化方法是指,WeiXiong等人在其发表的论文“ADiscriminative Distillation Network for Cross-Source Remote Sensing ImageRetrieval”(IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS ANDREMOTE SENSING,2020)中提出的基于蒸馏学习进行 协同优化训练网络的方法。
基于公共空间学习的跨源检索方法是指,Ushasi Chaudhuri等人在在其发表 的论文“CMIR-NET:A Deep Learning Based Model For Cross-ModalRetrieval In RemoteSensing”(TGARS,2020)中提出的通过学习公共空间的特征表示方法。
利用两个评价指标(AP,MAP)分别对四种方法对获得的。利用下面公式, AP,MAP,将计算结果绘制成表1:
Figure BDA0002927383970000171
Figure BDA0002927383970000172
其中,m为样本总数,ni为与检索图像相关的图像。
表1中的“本发明”代表本发明提出的方法,“SIDHCNN”代表Yansheng Li 等人提出的基于蒸馏学习进行协同优化训练网络的方法,“Distillation”代表 WeiXiong等提出的基于蒸馏学习进行协同优化训练网络的方法,“CMIR-NET” Ushasi Chaudhuri等人提出的通过学习公共空间的特征表示方法。
表1本发明与现有跨模态模型性能评价表
Figure BDA0002927383970000173
Figure BDA0002927383970000181
结合表1可以看出,本发明的多通道检索单通道的AP为98.99%,单通道检 索多通道的AP为98.33%;多通道检索单通道的MAP为98.62%,单通道检索多 通道的MAP为98.56%。这两个指标均高于IDHCNN和Distillation_50,与 CMIR-NET比较中,对于PAN->MUL检索任务,超过此方法3%,在MUL->PAN 检索任务中,与CMIR-NET持平,证明本发明可以得到更稳定的检索精度。
以上仿真实验表明:本发明方法利用搭建的特异,公共空间特征模块能够有 效的提取特征。使用稀疏学习的模块能够更好的提取到共享层输出特征的有效信 息。使用特异特征转移模块,能够有效地利用特异特征的信息,补充共享层输出 特征的特异性,从而更好地表示图像特征。解决了现有技术方法提取公共空间特 征会存在冗余信息的问题,未考虑到特异特征对样本特征表示的重要性。实验证 明,本发明是一种非常实用的跨模态检索方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算 机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软 件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计 算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、 光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品 的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或 方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框 的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机 或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可 编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备 以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指 令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得 在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从 而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或 多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡 是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发 明权利要求书的保护范围之内。

Claims (10)

1.一种跨源图像检索方法,其特征在于,包括以下步骤:
S1、生成训练集;
S2、将步骤S1构造的训练集输入构建的公共空间特征和特异特征提取模块,得到两种源域模态图像公共空间特征和特异特征;
S3、对步骤S2公共空间提取模块输出的公共空间特征进行稀疏学习,对特异特征提取模块输出的特异特征进行特异特征转移;
S4、对步骤S3稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束,训练稀疏学习模块和特异特征转移模块;
S5、利用步骤S4训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,将单通道数据复制四份,变成四通道数据,多通道数据resize成224×224;再将每个像素点除以255.0进行归一化处理后组成训练集,训练集分为多通道图像和单通道图像两份。
3.根据权利要求1所述的方法,其特征在于,步骤S2具体为:搭建两个特异特征提取卷积网络和一个公共空间特征提取卷积网络;设置全局和多尺度全卷积网络的参数,第一层卷积核大小为1×1,步长为1;第二层卷积核大小为3×3,步长为1;第三层卷积核大小为1×1,步长为1;输出层使用2D的(2,2)平均池化;全连接层使用一个softmax激活函数将输入降低到类别数;Resnet50的网络参数中第一、二、三、四、五卷积模块的输入的特征映射图依次设置为3、64、64、128、512个,输出的特征映射图依次设置为64、64、128、512、2048个。
4.根据权利要求3所述的方法,其特征在于,搭建两个特异特征提取卷积网络和一个公共空间特征提取卷积网络具体为:
提取多通道图像特异特征网络:输入层→conv1→conv2_x→conv3_x→输出层;
提取单通道图像特异特征网络:输入层→conv1→conv2_x→conv3_x→输出层;
提取单通道和多通道公共空间特征网络:输入层→conv4_x→conv5_x→输出层;
提取多通道图像特异特征网络和提取单通道图像特异特征网络参数不共享,提取公共空间特征网络参数共享;并且conv1→conv2_x→conv3_x→conv4_x→conv5_x构成Resnet50模型,公共空间特征网络的输入为两个特异特征网络的输出,Resnet50模型中第一层卷积核大小为1×1,步长为1,第二层卷积核大小为3×3,步长为1,第三层卷积核大小为1×1,步长为1,输出层使用2D的(2,2)平均池化;全连接层使用一个softmax激活函数将输入降低到类别数;
conv1:由一个卷积层组成,卷积核大小为7×7,步长为2,卷积输出通道为64;
conv2_x:有三个block组成,每个block里包含三个卷积;
conv3_x:有四个block组成,每个block里包含三个卷积;
conv4_x:有六个block组成,每个block里包含三个卷积;
conv5_x:有三个block组成,每个block里包含三个卷积;
conv2_x,conv3_x,conv4_x,conv5_x包含的block为:第一层卷积→BN层→ReLU激活函数→第二层卷积→BN层→ReLU激活函数→第三层卷积→BN层→ReLU激活函数;
当输入block和输出block的数据维度是相同的时候,输入block数据可以和输出block数据直接相加;如果维度不同,增加一个conv2d layer使得输入block数据和输出block数据直接相加;
输出层由平均池化层和全连接层构成,平均池化层的输出作为图像的特征,全连接的输出作为分类所需的预测值。
5.根据权利要求1所述的方法,其特征在于,步骤S3具体为:
稀疏学习通过学习两个稀疏矩阵来得到公共空间特征的最有效特征表示;对于多通道图像和单通道图像,设置两个随机矩阵W1和W2,随机初始化W1和W2分别作为多通道和单通道图像待优化的稀疏矩阵,根据输出图像特征维度设定待优化稀疏矩阵的维度;W1和W2的维度为2048*2048;
特征转移包括两个模态转移矩阵,每一种模态图像对应一个模态转移矩阵:W_m对应多通道图像,多通道图像记为MSP;W_p对应单通道图像,单通道图像记为PAN;MSP图像经过W_m获得PAN图像的特征表征,PAN图像经过W_p经过W_p获得MSP图像的特征表征;单通道和多通道特征由稀疏学习模块得到的公共空间特征和转移后的特异特征级联后的特征表示;
损失函数为Cross-Entropy交叉熵损失函数和Triplet-loss三元组损失,损失函数先将实际标签从原始类别索引转换成one-hot编码,再对预测类标进行softmax计算,最后再计算交叉熵作为loss值。
6.根据权利要求1所述的方法,其特征在于,步骤S4具体为:
S401、将特异特征和公共空间特征提取卷积网络的输出作为稀疏学习的输入,将稀疏学习的输出作为中间层的特征表示,将中间层特征表示输入特异特征转移模块,将特异特征转移的输出级联中间层的特征表示作为图像的最终特征表示;
S402、使用Adam优化算法迭代地更新网络权重值,直到损失函数收敛,得到训练好的特异特征和公共空间特征提取卷积网络,稀疏学习矩阵和特异特征转移网络。
7.根据权利要求1所述的方法,其特征在于,步骤S5中,跨源检索工作包括多通道检索单通道图像和单通道检索多通道图像,多通道检索单通道图像具体为:将每幅待检索的多通道图像resize成224×224,再将每幅图像除以255.0进行归一化处理后输入到训练好的多通道特异特征,公共空间特征提取网络以及稀疏学习模块提取到公共空间的特征,然后级联通过特异特征转移网络的转移特征,得到待检索图像的特征表示;对于单通道检索图像库,得到最后的特征表示;通过计算带检索图像和检索图像库中的特征的欧几里得距离,按照距离从小到大排序,得到检索的图像;
单通道检索多通道图像具体为:将每幅待检索的单通道图像resize成224×224,再将每幅图像除以255.0进行归一化处理后输入到训练好的单通道特异特征,公共空间特征提取网络以及稀疏学习提取到公共空间的特征,将此特征级联通过特异特征转移网络的转移特征,得到待检索图像的特征表示,对于单通道检索图像库,得到最后的特征表示,通过计算带检索图像和检索图像库中的特征的欧几里得距离,按照距离从小到大排序,得到检索的图像。
8.一种跨源图像检索系统,其特征在于,包括:
数据模块,用于生成训练集;
网络模块,将数据模块的训练集输入构建的共享空间特征和特异特征提取模块,得到两种源域图像公共空间特征和特异特征;
学习转移模块,对网络模块公共空间特征提取模块输出的公共空间特征进行稀疏学习,对特异特征提取模块输出的特异特征进行特异特征转移;
训练模块,对学习转移模块稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束,训练稀疏学习模块和特异特征转移模块;
检索模块,利用训练模块训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至7所述的方法中的任一方法。
10.一种计算设备,其特征在于,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至7所述的方法中的任一方法的指令。
CN202110137096.6A 2021-02-01 2021-02-01 一种跨源图像检索方法、系统、介质及设备 Active CN112860935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110137096.6A CN112860935B (zh) 2021-02-01 2021-02-01 一种跨源图像检索方法、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110137096.6A CN112860935B (zh) 2021-02-01 2021-02-01 一种跨源图像检索方法、系统、介质及设备

Publications (2)

Publication Number Publication Date
CN112860935A true CN112860935A (zh) 2021-05-28
CN112860935B CN112860935B (zh) 2023-02-21

Family

ID=75987422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110137096.6A Active CN112860935B (zh) 2021-02-01 2021-02-01 一种跨源图像检索方法、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN112860935B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678261A (zh) * 2016-01-07 2016-06-15 西安电子科技大学 基于有监督图的直推式数据降维方法
CN106021402A (zh) * 2016-05-13 2016-10-12 河南师范大学 用于跨模态检索的多模态多类Boosting框架构建方法及装置
CN106777402A (zh) * 2017-03-10 2017-05-31 山东师范大学 一种基于稀疏神经网络的图像检索文本方法
CN107704509A (zh) * 2017-08-31 2018-02-16 北京联合大学 一种联合稳定区域与深度学习的重排序方法
CN108446312A (zh) * 2018-02-06 2018-08-24 西安电子科技大学 基于深度卷积语义网的光学遥感图像检索方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN111753189A (zh) * 2020-05-29 2020-10-09 中山大学 一种少样本跨模态哈希检索共同表征学习方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678261A (zh) * 2016-01-07 2016-06-15 西安电子科技大学 基于有监督图的直推式数据降维方法
CN106021402A (zh) * 2016-05-13 2016-10-12 河南师范大学 用于跨模态检索的多模态多类Boosting框架构建方法及装置
CN106777402A (zh) * 2017-03-10 2017-05-31 山东师范大学 一种基于稀疏神经网络的图像检索文本方法
CN107704509A (zh) * 2017-08-31 2018-02-16 北京联合大学 一种联合稳定区域与深度学习的重排序方法
CN108446312A (zh) * 2018-02-06 2018-08-24 西安电子科技大学 基于深度卷积语义网的光学遥感图像检索方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN111753189A (zh) * 2020-05-29 2020-10-09 中山大学 一种少样本跨模态哈希检索共同表征学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DONGYUAN LI,等: "Criminal Investigation Image Retrieval Based on Deep Learning", 《2020 INTERNATIONAL CONFERENCE ON COMPUTER NETWORK, ELECTRONIC AND AUTOMATION (ICCNEA)》 *
唐旭: "基于图像学习表征和重排序的遥感影像内容检索", 《中国优秀博士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
CN112860935B (zh) 2023-02-21

Similar Documents

Publication Publication Date Title
Zhang et al. PVT: Point‐voxel transformer for point cloud learning
CN111627065B (zh) 一种视觉定位方法及装置、存储介质
Cao et al. Front vehicle detection algorithm for smart car based on improved SSD model
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
Zhou et al. Robust building extraction for high spatial resolution remote sensing images with self-attention network
Wang et al. BANet: Small and multi-object detection with a bidirectional attention network for traffic scenes
Hong et al. Classification of building damage using a novel convolutional neural network based on post-disaster aerial images
Xiao et al. A swin transformer-based encoding booster integrated in u-shaped network for building extraction
Zhang et al. OMCBIR: Offline mobile content-based image retrieval with lightweight CNN optimization
Zhang et al. Learning all-in collaborative multiview binary representation for clustering
Butt et al. CARL-D: A vision benchmark suite and large scale dataset for vehicle detection and scene segmentation
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
Wu et al. YOLO-LWNet: A lightweight road damage object detection network for mobile terminal devices
Zhai et al. FPGA-based vehicle detection and tracking accelerator
Guan et al. MAN and CAT: mix attention to nn and concatenate attention to YOLO
Xiang et al. A comparative study of high-recall real-time semantic segmentation based on swift factorized network
Ren et al. Mfinet: Multi-scale feature interaction network for change detection of high-resolution remote sensing images
Zhao et al. SPA-net: A Deep learning approach enhanced using a span-partial structure and attention mechanism for image copy-move forgery detection
Ao et al. Few-shot semantic segmentation via mask aggregation
Zhang et al. An improved architecture for urban building extraction based on depthwise separable convolution
CN112860935B (zh) 一种跨源图像检索方法、系统、介质及设备
Wei et al. A Query-Based Network for Rural Homestead Extraction from VHR Remote Sensing Images
Zhao et al. Exploration of Vehicle Target Detection Method Based on Lightweight YOLOv5 Fusion Background Modeling
Wan et al. Pta-det: point transformer associating point cloud and image for 3d object detection
Wang et al. YOLO-ERF: lightweight object detector for UAV aerial images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant