CN112860935B - 一种跨源图像检索方法、系统、介质及设备 - Google Patents

一种跨源图像检索方法、系统、介质及设备 Download PDF

Info

Publication number
CN112860935B
CN112860935B CN202110137096.6A CN202110137096A CN112860935B CN 112860935 B CN112860935 B CN 112860935B CN 202110137096 A CN202110137096 A CN 202110137096A CN 112860935 B CN112860935 B CN 112860935B
Authority
CN
China
Prior art keywords
image
output
feature
specific
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110137096.6A
Other languages
English (en)
Other versions
CN112860935A (zh
Inventor
马晶晶
史端鹏
唐旭
焦李成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110137096.6A priority Critical patent/CN112860935B/zh
Publication of CN112860935A publication Critical patent/CN112860935A/zh
Application granted granted Critical
Publication of CN112860935B publication Critical patent/CN112860935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种跨源图像检索方法、系统、介质及设备,生成训练集;将训练集输入构建的特异特征和公共空间特征提取模块,得到两种模态图像公共空间特征和特异空间特征;对公共空间特征提取模块输出的公共空间特征进行稀疏学习,对特异特征提取模块输出的特异特征进行特异特征转移;对稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束,训练稀疏学习模块和特异特征转移模块;利用训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。本发明增强了图像的特征表示,使得图像获得更具鲁棒性的特征,从而提升检索效果。

Description

一种跨源图像检索方法、系统、介质及设备
技术领域
本发明属于图像处理技术领域,具体涉及一种跨源图像检索方法、系统、介质及设备。
背景技术
随着科技的不断发展,对于遥感图像的获得技术更加多样,从无人机拍摄到卫星技术,得到的数据内容也变得更加复杂多样。不同技术所获得的遥感图像产生的数据,分辨率,图像通道数等方面可能不同,也称其为不同源域的数据或异构信息。对遥感图像的跨源检索,即检索图像和待检索的图像属于不同模态。图像的跨源检索,能充分使不同分布的数据交互。然而由于不同源域的数据分布不同,如何使得异构信息相互之间进行有效的检索,成为一个巨大的挑战。
现有方法因为在没有考虑到去除投射到公共空间的特征的冗余信息,所以异构图像被投射到公共空间的特征会存在大量冗余信息,从而会导致检索结果较差;或仅考虑了使老师网络和学生网络在共享层,通过使用监督信息的约束进行优化,但是没有考虑到在共享层的输出特征可能会存在信息冗余,从而影响优化效果。只考虑到将不同源域的图像投射到同一个空间,但是没有考虑到特异特征对检索任务能够起到促进作用,造成检索结果不是特别理想。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种跨源图像检索方法、系统、介质及设备,可用于对于两种甚至多种源域遥感图像的检索任务。
本发明采用以下技术方案:
一种跨源图像检索方法,包括以下步骤:
S1、生成训练集;
S2、将步骤S1构造的训练集输入构建的公共空间特征和特异特征提取模块,得到两种源域模态图像公共空间特征和特异特征;
S3、对步骤S2公共空间提取模块输出的公共空间特征进行稀疏学习,对特异特征提取模块输出的特异特征进行特异特征转移;
S4、对步骤S3稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束,训练稀疏学习模块和特异特征转移模块;
S5、利用步骤S4训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。
具体的,步骤S1中,将单通道数据复制四份,变成四通道数据,多通道数据resize成224×224;再将每个像素点除以255.0进行归一化处理后组成训练集,训练集分为多通道图像和单通道图像两份。
具体的,步骤S2具体为:搭建两个特异特征提取卷积网络和一个公共空间特征提取卷积网络;设置全局和多尺度全卷积网络的参数,第一层卷积核大小为1×1,步长为1;第二层卷积核大小为3×3,步长为1;第三层卷积核大小为1×1,步长为1;输出层使用2D的(2,2)平均池化;全连接层使用一个softmax激活函数将输入降低到类别数;Resnet50的网络参数中第一、二、三、四、五卷积模块的输入的特征映射图依次设置为3、64、64、128、512个,输出的特征映射图依次设置为64、64、128、512、2048个。
进一步的,搭建两个特异特征提取卷积网络和一个公共空间特征提取卷积网络具体为:
提取多通道图像特异特征网络:输入层→conv1→conv2_x→conv3_x→输出层;
提取单通道图像特异特征网络:输入层→conv1→conv2_x→conv3_x→输出层;
提取单通道和多通道公共空间特征网络:输入层→conv4_x→conv5_x→输出层;
提取多通道图像特异特征网络和提取单通道图像特异特征网络参数不共享,提取公共空间特征网络参数共享;并且conv1→conv2_x→conv3_x→conv4_x→conv5_x构成Resnet50模型,公共空间特征网络的输入为两个特异特征网络的输出,Resnet50模型中第一层卷积核大小为1×1,步长为1,第二层卷积核大小为3×3,步长为1,第三层卷积核大小为1×1,步长为1,输出层使用2D的(2,2)平均池化;全连接层使用一个softmax激活函数将输入降低到类别数;
conv1:由一个卷积层组成,卷积核大小为7×7,步长为2,卷积输出通道为64;
conv2_x:有三个block组成,每个block里包含三个卷积;
conv3_x:有四个block组成,每个block里包含三个卷积;
conv4_x:有六个block组成,每个block里包含三个卷积;
conv5_x:有三个block组成,每个block里包含三个卷积;
conv2_x,conv3_x,conv4_x,conv5_x包含的block为:第一层卷积→BN层→ReLU激活函数→第二层卷积→BN层→ReLU激活函数→第三层卷积→BN层→ReLU激活函数;
当输入block和输出block的数据维度是相同的时候,输入block数据可以和输出block数据直接相加;如果维度不同,增加一个conv2d layer使得输入block数据和输出block数据直接相加;
输出层由平均池化层和全连接层构成,平均池化层的输出作为图像的特征,全连接的输出作为分类所需的预测值。
具体的,步骤S3具体为:
稀疏学习通过学习两个稀疏矩阵来得到公共空间特征的最有效特征表示;对于多通道图像和单通道图像,设置两个随机矩阵W1和W2,随机初始化W1和W2分别作为多通道和单通道图像待优化的稀疏矩阵,根据输出图像特征维度设定待优化稀疏矩阵的维度;W1和W2的维度为2048*2048;
特征转移包括两个模态转移矩阵,每一种模态图像对应一个模态转移矩阵:W_m对应多通道图像,多通道图像记为MSP;W_p对应单通道图像,单通道图像记为PAN;MSP图像经过W_m获得PAN图像的特征表征,PAN图像经过W_p经过W_p获得MSP图像的特征表征;单通道和多通道特征由稀疏学习模块得到的公共空间特征和转移后的特异特征级联后的特征表示;
损失函数为Cross-Entropy交叉熵损失函数和Triplet-loss三元组损失,损失函数先将实际标签从原始类别索引转换成one-hot编码,再对预测类标进行softmax计算,最后再计算交叉熵作为loss值。
具体的,步骤S4具体为:
S401、将特异特征和公共空间特征提取卷积网络的输出作为稀疏学习的输入,将稀疏学习的输出作为中间层的特征表示,将中间层特征表示输入特异特征转移模块,将特异特征转移的输出级联中间层的特征表示作为图像的最终特征表示;
S402、使用Adam优化算法迭代地更新网络权重值,直到损失函数收敛,得到训练好的特异特征和公共空间特征提取卷积网络,稀疏学习矩阵和特异特征转移网络。
具体的,步骤S5中,跨源检索工作包括多通道检索单通道图像和单通道检索多通道图像,多通道检索单通道图像具体为:将每幅待检索的多通道图像resize成224×224,再将每幅图像除以255.0进行归一化处理后输入到训练好的多通道特异特征,公共空间特征提取网络以及稀疏学习模块提取到公共空间的特征,然后级联通过特异特征转移网络的转移特征,得到待检索图像的特征表示;对于单通道检索图像库,得到最后的特征表示;通过计算带检索图像和检索图像库中的特征的欧几里得距离,按照距离从小到大排序,得到检索的图像;
单通道检索多通道图像具体为:将每幅待检索的单通道图像resize成224×224,再将每幅图像除以255.0进行归一化处理后输入到训练好的单通道特异特征,公共空间特征提取网络以及稀疏学习提取到公共空间的特征,将此特征级联通过特异特征转移网络的转移特征,得到待检索图像的特征表示,对于单通道检索图像库,得到最后的特征表示,通过计算带检索图像和检索图像库中的特征的欧几里得距离,按照距离从小到大排序,得到检索的图像。
本发明的另一个技术方案是,一种跨源图像检索系统,包括:
数据模块,用于生成训练集;
网络模块,将数据模块的训练集输入构建的共享空间特征和特异特征提取模块,得到两种源域图像公共空间特征和特异特征;
学习转移模块,对网络模块公共空间特征提取模块输出的公共空间特征进行稀疏学习,对特异特征提取模块输出的特异特征进行特异特征转移;
训练模块,对学习转移模块稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束,训练稀疏学习模块和特异特征转移模块;
检索模块,利用训练模块训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。
本发明的另一个技术方案是,一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。
本发明的另一个技术方案是,一种计算设备,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种跨源图像检索方法,通过从公共特征空间和特异特征空间两方面出发,更好的对图像特征进行优化。对于公共特征空间,通过对特征的稀疏学习,祛除冗余信息得到更为有效的图像特征表示;通过特异特征转移模块,可以得到模态特征之间的互相表征。最后级联公共空间特征和特异特征模块转移特征,作为图像的最终特征,从而提高图像检索的效果。
进一步的,步骤S1通过构造训练集作为网络输入,并且作为检索过程的待检索集。
进一步的,步骤S2通过参数共享的网络来提取公共空间的MSP和PAN图像特征;通过不共享参数网络提取MSP和PAN图像的特异特征,作为步骤S3模态转移模块的输入。
进一步的,共享参数网络能够提取MSP和PAN两种模态图像的公共空间特征,在同一空间中,图像特征才可以进行相似度度量,并基于此来进行损失函数的约束;通过不共享参数网络提取MSP和PAN图像的特异特征,作为步骤S3模态转移模块的输入,在特异空间通过模态转移模块后的特征,进行损失函数的约束。
进一步的,使用稀疏学习,能够祛除公共空间MSP和PAN图像特征的冗余信息,从而得到更为有效的图像特征表示;基于MSP的特异特征能够由同类的PAN特异特征表征这一想法,通过构造模态转移矩阵,使得MSP图像的特异特征能够由同类的PAN图像的特异特征表征,PAN图像的特异特征能够由同类的MSP图像的特异特征表征,在特异空间使用损失函数来学习两种模态的特征表示。
进一步的,使用三元组损失函数来跟别约束由步骤S3输出的公共空间稀疏特征和特异特征模态转移特征,从而能够在公共空间和特异空间分别得到图像的特征表征。
进一步的,使用公共空间稀疏特征和特异空间转移特征作为图像的最终特征表示,进行图像检索过程。
综上所述,本发明通过级联公共空间的有效信息和特异空间的图像模态转移特征作为图像的特征表示,增强了图像的特征表示,使得图像获得更具鲁棒性的特征,从而提升检索效果。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的流程图;
图2为本发明的特征提取网络主要构成部分示意图;
图3为特征提取网络的一个block结构示意图;
图4为本发明的主要框架示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明提供了一种跨源图像检索方法,利用稀疏学习模块提取公共空间图像的有效表示,并利用到了特异特征的补充,使得图像的表示更为完整,具有特异性,检索精度高,鲁棒性强。
请参阅图1,本发明一种跨源图像检索方法,提取不同源域的有效信息,并通过监督信息的约束将不同源域的特征映射到同一特征空间。利用特异特征转移网络进行特征转移,将公共空间特征和转移的特征作为最后的图像特征进行跨源图像检索工作;包括以下步骤:
S1、生成训练集;
S101、将单通道数据复制四份,变成四通道数据,多通道数据resize成256×256大小;
S102、将每个像素点除以255.0进行归一化处理后组成训练集,训练集分为多通道图像和单通道图像两份;
S2、将步骤S1构造的训练集输入构建的特异特征和公共空间特征提取模块,得到两种模态图像公共空间特征和特异空间特征;
S201、搭建两个特异特征提取卷积网络和一个公共空间特征提取卷积网络;
提取多通道图像特异特征网络:输入层→conv1→conv2_x→conv3_x→输出层;
提取单通道图像特异特征网络:输入层→conv1→conv2_x→conv3_x→输出层;
提取单通道和多通道公共空间特征网络:输入层→conv4_x→conv5_x→输出层;
上述提取多通道图像特异特征网络和提取单通道图像特异特征网络参数不共享,提取公共空间特征网络参数共享。并且conv1→conv2_x→conv3_x→conv4_x→conv5_x构成Resnet50模型,公共空间特征网络的输入为两个特异特征网络的输出,Resnet50模型中第一层卷积核大小为1×1,步长为1,第二层卷积核大小为3×3,步长为1,第三层卷积核大小为1×1,步长为1,输出层使用2D的(2,2)平均池化;全连接层使用一个softmax激活函数将输入降低到类别数。
conv1:由一个卷积层组成,卷积核大小为7×7,步长为2,卷积输出通道为64;
conv2_x:有三个block组成,每个block里包含三个卷积;
conv3_x:有四个block组成,每个block里包含三个卷积;
conv4_x:有六个block组成,每个block里包含三个卷积;
conv5_x:有三个block组成,每个block里包含三个卷积;
conv2_x,conv3_x,conv4_x,conv5_x包含的block为:第一层卷积→BN层→ReLU激活函数→第二层卷积→BN层→ReLU激活函数→第三层卷积→BN层→ReLU激活函数。
另,当输入block和输出block的数据维度是相同的时候,输入block数据可以和输出block数据直接相加;如果维度不同时,需要增加一个conv2d layer使得输入block数据和输出block数据可以直接相加。
输出层由平均池化层和全连接层构成,平均池化层的输出作为图像的特征,全连接的输出作为分类所需的预测值。
S202、设置全局和多尺度全卷积网络的参数如下:
第一层卷积核大小为1×1,步长为1;
第二层卷积核大小为3×3,步长为1;
第三层卷积核大小为1×1,步长为1;
输出层使用2D的(2,2)平均池化;全连接层使用一个softmax激活函数将输入降低到类别数;
Resnet50的网络参数中第一、二、三、四、五卷积模块的输入的特征映射图依次设置为3、64、64、128、512个,输出的特征映射图依次设置为64、64、128、512、2048个。
S3、对步骤S2公共空间特征提取模块输出的公共空间特征进行稀疏学习,对特异特征提取模块输出的特异特征进行特异特征转移;
S301、请参阅图4,稀疏学习通过学习两个稀疏矩阵来得到公共空间特征的最有效特征表示。对于多通道图像和单通道图像,设置两个随机矩阵W1和W2,随机初始化W1和W2分别作为多通道和单通道图像待优化的稀疏矩阵,根据输出图像特征维度设定待优化稀疏矩阵的维度;W1和W2的维度为2048*2048。
S302、特征转移模块由两个模态转移矩阵组成,每一种模态图像对应一个模态转移矩阵:W_m对应于多通道图像,多通道图像记为MSP;W_p对应于单通道图像,单通道图像记为PAN。MSP图像经过W_m可以获得PAN图像的特征表征,PAN图像经过W_p经过W_p可以获得MSP图像的特征表征。单通道和多通道特征由稀疏学习模块得到的公共空间特征和转移后的特异特征级联后的特征表示。
损失函数为Cross-Entropy交叉熵损失函数和Triplet-loss三原组损失,该损失函数先将实际标签从原始类别索引转换成one-hot编码,再对预测类标进行softmax计算,最后再计算交叉熵作为loss值,交叉熵计算公式如下:
Hy'(y)=-∑y'logy
三元组损失如下:
Figure GDA0003012242550000101
其中,y'为训练集的实际类标,y为训练集预测的标签值,log为以10为底的对数操作;LTriplet表示三元组的损失,目的是为了使anchor和正例的距离越来越近,anchor和负例的距离越来越远,代表作为anchor的一个模态的特征及另一个模态的的正例与负例,Ft是通过网络训练得到的特征,α表示正样本对和负样本对之间的约束,通过不断优化使损失达到最小,就能使得网络得到最优。
S4、对步骤S3稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束,训练稀疏学习模块和特异特征转移模块;
S401、将特异特征和公共空间特征提取卷积网络的输出作为稀疏学习模块的输入,将稀疏学习模块的输出作为中间层的特征表示,将中间层特征表示输入特异特征转移模块,将特异特征转移模块的输出级联中间层的特征表示作为图像的最终特征表示。
S402、使用Adam优化算法,迭代地更新网络权重值,直到损失函数收敛,得到训练好的特征提取网络,稀疏学习矩阵和特异特征转移网络,如图2所示。
S5、利用步骤S4训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。
S501、多通道检索单通道图像:将每幅待检索的多通道图像resize成256×256大小,再将每幅图像除以255.0进行归一化处理后输入到训练好的多通道特异特征,公共空间特征提取网络以及稀疏学习模块提取到公共空间的特征,然后级联通过特异特征转移网络的转移特征,得到待检索图像的特征表示。
类似的,对于单通道检索图像库,得到最后的特征表示。通过计算带检索图像和检索图像库中的特征的欧几里得距离,距离越近代表相似程度越高,按照距离从小到大排序,得到检索得到的图像。
S502、单通道检索多通道图像:将每幅待检索的单通道图像resize成256×256大小,再将每幅图像除以255.0进行归一化处理后输入到训练好的单通道特异特征,公共空间特征提取网络以及稀疏学习模块提取到公共空间的特征,将此特征级联通过特异特征转移网络的转移特征,得到待检索图像的特征表示。
类似的,对于单通道检索图像库,得到最后的特征表示。通过计算带检索图像和检索图像库中的特征的欧几里得距离,距离越近代表相似程度越高,按照距离从小到大排序,得到检索得到的图像。
请参阅图3,是一个残差快,也是组成网络的基本模块,在保护信息完整性的同时,不会增加信息复杂度,同时还可以有效解决过拟合问题。
请参阅图4,对整个本发明的工作步骤做进一步的描述。
将训练集的图片分别输入到构建好的特征提取卷积网络,将输出特征输入稀疏学习模块得到公共空间的有效特征表示。将特异特征模块提取的特异特征,输入特异特征转移模块得到包含对方模态样本的信息表示。然后将公共空间的特征表示级联转移模块的输出特征,作为样本最后的特征表示。
本发明再一个实施例中,提供一种跨源图像检索系统,该系统能够用于实现上述跨源图像检索,具体的,该跨源图像检索系统包括数据模块、网络模块、学习转移模块、训练模块以及检索模块。
其中,数据模块,用于生成训练集;
网络模块,将数据模块的训练集输入构建的公共空间特征和特异特征提取模块,得到两种模态图像公共空间特征和特异空间特征;
学习转移模块,对网络模块公共空间特征提取模块输出的公共空间特征进行稀疏学习,对特异特征提取模块输出的特异特征进行特异特征转移;
训练模块,对学习转移模块稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束,训练稀疏学习模块和特异特征转移模块;
检索模块,利用训练模块训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于跨源图像检索的操作,包括:
生成训练集;将训练集输入构建的特异特征和公共空间空间特征提取模块,得到两种模态图像公共空间特征和特异空间特征;对公共空间特征提取模块输出的公共空间特征进行稀疏学习,对特异特征提取模块输出的特异特征进行特异特征转移;对稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束,训练稀疏学习模块和特异特征转移模块;利用训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关跨源图像检索方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
生成训练集;将训练集输入构建的特异特征和公共空间空间特征提取模块,得到两种模态图像公共空间特征和特异空间特征;对公共空间特征提取模块输出的公共空间特征进行稀疏学习,对特异特征提取模块输出的特异特征进行特异特征转移;对稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束,训练稀疏学习模块和特异特征转移模块;利用训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。
下面结合仿真实验对本发明的效果做进一步的描述。
1.仿真条件:
本发明的仿真实验的硬件平台为:CPU为Intel(R)Core(TM)i7-8700X,主频为3.2GHz,内存64GB,GPU为NVIDIA 1080Ti。
本发明的仿真实验的软件平台为:Linux操作系统和python3.6。
2.仿真内容与结果分析:
本发明的仿真实验是采用本发明和三个现有技术(基于深度哈希学习方法,基于蒸馏学习的协同优化方法,基于公共空间学习的跨源检索方法)使用训练图像对特征提取网络,系数学习模块和特异特征转移模块进行训练。使用训练好的模型提取最后特征进行检索工作。
本发明仿真实验所使用的训练图像和待分割图像均为“Learning Source-Invariant Deep Hashing Convolutional Nerual Network for Cross-Source RemoteSensing Image Retrieval”发布的双源图像数据集。该航拍图像数据集采集自八个地区,八类图像包括农场,云,森林,高楼,矮楼,田地,河流,水域。每一个场景对应两类图像,即两种模态的图像。单通道图像大小为256×256,空间分辨率为2米;多通道图像大小为64×64,空间分辨率为8米。
在仿真实验中,采用的三个现有技术是指:
基于深度哈希学习方法是指Yansheng Li等人在其发表的论文“LearningSource-Invariant Deep Hashing Convolutional Nerual Network for Cross-SourceRemote Sensing Image Retrieval”(TGARS 2018)”中提出的跨源图像检索方法,该方法使用哈希学习的方法生成投射到公共空间的哈希码进行检索工作。
基于蒸馏学习的协同优化方法是指,WeiXiong等人在其发表的论文“ADiscriminative Distillation Network for Cross-Source Remote Sensing ImageRetrieval”(IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS ANDREMOTE SENSING,2020)中提出的基于蒸馏学习进行协同优化训练网络的方法。
基于公共空间学习的跨源检索方法是指,Ushasi Chaudhuri等人在在其发表的论文“CMIR-NET:A Deep Learning Based Model For Cross-ModalRetrieval In RemoteSensing”(TGARS,2020)中提出的通过学习公共空间的特征表示方法。
利用两个评价指标(AP,MAP)分别对四种方法对获得的。利用下面公式,AP,MAP,将计算结果绘制成表1:
Figure GDA0003012242550000151
Figure GDA0003012242550000152
其中,m为样本总数,ni为与检索图像相关的图像。
表1中的“本发明”代表本发明提出的方法,“SIDHCNN”代表Yansheng Li等人提出的基于蒸馏学习进行协同优化训练网络的方法,“Distillation”代表WeiXiong等提出的基于蒸馏学习进行协同优化训练网络的方法,“CMIR-NET”Ushasi Chaudhuri等人提出的通过学习公共空间的特征表示方法。
表1本发明与现有跨模态模型性能评价表
Figure GDA0003012242550000153
Figure GDA0003012242550000161
结合表1可以看出,本发明的多通道检索单通道的AP为98.99%,单通道检索多通道的AP为98.33%;多通道检索单通道的MAP为98.62%,单通道检索多通道的MAP为98.56%。这两个指标均高于IDHCNN和Distillation_50,与CMIR-NET比较中,对于PAN->MUL检索任务,超过此方法3%,在MUL->PAN检索任务中,与CMIR-NET持平,证明本发明可以得到更稳定的检索精度。
以上仿真实验表明:本发明方法利用搭建的特异,公共空间特征模块能够有效的提取特征。使用稀疏学习的模块能够更好的提取到共享层输出特征的有效信息。使用特异特征转移模块,能够有效地利用特异特征的信息,补充共享层输出特征的特异性,从而更好地表示图像特征。解决了现有技术方法提取公共空间特征会存在冗余信息的问题,未考虑到特异特征对样本特征表示的重要性。实验证明,本发明是一种非常实用的跨模态检索方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (9)

1.一种跨源图像检索方法,其特征在于,包括以下步骤:
S1、生成训练集;
S2、将步骤S1构造的训练集输入构建的公共空间特征提取卷积网络和特异特征提取卷积网络,得到两种源域模态图像公共空间特征和特异特征;
S3、对步骤S2公共空间特征提取卷积网络输出的公共空间特征进行稀疏学习,对特异特征提取模块输出的特异特征进行特异特征转移;
S4、对步骤S3稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束,训练稀疏学习模块和特异特征转移模块,具体为:
S401、将特异特征和公共空间特征提取卷积网络的输出作为稀疏学习的输入,将稀疏学习的输出作为中间层的特征表示,将中间层特征表示输入特异特征转移模块,将特异特征转移的输出级联中间层的特征表示作为图像的最终特征表示;
S402、使用Adam优化算法迭代地更新网络权重值,直到损失函数收敛,得到训练好的特异特征和公共空间特征提取卷积网络,稀疏学习矩阵和特异特征转移网络;
S5、利用步骤S4训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,将单通道数据复制四份,变成四通道数据,多通道数据resize成224×224;再将每个像素点除以255.0进行归一化处理后组成训练集,训练集分为多通道图像和单通道图像两份。
3.根据权利要求1所述的方法,其特征在于,步骤S2具体为:搭建两个特异特征提取卷积网络和一个公共空间特征提取卷积网络;设置全局和多尺度全卷积网络的参数,第一层卷积核大小为1×1,步长为1;第二层卷积核大小为3×3,步长为1;第三层卷积核大小为1×1,步长为1;输出层使用2D的(2,2)平均池化;全连接层使用一个softmax激活函数将输入降低到类别数;Resnet50的网络参数中第一、二、三、四、五卷积模块的输入的特征映射图依次设置为3、64、64、128、512个,输出的特征映射图依次设置为64、64、128、512、2048个。
4.根据权利要求3所述的方法,其特征在于,搭建两个特异特征提取卷积网络和一个公共空间特征提取卷积网络具体为:
提取多通道图像特异特征网络:输入层→conv1→conv2_x→conv3_x→输出层;
提取单通道图像特异特征网络:输入层→conv1→conv2_x→conv3_x→输出层;
提取单通道和多通道公共空间特征网络:输入层→conv4_x→conv5_x→输出层;
提取多通道图像特异特征网络和提取单通道图像特异特征网络参数不共享,提取公共空间特征网络参数共享;并且conv1→conv2_x→conv3_x→conv4_x→conv5_x构成Resnet50模型,公共空间特征网络的输入为两个特异特征网络的输出,Resnet50模型中第一层卷积核大小为1×1,步长为1,第二层卷积核大小为3×3,步长为1,第三层卷积核大小为1×1,步长为1,输出层使用2D的(2,2)平均池化;全连接层使用一个softmax激活函数将输入降低到类别数;
conv1:由一个卷积层组成,卷积核大小为7×7,步长为2,卷积输出通道为64;
conv2_x:有三个block组成,每个block里包含三个卷积;
conv3_x:有四个block组成,每个block里包含三个卷积;
conv4_x:有六个block组成,每个block里包含三个卷积;
conv5_x:有三个block组成,每个block里包含三个卷积;
conv2_x,conv3_x,conv4_x,conv5_x包含的block为:第一层卷积→BN层→ReLU激活函数→第二层卷积→BN层→ReLU激活函数→第三层卷积→BN层→ReLU激活函数;
当输入block和输出block的数据维度是相同的时候,输入block数据可以和输出block数据直接相加;如果维度不同,增加一个conv2d layer使得输入block数据和输出block数据直接相加;
输出层由平均池化层和全连接层构成,平均池化层的输出作为图像的特征,全连接的输出作为分类所需的预测值。
5.根据权利要求1所述的方法,其特征在于,步骤S3具体为:
稀疏学习通过学习两个稀疏矩阵来得到公共空间特征的最有效特征表示;对于多通道图像和单通道图像,设置两个随机矩阵W1和W2,随机初始化W1和W2分别作为多通道和单通道图像待优化的稀疏矩阵,根据输出图像特征维度设定待优化稀疏矩阵的维度;W1和W2的维度为2048*2048;
特征转移包括两个模态转移矩阵,每一种模态图像对应一个模态转移矩阵:W_m对应多通道图像,多通道图像记为MSP;W_p对应单通道图像,单通道图像记为PAN;MSP图像经过W_m获得PAN图像的特征表征,PAN图像经过W_p经过W_p获得MSP图像的特征表征;单通道和多通道特征由稀疏学习模块得到的公共空间特征和转移后的特异特征级联后的特征表示;
损失函数为Cross-Entropy交叉熵损失函数和Triplet-loss三元组损失,损失函数先将实际标签从原始类别索引转换成one-hot编码,再对预测类标进行softmax计算,最后再计算交叉熵作为loss值。
6.根据权利要求1所述的方法,其特征在于,步骤S5中,跨源检索工作包括多通道检索单通道图像和单通道检索多通道图像,多通道检索单通道图像具体为:将每幅待检索的多通道图像resize成224×224,再将每幅图像除以255.0进行归一化处理后输入到训练好的多通道特异特征,公共空间特征提取网络以及稀疏学习模块提取到公共空间的特征,然后级联通过特异特征转移网络的转移特征,得到待检索图像的特征表示;对于单通道检索图像库,得到最后的特征表示;通过计算带检索图像和检索图像库中的特征的欧几里得距离,按照距离从小到大排序,得到检索的图像;
单通道检索多通道图像具体为:将每幅待检索的单通道图像resize成224×224,再将每幅图像除以255.0进行归一化处理后输入到训练好的单通道特异特征,公共空间特征提取网络以及稀疏学习提取到公共空间的特征,将此特征级联通过特异特征转移网络的转移特征,得到待检索图像的特征表示,对于单通道检索图像库,得到最后的特征表示,通过计算带检索图像和检索图像库中的特征的欧几里得距离,按照距离从小到大排序,得到检索的图像。
7.一种跨源图像检索系统,其特征在于,包括:
数据模块,用于生成训练集;
网络模块,将数据模块的训练集输入构建的空间特征提取卷积网络和特异特征提取卷积网络,得到两种源域图像公共空间特征和特异特征;
学习转移模块,对网络模块得到的公共空间特征提取卷积网络输出的公共空间特征进行稀疏学习,对特异特征提取模块输出的特异特征进行特异特征转移,具体为:
将特异特征和公共空间特征提取卷积网络的输出作为稀疏学习的输入,将稀疏学习的输出作为中间层的特征表示,将中间层特征表示输入特异特征转移模块,将特异特征转移的输出级联中间层的特征表示作为图像的最终特征表示;使用Adam优化算法迭代地更新网络权重值,直到损失函数收敛,得到训练好的特异特征和公共空间特征提取卷积网络,稀疏学习矩阵和特异特征转移网络;
训练模块,对学习转移模块稀疏学习模块输出特征和特异特征转移模块输出的特征进行损失函数的约束,训练稀疏学习模块和特异特征转移模块;
检索模块,利用训练模块训练好的稀疏学习模块的输出特征和特异特征转移模块输出特征进行级联操作,然后作为图像的最后特征表示,进行跨源检索工作。
8.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至6所述的方法中的任一方法。
9.一种计算设备,其特征在于,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至6所述的方法中的任一方法的指令。
CN202110137096.6A 2021-02-01 2021-02-01 一种跨源图像检索方法、系统、介质及设备 Active CN112860935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110137096.6A CN112860935B (zh) 2021-02-01 2021-02-01 一种跨源图像检索方法、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110137096.6A CN112860935B (zh) 2021-02-01 2021-02-01 一种跨源图像检索方法、系统、介质及设备

Publications (2)

Publication Number Publication Date
CN112860935A CN112860935A (zh) 2021-05-28
CN112860935B true CN112860935B (zh) 2023-02-21

Family

ID=75987422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110137096.6A Active CN112860935B (zh) 2021-02-01 2021-02-01 一种跨源图像检索方法、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN112860935B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021402A (zh) * 2016-05-13 2016-10-12 河南师范大学 用于跨模态检索的多模态多类Boosting框架构建方法及装置
CN106777402A (zh) * 2017-03-10 2017-05-31 山东师范大学 一种基于稀疏神经网络的图像检索文本方法
CN107704509A (zh) * 2017-08-31 2018-02-16 北京联合大学 一种联合稳定区域与深度学习的重排序方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN111753189A (zh) * 2020-05-29 2020-10-09 中山大学 一种少样本跨模态哈希检索共同表征学习方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678261B (zh) * 2016-01-07 2019-03-26 西安电子科技大学 基于有监督图的直推式数据降维方法
CN108446312B (zh) * 2018-02-06 2020-04-21 西安电子科技大学 基于深度卷积语义网的光学遥感图像检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021402A (zh) * 2016-05-13 2016-10-12 河南师范大学 用于跨模态检索的多模态多类Boosting框架构建方法及装置
CN106777402A (zh) * 2017-03-10 2017-05-31 山东师范大学 一种基于稀疏神经网络的图像检索文本方法
CN107704509A (zh) * 2017-08-31 2018-02-16 北京联合大学 一种联合稳定区域与深度学习的重排序方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN111753189A (zh) * 2020-05-29 2020-10-09 中山大学 一种少样本跨模态哈希检索共同表征学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Criminal Investigation Image Retrieval Based on Deep Learning;Dongyuan Li,等;《2020 International Conference on Computer Network, Electronic and Automation (ICCNEA)》;20201109;第72-76页 *
基于图像学习表征和重排序的遥感影像内容检索;唐旭;《中国优秀博士学位论文全文数据库信息科技辑》;20190115;第25-88页 *

Also Published As

Publication number Publication date
CN112860935A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
Boulch ConvPoint: Continuous convolutions for point cloud processing
CN111627065B (zh) 一种视觉定位方法及装置、存储介质
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN113112509B (zh) 图像分割模型训练方法、装置、计算机设备和存储介质
Wang et al. BANet: Small and multi-object detection with a bidirectional attention network for traffic scenes
CN113284227B (zh) 一种面向大规模航拍图像的分布式运动推断结构方法
CN113254716B (zh) 视频片段检索方法、装置、电子设备和可读存储介质
CN114169442A (zh) 基于双原型网络的遥感图像小样本场景分类方法
Zhang et al. OMCBIR: Offline mobile content-based image retrieval with lightweight CNN optimization
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
Wu et al. YOLO-LWNet: A lightweight road damage object detection network for mobile terminal devices
Liu et al. Efficient pyramid context encoding and feature embedding for semantic segmentation
Wang et al. Multi‐scale network for remote sensing segmentation
CN112860935B (zh) 一种跨源图像检索方法、系统、介质及设备
Zha et al. ENGD-BiFPN: A remote sensing object detection model based on grouped deformable convolution for power transmission towers
Li et al. Pillar‐based 3D object detection from point cloud with multiattention mechanism
Zhang et al. An improved architecture for urban building extraction based on depthwise separable convolution
Zhan et al. Field programmable gate array‐based all‐layer accelerator with quantization neural networks for sustainable cyber‐physical systems
CN116612288A (zh) 一种多尺度轻量级实时语义分割方法、系统
Wang et al. YOLO-ERF: lightweight object detector for UAV aerial images
Tan et al. 3D detection transformer: Set prediction of objects using point clouds
Cao et al. Label-efficient deep learning-based semantic segmentation of building point clouds at LOD3 level
US9886652B2 (en) Computerized correspondence estimation using distinctively matched patches
Shen et al. Real-time scene classification of unmanned aerial vehicles remote sensing image based on Modified GhostNet
CN115511070A (zh) 模型训练方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant