CN113537384A - 基于通道注意力的哈希遥感图像检索方法、装置及介质 - Google Patents

基于通道注意力的哈希遥感图像检索方法、装置及介质 Download PDF

Info

Publication number
CN113537384A
CN113537384A CN202110871978.5A CN202110871978A CN113537384A CN 113537384 A CN113537384 A CN 113537384A CN 202110871978 A CN202110871978 A CN 202110871978A CN 113537384 A CN113537384 A CN 113537384A
Authority
CN
China
Prior art keywords
hash
loss
remote sensing
attention
channel attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110871978.5A
Other languages
English (en)
Other versions
CN113537384B (zh
Inventor
黄磊
张天择
秦琦冰
刘超
魏志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202110871978.5A priority Critical patent/CN113537384B/zh
Publication of CN113537384A publication Critical patent/CN113537384A/zh
Application granted granted Critical
Publication of CN113537384B publication Critical patent/CN113537384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于通道注意力的哈希遥感图像检索方法、装置及介质,方法,首先在模型训练阶段,包括特征提取的步骤、特征降维的步骤和损失优化的步骤;其次在模型测试阶段,通过设计sign函数来实现哈希层,生成离散化的哈希编码;本发明设计了双通道注意力融合模块,通过双通道注意力融合模块和三层全连接结构获得注意力激活过的低维度特征向量;并采用三元组损失作为训练模型的主损失,配合改进的哈希等距量化损失和二值平衡损失来优化模型,提升模型的遥感图像检索能力。

Description

基于通道注意力的哈希遥感图像检索方法、装置及介质
技术领域
本发明属于遥感图像检索技术领域,特别涉及基于通道注意力的哈希遥感图像检索方法、装置及介质。
背景技术
随着遥感观测技术的发展,每天都可以从地球监观测卫星收集大量的遥感数据。如何从海量遥感图像中快速高效的找到用户感兴趣的目标图像是一个极具挑战性的任务。哈希学习是具有代表性的图像检索算法,哈希函数可以将图像的高维特征映射到低维的汉明空间,并产生能够保持数据原始语义相似性的二进制编码。因为采用异或操作计算汉明距离以实现图像检索,基于哈希的图像检索方法在计算效率和存储代价方面具有巨大的优势。
现有的深度哈希方法虽然已经在自然图像检索领域中取得了良好性能,但是在遥感图像检索领域依然存在以下几个方面的问题:
(1)与自然图像不同,遥感图像受限于不同的成像条件和像素分辨率,不同标签下的遥感图片具有相似的几何形状和外观,属于不同语义类别的遥感场景仅存在细微的外观变化,即遥感图像类间差异不显著的问题。
(2)现有的深度哈希量化方法并没有充分考虑原始图像和对应哈希编码之间的语义相似度差异问题。
(3)现有的深度哈希方法生成的哈希码存在冗余信息,没有充分利用所有的哈希位。受上述几个问题限制,现有的深度哈希方法在遥感图像检索领域性能还有待于提高。
现有的深度哈希图像检索只关注到模型的度量学习和采样策略,使用预训练模型避免数据量小导致的过拟合问题,但忽略了遥感图像类间差异不显著的问题。为了解决遥感图像类间差异小,类内差异大的问题,本发明在深度哈希网络中增加了一个双通道注意力融合模块,使模型自适应学到不同通道间的关联性与区分性,进而通过有选择性地强化较为关键的特征并弱化无用特征,最终使模型关注到更加具有判别性的特征信息从而提升模型的检索能力;其次,针对度量学习中存在的空间不一致性,根据平衡度量的原则,我们设计了哈希等距量化损失以最大化地减少模型测试和训练中产生的相似性差异,保证了原始空间和汉明空间相似度的一致性;此外为了进一步优化模型,设计一个二值平衡损失,减少二进制化带来误差的同时,使得相同长度的哈希编码包含更多的语义描述信息,实现更好的检索效果。
发明内容
针对现有技术存在的不足,本发明提供一种基于通道注意力的哈希遥感图像检索方法、装置及介质,为了解决遥感图像类间差异不显著问题,采用双通道注意力融合机制,给不同通道之间自适应增加注意力权重,使模型有选择性地关注关键特征,对区分性特征信息进行加权强化;针对传统哈希方法中常见的二进制量化误差问题,利用哈希等距量化损失来有效保持欧式空间和汉明空间之间相似度的一致性;最后,为了让最后得到的哈希码可以在位数K一定的情况下保存最丰富的语义信息,通过采用二值平衡损失来最大化利用每一位哈希编码,以实现对大规模遥感图像的精准检索。
为了解决上述技术问题,本发明采用的技术方案是:
首先,本发明提供一种基于通道注意力的哈希遥感图像检索方法,首先,在模型训练阶段,包括特征提取的步骤、特征降维的步骤和损失优化的步骤;其次,在模型测试阶段,通过设计sign函数来实现哈希层,生成离散化的哈希编码;
其中,特征降维时,设计了双通道注意力融合模块,通过双通道注意力融合模块和三层全连接结构获得注意力激活过的低维度特征向量;
损失优化时,采用三元组损失作为训练模型的主损失,配合改进的哈希等距量化损失和二值平衡损失来优化模型。
进一步的,特征降维的具体步骤是:
(1)首先将提取的特征x分别传入两层独立的通道注意力模块中,每层使用两个非线性的全连接层来学习不同通道的权值,获得的通道注意力公式如下:
Fex_A(x,WA)=σ(g(x,WA))=σ(WA2δ(WA1x))
Fex_B(x,WB)=σ(g(x,WB))=σ(WB2δ(WB1x))
其中,δ代表Sigmoid函数,σ代表非线性激活函数,WA1,WB1
Figure BDA0003189124870000021
WA2,WB2
Figure BDA0003189124870000022
C代表通道数,r为维数缩减比例;
(2)其次分别将提取的权重进行相加融合后使用Sigmoid函数激活,使得两种独立的权重之间关注点互相补充,从而获得更加具有区分性的总注意力权重;
(3)最后将步骤(2)获得的权重与原输出特征x对应通道相乘,以激活原输出特征x的通道注意力,加强对任务有积极作用的通道特征,削弱对任务起消极作用的通道特征,公式如下:
Figure BDA0003189124870000031
其中⊙代表对位相乘,
Figure BDA0003189124870000032
代表了激活了通道注意力的特征。
进一步的,在注意力层之后是三层采用随机初始化参数的全连接层作为哈希层,前两层用ReLU函数激活,最后一层用Sigmoid函数激活,经过哈希层之后的输出如下所示:
Figure BDA0003189124870000033
其中,
Figure BDA0003189124870000034
代表哈希层的权重,
Figure BDA0003189124870000035
为偏置系数;
由于其输出的向量hi∈[0,1]K是连续值,需要离散化成二进制哈希编码bi∈{0,1}K,基于逐元素的转换函数为:
bi=(sign(hi-0.5)+1)/2
其中,sign(·)为符号函数,如果x>0,则sign(x)为1,反之sign(x)为-1。
进一步的,在计算三元组损失时,输入包括一个锚图像f,一个与锚图像
Figure BDA0003189124870000036
拥有相同标签的遥感图像正样本
Figure BDA0003189124870000037
以及一个与锚图像
Figure BDA0003189124870000038
拥有不同标签的遥感图像负样本
Figure BDA0003189124870000039
训练的目的是拉近锚图像与正样本的距离,推远锚图像与负样本的距离;
对三元组损失函数进行改进,使用欧式空间代替汉明空间从而实现反向传播,改进后的三元组损失公式如下。
Figure BDA00031891248700000310
其中,||·||2表示L2范数,α表示边缘阈值,
Figure BDA00031891248700000311
分别代表与锚图像
Figure BDA00031891248700000312
正样本
Figure BDA00031891248700000313
负样本
Figure BDA00031891248700000314
对应的深度哈希网络输出,经过Sigmoid函数激活后,将输出限制在[0,1]之间。
进一步的,所述改进的哈希等距量化损失来统一两个不同空间的距离计算方式,根据平衡度量原则,图像对之间的相似度从欧式空间等距映射到汉明空间应保持一致,并采用L2范数来统一哈希编码之间的距离计算,因此,所述的哈希等距量化损失如下所示:
Figure BDA0003189124870000041
其中,μ为权重超参数,控制成对汉明等距映射项的重要性权重,i和j分别代表三元组里任意的两种图像,即锚图像与正样本、锚图像与负样本或正样本与负样本;上述公式中的前两项是基于逐点量化的约束,旨在减少由类二进制特征空间转换到汉明空间产生的量化误差,上述公式中的第三项是通过引入L2范数来统一两个不同空间的距离计算方法。
进一步的,在计算二值平衡损失时,首先计算如下损失:
Figure BDA0003189124870000042
其中K代表哈希的位数,hi为经过哈希层之后的输出,||.||代表L2范数,1是全1的向量;
然后计算平衡损失,平衡每一位哈希码的组成,以便使二进制哈希码在编码数固定时可以尽可能多的语义描述信息,公式如下:
Figure BDA0003189124870000043
其中mean(hi)代表每一位哈希码的均值大小;
所以,总的二值平衡损失如下所示:
Figure BDA0003189124870000044
其中λ1和λ2分别代表上述两部分的权重。
进一步的,通过联合学习三元组损失、哈希等距量化损失和二值平衡损失,定义整个深度哈希学习的损失函数,具体步骤如下:
i.计算总损失函数,计算公式如下:
min(Ltriple+αLisometric+βLbalance)
其中,参数α和β分别表示哈希等距量化损失和二值平衡损失的重要性参数;
ii.使用梯度下降算法对模型进行优化,迭代三元组损失、哈希等距量化损失和二值平衡损失的计算步骤,直到模型收敛。
本发明还提供一种基于通道注意力的哈希遥感图像检索装置,包括:
预训练Inception Net V3网络,用于提取特征;
双通道注意力融合模块,用于自适应学习不同通道间的关联性与区分性,先将Inception Net V3网络输出的特征分别传入两层独立的通道注意力模块中,再将提取的权重相加融合并Sigmoid函数激活,最后将权重与原特征对应通道相乘,以激活InceptionNet V3输出特征的通道注意力,有选择性地强化关键特征并弱化无用特征;
三元组损失模块,用于计算三元组损失,
哈希等距量化损失模块,用于计算原始空间向汉明空间映射造成的损失,保证了原始空间和汉明空间相似度的一致性,进而保持原始图像对之间的相似度和对应哈希编码之间的相似度的一致性;
二值平衡损失模块,用于减少二进制化带来误差的同时,使得相同长度的哈希编码包含更多的语义描述信息,实现更好的检索效果。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的基于通道注意力的哈希遥感图像检索方法的步骤。
与现有技术相比,本发明优点在于:
(1)本发明设计了双通道注意力融合模块,在深度哈希网络中使用双通道注意力融合模块,使模型自适应学到不同通道间的关联性与区分性,有选择性地加强关键的特征并弱化不重要的特征,充分学习遥感数据集中有区分性的关键信息,输出更具代表性的遥感图像表达特征,最终使模型关注到更加具有判别性的特征信息从而提升模型的检索能力,解决遥感图像存在的类间差异大、类内差异小等问题。
(2)本发明采用三元组损失并根据平衡度量的原则,改进了哈希等距量化损失,以最大化地保证了连续空间和离散空间相似度的一致性。
(3)本发明还设计了二值平衡损失,保证了二进制化误差降低的同时,有效的平衡二进制哈希码,使得相同长度的哈希编码包含更多的语义描述信息。
(4)本发明通过联合学习三元组损失、哈希等距量化损失和二值平衡损失,优化模型,能更好的保持遥感图像间的语义相似性,能够根据用户的需求从遥感图像数据库中高效,准确地检索特定内容。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的网络结构示意图;
图2为本发明的双通道注意力融合模块示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
实施例1
本实施例提出一种基于通道注意力的哈希遥感图像检索方法,通过引入双通道注意力机制,使模型有选择性地加强有利于检索任务的关键特征:设计了哈希等距量化损失,保持原始图像对之间的相似度和对应哈希编码之间的相似度的一致性;通过引入二值平衡损失,提高哈希编码的表示能力。
结合图1所示,首先,在模型训练阶段,包括特征提取的步骤、特征降维的步骤和损失优化的步骤。
其中,对于特征提取,采用预训练好的且不微调的Inception Net模型来提取特征。
对于特征降维,设计了图2所示的双通道注意力融合模块,通过双通道注意力融合模块和三层全连接结构获得注意力激活过的低维度特征向量。
对于损失优化,采用三元组损失作为训练模型的主损失,配合改进的哈希等距量化损失和二值平衡损失来优化模型。
其次,在模型测试阶段,通过设计sign函数来实现哈希层,生成离散化的哈希编码。
下面分别介绍各部分:
一、网络结构的设计
在本实施例中,将遥感图像数据集中的部分图像作为训练集,剩下的图像作为测试集,采用在ImageNet数据集上预训练好的Inception Net V3网络对图像进行特征提取。对预训练网络采用不微调的策略,防止模型过拟合,并将提取到的特征用于双通道注意力融合模块。
二、特征降维的设计
在本实施例中,设计了如图2所示的双通道注意力融合模块,让模型学到更全面的通道关联性,弥补单通道注意力对于关键部位独立检测的局限性。具体步骤是:
(1)首先将提取的特征x(即Inception Net V3网络的输出特征)分别传入两层独立的通道注意力模块中,每层使用两个非线性的全连接层来学习不同通道的权值,获得的通道注意力公式如下:
Fex_A(x,WA)=σ(g(x,WA))=σ(WA2δ(WA1x))
Fex_B(x,WB)=σ(g(x,WB))=σ(WB2δ(WB1x))
其中,δ代表Sigmoid函数,σ代表非线性激活函数(ReLU函数),WA1,WB1
Figure BDA0003189124870000071
WA2,WB2
Figure BDA0003189124870000072
C代表通道数,r为维数缩减比例,目的是减少模型的复杂度。
(2)其次分别将提取的权重进行相加融合后使用Sigmoid函数激活,使得两种独立的权重之间关注点互相补充,从而获得更加具有区分性的总注意力权重。
(3)最后将步骤(2)获得的权重与原输出特征x对应通道相乘,以激活原InceptionNet输出特征x的通道注意力,重点加强对任务有积极作用的通道特征,削弱对任务起消极作用的通道特征,公式如下:
Figure BDA0003189124870000073
其中⊙代表对位相乘,
Figure BDA0003189124870000074
代表了激活了通道注意力的特征。
此处需要说明的是,在注意力层之后是三层采用随机初始化参数的全连接层作为哈希层,输出维度分别是2048、512和哈希码长度K。前两层用ReLU函数激活,最后一层用Sigmoid函数激活,经过哈希层之后的输出如下所示:
Figure BDA0003189124870000075
其中,
Figure BDA0003189124870000076
代表哈希层的权重,
Figure BDA0003189124870000077
为偏置系数。
由于其输出的向量hi∈[0,1]K是连续值,需要离散化成二进制哈希编码bi∈{0,1}K,基于逐元素的转换函数为:
bi=(sign(hi-0.5)+1)/2
其中,sign(·)为符号函数,如果x>0,则sign(x)为1,反之sign(x)为-1。
三、损失函数的设计
a)三元组损失
本发明的主损失是基于三元组的哈希损失,输入包括一个锚图像f,一个与锚图像
Figure BDA0003189124870000081
拥有相同标签的遥感图像正样本
Figure BDA0003189124870000082
(即锚图像
Figure BDA0003189124870000083
与正样本
Figure BDA0003189124870000084
属于同一类别),以及一个与锚图像
Figure BDA0003189124870000085
拥有不同标签的遥感图像负样本
Figure BDA0003189124870000086
(即锚图像
Figure BDA0003189124870000087
与正样本
Figure BDA0003189124870000088
不属于同一类别)。训练的目的是拉近锚图像与正样本的距离,推远锚图像与负样本的距离;三元组损失函数如下:
Figure BDA0003189124870000089
其中,||·||H表示汉明距离,α表示边缘阈值,M表示在一个mini batch下三元组的个数,
Figure BDA00031891248700000810
分别代表与锚图像
Figure BDA00031891248700000811
正样本
Figure BDA00031891248700000812
负样本
Figure BDA00031891248700000813
对应的二进制哈希码。
由于汉明距离是离散值不连续,具有不可导的性质,无法使用梯度下降算法。本发明对三元组损失函数进行改进,使用欧式空间代替汉明空间从而实现反向传播。改进后的三元组损失公式如下。
Figure BDA00031891248700000814
其中,||·||2表示L2范数,α表示边缘阈值,
Figure BDA00031891248700000815
分别代表与锚图像
Figure BDA00031891248700000816
正样本
Figure BDA00031891248700000817
负样本
Figure BDA00031891248700000818
对应的深度哈希网络输出,经过Sigmoid函数激活后,将输出限制在[0,1]之间。
b)哈希等距量化损失
在距离量化过程中,现有的大部分哈希方法普遍采用二进制量化,通常通过sign函数将连续的特征向量hi转换为二进制编码bi,但增加离散化限制的同时,很容易产生量化误差以及量化后基于不同空间的相似度发生改变。为了减少量化误差,哈希学习中广泛使用正则化项、L1范数或者L2范数。与之前的哈希学习方法一样,采用L1范数来控制量化误差。
Figure BDA0003189124870000091
因为离散值的求导问题,本发明使用平滑替代损失|x|=logcoshx来改写上式:
Lpoint-wise=(logcosh|hi-bi|)2
其中|·|是取绝对值操作。
尽管基于单图像逐点机制的L1范数可以减少量化误差,但是并不利于产生高质量的哈希编码。具体来说,对于有效的遥感图像检索来说,在图像检索阶段,为了使模型有效收敛,通常使用汉明距离来度量图像之间的相似度,而在模型训练阶段中,汉明空间被用来衡量图像对之间的相似度以提高检索效率。因此,除了减少量化误差外,图像对之间学习到的语义相似度在量化后也应该被保持。
根据平衡度量原则,图像对之间的相似度应该从欧式空间等距映射到汉明空间,也就是生成的哈希编码之间的相似度和对应图像连续特征之间的相似度应该保持一致。由于汉明空间的距离和欧式空间的距离计算方法不一样,本发明采用L2范数来统一哈希编码之间的距离计算。通过改进的哈希等距量化损失来统一两个不同空间的距离计算方式。因此,所述的哈希等距量化损失如下所示:
Figure BDA0003189124870000092
其中,μ为权重超参数,控制成对汉明等距映射项的重要性权重,i和j分别代表三元组里任意的两种图像,即锚图像与正样本、锚图像与负样本或正样本与负样本。上述公式中的前两项是基于逐点量化的约束,旨在减少由类二进制特征空间转换到汉明空间产生的量化误差,上述公式中的第三项是通过引入L2范数来统一两个不同空间的距离计算方法。
c)二值平衡损失
如上文所述,哈希层中对最后一个全连接层的输出采用了Sigmoid激活函数,将结果限制到[0,1]之间。为了让结果更接近Sigmoid函数的极值,减少连续值被映射到离散值时带来的量化误差,采用如下损失:
Figure BDA0003189124870000101
其中K代表哈希的位数,hi为经过哈希层之后的输出,||.||代表L2范数,1是全1的向量。
为了获得高质量的哈希编码,最大化哈希编码包含的信息,本发明计算平衡损失,平衡每一位哈希码的组成(每一个哈希位都有百分之五十的概率成为1或者0),以便使二进制哈希码在编码数固定时可以尽可能多的语义描述信息,公式如下:
Figure BDA0003189124870000102
其中mean(hi)代表每一位哈希码的均值大小。
Lpush代表二值平衡损失的第一部分,目的是将连续值推向(无限逼近)离散的二值码;Lequal代表平衡损失,目的是让二值的值平衡。所以,总的二值平衡损失如下所示:
Figure BDA0003189124870000103
其中λ1和λ2分别代表上述两部分的权重。
四、有监督联合学习
通过步骤三计算结果,通过联合学习三元组损失、哈希等距量化损失和二值平衡损失,定义整个深度哈希学习的损失函数,具体步骤如下:
iii.计算总损失函数,计算公式如下:
min(Ltriple+αLisometric+βLbalance)
其中,参数α和β分别表示哈希等距量化损失和二值平衡损失的重要性参数。
iv.使用梯度下降算法对模型进行优化,迭代步骤三,直到模型收敛。
在使用本发明方法进行图像检索时,按照以下步骤进行:
步骤0:将AID数据集中的随机6000张图像做为训练集,剩下的4000张图像为测试集。
步骤1:根据上文设计的哈希函数,该函数用来把图像集X={x1,x2…xN}里的每一张图像映射成一个K维的二进制码记为H:x→{0,1}K,最终得到一个图像哈希码库:
H(x)={H(x1),H(x2),…,H(xN)}。
步骤3:当输入查询图像xc时,用设计好的哈希函数H得到查询图像的哈希码H(xc)。然后再将其与图像哈希码库中的每一个哈希码进行汉明距离的计算,得到一个与查询图像有关的距离集合D:
D={dh(H(xc),H(x1)),dh(H(xc),H(x2)),…,dh(H(xc),H(xN))}
其中,dh(H(x1),H(x2))表示任意两张图像哈希码汉明距离的计算公式。
步骤4:将集合D中的汉明距离按照升序排列,根据任务需求取距离值最小的前M个编码(M<N),并在图像集中找出与之对应的图像,返回给查询用户。
实施例2
基于通道注意力机制的深度等距哈希遥感图像检索装置,包括:
预训练Inception Net V3网络,用于提取特征;
双通道注意力融合模块,用于自适应学习不同通道间的关联性与区分性,先将Inception Net V3网络输出的特征分别传入两层独立的通道注意力模块中,再将提取的权重相加融合并Sigmoid函数激活,最后将权重与原特征对应通道相乘,以激活InceptionNet V3输出特征的通道注意力,有选择性地强化关键特征并弱化无用特征;
三元组损失模块,用于计算三元组损失,
哈希等距量化损失模块,于计算原始空间向汉明空间映射造成的损失,用于最大化地减少模型测试和训练中产生的相似性差异,保证了原始空间和汉明空间相似度的一致性,进而保持原始图像对之间的相似度和对应哈希编码之间的相似度的一致性;
二值平衡损失模块,用于减少二进制化带来误差的同时,使得相同长度的哈希编码包含更多的语义描述信息,实现更好的检索效果。
各组成部分的功能及实现方式可参考实施例1部分的记载,此处不再赘述。
作为本发明的另一实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的基于通道注意力机制的深度等距哈希遥感图像检索方法的步骤,此处不再赘述。
本发明说明书的各个实施例之间相同或相似部分互相参见即可,每个实施例重点说明的是与其他实施例不同之处。并且,系统实施例的结构仅仅是示意性的,其中所述可分离部件说明的程序模块可以是或不是物理上分开的,实际应用时,可根据需要选择部分或全部模块实现本实施例方案的目的。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。

Claims (9)

1.基于通道注意力的哈希遥感图像检索方法,其特征在于:首先,在模型训练阶段,包括特征提取的步骤、特征降维的步骤和损失优化的步骤;其次,在模型测试阶段,通过设计sign函数来实现哈希层,生成离散化的哈希编码;
其中,特征降维时,设计了双通道注意力融合模块,通过双通道注意力融合模块和三层全连接结构获得注意力激活过的低维度特征向量;
损失优化时,采用三元组损失作为训练模型的主损失,配合改进的哈希等距量化损失和二值平衡损失来优化模型。
2.根据权利要求1所述的基于通道注意力的哈希遥感图像检索方法,其特征在于,特征降维的具体步骤是:
(1)首先将提取的特征x分别传入两层独立的通道注意力模块中,每层使用两个非线性的全连接层来学习不同通道的权值,获得的通道注意力公式如下:
Fex_A(x,WA)=σ(g(x,WA))=σ(WA2δ(WA1x))
Fex_B(x,WB)=σ(g(x,WB))=σ(WB2δ(WB1x))
其中,δ代表Sigmoid函数,σ代表非线性激活函数,WA1,
Figure FDA0003189124860000011
WA2,
Figure FDA0003189124860000012
C代表通道数,r为维数缩减比例;
(2)其次分别将提取的权重进行相加融合后使用Sigmoid函数激活,使得两种独立的权重之间关注点互相补充,从而获得更加具有区分性的总注意力权重;
(3)最后将步骤(2)获得的权重与原输出特征x对应通道相乘,以激活原输出特征x的通道注意力,加强对任务有积极作用的通道特征,削弱对任务起消极作用的通道特征,公式如下:
Figure FDA0003189124860000013
其中⊙代表对位相乘,
Figure FDA0003189124860000014
代表了激活了通道注意力的特征。
3.根据权利要求2所述的基于通道注意力的哈希遥感图像检索方法,其特征在于,在注意力层之后是三层采用随机初始化参数的全连接层作为哈希层,前两层用ReLU函数激活,最后一层用Sigmoid函数激活,经过哈希层之后的输出如下所示:
Figure FDA0003189124860000015
其中,
Figure FDA0003189124860000021
代表哈希层的权重,
Figure FDA0003189124860000022
为偏置系数;
由于其输出的向量hi∈[0,1]K是连续值,需要离散化成二进制哈希编码bi∈{0,1}K,基于逐元素的转换函数为:
bi=(sign(hi-0.5)+1)/2
其中,sign(·)为符号函数,如果x>0,则sign(x)为1,反之sign(x)为-1。
4.根据权利要求3所述的基于通道注意力的哈希遥感图像检索方法,其特征在于,在计算三元组损失时,输入包括一个锚图像f,一个与锚图像
Figure FDA0003189124860000023
拥有相同标签的遥感图像正样本
Figure FDA0003189124860000024
以及一个与锚图像
Figure FDA0003189124860000025
拥有不同标签的遥感图像负样本
Figure FDA0003189124860000026
训练的目的是拉近锚图像与正样本的距离,推远锚图像与负样本的距离;
对三元组损失函数进行改进,使用欧式空间代替汉明空间从而实现反向传播,改进后的三元组损失公式如下。
Figure FDA0003189124860000027
其中,||·||2表示L2范数,α表示边缘阈值,
Figure FDA0003189124860000028
分别代表与锚图像
Figure FDA0003189124860000029
正样本
Figure FDA00031891248600000210
负样本
Figure FDA00031891248600000211
对应的深度哈希网络输出,经过Sigmoid函数激活后,将输出限制在[0,1]之间。
5.根据权利要求4所述的基于通道注意力的哈希遥感图像检索方法,其特征在于,所述改进的哈希等距量化损失来统一两个不同空间的距离计算方式,根据平衡度量原则,图像对之间的相似度从欧式空间等距映射到汉明空间应保持一致,并采用L2范数来统一哈希编码之间的距离计算,因此,所述的哈希等距量化损失如下所示:
Figure FDA00031891248600000212
其中,μ为权重超参数,控制成对汉明等距映射项的重要性权重,i和j分别代表三元组里任意的两种图像,即锚图像与正样本、锚图像与负样本或正样本与负样本;上述公式中的前两项是基于逐点量化的约束,旨在减少由类二进制特征空间转换到汉明空间产生的量化误差,上述公式中的第三项是通过引入L2范数来统一两个不同空间的距离计算方法。
6.根据权利要求5所述的基于通道注意力的哈希遥感图像检索方法,其特征在于,在计算二值平衡损失时,首先计算如下损失:
Figure FDA0003189124860000031
其中K代表哈希的位数,hi为经过哈希层之后的输出,||.||代表L2范数,1是全1的向量;
然后计算平衡损失,平衡每一位哈希码的组成,以便使二进制哈希码在编码数固定时可以尽可能多的语义描述信息,公式如下:
Figure FDA0003189124860000032
其中mean(hi)代表每一位哈希码的均值大小;
所以,总的二值平衡损失如下所示:
Figure FDA0003189124860000033
其中λ1和λ2分别代表上述两部分的权重。
7.根据权利要求6所述的基于通道注意力的哈希遥感图像检索方法,其特征在于,通过联合学习三元组损失、哈希等距量化损失和二值平衡损失,定义整个深度哈希学习的损失函数,具体步骤如下:
i.计算总损失函数,计算公式如下:
min(Ltriple+αLisometric+βLbalance)
其中,参数α和β分别表示哈希等距量化损失和二值平衡损失的重要性参数;
ii.使用梯度下降算法对模型进行优化,迭代三元组损失、哈希等距量化损失和二值平衡损失的计算步骤,直到模型收敛。
8.基于通道注意力的哈希遥感图像检索装置,其特征在于,包括:
预训练Inception Net V3网络,用于提取特征;
双通道注意力融合模块,用于自适应学习不同通道间的关联性与区分性,先将Inception Net V3网络输出的特征分别传入两层独立的通道注意力模块中,再将提取的权重相加融合并Sigmoid函数激活,最后将权重与原特征对应通道相乘,以激活InceptionNet V3输出特征的通道注意力,有选择性地强化关键特征并弱化无用特征;
三元组损失模块,用于计算三元组损失,
哈希等距量化损失模块,,用于计算原始空间向汉明空间映射造成的损失,保证了原始空间和汉明空间相似度的一致性,进而保持原始图像对之间的相似度和对应哈希编码之间的相似度的一致性;
二值平衡损失模块,用于减少二进制化带来误差的同时,使得相同长度的哈希编码包含更多的语义描述信息,实现更好的检索效果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一权利要求所述的基于通道注意力的哈希遥感图像检索方法的步骤。
CN202110871978.5A 2021-07-30 2021-07-30 基于通道注意力的哈希遥感图像检索方法、装置及介质 Active CN113537384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110871978.5A CN113537384B (zh) 2021-07-30 2021-07-30 基于通道注意力的哈希遥感图像检索方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110871978.5A CN113537384B (zh) 2021-07-30 2021-07-30 基于通道注意力的哈希遥感图像检索方法、装置及介质

Publications (2)

Publication Number Publication Date
CN113537384A true CN113537384A (zh) 2021-10-22
CN113537384B CN113537384B (zh) 2023-11-28

Family

ID=78121608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110871978.5A Active CN113537384B (zh) 2021-07-30 2021-07-30 基于通道注意力的哈希遥感图像检索方法、装置及介质

Country Status (1)

Country Link
CN (1) CN113537384B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704522A (zh) * 2021-10-28 2021-11-26 山东建筑大学 基于人工智能的目标图像快速检索方法及系统
CN116049660A (zh) * 2021-10-28 2023-05-02 腾讯科技(深圳)有限公司 数据处理方法、装置、设备、存储介质及程序产品
CN116825210A (zh) * 2023-08-28 2023-09-29 山东大学 基于多源生物数据的哈希检索方法、系统、设备和介质
CN116955675A (zh) * 2023-09-21 2023-10-27 中国海洋大学 基于细粒度相似关系对比学习的哈希图像检索方法及网络

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929080A (zh) * 2019-11-26 2020-03-27 西安电子科技大学 基于注意力和生成对抗网络的光学遥感图像检索方法
CN111428073A (zh) * 2020-03-31 2020-07-17 新疆大学 一种深度监督量化哈希的图像检索方法
CN111625675A (zh) * 2020-04-12 2020-09-04 南京理工大学 基于注意力机制下特征金字塔的深度哈希图像检索方法
CN111680176A (zh) * 2020-04-20 2020-09-18 武汉大学 基于注意力与双向特征融合的遥感图像检索方法及系统
CN111723220A (zh) * 2020-06-18 2020-09-29 中南大学 基于注意力机制和哈希的图像检索方法、装置及存储介质
CN112199532A (zh) * 2020-09-01 2021-01-08 中国科学院信息工程研究所 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN112766458A (zh) * 2021-01-06 2021-05-07 南京瑞易智能科技有限公司 一种联合分类损失的双流有监督深度哈希图像检索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929080A (zh) * 2019-11-26 2020-03-27 西安电子科技大学 基于注意力和生成对抗网络的光学遥感图像检索方法
CN111428073A (zh) * 2020-03-31 2020-07-17 新疆大学 一种深度监督量化哈希的图像检索方法
CN111625675A (zh) * 2020-04-12 2020-09-04 南京理工大学 基于注意力机制下特征金字塔的深度哈希图像检索方法
CN111680176A (zh) * 2020-04-20 2020-09-18 武汉大学 基于注意力与双向特征融合的遥感图像检索方法及系统
CN111723220A (zh) * 2020-06-18 2020-09-29 中南大学 基于注意力机制和哈希的图像检索方法、装置及存储介质
CN112199532A (zh) * 2020-09-01 2021-01-08 中国科学院信息工程研究所 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN112766458A (zh) * 2021-01-06 2021-05-07 南京瑞易智能科技有限公司 一种联合分类损失的双流有监督深度哈希图像检索方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704522A (zh) * 2021-10-28 2021-11-26 山东建筑大学 基于人工智能的目标图像快速检索方法及系统
CN116049660A (zh) * 2021-10-28 2023-05-02 腾讯科技(深圳)有限公司 数据处理方法、装置、设备、存储介质及程序产品
CN116825210A (zh) * 2023-08-28 2023-09-29 山东大学 基于多源生物数据的哈希检索方法、系统、设备和介质
CN116825210B (zh) * 2023-08-28 2023-11-17 山东大学 基于多源生物数据的哈希检索方法、系统、设备和介质
CN116955675A (zh) * 2023-09-21 2023-10-27 中国海洋大学 基于细粒度相似关系对比学习的哈希图像检索方法及网络
CN116955675B (zh) * 2023-09-21 2023-12-12 中国海洋大学 基于细粒度相似关系对比学习的哈希图像检索方法及网络

Also Published As

Publication number Publication date
CN113537384B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
CN110334219B (zh) 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN113537384A (zh) 基于通道注意力的哈希遥感图像检索方法、装置及介质
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
JP7360497B2 (ja) クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム
CN112199520B (zh) 基于细粒度相似性矩阵的跨模态哈希检索算法
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
Li et al. Image sentiment prediction based on textual descriptions with adjective noun pairs
CN106372187B (zh) 一种面向大数据的跨语言检索方法
CN111460077A (zh) 一种基于类语义引导的跨模态哈希检索方法
Ke et al. Data equilibrium based automatic image annotation by fusing deep model and semantic propagation
CN113177141B (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN114329232A (zh) 一种基于科研网络的用户画像构建方法和系统
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN112800344B (zh) 一种基于深度神经网络的电影推荐方法
CN113204633B (zh) 一种语义匹配蒸馏方法及装置
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN112199532A (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN109284414B (zh) 基于语义保持的跨模态内容检索方法和系统
CN115238053A (zh) 基于bert模型的新冠知识智能问答系统及方法
CN111026887B (zh) 一种跨媒体检索的方法及系统
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN115329120A (zh) 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant