CN113836341A - 基于无监督转换器平衡哈希的遥感图像检索方法 - Google Patents

基于无监督转换器平衡哈希的遥感图像检索方法 Download PDF

Info

Publication number
CN113836341A
CN113836341A CN202111070838.4A CN202111070838A CN113836341A CN 113836341 A CN113836341 A CN 113836341A CN 202111070838 A CN202111070838 A CN 202111070838A CN 113836341 A CN113836341 A CN 113836341A
Authority
CN
China
Prior art keywords
remote sensing
hash
sensing image
network
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111070838.4A
Other languages
English (en)
Other versions
CN113836341B (zh
Inventor
陈亚雄
王凡
李小玉
汤一博
熊盛武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202111070838.4A priority Critical patent/CN113836341B/zh
Publication of CN113836341A publication Critical patent/CN113836341A/zh
Application granted granted Critical
Publication of CN113836341B publication Critical patent/CN113836341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种无监督转换器平衡哈希的遥感图像检索方法。首先将数据集划分为训练数据集和测试数据集,接着构建整体网络模型,使用训练数据集对整体网络进行训练,最后使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前K个精度,得出平均精度指标MAP和前K名检索结果。本发明将卷积变分自编码器架构与转换器主干相结合,可以指导遥感图像的多通道信息之间的交互,并结合重构代价、KL散度和平衡项设计了目标函数,可以在哈希学习过程中保留哈希码的区分度,减少实值输出空间和汉明输出空间之间的差异,进一步提高检索性能。

Description

基于无监督转换器平衡哈希的遥感图像检索方法
技术领域
本发明属于遥感图像检索领域,特别是涉及一种基于无监督转换器平衡哈希的遥感图像检索方法。
背景技术
随着遥感技术的发展,遥感图像呈现出高速增长的趋势。为了从大规模遥感图像中挖掘有效信息,许多研究人员开始关注遥感图像检索的研究。遥感图像检索技术的目标是自动将语义相似的遥感图像与查询的遥感图像进行匹配。大量基于内容的遥感图像检索方法逐渐被开发出来用于管理和分析遥感图像。这些方法通常包括两个主要部分:特征提取和相似度测量。它们常使用高维特征描述符,如纹理、形状和深度特征,然而随着遥感图像采集设备精度的不断提高,基于内容的遥感图像检索方法容易出现检索速度慢、存储空间不足等问题。
哈希技术因其速度快、存储空间小而被广泛应用于解决基于内容的遥感图像检索方法的问题。哈希技术的目的是将遥感图像映射为哈希码,同时保留原始空间中遥感图像的相似性。监督哈希算法通过利用监督信息来学习哈希函数,但是在获取类别标签时非常耗时。为了解决这个问题,在大规模遥感图像检索中广泛提出了无监督哈希算法。
尽管现有的无监督遥感图像检索算法取得了一些进展,但仍然存在两个明显的不足:1)现有的方法未能充分减少实值输出空间与汉明输出空间的差异,最终导致遥感图像检索性能不佳;2)一些方法不能考虑多通道信息之间的相互作用,导致多通道信息利用不足,最终影响检索性能。
发明内容
本发明针对现有技术的不足,提供一种基于无监督转换器平衡哈希的遥感图像检索方法。首先将数据集划分为训练数据集和测试数据集,接着构建整体网络模型,使用训练数据集对整体网络进行训练,最后使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前K个精度,得出平均精度指标MAP和前K名检索结果。
为了达到上述目的,本发明提供的技术方案是一种基于无监督转换器平衡哈希的遥感图像检索方法,包括以下步骤:
步骤1,划分训练数据集和测试数据集;
步骤2,构建整体网络模型,利用变分自编码器作为主干网络,主干网络包括推理网络和生成网络两部分;
步骤3,初始化整体网络模型参数,计算整体网络模型的目标函数,训练整体网络模型并更新模型参数;
步骤4,使用训练好的网络得到检索结果。
而且,所述步骤2中推理网络L(hn|xn)将原始数据xn投影到变分概率分布中,然后从变分概率分布中采样特征向量hn,主要由遥感转换器、两个并行的全连接层和一个哈希编码层组成。并行全连接层包含k个结点,哈希编码层利用再参数化技巧来连接两个并行的全连接层。遥感转换器由卷积层、碎片重塑算子、位置嵌入、RGB自注意模块和NIF自注意模块组成。卷积层采用128个滤波器,大小为8×8,卷积层步长为8像素。碎片重塑算子可以将映射得到的特征向量hn重塑为128维的16个碎片嵌入。位置嵌入可以添加到补丁嵌入中,具体来说利用17个标准科学系的一维嵌入和128维来保留位置信息,并将第0个位置嵌入的站点添加到标准令牌中,该令牌包含128维可学习参数,得到的嵌入向量序列作为RGB自注意模块和NIF自注意模块的输入。
NIF自注意模块采用包含8个多头自注意层和MLP层的6个交替堆栈,每个交替堆栈包含两个子层,在每个子层前应用层范式,每个子层后应用剩余连接,因此每个子层的输出可表示为:
SubLayerOut=LayerNorm(In+SubLayer(In)) (1)
式中,SubLayerOut表示每个子层的输出,LayerNorm(·)表示范式层,In表示子层输入,SubLayer(·)表示子层本身实现的函数。
NIF自注意模块中
Figure BDA0003260364140000021
为栈i的输入碎片嵌入,
Figure BDA0003260364140000022
为栈i+1的输入,利用参数权重
Figure BDA0003260364140000023
Figure BDA0003260364140000024
转变为矩阵
Figure BDA0003260364140000025
则NIF注意力子层的公式如下:
Figure BDA0003260364140000031
式中,
Figure BDA0003260364140000032
是堆栈i的输入碎片嵌入;softmax(·)为归一化指数函数;考虑到速度和空间效率,
Figure BDA0003260364140000033
的点积通过
Figure BDA0003260364140000034
进行缩放,dk是矩阵
Figure BDA0003260364140000035
Figure BDA0003260364140000036
的维度。
RGB自注意模块也由6个相同层的堆栈组成,与NIF自注意力子层不同,RGB自注意力子层插入了第二个掩码函数,该函数对相应编码器堆栈的输出执行多头注意力,RGB注意力子层的公式如下:
Figure BDA0003260364140000037
式中,
Figure BDA0003260364140000038
表示RGB自注意模块的查询矩阵,
Figure BDA0003260364140000039
表示RGB自注意模块的配对键值矩阵,
Figure BDA00032603641400000310
是堆栈i的输入碎片嵌入。
生成网络gΦ(xn|hn)通过投影特征向量hn来重构遥感影像xn,它主要由一个全连接层、一个重塑算子、四个带有BN的转置卷积层和一个卷积层组成。四个带有BN的转置卷积层分别采用256、126、64、32个大小为3×3的滤波器,每个转置卷积层的步幅为2个像素,利用LeakyReLU函数作为激活函数。卷积层采用3个大小为3×3的滤波器,每个卷积层的步幅为1个像素,利用tanh函数作为激活函数。
而且,所述步骤3中给定任意遥感影像xn,深度哈希函数可表示为:
bn=H(xn)=sign(Lθ(hn|xn)) (4)
Figure BDA00032603641400000311
式中,bn表示遥感影像xn的k位哈希码,H(·)表示遥感影像xn的深度哈希函数,hn表示遥感影像xn的特征向量,Lθ表示xn的推理网络,θ表示推理网络的参数。
为了生成有效的哈希码,N个样本的重构成本可以表示为:
Figure BDA0003260364140000041
其中,bn表示遥感影像xn的k位哈希码,gΦ(xn|bn)表示bn的生成网络。
由于式(6)是一个非光滑函数,在深度神经网络中很难计算倒数,因此将重构成本写为:
Figure BDA0003260364140000042
式中,Jr表示重构成本,xn表示遥感影像,hn表示类似哈希码,gΦ(xn|hn)表示hn的生成网络。
变分自编码器需要通过最小化KL散度来保持概率分布接近标准正态分布N(0,1),KL散度定义为:
Figure BDA0003260364140000047
式中,
Figure BDA0003260364140000043
表示KL散度,可以在哈希学习过程中保留哈希码的区分度;μn是遥感影像xn的均值;
Figure BDA0003260364140000044
是遥感影像xn的方差。
为了有效减少实值输出空间和汉明空间之间的差异,保持哈希码的平衡特性,平衡项定义为:
Figure BDA0003260364140000045
式中,Jb表示平衡项,可以有效减少实值输出空间和汉明输出空间之间的差异;μn是遥感影像xn的均值。
考虑重构成本、KL散度和平衡项,总目标函数的公式表示如下:
Figure BDA0003260364140000046
式中,α和β表示评估项的度的超参数。
训练整体网络模型时,使用Adam算法优化目标函数,学习率设置为ε=0.0005,批量大小M=512,哈希码的长度k分别设置为32,48,64,生成网络和推理网络的权重参数θ和Φ由glorot均匀分布初始化,α设置为1,β设置为5,训练5轮迭代,通过训练模型得到网络的权重参数W和偏置参数B。
而且,所述步骤4中使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前K个精度,得出平均精度指标MAP和前K名检索结果。
与现有技术相比,本发明具有如下优点:本发明将卷积变分自编码器架构与转换器主干相结合,解决了遥感图像多通道信息之间交互利用不足的问题;结合重构成本、KL散度和平衡项设计了目标函数,可以在哈希学习过程中保留哈希码的区分度,减少实值输出空间和汉明输出空间之间的差异,进一步提高检索性能。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例的网络结构图。
图3为本发明实施例中RGB自注意模块的多头自注意过程。
图4为本发明实施例中NIF自注意模块的多头自注意过程。
图5为本发明实施例在64位的SAT-6数据集上的前10个检索样本,错误的检索样本用叉号标记,正确的检索样本用对号标记。
具体实施方式
本发明提供一种基于无监督转换器平衡哈希的遥感图像检索方法,首先将数据集划分为训练数据集和测试数据集,接着构建整体网络模型,使用训练数据集对整体网络进行训练,最后使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前K个精度,得出平均精度指标MAP和前K名检索结果。
下面结合附图和实施例对本发明的技术方案作进一步说明。
如图1所示,本发明实施例的流程包括以下步骤:
步骤1,划分训练数据集和测试数据集。
使用SAT-6图像数据集,共包含405000张图像,每张图像有4个通道,每张图像大小为28×28,随机选取该数据集的1000张图像作为测试数据集和检索数据集,余下的作为训练数据集。
步骤2,构建整体网络模型,利用变分自编码器作为主干网络,主干网络包括推理网络和生成网络。
推理网络L(hn|xn)将原始数据xn投影到变分概率分布中,然后从变分概率分布中采样特征向量hn,主要由遥感转换器、两个并行的全连接层和一个哈希编码层组成。并行全连接层包含k个结点,哈希编码层利用再参数化技巧来连接两个并行的全连接层。遥感转换器由卷积层、碎片重塑算子、位置嵌入、RGB自注意模块和NIF自注意模块组成。卷积层采用128个滤波器,大小为8×8,卷积层步长为8像素。碎片重塑算子可以将映射得到的特征向量hn重塑为128维的16个碎片嵌入。位置嵌入可以添加到补丁嵌入中,具体来说可利用17个标准科学系的一维嵌入和128维来保留位置信息,并将第0个位置嵌入的站点添加到标准令牌中,该令牌包含128维可学习参数,得到的嵌入向量序列作为RGB自注意模块和NIF自注意模块的输入。
NIF自注意模块采用包含8个多头自注意层和MLP层的6个交替堆栈,每个交替堆栈包含两个子层,在每个子层前应用层范式,每个子层后应用剩余连接。因此每个子层的输出可表示为:
SubLayerOut=LayerNorm(In+SubLayer(In)) (1)
式中,SubLayerOut表示每个子层的输出,LayerNorm(·)表示范式层,In表示子层输入,SubLayer(·)表示子层本身实现的函数。
NIF自注意模块中
Figure BDA0003260364140000061
为栈i的输入碎片嵌入,
Figure BDA0003260364140000062
为栈i+1的输入,利用参数权重
Figure BDA0003260364140000063
Figure BDA0003260364140000064
转变为矩阵
Figure BDA0003260364140000065
则NIF注意力子层的公式如下:
Figure BDA0003260364140000066
式中,
Figure BDA0003260364140000067
是堆栈i的输入碎片嵌入;softmax(·)为归一化指数函数;考虑到速度和空间效率,
Figure BDA0003260364140000068
的点积通过
Figure BDA0003260364140000069
进行缩放,dk是矩阵
Figure BDA00032603641400000610
Figure BDA0003260364140000071
的维度。
RGB自注意模块也由6个相同层的堆栈组成,与NIF自注意力子层不同,RGB自注意力子层插入了第二个掩码函数,该函数对相应编码器堆栈的输出执行多头注意力。RGB注意力子层的公式如下:
Figure BDA0003260364140000072
式中,
Figure BDA0003260364140000073
表示RGB自注意模块的查询矩阵,
Figure BDA0003260364140000074
表示RGB自注意模块的配对键值矩阵,
Figure BDA0003260364140000075
是堆栈i的输入碎片嵌入。
生成网络gΦ(xn|hn)通过投影特征向量hn来重构遥感影像xn,它主要由一个全连接层、一个重塑算子、四个带有BN的转置卷积层和一个卷积层组成。四个带有BN的转置卷积层分别采用256、126、64、32个大小为3×3的滤波器,每个转置卷积层的步幅为2个像素,利用LeakyReLU函数作为激活函数。卷积层采用3个大小为3×3的滤波器,每个卷积层的步幅为1个像素,利用tanh函数作为激活函数。
步骤3,初始化整体网络模型参数,计算整体网络模型的目标函数,训练整体网络模型并更新模型参数。
给定任意遥感影像xn,深度哈希函数可表示为:
bn=H(xn)=sign(Lθ(hn|xn)) (4)
Figure BDA0003260364140000076
式中,bn表示遥感影像xn的k位哈希码,H(·)表示遥感影像xn的深度哈希函数,hn表示遥感影像xn的特征向量,Lθ表示xn的推理网络,θ表示推理网络的参数。
为了生成有效的哈希码,N个样本的重构成本可以表示为:
Figure BDA0003260364140000077
其中,bn表示遥感影像xn的k位哈希码,gΦ(xn|bn)表示bn的生成网络。
由于式(6)是一个非光滑函数,在深度神经网络中很难计算倒数,因此将重构成本写为:
Figure BDA0003260364140000081
式中,Jr表示重构成本,xn表示遥感影像,hn表示类似哈希码,gΦ(xn|hn)表示hn的生成网络。
变分自编码器需要通过最小化KL散度来保持概率分布接近标准正态分布N(0,1),KL散度定义为:
Figure BDA0003260364140000082
式中,
Figure BDA0003260364140000083
表示KL散度,可以在哈希学习过程中保留哈希码的区分度;μn是遥感影像xn的均值,
Figure BDA0003260364140000084
是遥感影像xn的方差。
为了有效减少实值输出空间和汉明空间之间的差异,保持哈希码的平衡特性,平衡项定义为:
Figure BDA0003260364140000085
式中,Jb表示平衡项,可以有效减少实值输出空间和汉明输出空间之间的差异;μn是遥感影像xn的均值。
考虑重构成本、KL散度和平衡项,总目标函数的公式表示如下:
Figure BDA0003260364140000086
式中,α和β表示评估项的度的超参数。
训练整体网络模型时,使用Adam算法优化目标函数,学习率设置为ε=0.0005,批量大小M=512,哈希码的长度k分别设置为32,48,64,生成网络和推理网络的权重参数θ和Φ由glorot均匀分布初始化,α设置为1,β设置为5,训练5轮迭代,通过训练模型得到网络的权重参数W和偏置参数B。
步骤4,使用训练好的网络得到检索结果。
使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前K个精度,得出平均精度指标MAP和前K名检索结果。
为了评估本发明方法的有效性,首先将本发明提出的方法、利用本发明提出的方法但没有转换器(UTBH-T)和利用本发明提出的方法但未考虑平衡项(UTBH-L)的两种情况进行对比,评估本发明方法提出的遥感转换器和平衡项的有效性;然后将本发明方法与IMH、IsoHash、ITQ、SpH、KULSH、PRH、OKH、OSH、OPRH和VAEH等最先进的方法进行了检索性能比较。本实验采用32,48,64位不同的哈希码,采用SAT-6图像数据集,IMH、IsoHash、ITQ、SpH、KULSH、PRH、OKH、OSH、OPRH和VAEH方法按原轮文执行。
表1
Figure BDA0003260364140000091
表1是三种方法在具有不同哈希位的SAT-6数据集上的前10个检索结果的平均精度的比较,其中MAP为平均精度指标。通过对比结果可以看出本发明提出的方法在具有不同哈希位的SAT-6数据集上的前10个检索结果的平均精度指标最高。
表2
Figure BDA0003260364140000092
Figure BDA0003260364140000101
表2是本发明与其他方法在SAT-6数据集上的比较实验结果,其中MAP为平均精度指标,TOP-K(%)是前K名的检索精度,通过对比结果可以看出本发明提出的方法在具有不同哈希位的SAT-6数据集上的前10个和前100个检索结果的平均精度指标最高。
具体实施时,以上流程可采用计算机软件技术实现自动运行流程。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (7)

1.一种基于无监督转换器平衡哈希的遥感图像检索方法,其特征在于,包括如下步骤:
步骤1,划分训练数据集和测试数据集;
步骤2,构建整体网络模型,利用变分自编码器作为主干网络,主干网络包括推理网络和生成网络两部分;
步骤3,初始化整体网络模型参数,计算整体网络模型的目标函数,训练整体网络模型并更新模型参数;
步骤4,使用训练好的网络得到检索结果。
2.如权利要求1所述的一种基于无监督转换器平衡哈希的遥感图像检索方法,其特征在于:步骤2中推理网络L(hn|xn)将原始数据xn投影到变分概率分布中,然后从变分概率分布中采样特征向量hn,由遥感转换器、两个并行的全连接层和一个哈希编码层组成;并行全连接层包含k个结点,哈希编码层利用再参数化技巧来连接两个并行的全连接层;遥感转换器由卷积层、碎片重塑算子、位置嵌入、RGB自注意模块和NIF自注意模块组成。
3.如权利要求2所述的一种基于无监督转换器平衡哈希的遥感图像检索方法,其特征在于:遥感转换器中的卷积层采用128个滤波器,大小为8×8,卷积层步长为8像素;碎片重塑算子将映射得到的特征向量hn重塑为128维的16个碎片嵌入;位置嵌入添加到补丁嵌入中,具体来说利用17个标准科学系的一维嵌入和128维来保留位置信息,并将第0个位置嵌入的站点添加到标准令牌中,该令牌包含128维可学习参数,得到的嵌入向量序列作为RGB自注意模块和NIF自注意模块的输入;
NIF自注意模块采用包含8个多头自注意层和MLP层的6个交替堆栈,每个交替堆栈包含两个子层,在每个子层前应用层范式,每个子层后应用剩余连接,因此每个子层的输出可表示为:
SubLayerOut=LayerNorm(In+SubLayer(In)) (1)
式中,SubLayerOut表示每个子层的输出,LayerNorm(·)表示范式层,In表示子层输入,SubLayer(·)表示子层本身实现的函数;
NIF自注意模块中
Figure FDA0003260364130000021
为栈i的输入碎片嵌入,
Figure FDA0003260364130000022
为栈i+1的输入,利用参数权重
Figure FDA0003260364130000023
Figure FDA0003260364130000024
转变为矩阵
Figure FDA0003260364130000025
则NIF注意力子层的公式如下:
Figure FDA0003260364130000026
式中,
Figure FDA0003260364130000027
是堆栈i的输入碎片嵌入;softmax(·)为归一化指数函数;考虑到速度和空间效率,
Figure FDA0003260364130000028
的点积通过
Figure FDA0003260364130000029
进行缩放,dk是矩阵
Figure FDA00032603641300000210
Figure FDA00032603641300000211
的维度;
RGB自注意模块也由6个相同层的堆栈组成,与NIF自注意力子层不同,RGB自注意力子层插入了第二个掩码函数,该函数对相应编码器堆栈的输出执行多头注意力,RGB注意力子层的公式如下:
Figure FDA00032603641300000212
式中,
Figure FDA00032603641300000213
表示RGB自注意模块的查询矩阵,
Figure FDA00032603641300000214
表示RGB自注意模块的配对键值矩阵,
Figure FDA00032603641300000215
是堆栈i的输入碎片嵌入。
4.如权利要求1所述的一种基于无监督转换器平衡哈希的遥感图像检索方法,其特征在于:步骤3中生成网络gΦ(xn|hn)通过投影特征向量hn来重构遥感影像xn,它由一个全连接层、一个重塑算子、四个带有BN的转置卷积层和一个卷积层组成;四个带有BN的转置卷积层分别采用256、126、64、32个大小为3×3的滤波器,每个转置卷积层的步幅为2个像素,利用LeakyReLU函数作为激活函数;卷积层采用3个大小为3×3的滤波器,每个卷积层的步幅为1个像素,利用tanh函数作为激活函数。
5.如权利要求4所述的一种基于无监督转换器平衡哈希的遥感图像检索方法,其特征在于:步骤3中给定任意遥感影像xn,深度哈希函数可表示为:
bn=H(xn)=sign(Lθ(hn|xn)) (4)
Figure FDA0003260364130000031
式中,bn表示遥感影像xn的k位哈希码,H(·)表示遥感影像xn的深度哈希函数,hn表示遥感影像xn的特征向量,Lθ表示xn的推理网络,θ表示推理网络的参数;
为了生成有效的哈希码,N个样本的重构成本可以表示为:
Figure FDA0003260364130000032
其中,bn表示遥感影像xn的k位哈希码,gΦ(xn|bn)表示bn的生成网络;
由于式(6)是一个非光滑函数,在深度神经网络中很难计算倒数,因此将重构成本写为:
Figure FDA0003260364130000033
式中,Jr表示重构成本,xn表示遥感影像,hn表示类似哈希码,gΦ(xn|hn)表示hn的生成网络;
变分自编码器需要通过最小化KL散度来保持概率分布接近标准正态分布N(0,1),KL散度定义为:
Figure FDA0003260364130000034
式中,
Figure FDA0003260364130000035
表示KL散度,可以在哈希学习过程中保留哈希码的区分度;μn是遥感影像xn的均值;
Figure FDA0003260364130000036
是遥感影像xn的方差;
为了有效减少实值输出空间和汉明空间之间的差异,保持哈希码的平衡特性,平衡项定义为:
Figure FDA0003260364130000037
式中,Jb表示平衡项,可以有效减少实值输出空间和汉明输出空间之间的差异;μn是遥感影像xn的均值;
考虑重构成本、KL散度和平衡项,总目标函数的公式表示如下:
Figure FDA0003260364130000041
式中,α和β表示评估项的度的超参数。
6.如权利要求5所述的一种基于无监督转换器平衡哈希的遥感图像检索方法法,其特征在于:步骤3中训练整体网络模型时,使用Adam算法优化目标函数,学习率设置为ε=0.0005,批量大小M=512,哈希码的长度k分别设置为32,48,64,生成网络和推理网络的权重参数θ和Φ由glorot均匀分布初始化,α设置为1,β设置为5,训练5轮迭代,通过训练模型得到网络的权重参数W和偏置参数B。
7.如权利要求6所述的一种基于无监督转换器平衡哈希的遥感图像检索方法,其特征在于:步骤4中使用训练好的整体网络模型计算测试数据集中样本的哈希码,将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序,并计算排名列表的前K个精度,得出平均精度指标MAP和前K名检索结果。
CN202111070838.4A 2021-09-13 2021-09-13 基于无监督转换器平衡哈希的遥感图像检索方法 Active CN113836341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111070838.4A CN113836341B (zh) 2021-09-13 2021-09-13 基于无监督转换器平衡哈希的遥感图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111070838.4A CN113836341B (zh) 2021-09-13 2021-09-13 基于无监督转换器平衡哈希的遥感图像检索方法

Publications (2)

Publication Number Publication Date
CN113836341A true CN113836341A (zh) 2021-12-24
CN113836341B CN113836341B (zh) 2023-08-18

Family

ID=78959035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111070838.4A Active CN113836341B (zh) 2021-09-13 2021-09-13 基于无监督转换器平衡哈希的遥感图像检索方法

Country Status (1)

Country Link
CN (1) CN113836341B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913358A (zh) * 2022-05-07 2022-08-16 湖南大学 一种基于自动编码器的医药高光谱异物检测方法
CN115098620A (zh) * 2022-07-26 2022-09-23 北方民族大学 一种注意力相似度迁移的跨模态哈希检索方法
CN117036756A (zh) * 2023-08-08 2023-11-10 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) 基于变分自动编码器的遥感图像匹配方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017092183A1 (zh) * 2015-12-03 2017-06-08 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN109918528A (zh) * 2019-01-14 2019-06-21 北京工商大学 一种基于语义保护的紧凑的哈希码学习方法
CN110929080A (zh) * 2019-11-26 2020-03-27 西安电子科技大学 基于注意力和生成对抗网络的光学遥感图像检索方法
CN111723220A (zh) * 2020-06-18 2020-09-29 中南大学 基于注意力机制和哈希的图像检索方法、装置及存储介质
CN113190699A (zh) * 2021-05-14 2021-07-30 华中科技大学 一种基于类别级语义哈希的遥感图像检索方法及装置
CN113326392A (zh) * 2021-05-06 2021-08-31 武汉理工大学 基于四元组哈希的遥感图像音频检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017092183A1 (zh) * 2015-12-03 2017-06-08 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN109918528A (zh) * 2019-01-14 2019-06-21 北京工商大学 一种基于语义保护的紧凑的哈希码学习方法
CN110929080A (zh) * 2019-11-26 2020-03-27 西安电子科技大学 基于注意力和生成对抗网络的光学遥感图像检索方法
CN111723220A (zh) * 2020-06-18 2020-09-29 中南大学 基于注意力机制和哈希的图像检索方法、装置及存储介质
CN113326392A (zh) * 2021-05-06 2021-08-31 武汉理工大学 基于四元组哈希的遥感图像音频检索方法
CN113190699A (zh) * 2021-05-14 2021-07-30 华中科技大学 一种基于类别级语义哈希的遥感图像检索方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周纤: "基于卷积自编码和哈希算法的图像检索研究", 《仪表技术与传感器》 *
金汉均: "基于注意力机制的深度哈希图像检索方法", 《电子测量技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913358A (zh) * 2022-05-07 2022-08-16 湖南大学 一种基于自动编码器的医药高光谱异物检测方法
CN114913358B (zh) * 2022-05-07 2024-05-10 湖南大学 一种基于自动编码器的医药高光谱异物检测方法
CN115098620A (zh) * 2022-07-26 2022-09-23 北方民族大学 一种注意力相似度迁移的跨模态哈希检索方法
CN115098620B (zh) * 2022-07-26 2024-03-29 北方民族大学 一种注意力相似度迁移的跨模态哈希检索方法
CN117036756A (zh) * 2023-08-08 2023-11-10 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) 基于变分自动编码器的遥感图像匹配方法及系统
CN117036756B (zh) * 2023-08-08 2024-04-05 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) 基于变分自动编码器的遥感图像匹配方法及系统

Also Published As

Publication number Publication date
CN113836341B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
CN113836341A (zh) 基于无监督转换器平衡哈希的遥感图像检索方法
Yao et al. Deep semantic-preserving and ranking-based hashing for image retrieval.
CN111241304B (zh) 基于深度学习的答案生成方法、电子装置及可读存储介质
Kulis et al. Fast similarity search for learned metrics
Wu et al. Semi-supervised nonlinear hashing using bootstrap sequential projection learning
CN111125411B (zh) 一种深度强相关哈希学习的大规模图像检索方法
CN113657450B (zh) 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN112199532B (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
Wei et al. Projected residual vector quantization for ANN search
CN104112005B (zh) 分布式海量指纹识别方法
CN110990596B (zh) 一种基于自适应量化多模态哈希检索方法及系统
CN111008224B (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN116383422B (zh) 一种基于锚点的无监督跨模态哈希检索方法
CN114218292A (zh) 一种多元时间序列相似性检索方法
CN113889228A (zh) 基于混合注意的语义增强哈希医学图像检索方法
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
Chen et al. Extensible Cross-Modal Hashing.
Tavakoli Seq2image: Sequence analysis using visualization and deep convolutional neural network
CN115424691A (zh) 病例匹配方法、系统、设备和介质
CN109857892B (zh) 基于类标传递的半监督跨模态哈希检索方法
CN108647295B (zh) 一种基于深度协同哈希的图片标注方法
CN116128846B (zh) 一种面向肺部X-ray图像检索的视觉Transformer哈希方法
CN117763185A (zh) 一种基于思考空间维度的哈希图像检索方法
Mustafic et al. A new method for improving content-based image retrieval using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant