CN116955675A - 基于细粒度相似关系对比学习的哈希图像检索方法及网络 - Google Patents
基于细粒度相似关系对比学习的哈希图像检索方法及网络 Download PDFInfo
- Publication number
- CN116955675A CN116955675A CN202311218313.XA CN202311218313A CN116955675A CN 116955675 A CN116955675 A CN 116955675A CN 202311218313 A CN202311218313 A CN 202311218313A CN 116955675 A CN116955675 A CN 116955675A
- Authority
- CN
- China
- Prior art keywords
- image
- similarity
- hash
- images
- fine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012423 maintenance Methods 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 22
- 238000012935 Averaging Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 4
- 238000013461 design Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像处理技术领域,公开了基于细粒度相似关系对比学习的哈希图像检索方法及网络,使用双层次相似关系保持模块进行双层次相似关系一致性保持学习的步骤,学习出保持图像相似性的哈希编码;使用细粒度相似区域特征对比学习模块进行细粒度相似区域特征对比学习的步骤,学习出有图像判别性的哈希编码。本发明充分利用了不同图像之间以及它们的增强图像之间的细粒度语义关系,通过细粒度相似性保持来增强无监督深度哈希,提高图像检索的精度。
Description
技术领域
本发明属于图像处理技术领域,涉及深度学习、图像检索技术,特别涉及基于细粒度相似关系对比学习的哈希图像检索方法及网络。
背景技术
随着图像等社交数据的大量增长,进行快速的相似性搜索已成为大规模信息检索的最基本需求之一。哈希学习因其卓越的检索效率和较低的存储开销得到了广泛的关注,通过哈希学习,高维数据可以在不丢失其语义相似性的情况下转换为紧凑的二进制代码。目前哈希图像检索方法已经广泛应用在遥感图像检索、相似商品检索、监控图像人脸检索等多方面,推动了多领域的发展。
最近得益于对比学习这种自监督训练方法的发展,许多无监督哈希方法得到了很大的改进。基于对比学习的深度无监督哈希方法,通过约束模型对于同一图像的不同增强图像保持特征方面的一致性进行哈希编码的学习,由于其不依赖于有标签数据,适用范围广,已成为近两年研究的热点。
现有的基于对比学习的深度无监督图像哈希检索方法将图像作为一个整体来度量图像间的相似度,容易受到背景、同一图中多个不同类目标等的影响,把背景或非感兴趣目标等干扰性信息也融入了图像间相似度计算过程中,使得相似度重构和对比学习中的图像相似关系不能准确表示图像主要物体的相似度,最终会导致检索出的图像与查询图像的相似性降低。为了进一步提升图像检索的准确性,本发明以充分利用图像的细粒度信息为途径,匹配图像间的细粒度相似关系,设计了双层次相似关系保持模块和细粒度相似区域特征对比学习模块及相对应的损失函数。
发明内容
针对现有技术存在的不足,本发明提供基于细粒度相似关系对比学习的哈希图像检索方法及网络,充分利用了不同图像之间以及它们的增强图像之间的细粒度语义关系,通过细粒度相似性保持来增强无监督深度哈希。本发明(1)设计了双层次相似关系保持模块,在全局和局部细粒度两个层面构建图像间的相似结构:以图像为单位,将全局特征映射成全局哈希编码,通过哈希编码间的余弦相似度构建全局相似结构;以图像块为单位,通过匹配图像块之间的细粒度特征相似度,得到图像对的局部细粒度相似结构;约束图像在全局相似度和局部细粒度相似度两个层次保持一致性,以学习出保持图像相似性的哈希编码;(2)设计了细粒度相似区域特征对比学习模块,通过对来自同一图像的两张不同增强图像进行基于分块的共性区域特征互表达,降低不同增强图像正样本中的特征差异的影响,得到更准确的正样本监督信息,以学习出有图像判别性的哈希编码。
为了解决上述技术问题,本发明采用的技术方案是:
首先,本发明提供一种基于细粒度相似关系对比学习的哈希图像检索网络,包括两部分,分别是双层次相似关系保持模块和细粒度相似区域特征对比学习模块,所述双层次相似关系保持模块在全局和局部细粒度两个层面构建图像间的相似结构:以图像为单位,将全局特征映射成全局哈希编码,通过哈希编码间的余弦相似度构建全局相似结构,确定图像对之间的全局相似性;以图像块为单位,通过匹配图像块之间的细粒度特征相似度,构建图像对的局部细粒度相似结构,确定图像块之间的局部细粒度相似性;约束图像在全局相似度和局部细粒度相似度两个层次保持一致性,以学习出保持图像相似性的哈希编码;
所述细粒度相似区域特征对比学习模块对来自同一图像的两张不同增强图像进行基于分块的共性区域特征互表达,降低不同增强图像正样本中的特征差异的影响,得到正样本监督信息,以学习出有图像判别性的哈希编码。
进一步的,所述双层次相似关系保持模块包括ViT编码器、与ViT编码器结构相同的编码器、哈希网络,ViT编码器从两个输入图像中提取两组图像块特征,计算两组图像块特征之间的相似度,构造这两个输入图像之间的图像块相似度矩阵G;取图像块相似度矩阵G中每一行的最大值,共有n个行最大值,对行最大值取平均,对于一个包含N张图像的图像批,使用所有图像对之间的图像块相似度矩阵中行最大值取平均值的方法,构造局部细粒度相似矩阵;编码器/>对每个输入图像的图像块进行特征提取,得到对应的图像块特征,得到的图像块特征经过维度重塑和线性投影操作得到全局特征,经过哈希网络生成全局哈希编码,对于一个包含N张图像的图像批,通过计算两个图像对应的全局哈希编码的余弦相似度来确定两个图像之间的全局相似度,构造全局相似矩阵。
进一步的,所述细粒度相似区域特征对比学习模块包括一个编码器、相似区域特征重加权模块和哈希网络,每个输入图像经过图像增强,生成增强图像对,增强图像对的图像块经过编码器/>提取相应的图像块特征,并通过相似区域特征重加权模块对特征重新加权得到保持局部细粒度相似性的调整后图像特征,调整后图像特征经过一个哈希网络得到哈希编码;对于一个包含N张图像的图像批,图像增强后将生成2N个增强图像,将增强图像得到的调整后图像特征对作为正样本对,剩余的2(N-1)增强图像特征作为负样本对,进行局部细粒度相似性区域特征对比学习,得到有图像判别性的哈希编码。
进一步的,所述相似区域特征重加权模块利用互注意力来寻找两个不同的增强图像之间相似的细粒度特征,然后对特征重新加权得到保持局部细粒度相似性的调整后图像特征。
其次,本发明提供一种基于细粒度相似关系对比学习的哈希图像检索方法,包括:
使用双层次相似关系保持模块进行双层次相似关系一致性保持学习的步骤,学习出保持图像相似性的哈希编码;
使用细粒度相似区域特征对比学习模块进行细粒度相似区域特征对比学习的步骤,学习出有图像判别性的哈希编码。
进一步的,双层次相似关系一致性保持学习的步骤,具体如下:
步骤11、将输入图像分割为图像块;
步骤12、提取输入图像特征与生成哈希编码:使用与ViT编码器结构相同的编码器对输入图像进行特征提取,得到对应的图像块特征/>,将图像块特征/>经过维度重塑和线性投影操作得到全局特征,经过哈希网络生成全局哈希编码;
步骤13、构建全局相似结构:在步骤12之后,通过计算两个图像对应的全局哈希编码的余弦相似度来确定两个图像之间的全局相似度,构造全局相似矩阵;
步骤14、构建局部细粒度相似结构:首先,使用预训练的ViT编码器从两个输入图像中提取两组图像块特征,计算两组图像块特征之间的相似度,构造这两个输入图像之间的图像块相似度矩阵G;取图像块相似度矩阵G中每一行的最大值,共有n个行最大值,对行最大值取平均,对于一个包含N张图像的图像批,使用所有图像对之间的图像块相似度矩阵中行最大值取平均值的方法,构造局部细粒度相似矩阵;
步骤15、构造双层次相似关系一致性保持学习损失函数,使得步骤13得到的全局相似结构和步骤14得到的局部细粒度相似结构保持一致性。
进一步的,细粒度相似区域特征对比学习的步骤,具体如下:
步骤21、对输入图像进行图像增强,生成增强图像对和/>:将增强图像/>和/>拆分成图像块,增强图像对的图像块经过编码器/>提取相应的图像块特征/>和;
步骤22、对增强图像对进行相似区域特征重加权:通过相似区域特征重加权模块对步骤21得到的图像块特征和/>重新加权得到保持局部细粒度相似性的调整后图像特征/>和/>,调整后图像特征/>和/>经过一个哈希网络得到哈希编码;
步骤23、基于步骤22进行对比学习:对于一个包含N张图像的图像批,图像增强后将生成2N个增强图像,将经过步骤22得到的增强图像得到的调整后图像特征对和/>作为正样本对,剩余的2(N-1)增强图像特征作为负样本对,进行局部细粒度相似性区域特征对比学习,得到有图像判别性的哈希编码。
进一步的,步骤22中,相似区域特征重加权模块包括了两个互注意力模块,两个模块之间共享权重,相似区域特征重加权模块的输入为初始图像块特征 和,通过使用多头注意力函数/>,确定“查询”与“键-值”对之间的相似性:
;
其中Q为查询向量,K为键向量,V为值向量,softmax为softmax函数,T为转置,,/>为维度,/>表示注意力头的数量;
将多头注意力函数的输出连接K得到:
;
通过函数,接受/>的输出并添加残差操作,然后进行层归一化操作,得到互注意力模块的输出MRB(Q,K,V):
;
其中是ReLU函数,/>是可选的规范化层,/>表示对/>的输出进行残差连接;
步骤22从两个方面进行相似区域特征重加权:(1)增强视图-增强视图/>,(2)增强视图/>-增强视图/>,对于(1),将初始图像块特征/>作为“查询”,将初始图像块特征作为“键-值”, 执行/>;在(2)下,应用相反的配置/>,其中初始图像块特征/>作为“键-值”,初始图像块特征/>作为“查询”,该步骤22生成保留局部细粒度相似性的特征,即分别获得/>和/>。
与现有技术相比,本发明优点在于:
(1)本发明设计了双层次相似关系保持模块,从两个层次重建相似性结构。基于全局的图像表示来计算全局哈希编码之间的余弦相似度,并确定图像对之间的全局相似性。基于局部的图像表示来获得局部语义表示,进而构建更细粒度的局部相似结构。通过双层次相似关系一致性保持损失,学习了相似性保持的哈希编码。
(2)本发明设计了细粒度相似区域特征对比学习模块,缓解了对比学习过程中增强图像特征差异的影响,提出了一种基于图像块的增强视图之间的相似区域特征重加权,为学习判别性哈希编码提供了细粒度的指导。
(3)通过本发明增强哈希码的相似性保持和判别性,在探索细粒度语义信息、增强相似性保持和更有效的对比学习方面具有创新性,显著提高了图像检索精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于细粒度相似关系对比学习的哈希图像检索方法的整体框架图;
图2为本发明的双层次相似关系保持模块示意图;
图3为本发明的细粒度相似区域特征对比学习模块示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
实施例1
结合图1所示,本实施例提供一种基于细粒度相似关系对比学习的哈希图像检索网络,包括两部分,分别是双层次相似关系保持模块和细粒度相似区域特征对比学习模块。所述双层次相似关系保持模块在全局和局部细粒度两个层面构建图像间的相似结构:以图像为单位,将全局特征映射成全局哈希编码,通过哈希编码间的余弦相似度构建全局相似结构,确定图像对之间的全局相似性;以图像块为单位,通过匹配图像块之间的细粒度特征相似度,构建图像对的局部细粒度相似结构,确定图像块之间的局部细粒度相似性;约束图像在全局相似度和局部细粒度相似度两个层次保持一致性,以学习出保持图像相似性的哈希编码。
所述细粒度相似区域特征对比学习模块对来自同一图像的两张不同增强图像进行基于分块的共性区域特征互表达,降低不同增强图像正样本中的特征差异的影响,得到正样本监督信息,以学习出有图像判别性的哈希编码。
结合图2所示,双层次相似关系保持模块包括ViT(Vision Transformer)编码器、与ViT编码器结构相同的编码器、哈希网络/>。
ViT编码器从两个输入图像中提取两组图像块特征,计算两组图像块特征之间的相似度,构造这两个输入图像之间的图像块相似度矩阵G;取图像块相似度矩阵G中每一行的最大值,共有n个行最大值,对行最大值取平均,对于一个包含N张图像的图像批,使用所有图像对之间的图像块相似度矩阵中行最大值取平均值的方法,构造局部细粒度相似矩阵。
编码器对每个输入图像的图像块进行特征提取,得到对应的图像块特征,得到的图像块特征经过维度重塑和线性投影操作得到全局特征,经过哈希网络/>生成全局哈希编码,对于一个包含N张图像的图像批,通过计算两个图像对应的全局哈希编码的余弦相似度来确定两个图像之间的全局相似度,构造全局相似矩阵。
局部细粒度相似矩阵和全局相似矩阵用于双层次相似关系一致性保持学习,约束图像在全局相似度和局部细粒度相似度两个层次保持一致性,以学习出保持图像相似性的哈希编码。
结合图3所示,所述细粒度相似区域特征对比学习模块包括一个编码器、相似区域特征重加权模块和哈希网络/>,每个输入图像经过图像增强,生成增强图像对,增强图像对的图像块经过编码器/>提取相应的图像块特征,并通过相似区域特征重加权模块对特征重新加权得到保持局部细粒度相似性的调整后图像特征,调整后图像特征特征经过一个哈希网络/>得到哈希编码。
对于一个包含N张图像的图像批,图像增强后将生成2N个增强图像,将增强图像得到的调整后图像特征对作为正样本对,剩余的2(N-1)增强图像特征作为负样本对,进行局部细粒度相似性区域特征对比学习,得到有图像判别性的哈希编码。
需要说明的是,本发明中每个模块的编码器结构相同,哈希网络/>结构相同。
所述相似区域特征重加权模块利用互注意力来寻找两个不同的增强图像之间相似的细粒度特征,然后对特征重新加权得到保持局部细粒度相似性的调整后图像特征。
其中各个模块的具体工作原理及数据处理同实施例2部分的哈希图像检索方法中记载的模块的工作原理,此处不赘述。
实施例2
结合图1所示,本实施例提供基于细粒度相似关系对比学习的哈希图像检索方法,包括:
使用双层次相似关系保持模块进行双层次相似关系一致性保持学习的步骤,学习出保持图像相似性的哈希编码;
使用细粒度相似区域特征对比学习模块进行细粒度相似区域特征对比学习的步骤,学习出有图像判别性的哈希编码。
下面详细介绍各个步骤。
步骤1、双层次相似关系一致性保持学习的步骤。
步骤11、将输入图像分割为图像块。
将输入图像分割为不重叠的图像块,表示如下:
,/>为图像Xi 的n个图像块,m表示输入图像的尺寸,p表示不重叠图像块的尺寸,n=m2/p2为图像块的数量,c为颜色通道的数量,c取值3。
步骤12、提取输入图像特征与生成哈希编码。
使用与ViT(Vision Transformer)编码器结构相同的编码器对输入图像进行特征提取,得到对应的图像块特征/>,将图像块特征/>经过维度重塑和线性投影操作得到全局特征,经过哈希网络/>生成全局哈希编码。
具体来说,对于n个图像块,每个图块在进入ViT编码器之前都线性投影到一个低维度的空间中,这个线性投影的维度为de。因此经过编码器/>的特征提取后,得到对应的图像块特征/>。接下来将由哈希网络/>将特征/>映射为哈希编码/>,具体操作为:在将编码器/>输出的图像块特征/>重塑为/>维度后,再经过一个随机失活(dropout)层,随后使用线性投影将特征/>转换到1024维空间,并由ReLU激活函数进一步增强,这将生成适合生成哈希编码的最终特征向量。如下公式生成哈希编码:
;
;
其中是图像/>经过哈希网络得到的由-1和1组成的哈希编码,长度为L,是编码器输出图像/>经过特征处理后得到的最终特征,L是哈希码的长度,是符号函数,/>表示由/>得到哈希编码的哈希网络。
步骤13、构建全局相似结构。
在步骤12之后,通过计算两个图像对应的全局哈希编码的余弦相似度来确定两个图像之间的全局相似度,构造全局相似矩阵,如下所示:
;
;
;
其中表示由图像/>和/>之间的相似度所构建的全局相似矩阵,/>和表示由/>和/>得到哈希编码的哈希网络,/>是图像/>经过哈希网络得到的由-1和1组成的哈希编码,/>是图像/>经过哈希网络得到的由-1和1组成的哈希编码;L是哈希码的长度,/>表示向量/>的转置乘向量/>。图2中的全局相似矩阵/>表示所有图像经过上述方法生成的全局相似矩阵。
步骤14、构建局部细粒度相似结构。
首先,使用预训练的ViT编码器从两个输入图像中提取两组图像块特征,计算两组图像块特征之间的相似度,构造这两个输入图像之间的图像块相似度矩阵G;取图像块相似度矩阵G中每一行的最大值,共有n个行最大值,对行最大值取平均。对于一个包含N张图像的图像批,使用所有图像对之间的图像块相似度矩阵中行最大值取平均值的方法,构造局部细粒度相似矩阵。
具体来说,从两个不同的图像和/>中提取两组图像块特征。从两组图像块特征中各取一个特征/>和/>,用下面的公式计算它们之间的相似度:
;
其中表示图像/>的第k个图像块,/>表示图像/>的第t个图像块。
由上式,用表示矩阵中第k行第t列的值,构造/>和/>之间的图像块相似度矩阵/>,n×n表示矩阵的维度,与前文表述的一样,n表示一个图像所分割为的图像块的数量。取G中每一行的最大值,可以得到n个不同的值,表示/>和/>之间的图像块序列之间相似度最大的/>对图像块。为了构建/>和/>之间合适的相似度结构,通过对行最大值进行平均来拟合这n个行最大值,由此来表示/>和/>的细粒度相似关系。综上所述,对于一个包含N张图像的图像批(batch),可以构建如下的局部细粒度相似结构:
;
其中表示沿行方向取最大值,/>表示计算向量的平均值。从上面的公式中,构建了图像之间的细粒度相似度矩阵/>,其中N表示图像批中的图像数量。为了将/>的值归一化在合适的范围内,对行进行温度加权softmax操作,其表达式如下:
;
其中为温度系数,/>表示对/>的每一行的数值进行温度加权softmax后得到的新矩阵。
步骤15、构造双层次相似关系一致性保持学习损失函数,使得步骤13得到的全局相似结构和步骤14得到的局部细粒度相似结构保持一致性。
通过全局哈希编码生成和相似度计算,重构图像对的全局哈希编码相似度结构。通过基于局部的图像表示,从图像块中度量深度特征的细粒度成对相似性,重构图像对的局部语义相似性结构。此外,为了加强图像对在全局和局部相似性上的一致性,构造了一种双层次相似关系一致性保持损失函数,从而增强哈希码图像相似性保持的能力:
;
其中N是一个图像批中的图像数量,i和j为图像的序号,LGSP是双层次相似关系一致性保持损失。
步骤2、细粒度相似区域特征对比学习的步骤。
步骤21、对输入图像进行图像增强,生成增强图像对和/>:将增强图像/>和/>拆分成图像块,增强图像对的图像块经过编码器/>提取相应的图像块特征/>和。
具体来说,给定一个输入图像,对图像进行图像增强,生成两个不同的增强图像/>和/>。然后将增强图像/>和/>拆分为n个图像块,即/>和/>。将这些图像块送入编码器/>提取相应的特征:
和,与前文一样,de表示线性投影的维度。
步骤22、对增强图像对进行相似区域特征重加权。
为了进行相似区域特征重加权,利用互注意力来寻找与/>之间相似的细粒度特征,然后对特征重新加权得到保持局部细粒度相似性的调整后特征。因此,本步骤通过相似区域特征重加权模块对步骤21得到的图像块特征/>和/>重新加权得到保持局部细粒度相似性的调整后图像特征/>和/>,该步骤细节如图3所示。调整后图像特征特征/>和/>经过一个哈希网络/>得到哈希编码。
结合图3,具体来说,相似区域特征重加权模块包括了两个互注意力模块,分别是互注意力模块和/>互注意力模块,两个模块之间共享权重,相似区域特征重加权模块的输入为初始图像块特征/> 和/>,通过使用多头注意力函数/>,确定“查询”(Query)与“键-值”(Key-Value)对之间的相似性:
;
其中关于注意力机制的原理为现有技术,此处没有过多赘述。Q为查询向量,K为键向量,V为值向量,图3中的、/>、/>为权重矩阵,图3中的互注意力特征即为的输出值,“查询”(Query)、“键-值”(Key-Value)通过可学习的权重矩阵/>、、/>投影单个特征得到,softmax为softmax函数,T为转置,/>,/>为维度,/>表示注意力头的数量;
将多头注意力函数的输出(即图3中的互注意力特征)连接K(即向量相加)得到:
;
通过函数,接受/>的输出并添加残差操作,然后进行层归一化操作,得到互注意力模块的输出MRB(Q,K,V):
;
其中是ReLU函数,/>是可选的规范化层,/>表示对/>的输出进行残差连接。
需要说明的是,本步骤22从两个方面进行相似区域特征重加权:增强视图-增强视图/>,(2)增强视图/>-增强视图/>,对于(1),将初始图像块特征/>作为“查询”,将初始图像块特征/>作为“键-值”, 执行/>;在(2)下,应用相反的配置,其中初始图像块特征/>作为“键-值”,初始图像块特征/>作为“查询”,该步骤22生成保留局部细粒度相似性的特征,即分别获得/>和。
步骤23、基于步骤22进行对比学习:对于一个包含N张图像的图像批,图像增强后将生成2N个增强图像,将经过步骤22得到的增强图像得到的调整后图像特征对和/>作为正样本对,剩余的2(N-1)增强图像特征作为负样本对,进行局部细粒度相似性区域特征对比学习,得到有图像判别性的哈希编码。
局部细粒度相似性区域特征对比学习损失LCL公式如下:
;
;
;
其中表示增强图像/>和/>作为正样本对,增强图像/>和/>的其他增强图像作为负样本对来计算对比损失。类似于/>, />是考虑增强图像/>和/>作为正样本对,和/>的其他增强图像作为负样本对来计算对比损失。/>表示/>和/>的余弦相似度,/>和/>表示与增强图像/>和/>相对应的哈希编码,即/>,/>表示选择哪个增强图像(/>和/>是对应的增强图像的符号标志),/>是一个温度参数。
最后,在前面的步骤1和步骤和2之后,设计一个优化步骤:总损失公式为:
;
其中是平衡系数。由于/>的不可导性,标准的反向传播算法无法更新网络参数,因此在整个网络训练过程中,使用/>代替/>中的/>函数,生成哈希编码并进行编码器/>以及哈希网络/>参数的优化。在推理过程中,则使用收敛后的/>提取图像特征,并由使用/>的哈希网络/>将提取的图像特征映射为紧凑的二进制编码。
综上所述,现有的基于对比学习的深度无监督哈希图像检索方法将图像作为一个整体来度量相似度,容易受到背景、同一图中多个不同类目标等的影响,把背景或非感兴趣目标等干扰性信息也融入了图像间相似度计算过程中,使得相似度重构和对比学习中的图像相似关系不能准确表示图像主要物体的相似度,导致检索出的图像不准确。对此,本发明提出一种深度哈希图像检索框架,主要由两个模块组成,探索图像及其增强视图之间的细粒度语义关系,增强哈希码的相似性保持和判别性。该方法在探索细粒度语义信息、增强相似性保持和更有效的对比学习方面具有创新性,显著提高了图像检索精度。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。
Claims (8)
1.基于细粒度相似关系对比学习的哈希图像检索网络,其特征在于,包括两部分,分别是双层次相似关系保持模块和细粒度相似区域特征对比学习模块,所述双层次相似关系保持模块在全局和局部细粒度两个层面构建图像间的相似结构:以图像为单位,将全局特征映射成全局哈希编码,通过哈希编码间的余弦相似度构建全局相似结构,确定图像对之间的全局相似性;以图像块为单位,通过匹配图像块之间的细粒度特征相似度,构建图像对的局部细粒度相似结构,确定图像块之间的局部细粒度相似性;约束图像在全局相似度和局部细粒度相似度两个层次保持一致性,以学习出保持图像相似性的哈希编码;
所述细粒度相似区域特征对比学习模块对来自同一图像的两张不同增强图像进行基于分块的共性区域特征互表达,降低不同增强图像正样本中的特征差异的影响,得到正样本监督信息,以学习出有图像判别性的哈希编码。
2.根据权利要求1所述的基于细粒度相似关系对比学习的哈希图像检索网络,其特征在于,所述双层次相似关系保持模块包括ViT编码器、与ViT编码器结构相同的编码器、哈希网络,ViT编码器从两个输入图像中提取两组图像块特征,计算两组图像块特征之间的相似度,构造这两个输入图像之间的图像块相似度矩阵G;取图像块相似度矩阵G中每一行的最大值,共有n个行最大值,对行最大值取平均,对于一个包含N张图像的图像批,使用所有图像对之间的图像块相似度矩阵中行最大值取平均值的方法,构造局部细粒度相似矩阵;编码器/>对每个输入图像的图像块进行特征提取,得到对应的图像块特征,得到的图像块特征经过维度重塑和线性投影操作得到全局特征,经过哈希网络生成全局哈希编码,对于一个包含N张图像的图像批,通过计算两个图像对应的全局哈希编码的余弦相似度来确定两个图像之间的全局相似度,构造全局相似矩阵。
3.根据权利要求1所述的基于细粒度相似关系对比学习的哈希图像检索网络,其特征在于,所述细粒度相似区域特征对比学习模块包括一个编码器、相似区域特征重加权模块和哈希网络,每个输入图像经过图像增强,生成增强图像对,增强图像对的图像块经过编码器/>提取相应的图像块特征,并通过相似区域特征重加权模块对特征重新加权得到保持局部细粒度相似性的调整后图像特征,调整后图像特征经过一个哈希网络得到哈希编码;
对于一个包含N张图像的图像批,图像增强后将生成2N个增强图像,将增强图像得到的调整后图像特征对作为正样本对,剩余的2(N-1)增强图像特征作为负样本对,进行局部细粒度相似性区域特征对比学习,得到有图像判别性的哈希编码。
4.根据权利要求3所述的基于细粒度相似关系对比学习的哈希图像检索网络,其特征在于,所述相似区域特征重加权模块利用互注意力来寻找两个不同的增强图像之间相似的细粒度特征,然后对特征重新加权得到保持局部细粒度相似性的调整后图像特征。
5.基于细粒度相似关系对比学习的哈希图像检索方法,其特征在于,包括:
使用双层次相似关系保持模块进行双层次相似关系一致性保持学习的步骤,学习出保持图像相似性的哈希编码;
使用细粒度相似区域特征对比学习模块进行细粒度相似区域特征对比学习的步骤,学习出有图像判别性的哈希编码。
6.根据权利要求5所述的基于细粒度相似关系对比学习的哈希图像检索方法,其特征在于,双层次相似关系一致性保持学习的步骤,具体如下:
步骤11、将输入图像分割为图像块;
步骤12、提取输入图像特征与生成哈希编码:使用与ViT编码器结构相同的编码器对输入图像进行特征提取,得到对应的图像块特征/>,将图像块特征/>经过维度重塑和线性投影操作得到全局特征,经过哈希网络生成全局哈希编码;
步骤13、构建全局相似结构:在步骤12之后,通过计算两个图像对应的全局哈希编码的余弦相似度来确定两个图像之间的全局相似度,构造全局相似矩阵;
步骤14、构建局部细粒度相似结构:首先,使用预训练的ViT编码器从两个输入图像中提取两组图像块特征,计算两组图像块特征之间的相似度,构造这两个输入图像之间的图像块相似度矩阵G;取图像块相似度矩阵G中每一行的最大值,共有n个行最大值,对行最大值取平均,对于一个包含N张图像的图像批,使用所有图像对之间的图像块相似度矩阵中行最大值取平均值的方法,构造局部细粒度相似矩阵;
步骤15、构造双层次相似关系一致性保持学习损失函数,使得步骤13得到的全局相似结构和步骤14得到的局部细粒度相似结构保持一致性。
7.根据权利要求5所述的基于细粒度相似关系对比学习的哈希图像检索方法,其特征在于,细粒度相似区域特征对比学习的步骤,具体如下:
步骤21、对输入图像进行图像增强,生成增强图像对和/>:将增强图像/>和/>拆分成图像块,增强图像对的图像块经过编码器/>提取相应的图像块特征/>和/>;
步骤22、对增强图像对进行相似区域特征重加权:通过相似区域特征重加权模块对步骤21得到的图像块特征和/>重新加权得到保持局部细粒度相似性的调整后图像特征/>和/>,调整后图像特征/>和/>经过一个哈希网络得到哈希编码;
步骤23、基于步骤22进行对比学习:对于一个包含N张图像的图像批,图像增强后将生成2N个增强图像,将经过步骤22得到的增强图像得到的调整后图像特征对和/>作为正样本对,剩余的2(N-1)增强图像特征作为负样本对,进行局部细粒度相似性区域特征对比学习,得到有图像判别性的哈希编码。
8.根据权利要求7所述的基于细粒度相似关系对比学习的哈希图像检索方法,其特征在于,步骤22中,相似区域特征重加权模块包括了两个互注意力模块,两个模块之间共享权重,相似区域特征重加权模块的输入为初始图像块特征 和/>,通过使用多头注意力函数/>,确定“查询”与“键-值”对之间的相似性:
;
其中Q为查询向量,K为键向量,V为值向量,softmax为softmax函数,T为转置,,/>为维度,/>表示注意力头的数量;
将多头注意力函数的输出连接K得到:
;
通过函数,接受/>的输出并添加残差操作,然后进行层归一化操作,得到互注意力模块的输出MRB(Q,K,V):
;
其中是ReLU函数,/>是可选的规范化层,/>表示对/>的输出进行残差连接;
步骤22从两个方面进行相似区域特征重加权:(1)增强视图-增强视图/>,(2)增强视图/>-增强视图/>,对于(1),将初始图像块特征/>作为“查询”,将初始图像块特征/>作为“键-值”, 执行/>;在(2)下,应用相反的配置/>,其中初始图像块特征/>作为“键-值”,初始图像块特征/>作为“查询”,该步骤22生成保留局部细粒度相似性的特征,即分别获得/>和/>。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311218313.XA CN116955675B (zh) | 2023-09-21 | 2023-09-21 | 基于细粒度相似关系对比学习的哈希图像检索方法及网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311218313.XA CN116955675B (zh) | 2023-09-21 | 2023-09-21 | 基于细粒度相似关系对比学习的哈希图像检索方法及网络 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116955675A true CN116955675A (zh) | 2023-10-27 |
CN116955675B CN116955675B (zh) | 2023-12-12 |
Family
ID=88449598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311218313.XA Active CN116955675B (zh) | 2023-09-21 | 2023-09-21 | 基于细粒度相似关系对比学习的哈希图像检索方法及网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116955675B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573915A (zh) * | 2024-01-16 | 2024-02-20 | 山东建筑大学 | 基于对比学习的二值码图像检索方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126581A (zh) * | 2016-06-20 | 2016-11-16 | 复旦大学 | 基于深度学习的手绘草图图像检索方法 |
CN110110122A (zh) * | 2018-06-22 | 2019-08-09 | 北京交通大学 | 基于多层语义深度哈希算法的图像-文本跨模态检索 |
CN112084362A (zh) * | 2020-08-07 | 2020-12-15 | 北京航空航天大学 | 一种基于层次化特征互补的图像哈希检索方法 |
CN112199520A (zh) * | 2020-09-19 | 2021-01-08 | 复旦大学 | 基于细粒度相似性矩阵的跨模态哈希检索算法 |
CN113051417A (zh) * | 2021-04-20 | 2021-06-29 | 南京理工大学 | 一种细粒度图像检索方法及系统 |
US20210312234A1 (en) * | 2020-04-03 | 2021-10-07 | Seoul National University R&Db Foundation | Neural network device for retrieving image and operating method thereof |
CN113537384A (zh) * | 2021-07-30 | 2021-10-22 | 中国海洋大学 | 基于通道注意力的哈希遥感图像检索方法、装置及介质 |
CN115587207A (zh) * | 2022-09-08 | 2023-01-10 | 吉林大学 | 一种基于分类标签的深度哈希检索方法 |
WO2023102224A1 (en) * | 2021-12-03 | 2023-06-08 | Innopeak Technology, Inc. | Data augmentation for multi-task learning for depth mapping and semantic segmentation |
-
2023
- 2023-09-21 CN CN202311218313.XA patent/CN116955675B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126581A (zh) * | 2016-06-20 | 2016-11-16 | 复旦大学 | 基于深度学习的手绘草图图像检索方法 |
CN110110122A (zh) * | 2018-06-22 | 2019-08-09 | 北京交通大学 | 基于多层语义深度哈希算法的图像-文本跨模态检索 |
US20210312234A1 (en) * | 2020-04-03 | 2021-10-07 | Seoul National University R&Db Foundation | Neural network device for retrieving image and operating method thereof |
CN112084362A (zh) * | 2020-08-07 | 2020-12-15 | 北京航空航天大学 | 一种基于层次化特征互补的图像哈希检索方法 |
CN112199520A (zh) * | 2020-09-19 | 2021-01-08 | 复旦大学 | 基于细粒度相似性矩阵的跨模态哈希检索算法 |
CN113051417A (zh) * | 2021-04-20 | 2021-06-29 | 南京理工大学 | 一种细粒度图像检索方法及系统 |
CN113537384A (zh) * | 2021-07-30 | 2021-10-22 | 中国海洋大学 | 基于通道注意力的哈希遥感图像检索方法、装置及介质 |
WO2023102224A1 (en) * | 2021-12-03 | 2023-06-08 | Innopeak Technology, Inc. | Data augmentation for multi-task learning for depth mapping and semantic segmentation |
CN115587207A (zh) * | 2022-09-08 | 2023-01-10 | 吉林大学 | 一种基于分类标签的深度哈希检索方法 |
Non-Patent Citations (3)
Title |
---|
QIBING QIN等: "Unsupervised Deep Multi-Similarity Hashing With Semantic Structure for Image Retrieval", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, vol. 31, no. 7, pages 2852 - 2865, XP011863888, DOI: 10.1109/TCSVT.2020.3032402 * |
殷梓轩等: "基于注意力金字塔与监督哈希的细粒度图像检索", 计算机技术与发展, vol. 33, no. 3, pages 20 - 26 * |
袁培森;张勇;李美玲;顾兴健;: "基于深度哈希学习的商标图像检索研究", 华东师范大学学报(自然科学版), no. 05 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573915A (zh) * | 2024-01-16 | 2024-02-20 | 山东建筑大学 | 基于对比学习的二值码图像检索方法及系统 |
CN117573915B (zh) * | 2024-01-16 | 2024-04-26 | 山东建筑大学 | 基于对比学习的二值码图像检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116955675B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Improved deep hashing with soft pairwise similarity for multi-label image retrieval | |
CN110688502B (zh) | 一种基于深度哈希和量化的图像检索方法及存储介质 | |
CN114926746B (zh) | 基于多尺度差分特征注意力机制的sar图像变化检测方法 | |
CN111428073B (zh) | 一种深度监督量化哈希的图像检索方法 | |
CN112199532B (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN108334574A (zh) | 一种基于协同矩阵分解的跨模态检索方法 | |
CN110941734B (zh) | 基于稀疏图结构的深度无监督图像检索方法 | |
CN116955675B (zh) | 基于细粒度相似关系对比学习的哈希图像检索方法及网络 | |
CN111274424B (zh) | 一种零样本图像检索的语义增强哈希方法 | |
CN113537384B (zh) | 基于通道注意力的哈希遥感图像检索方法、装置及介质 | |
CN114708903A (zh) | 一种基于自注意力机制的蛋白质残基间距离预测方法 | |
Liu et al. | EACP: An effective automatic channel pruning for neural networks | |
CN112528065A (zh) | 一种流形相似度保持自编码器的医学超声图像检索方法 | |
CN112035689A (zh) | 一种基于视觉转语义网络的零样本图像哈希检索方法 | |
CN114168782B (zh) | 一种基于三元组网络的深度哈希图像检索方法 | |
CN117171393A (zh) | 一种面向多模态检索的自适应半配对询问哈希方法 | |
CN111563180A (zh) | 一种基于深度哈希方法的商标图像检索方法 | |
CN115017366B (zh) | 基于多粒度语境化和多结构保存的无监督视频哈希检索方法 | |
CN110135253A (zh) | 一种基于长期递归卷积神经网络的手指静脉认证方法 | |
CN112905599B (zh) | 基于端到端的分布式深度哈希检索方法 | |
Chu et al. | Remote sensing image retrieval by multi-scale attention-based CNN and product quantization | |
Qiang et al. | Large-scale multi-label image retrieval using residual network with hash layer | |
CN117573915B (zh) | 基于对比学习的二值码图像检索方法及系统 | |
CN111860614B (zh) | 基于深度子空间自表达的多标签分类方法 | |
CN115860281B (zh) | 基于跨实体注意力的能源系统多实体负载预测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |