CN116310425A - 一种细粒度图像检索方法、系统、设备及存储介质 - Google Patents
一种细粒度图像检索方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN116310425A CN116310425A CN202310586562.8A CN202310586562A CN116310425A CN 116310425 A CN116310425 A CN 116310425A CN 202310586562 A CN202310586562 A CN 202310586562A CN 116310425 A CN116310425 A CN 116310425A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- images
- features
- fused
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012216 screening Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 54
- 238000000605 extraction Methods 0.000 claims description 48
- 239000011159 matrix material Substances 0.000 claims description 42
- 230000004927 fusion Effects 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000017105 transposition Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 20
- 238000013527 convolutional neural network Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 241000282376 Panthera tigris Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003703 image analysis method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及图像检索技术领域,特别是涉及一种细粒度图像检索方法、系统、设备及存储介质,其中方法包括:将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;计算待检索图像与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离筛选排序靠前的M个图像;计算待检索图像与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离排序,得到最终的检索结果。本发明更好地度量两张图片之间的相似性。
Description
技术领域
本发明涉及图像检索技术领域,特别是涉及一种细粒度图像检索方法、系统、设备及存储介质。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
图像检索是计算机视觉领域中一个非常重要的研究任务。近些年,随着技术的发展,更具有挑战性的子任务相继被提出并吸引了越来越多的关注,细粒度图像检索便是其中广受关注的一个。在该子任务中,基于卷积神经网络的方法已经取得了不错的性能。借助于卷积神经网络(CNN),这些方法可以充分地提取并利用图像的全局特征。
然而,在细粒度图像检索任务中,局部特征对于提高检索准确性来说同样具有非常重要的作用。最近,基于Vision Transformer(ViT)的方法在传统的图像分析领域取得了巨大的成功,这归因于ViT在捕获图像中最具有判别力的区域和图像中细粒度特征方面具有天然的优势。然而,通过我们的实验发现,当基于纯ViT的方法应用于细粒度图像检索任务时,在汽车之类的钢体图像上表现得并不令人满意。
具体来说,现有的方法主要面临以下问题:
(1)细粒度的图像具有类内差异较大、类间差异较小的特点,这使得其相对于传统的基于内容的图像检索任务来说具有更大的挑战性;
(2)基于CNN的模型在提取图像的全局信息表示方面具有很大的优势,但是对于图像的细粒度信息方面关注度不够,而对于细粒度来说,对局部信息的描述也同样重要;
(3)现有的基于ViT的细粒度图像分析方法虽然在捕获图像细节信息方面具有先天的优势,然而对于一些细节差异较小的图像来说,通过自注意力机制得到的全局特征并不能充分地描述图像的全局信息;
(4)现有的尝试同时应用CNN和ViT的模型没有充分地发挥出二者之间的各自优势。此外,无论是ViT还是CNN和ViT的混合架构在细粒度图像检索任务上的应用目前都仍缺乏相关的应用方法。
发明内容
为了解决现有技术的不足,本发明提供了一种细粒度图像检索方法、系统、设备及存储介质;该方法利用CNN和ViT进行特征提取,同时保证了模型对于图像全局特征和局部细粒度特征的关注度。此外,通过引入特征融合模块来丰富特征信息,同时设计了新的损失函数来更好地度量两张图片之间的相似性。
第一方面,本发明提供了一种细粒度图像检索方法;
一种细粒度图像检索方法,包括:
获取待检索图像和图像数据库;
将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;
计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;
计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。
第二方面,本发明提供了一种细粒度图像检索系统;
一种细粒度图像检索系统,包括:
获取模块,其被配置为:获取待检索图像和图像数据库;
特征提取模块,其被配置为:将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;
排序模块,其被配置为:计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;
输出模块,其被配置为:计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
第五方面,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
与现有技术相比,本发明的有益效果是:
1、本发明中创新性地将混合ViT架构引入到细粒度图像检索任务中,并提出了一个基于混合ViT的细粒度图像检索方法,简称为TIGER。与占主导地位的特征提取骨干网络相比,TIGER取得了更加具有竞争力的性能。
2、本发明中提出了关键区域重分析和混合网络特征融合两个新颖的模块。前者通过CNN生成的权重来指导ViT中关键patch的选择,从而生成更有代表性的class-token。后者有效地整合了ViT和CNN的特征,使输出特征能够蕴含更丰富的信息。通过引入这两个模块,模型能够很好地发挥CNN和ViT的共同作用,从而提高本发明在细粒度图像检索任务上的性能。
3、为了更充分地利用图像的全局和局部特征,本发明中提出了一种全局-局部对齐损失函数。通过同时计算class-token之间的距离和每个patch对之间的距离,可以更好地度量两个图像之间的相似性,从而保证能够返回正确的查询结果。
4、本发明中提出了一个二次排序机制,在保证检索准确率的基础上,进一步提高了检索的速度和效率,有效保证了本发明在现实世界中的可应用性。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的方法流程图;
图2为实施例一的训练后的图像检索模型内部网络结构图;
图3为实施例一的关键区域重分析模块内部网络结构图;
图4为实施例一的全局类别嵌入特征提取模块内部网络结构图;
图5为实施例一的局部图像区域特征提取模块内部网络结构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了一种细粒度图像检索方法;
如图1所示,一种细粒度图像检索方法,包括:
S101:获取待检索图像和图像数据库;
S102:将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;
S103:计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;
S104:计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。
进一步地,所述S101:获取待检索图像和图像数据库,其中,待检索图像是采用图像采集设备采集的图像,或,终端设备已存储的图像;图像数据库中包括若干幅已知图像。
进一步地,所述训练后的图像检索模型,包括:
特征图提取网络,所述特征图提取网络的输入端用于输入待检索图像和图像数据库的若干幅图像;
所述特征图提取网络的输出端与卷积层连接;所述卷积层,用于对特征图提取网络输出的特征图进行分割操作,得到若干个图像区域;
所述卷积层的输出端与类别嵌入模块的输入端连接,类别嵌入模块的输出端与位置嵌入模块的输入端连接;其中,类别嵌入模块,用于实现图像类别的嵌入;位置嵌入模块用于实现图像位置的嵌入;图像位置,用于表示图像中每个区域的位置信息;
位置嵌入模块的输出端与特征向量提取网络的输入端连接;特征向量提取网络的输出端与关键区域重分析模块的输入端连接,关键区域重分析模块的输出端与第一特征融合模块的输入端连接;
特征向量提取网络的输出端还与第二特征融合模块的输入端连接;
所述特征图提取网络的输出端还分别与全局类别嵌入特征提取模块的输入端和局部图像区域特征提取模块的输入端连接;
所述全局类别嵌入特征提取模块的输出端与第一特征融合模块的输入端连接;所述局部图像区域特征提取模块的输出端与第二特征融合模块的输入端连接;
第一特征融合模块的输出端和第二特征融合模块的输出端均与损失函数模块的输入端连接,损失函数模块的输出端输出图像之间的距离。
进一步地,所述特征图提取网络,采用Resnet-50网络实现。
进一步地,所述特征向量提取网络,采用Vision Transformer网络来实现。
进一步地,如图2所示,所述S102:训练后的图像检索模型,用于:
对输入的图像进行特征图提取;对提取的特征图进行分割,得到若干个图像区域;对所得图像区域进行类别嵌入操作和位置嵌入操作,对嵌入操作后的每个图像区域进行特征向量提取,得到特征向量矩阵;所述特征向量矩阵,包括:类别嵌入特征和图像区域特征;
对得到的特征向量矩阵的类别嵌入特征进行关键区域重分析,得到具有代表性的类别嵌入特征;
对提取的特征图分别提取全局类别嵌入特征和局部图像区域特征;
将具有代表性的类别嵌入特征与全局类别嵌入特征进行特征融合,得到融合后的类别嵌入特征;
将特征向量矩阵的图像区域特征进行层归一化操作,将层归一化操作结果与局部图像区域特征进行特征融合,得到融合后的图像区域特征。
进一步地,所述对输入的图像进行特征图提取,采用特征图提取网络来实现,利用特征图提取网络提取图像对应的特征图。
示例性地,所述对输入的图像进行特征图提取,给定一张输入图像X,首先将其送入到Resnet-50网络中提取得到一个特征图,其中,(/>,/>)是特征图的分辨率,C是通道数,特征图/>是ResNet-50中conv3卷积层的输出,/>表示特征空间。
进一步地,所述对提取的特征图进行分割,得到若干个图像区域,采用卷积层,对特征图进行卷积操作后,将特征图分割为若干个图像区域。示例性地,所述若干个图像区域为196个图像区域。
进一步地,所述对所得图像区域进行类别嵌入操作和位置嵌入操作,具体包括:
首先,将每个图像区域进行展平,并利用一个可训练的线性映射矩阵将其映射为196个区域嵌入向量;
然后,在区域嵌入向量序列的最前面,插入一个可学习的类别嵌入向量,得到包含197个嵌入向量的图像特征嵌入矩阵,以实现类别嵌入;
接下来,将位置嵌入矩阵加到图像特征嵌入矩阵上,用来保留图像的位置信息,以实现位置嵌入。
进一步地,所述对嵌入操作后的每个图像区域进行特征向量提取,得到特征向量矩阵,通过特征向量提取网络Vision Transformer网络来实现,每一个图像区域得到一个特征向量。
Vision Transformer网络在自注意力的基础上,利用多头自注意力层和前馈网络层来构造一个Transformer编码器,对输入的每个图像区域嵌入进行特征提取。
示例性地,在特征图上进行一个分类输入嵌入和位置嵌入操作后,送入到Vision Transformer网络的Transformer编码器中,最后,Vision Transformer网络的预分类层输出包含n+1个特征向量的特征向量矩阵/>,分别对应一个类别嵌入特征向量/>和n个图像区域特征向量/>,其中每个/>,其中,d是特征向量的维度,第二特征融合模块对/>进行层归一化操作,来得到的图像区域特征矩阵/>,其中每个经过归一化之后的图像区域特征/>。
进一步地,所述对得到的特征向量矩阵的类别嵌入特征进行关键区域重分析,得到具有代表性的类别嵌入特征,具体包括:
利用类激活图,从特征提取过程中产生的图像区域中,选择具有判别力的区域进行进一步计算,从而生成具有代表性的类别嵌入特征。
采用Transformer编码器,对进行处理,再将Transformer编码器的输出值送入层归一化模块,层归一化模块输出最终的class-token特征向量/>,最终的class-token特征向量/>就是具有代表性的类别嵌入特征。
如图3所示,关键区域重分析模块内部具体结构。
关键区域重分析模块,包括:依次连接的Transformer编码器和层归一化模块;所述Transformer编码器,包括:依次连接的多头自注意力机制层和前馈网络;所述前馈网络,包括依次连接的第一线性转换层、第二线性转换层和激活函数层GELU。
应理解地,在Vision Transformer网络生成的所有图像区域特征中,有些图像区域特征(如背景区域)对于检索任务来说是不重要的,甚至可能会对检索结果造成一定的干扰。然而,通过使用卷积神经网络(Convolutional Neural Network),可以很容易地得到每个图像区域对应的注意力权重,这或许可以用来解决上述问题。为了利用卷积神经网络(Convolutional Neural Network)指导Vision Transformer网络中关键图像区域的选择,以此来消除干扰图像区域对检索结果的影响,并生成更具有判别力的类别嵌入,本发明提出了关键区域重分析模块。
进一步地,如图4所示,所述全局类别嵌入特征提取模块,包括:依次连接的全局平均池化层、第一展平层和第一全连接层;
进一步地,如图5所示,所述局部图像区域特征提取模块,包括:依次连接的第二展平层、矩阵转置层和第二全连接层。
进一步地,所述对提取的特征图分别提取全局类别嵌入特征和局部图像区域特征,具体包括:
进一步地,所述将具有代表性的类别嵌入特征与全局类别嵌入特征进行特征融合,得到融合后的类别嵌入特征,通过第一特征融合模块来实现,将两个嵌入特征进行加权求和,得到最终的类别嵌入特征:
进一步地,所述将特征向量矩阵的图像区域特征与局部图像区域特征进行特征融合,得到融合后的图像区域特征,具体包括:
应理解地,Vision Transformer网络最终输出的一些特征向量之间存在着高度的相似性,而这可能会导致一些具有判别力的重要信息的丢失。同时,在CNN提取特征中间过程中生成的特征图包含了一些有用的信息,而这在混合Vision Transformer网络中却没有得到有效地利用。为了将特征图提取网络的特征引入到Vision Transformer网络中,并获得信息更加丰富的特征表示,本发明提出了两个特征融合模块,分别在类别嵌入级别和图像区域级别上有效地融合来自不同网络的特征。
进一步地,所述训练后的图像检索模型,训练过程包括:
构建训练集,所述训练集为已知两两图像之间距离的若干幅图像;
将训练集,输入到图像检索模型中,对图像检索模型进行训练,当模型的损失函数值不再下降时,或者迭代次数超过设定次数时,停止训练,得到训练后的图像检索模型。
进一步地,所述损失函数,采用边界损失函数来实现。
进一步地,所述边界损失函数,具体包括:
进一步地,所述训练集,两张图像之间的相似度:
同时对类别嵌入特征之间的距离和每个图像区域特征之间的距离进行计算,并以此来度量两张图片之间的距离。
给定一个输入图像三元组,将其公式化定义为(SA、SP、SN),其中SA表示的是锚点样本、SP表示的是正样本、SN表示的是负样本。
类似地,利用同样的方式对锚点样本SA和负样本SN的类别嵌入特征之间的距离计算如下:
考虑到锚点样本SA中不同图像区域对于检索结果的重要性程度是不同的,在全局-局部对齐损失函数中引进了Vision Transformer网络中生成的注意力权重。
应理解地,为了更加充分地利用图像的全局和局部细粒度信息,本发明中提出了一个新颖的全局-局部对齐损失函数,来更好地度量两张图像之间的相似度。
进一步地,所述S103:计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,具体包括:
进一步地,所述S104:计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,具体包括:
二次排序的具体过程为:
利用公式(11),计算待检索图像与P张图像中每张图像之间的距离,利用该距离来进行第二次的排序,从而得到最终的相似性序列,并根据用户的实际需要从该序列中返回相应的查询结果。
与训练阶段不同,本发明在检索测试阶段采用了一个二次排序机制,在保证检索结果准确性的同时,提高了模型的运行速度。
实施例二
本实施例提供了一种细粒度图像检索系统;
一种细粒度图像检索系统,包括:
获取模块,其被配置为:获取待检索图像和图像数据库;
特征提取模块,其被配置为:将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;
排序模块,其被配置为:计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;
输出模块,其被配置为:计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。
此处需要说明的是,上述获取模块、特征提取模块、排序模块和输出模块对应于实施例一中的步骤S101至步骤S104,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种细粒度图像检索方法,其特征是,包括:
获取待检索图像和图像数据库;
将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;
计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;
计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。
2.如权利要求1所述的一种细粒度图像检索方法,其特征是,获取待检索图像和图像数据库,其中,待检索图像是采用图像采集设备采集的图像,或,终端设备已存储的图像;图像数据库中包括若干幅已知图像。
3.如权利要求1所述的一种细粒度图像检索方法,其特征是,所述训练后的图像检索模型,包括:
特征图提取网络,所述特征图提取网络的输入端用于输入待检索图像和图像数据库的若干幅图像;
所述特征图提取网络的输出端与卷积层连接;所述卷积层,用于对特征图提取网络输出的特征图进行分割操作,得到若干个图像区域;
所述卷积层的输出端与类别嵌入模块的输入端连接,类别嵌入模块的输出端与位置嵌入模块的输入端连接;其中,类别嵌入模块,用于实现图像类别的嵌入;位置嵌入模块用于实现图像位置的嵌入;图像位置,用于表示图像中每个区域的位置信息;
位置嵌入模块的输出端与特征向量提取网络的输入端连接;特征向量提取网络的输出端与关键区域重分析模块的输入端连接,关键区域重分析模块的输出端与第一特征融合模块的输入端连接;
特征向量提取网络的输出端还与第二特征融合模块的输入端连接;
所述特征图提取网络的输出端还分别与全局类别嵌入特征提取模块的输入端和局部图像区域特征提取模块的输入端连接;
所述全局类别嵌入特征提取模块的输出端与第一特征融合模块的输入端连接;所述局部图像区域特征提取模块的输出端与第二特征融合模块的输入端连接;
第一特征融合模块的输出端和第二特征融合模块的输出端均与损失函数模块的输入端连接,损失函数模块的输出端输出图像之间的距离。
4.如权利要求1所述的一种细粒度图像检索方法,其特征是,训练后的图像检索模型,用于:
对输入的图像进行特征图提取;对提取的特征图进行分割,得到若干个图像区域;对所得图像区域进行类别嵌入操作和位置嵌入操作,对嵌入操作后的每个图像区域进行特征向量提取,得到特征向量矩阵;所述特征向量矩阵,包括:类别嵌入特征和图像区域特征;
对得到的特征向量矩阵的类别嵌入特征进行关键区域重分析,得到具有代表性的类别嵌入特征;
对提取的特征图分别提取全局类别嵌入特征和局部图像区域特征;
将具有代表性的类别嵌入特征与全局类别嵌入特征进行特征融合,得到融合后的类别嵌入特征;
将特征向量矩阵的图像区域特征进行层归一化操作,将层归一化操作结果与局部图像区域特征进行特征融合,得到融合后的图像区域特征。
5.如权利要求4所述的一种细粒度图像检索方法,其特征是,所述对输入的图像进行特征图提取,采用特征图提取网络来实现,利用特征图提取网络提取图像对应的特征图;所述对提取的特征图进行分割,得到若干个图像区域,采用卷积层,对特征图进行卷积操作后,将特征图分割为若干个图像区域。
6.如权利要求4所述的一种细粒度图像检索方法,其特征是,所述对所得图像区域进行类别嵌入操作和位置嵌入操作,具体包括:
首先,将每个图像区域进行展平,并利用可训练的线性映射矩阵将其映射为若干个区域嵌入向量;
然后,在区域嵌入向量序列的最前面,插入可学习的类别嵌入向量,得到包含若干个嵌入向量的图像特征嵌入矩阵,以实现类别嵌入;
接下来,将位置嵌入矩阵加到图像特征嵌入矩阵上,用来保留图像的位置信息,以实现位置嵌入。
7.如权利要求4所述的一种细粒度图像检索方法,其特征是,所述对得到的特征向量矩阵的类别嵌入特征进行关键区域重分析,得到具有代表性的类别嵌入特征,具体包括:利用类激活图,从特征提取过程中产生的图像区域中,选择具有判别力的区域进行进一步计算,从而生成具有代表性的类别嵌入特征;
所述对提取的特征图分别提取全局类别嵌入特征和局部图像区域特征,具体包括:对特征图提取网络生成的特征图,依次使用全局平均池化、展平和全连接操作来获得全局类别嵌入特征;对特征图提取网络生成的特征图,依次使用展平操作、矩阵转置和全连接操作,生成局部图像区域特征矩阵;
所述训练后的图像检索模型,训练过程包括:
构建训练集,所述训练集为已知两两图像之间距离的若干幅图像;
将训练集,输入到图像检索模型中,对图像检索模型进行训练,当模型的损失函数值不再下降时,或者迭代次数超过设定次数时,停止训练,得到训练后的图像检索模型;所述损失函数,采用边界损失函数来实现。
8.一种细粒度图像检索系统,其特征是,包括:
获取模块,其被配置为:获取待检索图像和图像数据库;
特征提取模块,其被配置为:将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;
排序模块,其被配置为:计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;
输出模块,其被配置为:计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310586562.8A CN116310425B (zh) | 2023-05-24 | 2023-05-24 | 一种细粒度图像检索方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310586562.8A CN116310425B (zh) | 2023-05-24 | 2023-05-24 | 一种细粒度图像检索方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116310425A true CN116310425A (zh) | 2023-06-23 |
CN116310425B CN116310425B (zh) | 2023-09-26 |
Family
ID=86815358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310586562.8A Active CN116310425B (zh) | 2023-05-24 | 2023-05-24 | 一种细粒度图像检索方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310425B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116879761A (zh) * | 2023-09-06 | 2023-10-13 | 杭州宇谷科技股份有限公司 | 基于多模态的电池内短路检测方法、系统、装置及介质 |
CN117593557A (zh) * | 2023-09-27 | 2024-02-23 | 北京邮电大学 | 一种基于Transformer模型的细粒度生物图像分类方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871014A (zh) * | 2017-11-23 | 2018-04-03 | 清华大学 | 一种基于深度融合哈希的大数据跨模态检索方法及系统 |
CN109086437A (zh) * | 2018-08-15 | 2018-12-25 | 重庆大学 | 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法 |
CN110457515A (zh) * | 2019-07-19 | 2019-11-15 | 天津理工大学 | 基于全局特征捕捉聚合的多视角神经网络的三维模型检索方法 |
CN110751209A (zh) * | 2019-10-18 | 2020-02-04 | 北京邮电大学 | 一种融合深度图像分类和检索的智能台风定强方法 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
US20200242422A1 (en) * | 2019-01-29 | 2020-07-30 | Boe Technology Group Co., Ltd. | Method and electronic device for retrieving an image and computer readable storage medium |
CN111488474A (zh) * | 2020-03-21 | 2020-08-04 | 复旦大学 | 基于增强注意力的细粒度手绘草图图像检索方法 |
CN111539469A (zh) * | 2020-04-20 | 2020-08-14 | 东南大学 | 一种基于视觉自注意力机制的弱监督细粒度图像识别方法 |
KR20200112574A (ko) * | 2019-03-22 | 2020-10-05 | 네이버 주식회사 | 이미지 검색을 위한 다중 글로벌 디스크립터를 조합하는 프레임워크 |
CN112560932A (zh) * | 2020-12-10 | 2021-03-26 | 山东建筑大学 | 一种基于双分支网络特征融合的车辆重识别方法 |
WO2021143267A1 (zh) * | 2020-09-07 | 2021-07-22 | 平安科技(深圳)有限公司 | 基于图像检测的细粒度分类模型处理方法、及其相关设备 |
US20210279929A1 (en) * | 2020-03-04 | 2021-09-09 | Naver Corporation | Training and using an ensemble of complimentary convolutional neural networks for cross-domain retrieval of fashion item images |
US20220058429A1 (en) * | 2020-08-24 | 2022-02-24 | Changqing ZOU | Method for fine-grained sketch-based scene image retrieval |
CN114647754A (zh) * | 2022-04-15 | 2022-06-21 | 重庆邮电大学 | 一种融合图像标签信息的手绘图像实时检索方法 |
US20230134531A1 (en) * | 2021-10-28 | 2023-05-04 | Shandong Jianzhu University | Method and system for rapid retrieval of target images based on artificial intelligence |
-
2023
- 2023-05-24 CN CN202310586562.8A patent/CN116310425B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871014A (zh) * | 2017-11-23 | 2018-04-03 | 清华大学 | 一种基于深度融合哈希的大数据跨模态检索方法及系统 |
CN109086437A (zh) * | 2018-08-15 | 2018-12-25 | 重庆大学 | 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
US20200242422A1 (en) * | 2019-01-29 | 2020-07-30 | Boe Technology Group Co., Ltd. | Method and electronic device for retrieving an image and computer readable storage medium |
KR20200112574A (ko) * | 2019-03-22 | 2020-10-05 | 네이버 주식회사 | 이미지 검색을 위한 다중 글로벌 디스크립터를 조합하는 프레임워크 |
CN110457515A (zh) * | 2019-07-19 | 2019-11-15 | 天津理工大学 | 基于全局特征捕捉聚合的多视角神经网络的三维模型检索方法 |
CN110751209A (zh) * | 2019-10-18 | 2020-02-04 | 北京邮电大学 | 一种融合深度图像分类和检索的智能台风定强方法 |
US20210279929A1 (en) * | 2020-03-04 | 2021-09-09 | Naver Corporation | Training and using an ensemble of complimentary convolutional neural networks for cross-domain retrieval of fashion item images |
CN111488474A (zh) * | 2020-03-21 | 2020-08-04 | 复旦大学 | 基于增强注意力的细粒度手绘草图图像检索方法 |
CN111539469A (zh) * | 2020-04-20 | 2020-08-14 | 东南大学 | 一种基于视觉自注意力机制的弱监督细粒度图像识别方法 |
US20220058429A1 (en) * | 2020-08-24 | 2022-02-24 | Changqing ZOU | Method for fine-grained sketch-based scene image retrieval |
WO2021143267A1 (zh) * | 2020-09-07 | 2021-07-22 | 平安科技(深圳)有限公司 | 基于图像检测的细粒度分类模型处理方法、及其相关设备 |
CN112560932A (zh) * | 2020-12-10 | 2021-03-26 | 山东建筑大学 | 一种基于双分支网络特征融合的车辆重识别方法 |
US20230134531A1 (en) * | 2021-10-28 | 2023-05-04 | Shandong Jianzhu University | Method and system for rapid retrieval of target images based on artificial intelligence |
CN114647754A (zh) * | 2022-04-15 | 2022-06-21 | 重庆邮电大学 | 一种融合图像标签信息的手绘图像实时检索方法 |
Non-Patent Citations (2)
Title |
---|
王志伟;普园媛;王鑫;赵征鹏;徐丹;钱文华;: "基于多特征融合的多尺度服装图像精准化检索", 计算机学报, vol. 43, no. 04, pages 740 - 754 * |
顾军华;王锋;戚永军;孙哲然;田泽培;张亚娟;: "基于多尺度卷积特征融合的肺结节图像检索方法", 计算机应用, no. 02 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116879761A (zh) * | 2023-09-06 | 2023-10-13 | 杭州宇谷科技股份有限公司 | 基于多模态的电池内短路检测方法、系统、装置及介质 |
CN117593557A (zh) * | 2023-09-27 | 2024-02-23 | 北京邮电大学 | 一种基于Transformer模型的细粒度生物图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116310425B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116310425B (zh) | 一种细粒度图像检索方法、系统、设备及存储介质 | |
CN112232232B (zh) | 一种目标检测方法 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
Tan et al. | CALPA-NET: Channel-pruning-assisted deep residual network for steganalysis of digital images | |
CN110569814B (zh) | 视频类别识别方法、装置、计算机设备及计算机存储介质 | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN110245683B (zh) | 一种少样本目标识别的残差关系网络构建方法及应用 | |
CN110726898B (zh) | 一种配电网故障类型识别方法 | |
CN112116950B (zh) | 基于深度度量学习的蛋白质折叠识别方法 | |
CN113255892B (zh) | 一种解耦合的网络结构搜索方法、设备及可读存储介质 | |
CN114579794A (zh) | 特征一致性建议的多尺度融合地标图像检索方法及系统 | |
CN114492581A (zh) | 基于迁移学习和注意力机制元学习应用在小样本图片分类的方法 | |
CN110197213A (zh) | 基于神经网络的图像匹配方法、装置和设备 | |
CN110555099B (zh) | 计算机执行的、利用神经网络进行语言处理的方法及装置 | |
CN111914949A (zh) | 基于强化学习的零样本学习模型的训练方法及装置 | |
CN113887653B (zh) | 一种基于三元网络的紧耦合弱监督学习的定位方法及系统 | |
Turner et al. | Distilling with performance enhanced students | |
CN113569960B (zh) | 基于域适应的小样本图像分类方法及系统 | |
CN115424086A (zh) | 多视角的细粒度识别方法、装置、电子设备及介质 | |
CN115497564A (zh) | 一种鉴定抗原模型建立方法及鉴定抗原方法 | |
CN114496068A (zh) | 蛋白质二级结构预测方法、装置、设备及存储介质 | |
CN114898773A (zh) | 基于深度自注意力神经网络分类器的合成语音检测方法 | |
CN112767427A (zh) | 一种补偿边缘信息的低分辨率图像识别算法 | |
CN111340111B (zh) | 基于小波核极限学习机识别人脸图像集方法 | |
CN117648611B (zh) | 机械装备的故障诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |