CN116310425A - 一种细粒度图像检索方法、系统、设备及存储介质 - Google Patents

一种细粒度图像检索方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN116310425A
CN116310425A CN202310586562.8A CN202310586562A CN116310425A CN 116310425 A CN116310425 A CN 116310425A CN 202310586562 A CN202310586562 A CN 202310586562A CN 116310425 A CN116310425 A CN 116310425A
Authority
CN
China
Prior art keywords
image
feature
images
features
fused
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310586562.8A
Other languages
English (en)
Other versions
CN116310425B (zh
Inventor
许信顺
修丙楠
陈振铎
罗昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202310586562.8A priority Critical patent/CN116310425B/zh
Publication of CN116310425A publication Critical patent/CN116310425A/zh
Application granted granted Critical
Publication of CN116310425B publication Critical patent/CN116310425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及图像检索技术领域,特别是涉及一种细粒度图像检索方法、系统、设备及存储介质,其中方法包括:将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;计算待检索图像与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离筛选排序靠前的M个图像;计算待检索图像与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离排序,得到最终的检索结果。本发明更好地度量两张图片之间的相似性。

Description

一种细粒度图像检索方法、系统、设备及存储介质
技术领域
本发明涉及图像检索技术领域,特别是涉及一种细粒度图像检索方法、系统、设备及存储介质。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
图像检索是计算机视觉领域中一个非常重要的研究任务。近些年,随着技术的发展,更具有挑战性的子任务相继被提出并吸引了越来越多的关注,细粒度图像检索便是其中广受关注的一个。在该子任务中,基于卷积神经网络的方法已经取得了不错的性能。借助于卷积神经网络(CNN),这些方法可以充分地提取并利用图像的全局特征。
然而,在细粒度图像检索任务中,局部特征对于提高检索准确性来说同样具有非常重要的作用。最近,基于Vision Transformer(ViT)的方法在传统的图像分析领域取得了巨大的成功,这归因于ViT在捕获图像中最具有判别力的区域和图像中细粒度特征方面具有天然的优势。然而,通过我们的实验发现,当基于纯ViT的方法应用于细粒度图像检索任务时,在汽车之类的钢体图像上表现得并不令人满意。
具体来说,现有的方法主要面临以下问题:
(1)细粒度的图像具有类内差异较大、类间差异较小的特点,这使得其相对于传统的基于内容的图像检索任务来说具有更大的挑战性;
(2)基于CNN的模型在提取图像的全局信息表示方面具有很大的优势,但是对于图像的细粒度信息方面关注度不够,而对于细粒度来说,对局部信息的描述也同样重要;
(3)现有的基于ViT的细粒度图像分析方法虽然在捕获图像细节信息方面具有先天的优势,然而对于一些细节差异较小的图像来说,通过自注意力机制得到的全局特征并不能充分地描述图像的全局信息;
(4)现有的尝试同时应用CNN和ViT的模型没有充分地发挥出二者之间的各自优势。此外,无论是ViT还是CNN和ViT的混合架构在细粒度图像检索任务上的应用目前都仍缺乏相关的应用方法。
发明内容
为了解决现有技术的不足,本发明提供了一种细粒度图像检索方法、系统、设备及存储介质;该方法利用CNN和ViT进行特征提取,同时保证了模型对于图像全局特征和局部细粒度特征的关注度。此外,通过引入特征融合模块来丰富特征信息,同时设计了新的损失函数来更好地度量两张图片之间的相似性。
第一方面,本发明提供了一种细粒度图像检索方法;
一种细粒度图像检索方法,包括:
获取待检索图像和图像数据库;
将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;
计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;
计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。
第二方面,本发明提供了一种细粒度图像检索系统;
一种细粒度图像检索系统,包括:
获取模块,其被配置为:获取待检索图像和图像数据库;
特征提取模块,其被配置为:将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;
排序模块,其被配置为:计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;
输出模块,其被配置为:计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
第五方面,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
与现有技术相比,本发明的有益效果是:
1、本发明中创新性地将混合ViT架构引入到细粒度图像检索任务中,并提出了一个基于混合ViT的细粒度图像检索方法,简称为TIGER。与占主导地位的特征提取骨干网络相比,TIGER取得了更加具有竞争力的性能。
2、本发明中提出了关键区域重分析和混合网络特征融合两个新颖的模块。前者通过CNN生成的权重来指导ViT中关键patch的选择,从而生成更有代表性的class-token。后者有效地整合了ViT和CNN的特征,使输出特征能够蕴含更丰富的信息。通过引入这两个模块,模型能够很好地发挥CNN和ViT的共同作用,从而提高本发明在细粒度图像检索任务上的性能。
3、为了更充分地利用图像的全局和局部特征,本发明中提出了一种全局-局部对齐损失函数。通过同时计算class-token之间的距离和每个patch对之间的距离,可以更好地度量两个图像之间的相似性,从而保证能够返回正确的查询结果。
4、本发明中提出了一个二次排序机制,在保证检索准确率的基础上,进一步提高了检索的速度和效率,有效保证了本发明在现实世界中的可应用性。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的方法流程图;
图2为实施例一的训练后的图像检索模型内部网络结构图;
图3为实施例一的关键区域重分析模块内部网络结构图;
图4为实施例一的全局类别嵌入特征提取模块内部网络结构图;
图5为实施例一的局部图像区域特征提取模块内部网络结构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了一种细粒度图像检索方法;
如图1所示,一种细粒度图像检索方法,包括:
S101:获取待检索图像和图像数据库;
S102:将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;
S103:计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;
S104:计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。
进一步地,所述S101:获取待检索图像和图像数据库,其中,待检索图像是采用图像采集设备采集的图像,或,终端设备已存储的图像;图像数据库中包括若干幅已知图像。
进一步地,所述训练后的图像检索模型,包括:
特征图提取网络,所述特征图提取网络的输入端用于输入待检索图像和图像数据库的若干幅图像;
所述特征图提取网络的输出端与卷积层连接;所述卷积层,用于对特征图提取网络输出的特征图进行分割操作,得到若干个图像区域;
所述卷积层的输出端与类别嵌入模块的输入端连接,类别嵌入模块的输出端与位置嵌入模块的输入端连接;其中,类别嵌入模块,用于实现图像类别的嵌入;位置嵌入模块用于实现图像位置的嵌入;图像位置,用于表示图像中每个区域的位置信息;
位置嵌入模块的输出端与特征向量提取网络的输入端连接;特征向量提取网络的输出端与关键区域重分析模块的输入端连接,关键区域重分析模块的输出端与第一特征融合模块的输入端连接;
特征向量提取网络的输出端还与第二特征融合模块的输入端连接;
所述特征图提取网络的输出端还分别与全局类别嵌入特征提取模块的输入端和局部图像区域特征提取模块的输入端连接;
所述全局类别嵌入特征提取模块的输出端与第一特征融合模块的输入端连接;所述局部图像区域特征提取模块的输出端与第二特征融合模块的输入端连接;
第一特征融合模块的输出端和第二特征融合模块的输出端均与损失函数模块的输入端连接,损失函数模块的输出端输出图像之间的距离。
进一步地,所述特征图提取网络,采用Resnet-50网络实现。
进一步地,所述特征向量提取网络,采用Vision Transformer网络来实现。
进一步地,如图2所示,所述S102:训练后的图像检索模型,用于:
对输入的图像进行特征图提取;对提取的特征图进行分割,得到若干个图像区域;对所得图像区域进行类别嵌入操作和位置嵌入操作,对嵌入操作后的每个图像区域进行特征向量提取,得到特征向量矩阵;所述特征向量矩阵,包括:类别嵌入特征和图像区域特征;
对得到的特征向量矩阵的类别嵌入特征进行关键区域重分析,得到具有代表性的类别嵌入特征;
对提取的特征图分别提取全局类别嵌入特征和局部图像区域特征;
将具有代表性的类别嵌入特征与全局类别嵌入特征进行特征融合,得到融合后的类别嵌入特征;
将特征向量矩阵的图像区域特征进行层归一化操作,将层归一化操作结果与局部图像区域特征进行特征融合,得到融合后的图像区域特征。
进一步地,所述对输入的图像进行特征图提取,采用特征图提取网络来实现,利用特征图提取网络提取图像对应的特征图。
示例性地,所述对输入的图像进行特征图提取,给定一张输入图像X,首先将其送入到Resnet-50网络中提取得到一个特征图
Figure SMS_1
,其中,(/>
Figure SMS_2
,/>
Figure SMS_3
)是特征图的分辨率,C是通道数,特征图/>
Figure SMS_4
是ResNet-50中conv3卷积层的输出,/>
Figure SMS_5
表示特征空间。
进一步地,所述对提取的特征图进行分割,得到若干个图像区域,采用卷积层,对特征图进行卷积操作后,将特征图分割为若干个图像区域。示例性地,所述若干个图像区域为196个图像区域。
进一步地,所述对所得图像区域进行类别嵌入操作和位置嵌入操作,具体包括:
首先,将每个图像区域进行展平,并利用一个可训练的线性映射矩阵将其映射为196个区域嵌入向量;
然后,在区域嵌入向量序列的最前面,插入一个可学习的类别嵌入向量,得到包含197个嵌入向量的图像特征嵌入矩阵,以实现类别嵌入;
接下来,将位置嵌入矩阵加到图像特征嵌入矩阵上,用来保留图像的位置信息,以实现位置嵌入。
进一步地,所述对嵌入操作后的每个图像区域进行特征向量提取,得到特征向量矩阵,通过特征向量提取网络Vision Transformer网络来实现,每一个图像区域得到一个特征向量。
Vision Transformer网络在自注意力的基础上,利用多头自注意力层和前馈网络层来构造一个Transformer编码器,对输入的每个图像区域嵌入进行特征提取。
示例性地,在特征图
Figure SMS_7
上进行一个分类输入嵌入和位置嵌入操作后,送入到Vision Transformer网络的Transformer编码器中,最后,Vision Transformer网络的预分类层输出包含n+1个特征向量的特征向量矩阵/>
Figure SMS_9
,分别对应一个类别嵌入特征向量/>
Figure SMS_11
n个图像区域特征向量/>
Figure SMS_8
,其中每个/>
Figure SMS_10
,其中,d是特征向量的维度,第二特征融合模块对/>
Figure SMS_12
进行层归一化操作,来得到的图像区域特征矩阵/>
Figure SMS_13
,其中每个经过归一化之后的图像区域特征/>
Figure SMS_6
进一步地,所述对得到的特征向量矩阵的类别嵌入特征进行关键区域重分析,得到具有代表性的类别嵌入特征,具体包括:
利用类激活图,从特征提取过程中产生的图像区域中,选择具有判别力的区域进行进一步计算,从而生成具有代表性的类别嵌入特征。
利用ResNet-50中通道
Figure SMS_14
的特征图/>
Figure SMS_15
和通道/>
Figure SMS_16
对于当前类/>
Figure SMS_17
相对应的权重/>
Figure SMS_18
来计算得到一个类激活图CAM(Class Activation Mapping),类激活图CAM的计算公式如下:
Figure SMS_19
(1);
其中,
Figure SMS_20
C表示通道数,/>
Figure SMS_21
表示当前类/>
Figure SMS_22
相对应的类激活图,/>
Figure SMS_23
表示当前类/>
Figure SMS_24
相对应的权重。
得到所有的类激活图CAM后,将所有类激活图CAM展平得到一个长度为n的权重序列
Figure SMS_25
,/>
Figure SMS_26
表示为/>
Figure SMS_27
;/>
Figure SMS_28
表示Vision Transformer网络中第n个图像区域对应的权重;
对权重序列
Figure SMS_29
进行正则化操作,得到最终的权重矩阵/>
Figure SMS_30
,正则化操作的计算公式如下:
Figure SMS_31
(2);
其中,
Figure SMS_32
表示的是Vision Transformer网络中每个图像区域对于检索结果的重要性程度。
然后,按照每个图像区域对于检索结果的重要性程度由大到小,从特征向量提取网络输出的包含n+1个特征向量的特征向量矩阵
Figure SMS_33
中挑选出重要性程度大于设定阈值的关键特征向量/>
Figure SMS_34
,/>
Figure SMS_35
其中,
Figure SMS_36
表示类别嵌入向量,/>
Figure SMS_37
表示N个图像区域向量,这N个图像区域向量与权重矩阵/>
Figure SMS_38
中前N个最大的值相对应。
利用关键特征向量
Figure SMS_39
,通过线性转换矩阵/>
Figure SMS_40
得到查询矩阵/>
Figure SMS_41
;其中,线性转换矩阵/>
Figure SMS_42
是一个可学习的参数矩阵,大小为/>
Figure SMS_43
类似地,利用不同的线性转换矩阵
Figure SMS_45
和/>
Figure SMS_47
,得到所有图像区域向量/>
Figure SMS_49
相对应的键矩阵和值矩阵,键矩阵:/>
Figure SMS_46
,值矩阵/>
Figure SMS_48
;其中,线性转换矩阵/>
Figure SMS_50
和/>
Figure SMS_51
是一个可学习的参数矩阵,大小为/>
Figure SMS_44
因此,查询矩阵
Figure SMS_52
与键值对之间的自注意力机制/>
Figure SMS_53
计算如下:
Figure SMS_54
(3)
其中,
Figure SMS_55
是一个缩放因子;
采用Transformer编码器,对
Figure SMS_56
进行处理,再将Transformer编码器的输出值送入层归一化模块,层归一化模块输出最终的class-token特征向量/>
Figure SMS_57
,最终的class-token特征向量/>
Figure SMS_58
就是具有代表性的类别嵌入特征。
如图3所示,关键区域重分析模块内部具体结构。
关键区域重分析模块,包括:依次连接的Transformer编码器和层归一化模块;所述Transformer编码器,包括:依次连接的多头自注意力机制层和前馈网络;所述前馈网络,包括依次连接的第一线性转换层、第二线性转换层和激活函数层GELU。
所述层归一化模块,用于获得特征向量提取网络Vision Transformer中最终的class-token特征向量
Figure SMS_59
,最终的class-token特征向量/>
Figure SMS_60
,就是具有代表性的类别嵌入特征。
应理解地,在Vision Transformer网络生成的所有图像区域特征中,有些图像区域特征(如背景区域)对于检索任务来说是不重要的,甚至可能会对检索结果造成一定的干扰。然而,通过使用卷积神经网络(Convolutional Neural Network),可以很容易地得到每个图像区域对应的注意力权重,这或许可以用来解决上述问题。为了利用卷积神经网络(Convolutional Neural Network)指导Vision Transformer网络中关键图像区域的选择,以此来消除干扰图像区域对检索结果的影响,并生成更具有判别力的类别嵌入,本发明提出了关键区域重分析模块。
进一步地,如图4所示,所述全局类别嵌入特征提取模块,包括:依次连接的全局平均池化层、第一展平层和第一全连接层;
进一步地,如图5所示,所述局部图像区域特征提取模块,包括:依次连接的第二展平层、矩阵转置层和第二全连接层。
进一步地,所述对提取的特征图分别提取全局类别嵌入特征和局部图像区域特征,具体包括:
对特征图提取网络生成的特征图
Figure SMS_61
,依次使用全局平均池化、展平和全连接操作来获得全局类别嵌入特征/>
Figure SMS_62
对特征图提取网络生成的特征图
Figure SMS_63
,依次使用展平操作、矩阵转置和全连接操作,生成局部图像区域特征矩阵/>
Figure SMS_64
,其中每个/>
Figure SMS_65
;其中,矩阵转置,是通过Pytorch软件中的矩阵转置函数,来实现矩阵的转置。
进一步地,所述将具有代表性的类别嵌入特征与全局类别嵌入特征进行特征融合,得到融合后的类别嵌入特征,通过第一特征融合模块来实现,将两个嵌入特征进行加权求和,得到最终的类别嵌入特征:
Figure SMS_66
,(4)
其中,
Figure SMS_67
是一个超参数,用来控制CNN提取得到的特征和ViT提取得到的特征在最终融合后的特征中所占的比重。/>
Figure SMS_68
是由关键区域重分析模块生成的类别嵌入特征向量,
Figure SMS_69
表示融合后的类别嵌入特征。
进一步地,所述将特征向量矩阵的图像区域特征与局部图像区域特征进行特征融合,得到融合后的图像区域特征,具体包括:
Figure SMS_70
,(5)
其中,
Figure SMS_71
是一个超参数,同样用来控制CNN提取得到的特征和ViT提取得到的特征在最终融合后的特征中所占的比重。/>
Figure SMS_72
表示融合后的图像区域特征,/>
Figure SMS_73
表示局部图像区域特征矩阵。
应理解地,Vision Transformer网络最终输出的一些特征向量之间存在着高度的相似性,而这可能会导致一些具有判别力的重要信息的丢失。同时,在CNN提取特征中间过程中生成的特征图包含了一些有用的信息,而这在混合Vision Transformer网络中却没有得到有效地利用。为了将特征图提取网络的特征引入到Vision Transformer网络中,并获得信息更加丰富的特征表示,本发明提出了两个特征融合模块,分别在类别嵌入级别和图像区域级别上有效地融合来自不同网络的特征。
进一步地,所述训练后的图像检索模型,训练过程包括:
构建训练集,所述训练集为已知两两图像之间距离的若干幅图像;
将训练集,输入到图像检索模型中,对图像检索模型进行训练,当模型的损失函数值不再下降时,或者迭代次数超过设定次数时,停止训练,得到训练后的图像检索模型。
进一步地,所述损失函数,采用边界损失函数来实现。
进一步地,所述边界损失函数,具体包括:
Figure SMS_74
(6)
其中,
Figure SMS_75
控制分离的边界,而/>
Figure SMS_76
是一个决定SP和SN之间边界的超参数。
进一步地,所述训练集,两张图像之间的相似度:
Figure SMS_77
;(7)
Figure SMS_78
;(8)
其中,
Figure SMS_79
是一个超参数,用来控制类别嵌入之间计算出的距离和patch之间计算出的距离占最终距离的比重。
同时对类别嵌入特征之间的距离和每个图像区域特征之间的距离进行计算,并以此来度量两张图片之间的距离。
给定一个输入图像三元组,将其公式化定义为(SA、SP、SN),其中SA表示的是锚点样本、SP表示的是正样本、SN表示的是负样本。
首先,利用欧几里得距离,对锚点样本SA的类别嵌入特征向量
Figure SMS_80
和正样本SP的类别嵌入特征向量/>
Figure SMS_81
之间的距离进行计算,计算公式如下:
Figure SMS_82
(9)
类似地,利用同样的方式对锚点样本SA和负样本SN的类别嵌入特征之间的距离计算如下:
Figure SMS_83
(10)
此外,在计算每个图像区域特征向量之间的距离之前,预先在正样本SP中找到与锚点样本SA中第
Figure SMS_84
个图像区域相对应的图像区域。
首先,计算锚点样本SA中的第
Figure SMS_85
个图像区域/>
Figure SMS_86
与正样本SP中的所有图像区域
Figure SMS_87
之间的距离,公式如下:
Figure SMS_88
(11)
根据
Figure SMS_89
中的最小的距离,在正样本SP挑选出与锚点样本SA中的第/>
Figure SMS_90
个图像区域对应的图像区域,公式定义如下:
Figure SMS_91
(12)
通过重复公式(11)和公式(12)的过程,在正样本SP中找到与锚点样本SA中所有图像区域相对应的图像区域,并进一步计算出其相互之间的所有距离,记为
Figure SMS_92
考虑到锚点样本SA中不同图像区域对于检索结果的重要性程度是不同的,在全局-局部对齐损失函数中引进了Vision Transformer网络中生成的注意力权重。
首先,Vision Transformer网络中第
Figure SMS_93
层/>
Figure SMS_94
的累积注意力权重计算如下:
Figure SMS_95
,(13)
其中,
Figure SMS_96
是利用一个单位矩阵/>
Figure SMS_97
对注意力权重进行重新归一化得到的,/>
Figure SMS_98
是ViT中生成的注意力矩阵。
根据公式(13),矩阵
Figure SMS_99
中的第一行表示的是类别嵌入和每个图像区域对应的权重。之后,将n个patch对应的权重矩阵定义为/>
Figure SMS_100
使用softmax操作对
Figure SMS_101
进行归一化,得到最终n个图像区域的注意力权重矩阵/>
Figure SMS_102
,最后,锚点样本SA和正样本SP的patch特征之间的距离计算如下:
Figure SMS_103
(14)
类似地,通过同样的方式得到了锚点样本SA和负样本SN之间的基于图像区域的距离
Figure SMS_104
应理解地,为了更加充分地利用图像的全局和局部细粒度信息,本发明中提出了一个新颖的全局-局部对齐损失函数,来更好地度量两张图像之间的相似度。
进一步地,所述S103:计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,具体包括:
利用类别嵌入特征向量
Figure SMS_105
来计算查询图像SQ与图像库/>
Figure SMS_106
中每个图像/>
Figure SMS_107
之间的欧几里得距离:
Figure SMS_108
(15)
利用欧几里得距离进行排序,得到一个排序序列
Figure SMS_109
其中,
Figure SMS_110
是图像库中图像的数量。
进一步地,所述S104:计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,具体包括:
从排序序列
Figure SMS_111
中挑选出前P个与待检索图像最相近的图像进行二次排序;其中,/>
Figure SMS_112
表示图像库中与待检索图像相距第S远的图像。
二次排序的具体过程为:
利用公式(11),计算待检索图像与P张图像中每张图像之间的距离,利用该距离来进行第二次的排序,从而得到最终的相似性序列,并根据用户的实际需要从该序列中返回相应的查询结果。
与训练阶段不同,本发明在检索测试阶段采用了一个二次排序机制,在保证检索结果准确性的同时,提高了模型的运行速度。
实施例二
本实施例提供了一种细粒度图像检索系统;
一种细粒度图像检索系统,包括:
获取模块,其被配置为:获取待检索图像和图像数据库;
特征提取模块,其被配置为:将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;
排序模块,其被配置为:计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;
输出模块,其被配置为:计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。
此处需要说明的是,上述获取模块、特征提取模块、排序模块和输出模块对应于实施例一中的步骤S101至步骤S104,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种细粒度图像检索方法,其特征是,包括:
获取待检索图像和图像数据库;
将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;
计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;
计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。
2.如权利要求1所述的一种细粒度图像检索方法,其特征是,获取待检索图像和图像数据库,其中,待检索图像是采用图像采集设备采集的图像,或,终端设备已存储的图像;图像数据库中包括若干幅已知图像。
3.如权利要求1所述的一种细粒度图像检索方法,其特征是,所述训练后的图像检索模型,包括:
特征图提取网络,所述特征图提取网络的输入端用于输入待检索图像和图像数据库的若干幅图像;
所述特征图提取网络的输出端与卷积层连接;所述卷积层,用于对特征图提取网络输出的特征图进行分割操作,得到若干个图像区域;
所述卷积层的输出端与类别嵌入模块的输入端连接,类别嵌入模块的输出端与位置嵌入模块的输入端连接;其中,类别嵌入模块,用于实现图像类别的嵌入;位置嵌入模块用于实现图像位置的嵌入;图像位置,用于表示图像中每个区域的位置信息;
位置嵌入模块的输出端与特征向量提取网络的输入端连接;特征向量提取网络的输出端与关键区域重分析模块的输入端连接,关键区域重分析模块的输出端与第一特征融合模块的输入端连接;
特征向量提取网络的输出端还与第二特征融合模块的输入端连接;
所述特征图提取网络的输出端还分别与全局类别嵌入特征提取模块的输入端和局部图像区域特征提取模块的输入端连接;
所述全局类别嵌入特征提取模块的输出端与第一特征融合模块的输入端连接;所述局部图像区域特征提取模块的输出端与第二特征融合模块的输入端连接;
第一特征融合模块的输出端和第二特征融合模块的输出端均与损失函数模块的输入端连接,损失函数模块的输出端输出图像之间的距离。
4.如权利要求1所述的一种细粒度图像检索方法,其特征是,训练后的图像检索模型,用于:
对输入的图像进行特征图提取;对提取的特征图进行分割,得到若干个图像区域;对所得图像区域进行类别嵌入操作和位置嵌入操作,对嵌入操作后的每个图像区域进行特征向量提取,得到特征向量矩阵;所述特征向量矩阵,包括:类别嵌入特征和图像区域特征;
对得到的特征向量矩阵的类别嵌入特征进行关键区域重分析,得到具有代表性的类别嵌入特征;
对提取的特征图分别提取全局类别嵌入特征和局部图像区域特征;
将具有代表性的类别嵌入特征与全局类别嵌入特征进行特征融合,得到融合后的类别嵌入特征;
将特征向量矩阵的图像区域特征进行层归一化操作,将层归一化操作结果与局部图像区域特征进行特征融合,得到融合后的图像区域特征。
5.如权利要求4所述的一种细粒度图像检索方法,其特征是,所述对输入的图像进行特征图提取,采用特征图提取网络来实现,利用特征图提取网络提取图像对应的特征图;所述对提取的特征图进行分割,得到若干个图像区域,采用卷积层,对特征图进行卷积操作后,将特征图分割为若干个图像区域。
6.如权利要求4所述的一种细粒度图像检索方法,其特征是,所述对所得图像区域进行类别嵌入操作和位置嵌入操作,具体包括:
首先,将每个图像区域进行展平,并利用可训练的线性映射矩阵将其映射为若干个区域嵌入向量;
然后,在区域嵌入向量序列的最前面,插入可学习的类别嵌入向量,得到包含若干个嵌入向量的图像特征嵌入矩阵,以实现类别嵌入;
接下来,将位置嵌入矩阵加到图像特征嵌入矩阵上,用来保留图像的位置信息,以实现位置嵌入。
7.如权利要求4所述的一种细粒度图像检索方法,其特征是,所述对得到的特征向量矩阵的类别嵌入特征进行关键区域重分析,得到具有代表性的类别嵌入特征,具体包括:利用类激活图,从特征提取过程中产生的图像区域中,选择具有判别力的区域进行进一步计算,从而生成具有代表性的类别嵌入特征;
所述对提取的特征图分别提取全局类别嵌入特征和局部图像区域特征,具体包括:对特征图提取网络生成的特征图,依次使用全局平均池化、展平和全连接操作来获得全局类别嵌入特征;对特征图提取网络生成的特征图,依次使用展平操作、矩阵转置和全连接操作,生成局部图像区域特征矩阵;
所述训练后的图像检索模型,训练过程包括:
构建训练集,所述训练集为已知两两图像之间距离的若干幅图像;
将训练集,输入到图像检索模型中,对图像检索模型进行训练,当模型的损失函数值不再下降时,或者迭代次数超过设定次数时,停止训练,得到训练后的图像检索模型;所述损失函数,采用边界损失函数来实现。
8.一种细粒度图像检索系统,其特征是,包括:
获取模块,其被配置为:获取待检索图像和图像数据库;
特征提取模块,其被配置为:将待检索图像输入到训练后的图像检索模型中,输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征;将图像数据库的若干幅图像,输入到训练后的图像检索模型中,输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征;
排序模块,其被配置为:计算待检索图像的融合后的类别嵌入特征,与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离,按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序,筛选排序靠前的M个图像,M为正整数,M的取值大于等于2;
输出模块,其被配置为:计算待检索图像的融合后的图像区域特征,与已筛选的M个图像的融合后的图像区域特征之间的第二距离,按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序,得到最终的检索结果。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
CN202310586562.8A 2023-05-24 2023-05-24 一种细粒度图像检索方法、系统、设备及存储介质 Active CN116310425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310586562.8A CN116310425B (zh) 2023-05-24 2023-05-24 一种细粒度图像检索方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310586562.8A CN116310425B (zh) 2023-05-24 2023-05-24 一种细粒度图像检索方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116310425A true CN116310425A (zh) 2023-06-23
CN116310425B CN116310425B (zh) 2023-09-26

Family

ID=86815358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310586562.8A Active CN116310425B (zh) 2023-05-24 2023-05-24 一种细粒度图像检索方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116310425B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116879761A (zh) * 2023-09-06 2023-10-13 杭州宇谷科技股份有限公司 基于多模态的电池内短路检测方法、系统、装置及介质
CN117593557A (zh) * 2023-09-27 2024-02-23 北京邮电大学 一种基于Transformer模型的细粒度生物图像分类方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN109086437A (zh) * 2018-08-15 2018-12-25 重庆大学 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法
CN110457515A (zh) * 2019-07-19 2019-11-15 天津理工大学 基于全局特征捕捉聚合的多视角神经网络的三维模型检索方法
CN110751209A (zh) * 2019-10-18 2020-02-04 北京邮电大学 一种融合深度图像分类和检索的智能台风定强方法
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
US20200242422A1 (en) * 2019-01-29 2020-07-30 Boe Technology Group Co., Ltd. Method and electronic device for retrieving an image and computer readable storage medium
CN111488474A (zh) * 2020-03-21 2020-08-04 复旦大学 基于增强注意力的细粒度手绘草图图像检索方法
CN111539469A (zh) * 2020-04-20 2020-08-14 东南大学 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
KR20200112574A (ko) * 2019-03-22 2020-10-05 네이버 주식회사 이미지 검색을 위한 다중 글로벌 디스크립터를 조합하는 프레임워크
CN112560932A (zh) * 2020-12-10 2021-03-26 山东建筑大学 一种基于双分支网络特征融合的车辆重识别方法
WO2021143267A1 (zh) * 2020-09-07 2021-07-22 平安科技(深圳)有限公司 基于图像检测的细粒度分类模型处理方法、及其相关设备
US20210279929A1 (en) * 2020-03-04 2021-09-09 Naver Corporation Training and using an ensemble of complimentary convolutional neural networks for cross-domain retrieval of fashion item images
US20220058429A1 (en) * 2020-08-24 2022-02-24 Changqing ZOU Method for fine-grained sketch-based scene image retrieval
CN114647754A (zh) * 2022-04-15 2022-06-21 重庆邮电大学 一种融合图像标签信息的手绘图像实时检索方法
US20230134531A1 (en) * 2021-10-28 2023-05-04 Shandong Jianzhu University Method and system for rapid retrieval of target images based on artificial intelligence

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN109086437A (zh) * 2018-08-15 2018-12-25 重庆大学 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
US20200242422A1 (en) * 2019-01-29 2020-07-30 Boe Technology Group Co., Ltd. Method and electronic device for retrieving an image and computer readable storage medium
KR20200112574A (ko) * 2019-03-22 2020-10-05 네이버 주식회사 이미지 검색을 위한 다중 글로벌 디스크립터를 조합하는 프레임워크
CN110457515A (zh) * 2019-07-19 2019-11-15 天津理工大学 基于全局特征捕捉聚合的多视角神经网络的三维模型检索方法
CN110751209A (zh) * 2019-10-18 2020-02-04 北京邮电大学 一种融合深度图像分类和检索的智能台风定强方法
US20210279929A1 (en) * 2020-03-04 2021-09-09 Naver Corporation Training and using an ensemble of complimentary convolutional neural networks for cross-domain retrieval of fashion item images
CN111488474A (zh) * 2020-03-21 2020-08-04 复旦大学 基于增强注意力的细粒度手绘草图图像检索方法
CN111539469A (zh) * 2020-04-20 2020-08-14 东南大学 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
US20220058429A1 (en) * 2020-08-24 2022-02-24 Changqing ZOU Method for fine-grained sketch-based scene image retrieval
WO2021143267A1 (zh) * 2020-09-07 2021-07-22 平安科技(深圳)有限公司 基于图像检测的细粒度分类模型处理方法、及其相关设备
CN112560932A (zh) * 2020-12-10 2021-03-26 山东建筑大学 一种基于双分支网络特征融合的车辆重识别方法
US20230134531A1 (en) * 2021-10-28 2023-05-04 Shandong Jianzhu University Method and system for rapid retrieval of target images based on artificial intelligence
CN114647754A (zh) * 2022-04-15 2022-06-21 重庆邮电大学 一种融合图像标签信息的手绘图像实时检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王志伟;普园媛;王鑫;赵征鹏;徐丹;钱文华;: "基于多特征融合的多尺度服装图像精准化检索", 计算机学报, vol. 43, no. 04, pages 740 - 754 *
顾军华;王锋;戚永军;孙哲然;田泽培;张亚娟;: "基于多尺度卷积特征融合的肺结节图像检索方法", 计算机应用, no. 02 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116879761A (zh) * 2023-09-06 2023-10-13 杭州宇谷科技股份有限公司 基于多模态的电池内短路检测方法、系统、装置及介质
CN117593557A (zh) * 2023-09-27 2024-02-23 北京邮电大学 一种基于Transformer模型的细粒度生物图像分类方法

Also Published As

Publication number Publication date
CN116310425B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN116310425B (zh) 一种细粒度图像检索方法、系统、设备及存储介质
CN112232232B (zh) 一种目标检测方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
Tan et al. CALPA-NET: Channel-pruning-assisted deep residual network for steganalysis of digital images
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN110245683B (zh) 一种少样本目标识别的残差关系网络构建方法及应用
CN110726898B (zh) 一种配电网故障类型识别方法
CN112116950B (zh) 基于深度度量学习的蛋白质折叠识别方法
CN113255892B (zh) 一种解耦合的网络结构搜索方法、设备及可读存储介质
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
CN114492581A (zh) 基于迁移学习和注意力机制元学习应用在小样本图片分类的方法
CN110197213A (zh) 基于神经网络的图像匹配方法、装置和设备
CN110555099B (zh) 计算机执行的、利用神经网络进行语言处理的方法及装置
CN111914949A (zh) 基于强化学习的零样本学习模型的训练方法及装置
CN113887653B (zh) 一种基于三元网络的紧耦合弱监督学习的定位方法及系统
Turner et al. Distilling with performance enhanced students
CN113569960B (zh) 基于域适应的小样本图像分类方法及系统
CN115424086A (zh) 多视角的细粒度识别方法、装置、电子设备及介质
CN115497564A (zh) 一种鉴定抗原模型建立方法及鉴定抗原方法
CN114496068A (zh) 蛋白质二级结构预测方法、装置、设备及存储介质
CN114898773A (zh) 基于深度自注意力神经网络分类器的合成语音检测方法
CN112767427A (zh) 一种补偿边缘信息的低分辨率图像识别算法
CN111340111B (zh) 基于小波核极限学习机识别人脸图像集方法
CN117648611B (zh) 机械装备的故障诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant