CN116310425A

CN116310425A - 一种细粒度图像检索方法、系统、设备及存储介质

Info

Publication number: CN116310425A
Application number: CN202310586562.8A
Authority: CN
Inventors: 许信顺; 修丙楠; 陈振铎; 罗昕
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-06-23
Anticipated expiration: 2043-05-24
Also published as: CN116310425B

Abstract

本发明涉及图像检索技术领域，特别是涉及一种细粒度图像检索方法、系统、设备及存储介质，其中方法包括：将待检索图像输入到训练后的图像检索模型中，输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征；将图像数据库的若干幅图像，输入到训练后的图像检索模型中，输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征；计算待检索图像与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离，按照第一距离筛选排序靠前的M个图像；计算待检索图像与已筛选的M个图像的融合后的图像区域特征之间的第二距离，按照第二距离排序，得到最终的检索结果。本发明更好地度量两张图片之间的相似性。

Description

一种细粒度图像检索方法、系统、设备及存储介质

技术领域

本发明涉及图像检索技术领域，特别是涉及一种细粒度图像检索方法、系统、设备及存储介质。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

图像检索是计算机视觉领域中一个非常重要的研究任务。近些年，随着技术的发展，更具有挑战性的子任务相继被提出并吸引了越来越多的关注，细粒度图像检索便是其中广受关注的一个。在该子任务中，基于卷积神经网络的方法已经取得了不错的性能。借助于卷积神经网络（CNN），这些方法可以充分地提取并利用图像的全局特征。

然而，在细粒度图像检索任务中，局部特征对于提高检索准确性来说同样具有非常重要的作用。最近，基于Vision Transformer（ViT）的方法在传统的图像分析领域取得了巨大的成功，这归因于ViT在捕获图像中最具有判别力的区域和图像中细粒度特征方面具有天然的优势。然而，通过我们的实验发现，当基于纯ViT的方法应用于细粒度图像检索任务时，在汽车之类的钢体图像上表现得并不令人满意。

具体来说，现有的方法主要面临以下问题：

（1）细粒度的图像具有类内差异较大、类间差异较小的特点，这使得其相对于传统的基于内容的图像检索任务来说具有更大的挑战性；

（2）基于CNN的模型在提取图像的全局信息表示方面具有很大的优势，但是对于图像的细粒度信息方面关注度不够，而对于细粒度来说，对局部信息的描述也同样重要；

（3）现有的基于ViT的细粒度图像分析方法虽然在捕获图像细节信息方面具有先天的优势，然而对于一些细节差异较小的图像来说，通过自注意力机制得到的全局特征并不能充分地描述图像的全局信息；

（4）现有的尝试同时应用CNN和ViT的模型没有充分地发挥出二者之间的各自优势。此外，无论是ViT还是CNN和ViT的混合架构在细粒度图像检索任务上的应用目前都仍缺乏相关的应用方法。

发明内容

为了解决现有技术的不足，本发明提供了一种细粒度图像检索方法、系统、设备及存储介质；该方法利用CNN和ViT进行特征提取，同时保证了模型对于图像全局特征和局部细粒度特征的关注度。此外，通过引入特征融合模块来丰富特征信息，同时设计了新的损失函数来更好地度量两张图片之间的相似性。

第一方面，本发明提供了一种细粒度图像检索方法；

一种细粒度图像检索方法，包括：

获取待检索图像和图像数据库；

将待检索图像输入到训练后的图像检索模型中，输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征；将图像数据库的若干幅图像，输入到训练后的图像检索模型中，输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征；

计算待检索图像的融合后的类别嵌入特征，与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离，按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序，筛选排序靠前的M个图像，M为正整数，M的取值大于等于2；

计算待检索图像的融合后的图像区域特征，与已筛选的M个图像的融合后的图像区域特征之间的第二距离，按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序，得到最终的检索结果。

第二方面，本发明提供了一种细粒度图像检索系统；

一种细粒度图像检索系统，包括：

获取模块，其被配置为：获取待检索图像和图像数据库；

特征提取模块，其被配置为：将待检索图像输入到训练后的图像检索模型中，输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征；将图像数据库的若干幅图像，输入到训练后的图像检索模型中，输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征；

排序模块，其被配置为：计算待检索图像的融合后的类别嵌入特征，与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离，按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序，筛选排序靠前的M个图像，M为正整数，M的取值大于等于2；

输出模块，其被配置为：计算待检索图像的融合后的图像区域特征，与已筛选的M个图像的融合后的图像区域特征之间的第二距离，按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序，得到最终的检索结果。

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

1、本发明中创新性地将混合ViT架构引入到细粒度图像检索任务中，并提出了一个基于混合ViT的细粒度图像检索方法，简称为TIGER。与占主导地位的特征提取骨干网络相比，TIGER取得了更加具有竞争力的性能。

2、本发明中提出了关键区域重分析和混合网络特征融合两个新颖的模块。前者通过CNN生成的权重来指导ViT中关键patch的选择，从而生成更有代表性的class-token。后者有效地整合了ViT和CNN的特征，使输出特征能够蕴含更丰富的信息。通过引入这两个模块，模型能够很好地发挥CNN和ViT的共同作用，从而提高本发明在细粒度图像检索任务上的性能。

3、为了更充分地利用图像的全局和局部特征，本发明中提出了一种全局-局部对齐损失函数。通过同时计算class-token之间的距离和每个patch对之间的距离，可以更好地度量两个图像之间的相似性，从而保证能够返回正确的查询结果。

4、本发明中提出了一个二次排序机制，在保证检索准确率的基础上，进一步提高了检索的速度和效率，有效保证了本发明在现实世界中的可应用性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为实施例一的方法流程图；

图2为实施例一的训练后的图像检索模型内部网络结构图；

图3为实施例一的关键区域重分析模块内部网络结构图；

图4为实施例一的全局类别嵌入特征提取模块内部网络结构图；

图5为实施例一的局部图像区域特征提取模块内部网络结构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

本实施例提供了一种细粒度图像检索方法；

如图1所示，一种细粒度图像检索方法，包括：

S101：获取待检索图像和图像数据库；

S102：将待检索图像输入到训练后的图像检索模型中，输出待检索图像的融合后的类别嵌入特征和融合后的图像区域特征；将图像数据库的若干幅图像，输入到训练后的图像检索模型中，输出图像数据库中每一幅图像的融合后的类别嵌入特征和融合后的图像区域特征；

S103：计算待检索图像的融合后的类别嵌入特征，与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离，按照第一距离由小到大的顺序对图像数据库中的图像进行相似度排序，筛选排序靠前的M个图像，M为正整数，M的取值大于等于2；

S104：计算待检索图像的融合后的图像区域特征，与已筛选的M个图像的融合后的图像区域特征之间的第二距离，按照第二距离由小到大的顺序对已筛选的M个图像进行相似度排序，得到最终的检索结果。

进一步地，所述S101：获取待检索图像和图像数据库，其中，待检索图像是采用图像采集设备采集的图像，或，终端设备已存储的图像；图像数据库中包括若干幅已知图像。

进一步地，所述训练后的图像检索模型，包括：

特征图提取网络，所述特征图提取网络的输入端用于输入待检索图像和图像数据库的若干幅图像；

所述特征图提取网络的输出端与卷积层连接；所述卷积层，用于对特征图提取网络输出的特征图进行分割操作，得到若干个图像区域；

所述卷积层的输出端与类别嵌入模块的输入端连接，类别嵌入模块的输出端与位置嵌入模块的输入端连接；其中，类别嵌入模块，用于实现图像类别的嵌入；位置嵌入模块用于实现图像位置的嵌入；图像位置，用于表示图像中每个区域的位置信息；

位置嵌入模块的输出端与特征向量提取网络的输入端连接；特征向量提取网络的输出端与关键区域重分析模块的输入端连接，关键区域重分析模块的输出端与第一特征融合模块的输入端连接；

特征向量提取网络的输出端还与第二特征融合模块的输入端连接；

所述特征图提取网络的输出端还分别与全局类别嵌入特征提取模块的输入端和局部图像区域特征提取模块的输入端连接；

所述全局类别嵌入特征提取模块的输出端与第一特征融合模块的输入端连接；所述局部图像区域特征提取模块的输出端与第二特征融合模块的输入端连接；

第一特征融合模块的输出端和第二特征融合模块的输出端均与损失函数模块的输入端连接，损失函数模块的输出端输出图像之间的距离。

进一步地，所述特征图提取网络，采用Resnet-50网络实现。

进一步地，所述特征向量提取网络，采用Vision Transformer网络来实现。

进一步地，如图2所示，所述S102：训练后的图像检索模型，用于：

对输入的图像进行特征图提取；对提取的特征图进行分割，得到若干个图像区域；对所得图像区域进行类别嵌入操作和位置嵌入操作，对嵌入操作后的每个图像区域进行特征向量提取，得到特征向量矩阵；所述特征向量矩阵，包括：类别嵌入特征和图像区域特征；

对得到的特征向量矩阵的类别嵌入特征进行关键区域重分析，得到具有代表性的类别嵌入特征；

对提取的特征图分别提取全局类别嵌入特征和局部图像区域特征；

将具有代表性的类别嵌入特征与全局类别嵌入特征进行特征融合，得到融合后的类别嵌入特征；

将特征向量矩阵的图像区域特征进行层归一化操作，将层归一化操作结果与局部图像区域特征进行特征融合，得到融合后的图像区域特征。

进一步地，所述对输入的图像进行特征图提取，采用特征图提取网络来实现，利用特征图提取网络提取图像对应的特征图。

示例性地，所述对输入的图像进行特征图提取，给定一张输入图像X，首先将其送入到Resnet-50网络中提取得到一个特征图

，其中，（/>

，/>

）是特征图的分辨率，C是通道数，特征图/>

是ResNet-50中conv3卷积层的输出，/>

表示特征空间。

进一步地，所述对提取的特征图进行分割，得到若干个图像区域，采用卷积层，对特征图进行卷积操作后，将特征图分割为若干个图像区域。示例性地，所述若干个图像区域为196个图像区域。

进一步地，所述对所得图像区域进行类别嵌入操作和位置嵌入操作，具体包括：

首先，将每个图像区域进行展平，并利用一个可训练的线性映射矩阵将其映射为196个区域嵌入向量；

然后，在区域嵌入向量序列的最前面，插入一个可学习的类别嵌入向量，得到包含197个嵌入向量的图像特征嵌入矩阵，以实现类别嵌入；

接下来，将位置嵌入矩阵加到图像特征嵌入矩阵上，用来保留图像的位置信息，以实现位置嵌入。

进一步地，所述对嵌入操作后的每个图像区域进行特征向量提取，得到特征向量矩阵，通过特征向量提取网络Vision Transformer网络来实现，每一个图像区域得到一个特征向量。

Vision Transformer网络在自注意力的基础上，利用多头自注意力层和前馈网络层来构造一个Transformer编码器，对输入的每个图像区域嵌入进行特征提取。

示例性地，在特征图

上进行一个分类输入嵌入和位置嵌入操作后，送入到Vision Transformer网络的Transformer编码器中，最后，Vision Transformer网络的预分类层输出包含n+1个特征向量的特征向量矩阵/>

，分别对应一个类别嵌入特征向量/>

和n个图像区域特征向量/>

，其中每个/>

，其中，d是特征向量的维度，第二特征融合模块对/>

进行层归一化操作，来得到的图像区域特征矩阵/>

，其中每个经过归一化之后的图像区域特征/>

。

进一步地，所述对得到的特征向量矩阵的类别嵌入特征进行关键区域重分析，得到具有代表性的类别嵌入特征，具体包括：

利用类激活图，从特征提取过程中产生的图像区域中，选择具有判别力的区域进行进一步计算，从而生成具有代表性的类别嵌入特征。

利用ResNet-50中通道

的特征图/>

和通道/>

对于当前类/>

相对应的权重/>

来计算得到一个类激活图CAM（Class Activation Mapping），类激活图CAM的计算公式如下：

（1）；

其中，

，C表示通道数，/>

表示当前类/>

相对应的类激活图，/>

表示当前类/>

相对应的权重。

得到所有的类激活图CAM后，将所有类激活图CAM展平得到一个长度为n的权重序列

，/>

表示为/>

；/>

表示Vision Transformer网络中第n个图像区域对应的权重；

对权重序列

进行正则化操作，得到最终的权重矩阵/>

，正则化操作的计算公式如下：

（2）；

其中，

表示的是Vision Transformer网络中每个图像区域对于检索结果的重要性程度。

然后，按照每个图像区域对于检索结果的重要性程度由大到小，从特征向量提取网络输出的包含n+1个特征向量的特征向量矩阵

中挑选出重要性程度大于设定阈值的关键特征向量/>

，/>

；

其中，

表示类别嵌入向量，/>

表示N个图像区域向量，这N个图像区域向量与权重矩阵/>

中前N个最大的值相对应。

利用关键特征向量

，通过线性转换矩阵/>

得到查询矩阵/>

；其中，线性转换矩阵/>

是一个可学习的参数矩阵，大小为/>

。

类似地，利用不同的线性转换矩阵

和/>

，得到所有图像区域向量/>

相对应的键矩阵和值矩阵，键矩阵：/>

，值矩阵/>

；其中，线性转换矩阵/>

和/>

是一个可学习的参数矩阵，大小为/>

。

因此，查询矩阵

与键值对之间的自注意力机制/>

计算如下：

（3）

其中，

是一个缩放因子；

采用Transformer编码器，对

进行处理，再将Transformer编码器的输出值送入层归一化模块，层归一化模块输出最终的class-token特征向量/>

，最终的class-token特征向量/>

就是具有代表性的类别嵌入特征。

如图3所示，关键区域重分析模块内部具体结构。

关键区域重分析模块，包括：依次连接的Transformer编码器和层归一化模块；所述Transformer编码器，包括：依次连接的多头自注意力机制层和前馈网络；所述前馈网络，包括依次连接的第一线性转换层、第二线性转换层和激活函数层GELU。

所述层归一化模块，用于获得特征向量提取网络Vision Transformer中最终的class-token特征向量

，最终的class-token特征向量/>

，就是具有代表性的类别嵌入特征。

应理解地，在Vision Transformer网络生成的所有图像区域特征中，有些图像区域特征（如背景区域）对于检索任务来说是不重要的，甚至可能会对检索结果造成一定的干扰。然而，通过使用卷积神经网络（Convolutional Neural Network），可以很容易地得到每个图像区域对应的注意力权重，这或许可以用来解决上述问题。为了利用卷积神经网络（Convolutional Neural Network）指导Vision Transformer网络中关键图像区域的选择，以此来消除干扰图像区域对检索结果的影响，并生成更具有判别力的类别嵌入，本发明提出了关键区域重分析模块。

进一步地，如图4所示，所述全局类别嵌入特征提取模块，包括：依次连接的全局平均池化层、第一展平层和第一全连接层；

进一步地，如图5所示，所述局部图像区域特征提取模块，包括：依次连接的第二展平层、矩阵转置层和第二全连接层。

进一步地，所述对提取的特征图分别提取全局类别嵌入特征和局部图像区域特征，具体包括：

对特征图提取网络生成的特征图

，依次使用全局平均池化、展平和全连接操作来获得全局类别嵌入特征/>

；

对特征图提取网络生成的特征图

，依次使用展平操作、矩阵转置和全连接操作，生成局部图像区域特征矩阵/>

，其中每个/>

；其中，矩阵转置，是通过Pytorch软件中的矩阵转置函数，来实现矩阵的转置。

进一步地，所述将具有代表性的类别嵌入特征与全局类别嵌入特征进行特征融合，得到融合后的类别嵌入特征，通过第一特征融合模块来实现，将两个嵌入特征进行加权求和，得到最终的类别嵌入特征：

，（4）

其中，

是一个超参数，用来控制CNN提取得到的特征和ViT提取得到的特征在最终融合后的特征中所占的比重。/>

是由关键区域重分析模块生成的类别嵌入特征向量，

表示融合后的类别嵌入特征。

进一步地，所述将特征向量矩阵的图像区域特征与局部图像区域特征进行特征融合，得到融合后的图像区域特征，具体包括：

，（5）

其中，

是一个超参数，同样用来控制CNN提取得到的特征和ViT提取得到的特征在最终融合后的特征中所占的比重。/>

表示融合后的图像区域特征，/>

表示局部图像区域特征矩阵。

应理解地，Vision Transformer网络最终输出的一些特征向量之间存在着高度的相似性，而这可能会导致一些具有判别力的重要信息的丢失。同时，在CNN提取特征中间过程中生成的特征图包含了一些有用的信息，而这在混合Vision Transformer网络中却没有得到有效地利用。为了将特征图提取网络的特征引入到Vision Transformer网络中，并获得信息更加丰富的特征表示，本发明提出了两个特征融合模块，分别在类别嵌入级别和图像区域级别上有效地融合来自不同网络的特征。

进一步地，所述训练后的图像检索模型，训练过程包括：

构建训练集，所述训练集为已知两两图像之间距离的若干幅图像；

将训练集，输入到图像检索模型中，对图像检索模型进行训练，当模型的损失函数值不再下降时，或者迭代次数超过设定次数时，停止训练，得到训练后的图像检索模型。

进一步地，所述损失函数，采用边界损失函数来实现。

进一步地，所述边界损失函数，具体包括：

（6）

其中，

控制分离的边界，而/>

是一个决定SP和SN之间边界的超参数。

进一步地，所述训练集，两张图像之间的相似度：

；（7）

；（8）

其中，

是一个超参数，用来控制类别嵌入之间计算出的距离和patch之间计算出的距离占最终距离的比重。

同时对类别嵌入特征之间的距离和每个图像区域特征之间的距离进行计算，并以此来度量两张图片之间的距离。

给定一个输入图像三元组，将其公式化定义为（SA、SP、SN），其中SA表示的是锚点样本、SP表示的是正样本、SN表示的是负样本。

首先，利用欧几里得距离，对锚点样本SA的类别嵌入特征向量

和正样本SP的类别嵌入特征向量/>

之间的距离进行计算，计算公式如下：

（9）

类似地，利用同样的方式对锚点样本SA和负样本SN的类别嵌入特征之间的距离计算如下：

（10）

此外，在计算每个图像区域特征向量之间的距离之前，预先在正样本SP中找到与锚点样本SA中第

个图像区域相对应的图像区域。

首先，计算锚点样本SA中的第

个图像区域/>

与正样本SP中的所有图像区域

之间的距离，公式如下：

（11）

根据

中的最小的距离，在正样本SP挑选出与锚点样本SA中的第/>

个图像区域对应的图像区域，公式定义如下：

（12）

通过重复公式（11）和公式（12）的过程，在正样本SP中找到与锚点样本SA中所有图像区域相对应的图像区域，并进一步计算出其相互之间的所有距离，记为

。

考虑到锚点样本SA中不同图像区域对于检索结果的重要性程度是不同的，在全局-局部对齐损失函数中引进了Vision Transformer网络中生成的注意力权重。

首先，Vision Transformer网络中第

层/>

的累积注意力权重计算如下：

，（13）

其中，

是利用一个单位矩阵/>

对注意力权重进行重新归一化得到的，/>

是ViT中生成的注意力矩阵。

根据公式（13），矩阵

中的第一行表示的是类别嵌入和每个图像区域对应的权重。之后，将n个patch对应的权重矩阵定义为/>

。

使用softmax操作对

进行归一化，得到最终n个图像区域的注意力权重矩阵/>

，最后，锚点样本SA和正样本SP的patch特征之间的距离计算如下：

（14）

类似地，通过同样的方式得到了锚点样本SA和负样本SN之间的基于图像区域的距离

。

应理解地，为了更加充分地利用图像的全局和局部细粒度信息，本发明中提出了一个新颖的全局-局部对齐损失函数，来更好地度量两张图像之间的相似度。

进一步地，所述S103：计算待检索图像的融合后的类别嵌入特征，与图像数据库中每一幅图像的融合后的类别嵌入特征之间的第一距离，具体包括：

利用类别嵌入特征向量

来计算查询图像SQ与图像库/>

中每个图像/>

之间的欧几里得距离：

（15）

利用欧几里得距离进行排序，得到一个排序序列

；

其中，

是图像库中图像的数量。

进一步地，所述S104：计算待检索图像的融合后的图像区域特征，与已筛选的M个图像的融合后的图像区域特征之间的第二距离，具体包括：

从排序序列

中挑选出前P个与待检索图像最相近的图像进行二次排序；其中，/>

表示图像库中与待检索图像相距第S远的图像。

二次排序的具体过程为：

利用公式（11），计算待检索图像与P张图像中每张图像之间的距离，利用该距离来进行第二次的排序，从而得到最终的相似性序列，并根据用户的实际需要从该序列中返回相应的查询结果。

与训练阶段不同，本发明在检索测试阶段采用了一个二次排序机制，在保证检索结果准确性的同时，提高了模型的运行速度。

实施例二

本实施例提供了一种细粒度图像检索系统；

一种细粒度图像检索系统，包括：

获取模块，其被配置为：获取待检索图像和图像数据库；

此处需要说明的是，上述获取模块、特征提取模块、排序模块和输出模块对应于实施例一中的步骤S101至步骤S104，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种细粒度图像检索方法，其特征是，包括：

获取待检索图像和图像数据库；

2.如权利要求1所述的一种细粒度图像检索方法，其特征是，获取待检索图像和图像数据库，其中，待检索图像是采用图像采集设备采集的图像，或，终端设备已存储的图像；图像数据库中包括若干幅已知图像。

3.如权利要求1所述的一种细粒度图像检索方法，其特征是，所述训练后的图像检索模型，包括：

4.如权利要求1所述的一种细粒度图像检索方法，其特征是，训练后的图像检索模型，用于：

5.如权利要求4所述的一种细粒度图像检索方法，其特征是，所述对输入的图像进行特征图提取，采用特征图提取网络来实现，利用特征图提取网络提取图像对应的特征图；所述对提取的特征图进行分割，得到若干个图像区域，采用卷积层，对特征图进行卷积操作后，将特征图分割为若干个图像区域。

6.如权利要求4所述的一种细粒度图像检索方法，其特征是，所述对所得图像区域进行类别嵌入操作和位置嵌入操作，具体包括：

首先，将每个图像区域进行展平，并利用可训练的线性映射矩阵将其映射为若干个区域嵌入向量；

然后，在区域嵌入向量序列的最前面，插入可学习的类别嵌入向量，得到包含若干个嵌入向量的图像特征嵌入矩阵，以实现类别嵌入；

7.如权利要求4所述的一种细粒度图像检索方法，其特征是，所述对得到的特征向量矩阵的类别嵌入特征进行关键区域重分析，得到具有代表性的类别嵌入特征，具体包括：利用类激活图，从特征提取过程中产生的图像区域中，选择具有判别力的区域进行进一步计算，从而生成具有代表性的类别嵌入特征；

所述对提取的特征图分别提取全局类别嵌入特征和局部图像区域特征，具体包括：对特征图提取网络生成的特征图，依次使用全局平均池化、展平和全连接操作来获得全局类别嵌入特征；对特征图提取网络生成的特征图，依次使用展平操作、矩阵转置和全连接操作，生成局部图像区域特征矩阵；

所述训练后的图像检索模型，训练过程包括：

将训练集，输入到图像检索模型中，对图像检索模型进行训练，当模型的损失函数值不再下降时，或者迭代次数超过设定次数时，停止训练，得到训练后的图像检索模型；所述损失函数，采用边界损失函数来实现。

8.一种细粒度图像检索系统，其特征是，包括：

获取模块，其被配置为：获取待检索图像和图像数据库；

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。