CN116108219A

CN116108219A - 图像检索方法、装置、电子设备和存储介质

Info

Publication number: CN116108219A
Application number: CN202310362210.4A
Authority: CN
Inventors: 李金刚; 张伟; 蔡习文; 唐波; 顾金楼; 刘重显东
Original assignee: Tianjin Hanyun Industrial Internet Co ltd; XCMG Hanyun Technologies Co Ltd
Current assignee: Tianjin Hanyun Industrial Internet Co ltd; XCMG Hanyun Technologies Co Ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-05-12
Anticipated expiration: 2043-04-07
Also published as: CN116108219B

Abstract

本发明提供一种图像检索方法、装置、电子设备和存储介质，其中方法包括：对待检索图像及其第一增强图像和第二增强图像进行分块，获取待检索图像、第一增强图像和第二增强图像对应的图像块的图像编码；针对任一图像对，对该图像对中的两个图像对应的图像块两两进行相似度计算，得到第一相似度矩阵，并基于第一相似度矩阵，对两个图像对应的图像块的图像编码进行注意力变换，得到两个图像对应的图像块的加权图像编码；基于该图像对中的两个图像对应的图像块的加权图像编码进行哈希计算，得到该图像对对应的图像哈希；基于三个图像对对应的图像哈希进行图像检索，得到待检索图像的检索结果。本发明提升了多标签图像场景下的检索准确性和全面性。

Description

图像检索方法、装置、电子设备和存储介质

技术领域

本发明涉及数据检索技术领域，尤其涉及一种图像检索方法、装置、电子设备和存储介质。

背景技术

随着数据库中图像数量的急剧增加，如何从海量的高维图像数据中准确且全面地检索到相似图像是一个被重点关注的问题。由于图像数据的高维特性，哈希技术以其较高的检索速度、较小的存储消耗等优势在图像检索领域得到了广泛的应用。其中，哈希检索方法的关键在于将高维的图像特征数据映射为低维的二值哈希码，从而减少了数据表示的维度和相似度计算复杂度。

然而，在多标签图像检索场景下，由于待检索图像中包含多个待检索目标，而检索目标在于检索到包含至少一个待检索目标的图像，目前的图像哈希（例如感知哈希算法）难以满足该需求。部分工作会采用深度学习技术以学习语义表达能力更全面的哈希编码方式，但基于深度学习技术的哈希编码方式或者需要大量的标注数据用以训练导致训练成本过高，或者在利用无监督方式进行训练时由于采集的训练图像对之间的相似度程度不一（两个图像可能只有一个目标是类似的，也可能有多个目标是类似的）导致网络学习方向不稳定、造成检索效果欠佳。另外，对于多标签图像检索场景，由于其中待检索目标之间的位置和大小变化很大，神经网络很难提取一个适合所有待检索目标的单一图像特征表示，使得据此获得的哈希码的质量较低，从而降低检索结果的准确性和全面性。

发明内容

本发明提供一种图像检索方法、装置、电子设备和存储介质，用以解决现有技术中检索结果准确性和全面性欠佳的缺陷。

本发明提供一种图像检索方法，包括：

对待检索图像及其第一增强图像和第二增强图像进行分块，得到所述待检索图像、所述第一增强图像和所述第二增强图像对应的图像块，并获取各个图像块的图像编码；

将所述待检索图像、所述第一增强图像和所述第二增强图像两两组合，得到三个图像对；

针对任一图像对，对所述任一图像对中的两个图像对应的图像块两两进行相似度计算，得到第一相似度矩阵，并基于所述第一相似度矩阵，对所述任一图像对中的两个图像对应的图像块的图像编码进行注意力变换，得到所述任一图像对中的两个图像对应的图像块的加权图像编码；

基于所述任一图像对中的两个图像对应的图像块的加权图像编码进行哈希计算，得到所述任一图像对对应的图像哈希；

基于三个图像对对应的图像哈希进行图像检索，得到所述待检索图像的检索结果。

根据本发明提供的一种图像检索方法，所述基于所述第一相似度矩阵，对所述任一图像对中的两个图像对应的图像块的图像编码进行注意力变换，得到所述任一图像对中的两个图像对应的图像块的加权图像编码，具体包括：

对所述第一相似度矩阵进行转置，得到第二相似度矩阵；

当所述第一相似度矩阵中第i行表示所述任一图像对中第一图像的第i个图像块与所述任一图像对中第二图像的每个图像块之间的相似度时，针对所述第一图像中的第k个图像块，将所述第一图像中各个图像块的图像编码分别与所述第一相似度矩阵中第k行各列的相似度相乘后累加，得到所述第一图像中的第k个图像块的加权图像编码；

针对所述第二图像中的第j个图像块，将所述第二图像中各个图像块的图像编码分别与所述第二相似度矩阵中第j行各列的相似度相乘后累加，得到所述第二图像中的第j个图像块的加权图像编码；其中，i、j和k为正整数。

根据本发明提供的一种图像检索方法，所述基于所述任一图像对中的两个图像对应的图像块的加权图像编码进行哈希计算，得到所述任一图像对对应的图像哈希，具体包括：

将所述任一图像对中第一图像和第二图像对应的图像块的加权图像编码组装为矩阵，得到第一编码矩阵和第二编码矩阵；其中，所述第一编码矩阵和所述第二编码矩阵中的每一行对应相应图像块的加权图像编码；

对所述第一编码矩阵和所述第二编码矩阵按行求取平均值，分别得到第一编码向量和第二编码向量；

分别对所述第一编码向量和所述第二编码向量进行哈希计算，得到第一哈希向量和第二哈希向量；

将所述第一哈希向量和所述第二哈希向量进行融合，得到所述任一图像对对应的图像哈希。

根据本发明提供的一种图像检索方法，所述基于三个图像对对应的图像哈希进行图像检索，得到所述待检索图像的检索结果，具体包括：

计算所述三个图像对对应的图像哈希两两之间的汉明距离；

基于所述三个图像对对应的图像哈希两两之间的汉明距离，确定汉明距离最小的两个图像对对应的图像哈希，作为候选图像哈希；

基于两个候选图像哈希与其余一个图像对对应的图像哈希之间的汉明距离，确定检索图像哈希；

基于所述检索图像哈希进行图像检索，得到所述待检索图像的检索结果。

根据本发明提供的一种图像检索方法，所述分别对所述第一编码向量和所述第二编码向量进行哈希计算是基于图像哈希模型完成的；

所述图像哈希模型是基于如下步骤训练得到的：

基于批量的训练图像对，获取每一训练图像对中两个样本图像的图像特征向量，并基于所述图像哈希模型，结合每一训练图像对中两个样本图像的图像特征向量，获取每一训练图像对中两个样本图像的图像哈希；其中，所述批量的训练图像对中包含正例图像对和负例图像对，所述正例图像对中的两个样本图像包含相同的对象，而所述负例图像对中的两个样本图像包含不同的对象；

计算每一训练图像对中两个样本图像的图像哈希之间的哈希相似度，得到所述批量的训练图像对对应的哈希相似度分布，并计算所述批量的训练图像对对应的哈希相似度分布与校准分布之间的距离损失；

基于所述距离损失调整所述图像哈希模型的参数。

根据本发明提供的一种图像检索方法，所述计算每一训练图像对中两个样本图像的图像哈希之间的哈希相似度，得到所述批量的训练图像对对应的哈希相似度分布，并计算所述批量的训练图像对对应的哈希相似度分布与校准分布之间的距离损失，具体包括：

基于每一训练图像对中两个样本图像的图像特征向量之间的特征相似度按照由小到大的顺序，对所述每一训练图像对中两个样本图像的图像哈希之间的哈希相似度进行排序，得到所述批量的训练图像对对应的哈希相似度分布；

去除所述校准分布中的负值部分后，计算所述哈希相似度分布与所述校准分布之间的距离损失；其中，所述校准分布为贝塔分布或高斯分布。

根据本发明提供的一种图像检索方法，所述第一增强图像和第二增强图像是对所述待检索图像进行两次随机增强得到的。

本发明还提供一种图像检索装置，包括：

图像划分编码单元，用于对待检索图像及其第一增强图像和第二增强图像进行分块，得到所述待检索图像、所述第一增强图像和所述第二增强图像对应的图像块，并获取各个图像块的图像编码；

图像对组合单元，用于将所述待检索图像、所述第一增强图像和所述第二增强图像两两组合，得到三个图像对；

图像加权编码单元，用于针对任一图像对，对所述任一图像对中的两个图像对应的图像块两两进行相似度计算，得到第一相似度矩阵，并基于所述第一相似度矩阵，对所述任一图像对中的两个图像对应的图像块的图像编码进行注意力变换，得到所述任一图像对中的两个图像对应的图像块的加权图像编码；

图像哈希确定单元，用于基于所述任一图像对中的两个图像对应的图像块的加权图像编码进行哈希计算，得到所述任一图像对对应的图像哈希；

图像检索单元，用于基于三个图像对对应的图像哈希进行图像检索，得到所述待检索图像的检索结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述图像检索方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述图像检索方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述图像检索方法。

本发明提供的图像检索方法、装置、电子设备和存储介质，通过将待检索图像、第一增强图像和第二增强图像两两进行组合，得到三个图像对，以两两进行语义分析，获取上述有关各个前景对象的不受大小或位置变化影响的语义信息，以提升多标签图像检索的检索准确性和全面性；具体而言，针对任一图像对，可以对该图像对中的两个图像对应的图像块两两进行相似度计算，得到第一相似度矩阵，利用该第一相似度矩阵，可以为第一图像和第二图像中相同的前景对象建立关联，在第一相似度矩阵基础上对第一图像与第二图像块中的图像块进行注意力变换时，可以为任一图像的任一图像块不同程度地融合另一图像的相关图像块中包含的语义信息，从而使得该图像的该图像块的语义信息更加丰富；更重要的是，利用注意力机制进行融合时，可以仅将另一图像的相关图像块中无关位置或大小的语义信息融合至该图像块中，从而得到该图像块的加权图像编码，克服了多标签图像检索场景下各个前景对象之间的位置和大小变化很大的问题，提取得到适合所有前景对象的图像特征表示，使得基于该图像对中第一图像的图像块的加权图像编码和第二图像的图像块的加权图像编码进行哈希计算所得到的该图像对的图像哈希的语义表达能力也得以增强，提升了多标签图像场景下的检索准确性和全面性；此外，基于三个图像对对应的图像哈希进行图像检索，得到待检索图像的检索结果，进一步提升了多标签图像场景下的检索准确性和全面性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的图像检索方法的流程示意图；

图2是本发明提供的图像加权编码方法的流程示意图；

图3是本发明提供的图像哈希模型训练方法的流程示意图；

图4是本发明提供的图像检索装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的图像检索方法的流程示意图，如图1所示，该方法包括：

步骤110，对待检索图像及其第一增强图像和第二增强图像进行分块，得到所述待检索图像、所述第一增强图像和所述第二增强图像对应的图像块，并获取各个图像块的图像编码；

步骤120，将所述待检索图像、所述第一增强图像和所述第二增强图像两两组合，得到三个图像对；

步骤130，针对任一图像对，对所述任一图像对中的两个图像对应的图像块两两进行相似度计算，得到第一相似度矩阵，并基于所述第一相似度矩阵，对所述任一图像对中的两个图像对应的图像块的图像编码进行注意力变换，得到所述任一图像对中的两个图像对应的图像块的加权图像编码；

步骤140，基于所述任一图像对中的两个图像对应的图像块的加权图像编码进行哈希计算，得到所述任一图像对对应的图像哈希；

步骤150，基于三个图像对对应的图像哈希进行图像检索，得到所述待检索图像的检索结果。

具体地，获取待检索图像，并对其进行两次随机增强，得到该待检索图像的第一增强图像和第二增强图像。其中，两次随机增强可以采用两个不同的图像增强方式（例如翻转、旋转、放缩等），也可以采用相同的图像增强方式但使用不同的增强参数，本发明实施例对此不作具体限定。可以知晓的是，图像增强后得到的第一增强图像和第二增强图像与待检索图像之间存在相同的目标（目标即图像中的前景对象），三个图像之间是高度相似的。随后，对待检索图像、第一增强图像和第二增强图像进行分块，得到三个图像分别对应的图像块。此处，三个图像的分块方式是相同的，因此三个图像对应的图像块的数量也是相同的。对每个图像的每个图像块进行特征编码，从而获取每个图像块的图像编码。对任一图像的图像块进行特征编码时，可以利用图像特征提取器（例如Vision Transformer模型）提取该图像整体的特征图，再将该图像整体的特征图按照该图像中各图像块的位置进行划分，得到各图像块的特征子图，随后将各图像块的特征子图转换为一维向量后进行线性转换，得到各图像块的特征向量。一种方式是可以直接将各图像块的特征向量作为对应图像块的图像编码，另一种方式还可以将各图像块的特征向量与对应图像块的位置信息进行融合编码，确定融合编码结果为对应图像块的图像编码，本发明实施例对此不作具体限定。

由于待检索图像与其第一增强图像和第二增强图像之间拥有相同的前景对象，但由于经过图像增强后第一增强图像和第二增强图像中的前景对象的大小或位置可能发生了变化，因此彼此之间能够提供更多有关前景对象的不受大小或位置变化影响的语义信息。因此，可以将待检索图像、第一增强图像和第二增强图像两两进行组合，得到三个图像对，以两两进行语义分析，获取上述有关各个前景对象的不受大小或位置变化影响的语义信息，以提升多标签图像检索的检索准确性和全面性。

具体而言，针对任一图像对，可以对该图像对中的两个图像对应的图像块两两进行相似度计算，得到第一相似度矩阵。其中，第一相似度矩阵中的每个元素对应该图像对中第一图像的任一图像块与第二图像的任一图像块的图像编码间的相似度。基于上述第一相似度矩阵，对第一图像与第二图像块中的图像块进行注意力变换，分别得到第一图像和第二图像中各个图像块的加权图像编码。此处，由于第一相似度矩阵中包含有第一图像的任一图像块与第二图像的任一图像块的图像编码间的相似度，利用该第一相似度矩阵，可以为第一图像和第二图像中相同的前景对象建立关联，在第一相似度矩阵基础上对第一图像与第二图像块中的图像块进行注意力变换时，可以为任一图像的任一图像块不同程度地融合另一图像的相关图像块中包含的语义信息，从而使得该图像的该图像块的语义信息更加丰富。更重要的是，由于另一图像的相关图像块中前景对象的大小和/或位置发生了改变，利用注意力机制进行融合时，可以仅将另一图像的相关图像块中无关位置或大小的语义信息融合至该图像块中，从而得到该图像块的加权图像编码，克服了多标签图像检索场景下各个前景对象之间的位置和大小变化很大的问题，提取得到适合所有前景对象的图像特征表示。

因此，基于该图像对中第一图像的图像块的加权图像编码和第二图像的图像块的加权图像编码进行哈希计算所得到的该图像对的图像哈希的语义表达能力也得以增强，提升了多标签图像场景下的检索准确性和全面性。此处，由于待检索图像与第一增强图像和第二增强图像是高度相似的，无论是通过组合上述三种图像中的哪两种得到的图像对，各个图像对的图像哈希应当是相似的、能够全面表达其中前景对象的。因此，为了进一步提升多标签图像场景下的检索准确性和全面性，可以基于三个图像对对应的图像哈希进行图像检索，得到待检索图像的检索结果。其中，可以分别基于三个图像对对应的图像哈希进行图像检索，再将三个图像对对应的检索结果进行去重和合并，得到待检索图像的检索结果。为了在提升检索准确性和全面性的同时兼顾检索效率，还可以从三个图像对对应的图像哈希中选取语义表达能力最强的图像哈希作为检索基础。

需要说明的是，步骤110至步骤130可以由图像语义提取模型完成，步骤140可以由图像哈希模型完成，而图像语义提取模型和图像哈希模型可以分别单独训练也可以联合训练，本发明实施例对此不作具体限定。其中，图像语义提取模型在训练过程中的运行机制与上述步骤110至130是类似的（即将待检索图像替换为样本图像）。当利用上述方式得到样本图像及其第一增强图像和第二增强图像对应的任一图像对中两个图像的图像块的加权图像编码后，可以对相同图像的图像块的加权图像编码进行融合（拼接或池化），得到样本图像及其第一增强图像和第二增强图像的图像特征融合编码，再基于上述三个图像的图像特征融合编码之间的差异调整图像语义提取模型的参数。可见，图像语义提取模型的训练是无监督的，因此无需预先对大量的图像进行标注。更重要的是，上述方式使得训练过程中图像语义提取模型能够利用注意力机制从三个高度相似的图像中的任意两个图像中为相同的前景对象建立关联，使得模型能够有针对性地从相关联的图像块中提取出有价值的语义信息，模型学习方向更稳定和准确，解决了目前无监督方式中由于采集的训练图像对之间的相似度程度不一导致的网络学习方向不稳定、检索效果欠佳的问题。

本发明实施例提供的方法，通过将待检索图像、第一增强图像和第二增强图像两两进行组合，得到三个图像对，以两两进行语义分析，获取上述有关各个前景对象的不受大小或位置变化影响的语义信息，以提升多标签图像检索的检索准确性和全面性；具体而言，针对任一图像对，可以对该图像对中的两个图像对应的图像块两两进行相似度计算，得到第一相似度矩阵，利用该第一相似度矩阵，可以为第一图像和第二图像中相同的前景对象建立关联，在第一相似度矩阵基础上对第一图像与第二图像块中的图像块进行注意力变换时，可以为任一图像的任一图像块不同程度地融合另一图像的相关图像块中包含的语义信息，从而使得该图像的该图像块的语义信息更加丰富；更重要的是，利用注意力机制进行融合时，可以仅将另一图像的相关图像块中无关位置或大小的语义信息融合至该图像块中，从而得到该图像块的加权图像编码，克服了多标签图像检索场景下各个前景对象之间的位置和大小变化很大的问题，提取得到适合所有前景对象的图像特征表示，使得基于该图像对中第一图像的图像块的加权图像编码和第二图像的图像块的加权图像编码进行哈希计算所得到的该图像对的图像哈希的语义表达能力也得以增强，提升了多标签图像场景下的检索准确性和全面性；此外，基于三个图像对对应的图像哈希进行图像检索，得到待检索图像的检索结果，进一步提升了多标签图像场景下的检索准确性和全面性。

基于上述实施例，如图2所示，所述基于所述第一相似度矩阵，对所述任一图像对中的两个图像对应的图像块的图像编码进行注意力变换，得到所述任一图像对中的两个图像对应的图像块的加权图像编码，具体包括：

步骤210，对所述第一相似度矩阵进行转置，得到第二相似度矩阵；

步骤220，当所述第一相似度矩阵中第i行表示所述任一图像对中第一图像的第i个图像块与所述任一图像对中第二图像的每个图像块之间的相似度时，针对所述第一图像中的第k个图像块，将所述第一图像中各个图像块的图像编码分别与所述第一相似度矩阵中第k行各列的相似度相乘后累加，得到所述第一图像中的第k个图像块的加权图像编码；

步骤230，针对所述第二图像中的第j个图像块，将所述第二图像中各个图像块的图像编码分别与所述第二相似度矩阵中第j行各列的相似度相乘后累加，得到所述第二图像中的第j个图像块的加权图像编码；其中，i、j和k为正整数。

具体地，将第一相似度矩阵S1进行矩阵转置操作，得到第二相似度矩阵S2。其中，如果第一相似度矩阵S1的第i行表示该图像对中第一图像的第i个图像块分别与该图像对中第二图像的每个图像块之间的相似度，那么第二相似度矩阵S2的第i行表示该图像对中第二图像的第i个图像块分别与该图像对中第一图像的每个图像块之间的相似度。

此种情形下，针对第一图像中的第k个图像块，将第一图像中各个图像块的图像编码分别与第一相似度矩阵中第k行各列的相似度相乘后进行累加，得到第一图像中的第k个图像块的加权图像编码；针对第二图像中的第j个图像块，将第二图像中各个图像块的图像编码分别与第二相似度矩阵中第j行各列的相似度相乘后进行累加，得到第二图像中的第j个图像块的加权图像编码。

基于上述任一实施例，所述基于所述任一图像对中的两个图像对应的图像块的加权图像编码进行哈希计算，得到所述任一图像对对应的图像哈希，具体包括：

具体地，假设第一图像对应的图像块的加权图像编码记为F1、F2、...、Fn，第二图像对应的图像块的加权图像编码记为P1、P2、...、Pn，其中Fi和Pi（1≤ i ≤ n）为长度m的向量，将其组装为矩阵后得到的第一编码矩阵和第二编码矩阵可以表示为[F1；F2；...；Fn]和[P1；P2；...；Pn]。即，第一编码矩阵和第二编码矩阵中的每一行对应相应图像块的加权图像编码。

对第一编码矩阵和第二编码矩阵按行求取平均值后，分别得到第一编码向量和第二编码向量。再分别对第一编码向量和第二编码向量进行哈希计算，得到第一哈希向量和第二哈希向量。其中，第一哈希向量和第二哈希向量均为列向量。随后，将第一哈希向量和第二哈希向量进行融合，得到该图像对对应的图像哈希。融合第一哈希向量和第二哈希向量时，可以将第一哈希向量与第二哈希向量的转置进行矩阵乘法计算，再将其乘积中的每个元素的值压缩为0或1，例如高于元素平均值的元素值设为1，低于或等于元素平均值的元素值设为0。

基于上述任一实施例，所述基于三个图像对对应的图像哈希进行图像检索，得到所述待检索图像的检索结果，具体包括：

计算所述三个图像对对应的图像哈希两两之间的汉明距离；

具体地，为了在提升检索准确性和全面性的同时兼顾检索效率，还可以从三个图像对对应的图像哈希中选取语义表达能力最强（即能够全面表达其中前景对象）的图像哈希作为检索基础。考虑到待检索图像、第一增强图像和第二增强图像的高度相似性，三个图像对对应的图像哈希中语义表达能力最强的图像哈希会与其他图像对对应的图像哈希之间的相似度均较高。

因此，可以计算三个图像对对应的图像哈希两两之间的汉明距离。为了便于表述，将三个图像对记为C1、C2和C3，分别计算C1与C2的图像哈希间的汉明距离、C2与C3的图像哈希间的汉明距离以及C1与C3的图像哈希间的汉明距离。基于上述C1与C2的图像哈希间的汉明距离、C2与C3的图像哈希间的汉明距离以及C1与C3的图像哈希间的汉明距离，可以确定汉明距离最小的两个图像对对应的图像哈希，作为候选图像哈希。假设C1与C3的图像哈希间的汉明距离是最小的，那么C1的图像哈希H1与C3的图像哈希H3为候选图像哈希。随后，基于两个候选图像哈希分别与其余一个图像对对应的图像哈希（此例为C2的图像哈希）之间的汉明距离（此例中为C1与C2的图像哈希间的汉明距离、C3与C2的图像哈希间的汉明距离），从两个候选图像哈希中选择检索图像哈希。此处，可以选取与其余一个图像对对应的图像哈希间的汉明距离更小的候选图像哈希为检索图像哈希。例如，若C1与C2的图像哈希间的汉明距离小于C3与C2的图像哈希间的汉明距离，那么可以选择C1的图像哈希H1为检索图像哈希。利用该检索图像哈希进行图像检索，可以得到待检索图像对应的全面且准确的检索结果。

基于上述任一实施例，上述实施例中对第一编码向量和第二编码向量进行哈希计算的步骤是基于图像哈希模型完成的，即图像哈希模型会负责将图像的图像特征表达转换为哈希表达。通常情况下，图像哈希模型在训练过程中，会保存正例图像对或负例图像对中两个图像的图像特征表达之间的差异及经图像哈希模型转换的图像哈希之间的差异，通过调整模型参数使得两个差异值相近，以达到图像哈希能够继承图像特征表达的语义信息的目的。然而，通过上述方式训练得到的图像哈希模型存在一个问题：在图像哈希的形似度分布中，部分负例图像对中两个图像的图像哈希之间的相似度与部分正例图像对中两个图像的图像哈希之间的相似度重叠，导致无法准确区分上述负例和正例的情形，映射到图像检索领域所产生的后果就是检索结果中会出现与待检索图像无关的图像。经过分析，产生此问题的原因在于多标签图像检索场景下，负例之间虽然不存在相同的前景对象，但可能存在相似的前景对象（例如猫和豹子），导致图像特征表达所在的连续特征空间中负例的图像特征表达之间较为接近，其相似度会偏高，而由于哈希空间是离散的，在将图像特征表达转换为哈希表达的过程中必不可免地造成了语义损失，导致在哈希表达所在的特征空间中负例之间更难区分。

另一方面则在于图像特征表达是连续的特征空间，其对于图像差异的体现粒度更细，而哈希空间是离散的，其对于图像差异的体现粒度相对更粗，目前的训练方式导致哈希表达难以充分继承图像特征表达的语义信息。

对此，如图3所示，在本发明实施例中，图像哈希模型将采用如下步骤进行训练：

步骤310，基于批量的训练图像对，获取每一训练图像对中两个样本图像的图像特征向量，并基于所述图像哈希模型，结合每一训练图像对中两个样本图像的图像特征向量，获取每一训练图像对中两个样本图像的图像哈希；其中，所述批量的训练图像对中包含正例图像对和负例图像对，所述正例图像对中的两个样本图像包含相同的对象，而所述负例图像对中的两个样本图像包含不同的对象；

步骤320，计算每一训练图像对中两个样本图像的图像哈希之间的哈希相似度，得到所述批量的训练图像对对应的哈希相似度分布，并计算所述批量的训练图像对对应的哈希相似度分布与校准分布之间的距离损失；

步骤330，基于所述距离损失调整所述图像哈希模型的参数。

具体地，在一轮训练过程中，获取批量的训练图像对，其中包含有多个正例图像对和负例图像对，正例图像对中的两个样本图像包含相同的对象，而负例图像对中的两个样本图像则包含不同的对象。利用图像编码器获取每一训练图像对中两个样本图像的图像特征向量，并基于图像哈希模型，结合每一训练图像对中两个样本图像的图像特征向量，获取每一训练图像对中两个样本图像的图像哈希。

随后，计算每一训练图像对中两个样本图像的图像哈希之间的哈希相似度，得到上述批量的训练图像对对应的哈希相似度分布，并计算该哈希相似度分布与预设的校准分布之间的距离损失。其中，校准分布可以为贝塔分布或高斯分布，以贝塔分布为例，可以设置α=β=5的贝塔分布作为校准分布。

此处，可以基于每一训练图像对中两个样本图像的图像特征向量之间的特征相似度按照由小到大的顺序，对相应训练图像对中两个样本图像的图像哈希之间的哈希相似度进行排序，即排序依据的是特征相似度的大小而非哈希相似度的大小，从而得到上述批量的训练图像对对应的哈希相似度分布。再去除校准分布中的负值部分（以提高训练稳定性）后，计算哈希相似度分布与校准分布之间的距离损失。其中，可以计算哈希相似度分布的逆累计分布函数与校准分布的逆累计分布函数之间的推土机距离，作为两个分布之间的距离损失。然后，基于该距离损失对图像哈希模型的模型参数进行调整。

上述方式中，通过利用训练图像对中样本图像的特征相似度对其哈希相似度进行排序得到哈希相似度分布，再通过计算并最小化哈希相似度分布与校准分布的距离损失，能够使得后续的训练过程中获得的哈希相似度分布与各个训练图像对的特征相似度的分布基本保持一致（即大部分负例图像对的哈希相似度较小、大部分正例图像对的哈希相似度较大），同时逐渐分开负例图像对之间的哈希相似度与正例图像对之间的哈希相似度的分布，使得部分特征相似度偏高的负例图像对的哈希相似度远离正例图像对的哈希相似度。当负例图像对之间的哈希相似度与正例图像对之间的哈希相似度的分布被分开后，图像哈希模型输出的图像哈希能够应对多标签图像检索场景下图像特征表达所在的连续特征空间中负例的图像特征表达之间较为接近的问题，从而在进行图像检索时，可以有效区分相似图像和非相似图像，提升图像检索的准确性。

下面对本发明提供的图像检索装置进行描述，下文描述的图像检索装置与上文描述的图像检索方法可相互对应参照。

基于上述任一实施例，图4是本发明提供的图像检索装置的结构示意图，如图4所示，该装置包括：图像划分编码单元410、图像对组合单元420、图像加权编码单元430、图像哈希确定单元440和图像检索单元450。

其中，图像划分编码单元410用于对待检索图像及其第一增强图像和第二增强图像进行分块，得到所述待检索图像、所述第一增强图像和所述第二增强图像对应的图像块，并获取各个图像块的图像编码；

图像对组合单元420用于将所述待检索图像、所述第一增强图像和所述第二增强图像两两组合，得到三个图像对；

图像加权编码单元430用于针对任一图像对，对所述任一图像对中的两个图像对应的图像块两两进行相似度计算，得到第一相似度矩阵，并基于所述第一相似度矩阵，对所述任一图像对中的两个图像对应的图像块的图像编码进行注意力变换，得到所述任一图像对中的两个图像对应的图像块的加权图像编码；

图像哈希确定单元440用于基于所述任一图像对中的两个图像对应的图像块的加权图像编码进行哈希计算，得到所述任一图像对对应的图像哈希；

图像检索单元450用于基于三个图像对对应的图像哈希进行图像检索，得到所述待检索图像的检索结果。

本发明实施例提供的装置，通过将待检索图像、第一增强图像和第二增强图像两两进行组合，得到三个图像对，以两两进行语义分析，获取上述有关各个前景对象的不受大小或位置变化影响的语义信息，以提升多标签图像检索的检索准确性和全面性；具体而言，针对任一图像对，可以对该图像对中的两个图像对应的图像块两两进行相似度计算，得到第一相似度矩阵，利用该第一相似度矩阵，可以为第一图像和第二图像中相同的前景对象建立关联，在第一相似度矩阵基础上对第一图像与第二图像块中的图像块进行注意力变换时，可以为任一图像的任一图像块不同程度地融合另一图像的相关图像块中包含的语义信息，从而使得该图像的该图像块的语义信息更加丰富；更重要的是，利用注意力机制进行融合时，可以仅将另一图像的相关图像块中无关位置或大小的语义信息融合至该图像块中，从而得到该图像块的加权图像编码，克服了多标签图像检索场景下各个前景对象之间的位置和大小变化很大的问题，提取得到适合所有前景对象的图像特征表示，使得基于该图像对中第一图像的图像块的加权图像编码和第二图像的图像块的加权图像编码进行哈希计算所得到的该图像对的图像哈希的语义表达能力也得以增强，提升了多标签图像场景下的检索准确性和全面性；此外，基于三个图像对对应的图像哈希进行图像检索，得到待检索图像的检索结果，进一步提升了多标签图像场景下的检索准确性和全面性。

基于上述任一实施例，所述基于所述第一相似度矩阵，对所述任一图像对中的两个图像对应的图像块的图像编码进行注意力变换，得到所述任一图像对中的两个图像对应的图像块的加权图像编码，具体包括：

对所述第一相似度矩阵进行转置，得到第二相似度矩阵；

计算所述三个图像对对应的图像哈希两两之间的汉明距离；

基于上述任一实施例，所述分别对所述第一编码向量和所述第二编码向量进行哈希计算是基于图像哈希模型完成的；

所述图像哈希模型是基于如下步骤训练得到的：

基于所述距离损失调整所述图像哈希模型的参数。

基于上述任一实施例，所述计算每一训练图像对中两个样本图像的图像哈希之间的哈希相似度，得到所述批量的训练图像对对应的哈希相似度分布，并计算所述批量的训练图像对对应的哈希相似度分布与校准分布之间的距离损失，具体包括：

基于上述任一实施例，所述第一增强图像和第二增强图像是对所述待检索图像进行两次随机增强得到的。

图5是本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器510、存储器520、通信接口530和通信总线540，其中，处理器510，存储器520，通信接口530通过通信总线540完成相互间的通信。处理器510可以调用存储器520中的逻辑指令，以执行图像检索方法，该方法包括：对待检索图像及其第一增强图像和第二增强图像进行分块，得到所述待检索图像、所述第一增强图像和所述第二增强图像对应的图像块，并获取各个图像块的图像编码；将所述待检索图像、所述第一增强图像和所述第二增强图像两两组合，得到三个图像对；针对任一图像对，对所述任一图像对中的两个图像对应的图像块两两进行相似度计算，得到第一相似度矩阵，并基于所述第一相似度矩阵，对所述任一图像对中的两个图像对应的图像块的图像编码进行注意力变换，得到所述任一图像对中的两个图像对应的图像块的加权图像编码；基于所述任一图像对中的两个图像对应的图像块的加权图像编码进行哈希计算，得到所述任一图像对对应的图像哈希；基于三个图像对对应的图像哈希进行图像检索，得到所述待检索图像的检索结果。

此外，上述的存储器520中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的图像检索方法，该方法包括：对待检索图像及其第一增强图像和第二增强图像进行分块，得到所述待检索图像、所述第一增强图像和所述第二增强图像对应的图像块，并获取各个图像块的图像编码；将所述待检索图像、所述第一增强图像和所述第二增强图像两两组合，得到三个图像对；针对任一图像对，对所述任一图像对中的两个图像对应的图像块两两进行相似度计算，得到第一相似度矩阵，并基于所述第一相似度矩阵，对所述任一图像对中的两个图像对应的图像块的图像编码进行注意力变换，得到所述任一图像对中的两个图像对应的图像块的加权图像编码；基于所述任一图像对中的两个图像对应的图像块的加权图像编码进行哈希计算，得到所述任一图像对对应的图像哈希；基于三个图像对对应的图像哈希进行图像检索，得到所述待检索图像的检索结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的图像检索方法，该方法包括：对待检索图像及其第一增强图像和第二增强图像进行分块，得到所述待检索图像、所述第一增强图像和所述第二增强图像对应的图像块，并获取各个图像块的图像编码；将所述待检索图像、所述第一增强图像和所述第二增强图像两两组合，得到三个图像对；针对任一图像对，对所述任一图像对中的两个图像对应的图像块两两进行相似度计算，得到第一相似度矩阵，并基于所述第一相似度矩阵，对所述任一图像对中的两个图像对应的图像块的图像编码进行注意力变换，得到所述任一图像对中的两个图像对应的图像块的加权图像编码；基于所述任一图像对中的两个图像对应的图像块的加权图像编码进行哈希计算，得到所述任一图像对对应的图像哈希；基于三个图像对对应的图像哈希进行图像检索，得到所述待检索图像的检索结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像检索方法，其特征在于，包括：

2.根据权利要求1所述的图像检索方法，其特征在于，所述基于所述第一相似度矩阵，对所述任一图像对中的两个图像对应的图像块的图像编码进行注意力变换，得到所述任一图像对中的两个图像对应的图像块的加权图像编码，具体包括：

对所述第一相似度矩阵进行转置，得到第二相似度矩阵；

3.根据权利要求2所述的图像检索方法，其特征在于，所述基于所述任一图像对中的两个图像对应的图像块的加权图像编码进行哈希计算，得到所述任一图像对对应的图像哈希，具体包括：

4.根据权利要求3所述的图像检索方法，其特征在于，所述基于三个图像对对应的图像哈希进行图像检索，得到所述待检索图像的检索结果，具体包括：

计算所述三个图像对对应的图像哈希两两之间的汉明距离；

5.根据权利要求3所述的图像检索方法，其特征在于，所述分别对所述第一编码向量和所述第二编码向量进行哈希计算是基于图像哈希模型完成的；

所述图像哈希模型是基于如下步骤训练得到的：

基于所述距离损失调整所述图像哈希模型的参数。

6.根据权利要求5所述的图像检索方法，其特征在于，所述计算每一训练图像对中两个样本图像的图像哈希之间的哈希相似度，得到所述批量的训练图像对对应的哈希相似度分布，并计算所述批量的训练图像对对应的哈希相似度分布与校准分布之间的距离损失，具体包括：

7.根据权利要求1至6任一项所述的图像检索方法，其特征在于，所述第一增强图像和第二增强图像是对所述待检索图像进行两次随机增强得到的。

8.一种图像检索装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述图像检索方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像检索方法。