CN112182272B

CN112182272B - 图像检索方法及装置、电子设备、存储介质

Info

Publication number: CN112182272B
Application number: CN202011006622.7A
Authority: CN
Inventors: 张发恩; 纪双西
Original assignee: Innovation Qizhi Chengdu Technology Co ltd
Current assignee: Innovation Qizhi Chengdu Technology Co ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2023-07-28
Anticipated expiration: 2040-09-23
Also published as: CN112182272A

Abstract

本申请提供一种图像检索方法及装置、电子设备、存储介质，该方法包括：获取目标产品的产品原型特征；计算待检索图片中每个点的特征向量与产品原型特征的相似度，获得待检索图片相对目标产品的相似度图；通过语义分割模型从待检索图片中分割出前景区域，并从相似度图中截取相似度大于第一阈值的有效区域；根据有效区域的平均相似度值、有效区域占前景区域的比例、待检索图片在有效区域内的池化特征与产品原型特征之间的全局相似度，确定待检索图片是否包含目标产品。该方案进一步提高了检索结果的准确性。

Description

图像检索方法及装置、电子设备、存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种图像检索方法及装置、电子设备、计算机可读存储介质。

背景技术

当前随着科学技术的飞速发展，各项工作均面临着信息爆炸又无法有效利用的困惑，而AI技术则成为对海量数据进行挖掘和提取的重要手段。在商超零售智能领域，每天不仅可以获取大量实拍图片数据，并且随着产品的更新换代图片内容也在不断更替，因此如何从大量数据中捕获到一定数量包含关注目标的图片，成为非常现实又重要的问题。

目前，解决此类问题的常用技术手段为基于内容的图片检索技术，即通过对目标对象的稳定特征进行建模后，对数据库中的图片获取同样的特征后进行特征匹配，然后返回特征匹配度高于阈值的图片作为检索结果。

然而，由于商超领域图片具体纹理复杂、低层级目标特征不稳定、高层级目标特征提取难、目标内容特征变化快等诸多特点，常规的图片检索方法在保证获取一定图片数量的前提下一般难以到达较高的检索结果准确率，因此是一个亟待解决的重要问题。

发明内容

本申请实施例提供了一种图像检索方法，用以提高检索准确率。

本申请实施例提供了一种图像检索方法，包括：

获取目标产品的产品原型特征；

计算待检索图片中每个点的特征向量与所述产品原型特征的相似度，获得所述待检索图片相对所述目标产品的相似度图；

通过语义分割模型从所述待检索图片中分割出前景区域，并从所述相似度图中截取相似度大于第一阈值的有效区域；

根据所述有效区域的平均相似度值、所述有效区域占所述前景区域的比例、所述待检索图片在所述有效区域内的池化特征与所述产品原型特征之间的全局相似度，确定所述待检索图片是否包含所述目标产品。

在一实施例中，所述根据所述有效区域的平均相似度值、所述有效区域占所述前景区域的比例、所述待检索图片在所述有效区域内的池化特征与所述产品原型特征之间的全局相似度，确定所述待检索图片是否包含所述目标产品，包括：

若所述有效区域的平均相似度值大于第二阈值，所述有效区域占所述前景区域的比例大于第三阈值，且所述待检索图片在所述有效区域内的池化特征与所述产品原型特征之间的全局相似度大于第四阈值，确定所述待检索图片包含所述目标产品。

在一实施例中，所述获取目标产品的产品原型特征，包括：

利用所述目标产品的训练数据集和训练好的语义分割模块，提取所述目标产品的产品原型特征。

在一实施例中，在所述利用所述目标产品的训练数据集和训练好的语义分割模块，提取所述目标产品的产品原型特征之前，所述方法还包括：

获取包含所述目标产品的多张样图以及真实场景图片；

对所述多张样图进行数据增强操作后，在所述真实场景图片的已知目标位置处进行所述样图的贴图操作，获得训练数据集。

在一实施例中，在获得训练数据集之后，所述方法还包括：

利用所述训练数据集进行深度学习，获得所述语义分割模型。

在一实施例中，所述利用所述目标产品的训练数据集和训练好的语义分割模块，提取所述目标产品的产品原型特征，包括：

通过所述语义分割模型提取所述训练数据集中每张训练图片的特征向量；

针对训练数据集中的每张训练图片，根据对所述训练图片中目标产品区域的标注结果，对所述训练图片的特征向量进行归一化，获得所述训练图片对应的前景特征；

将所述目标产品在每张训练图片中的前景特征进行平均，得到所述目标产品的产品原型特征。

在一实施例中，在所述计算待检索图片中每个点的特征向量与所述产品原型特征的相似度之前，所述方法还包括：

通过训练好的语义分割模型提取所述待检索图片的三维特征矩阵，获得所述待检索图片中每个点的特征向量。

本申请实施例还提供了一种图像检索装置，包括：

产品特征获取模块，用于获取目标产品的产品原型特征；

相似度计算模块，用于计算待检索图片中每个点的特征向量与所述产品原型特征的相似度，获得所述待检索图片相对所述目标产品的相似度图；

区域分割模块，用于通过语义分割模型从所述待检索图片中分割出前景区域，并从所述相似度图中截取相似度大于第一阈值的有效区域；

图片检索模块，用于根据所述有效区域的平均相似度值、所述有效区域占所述前景区域的比例、所述待检索图片在所述有效区域内的池化特征与所述产品原型特征之间的全局相似度，确定所述待检索图片是否包含所述目标产品。

本申请实施例还提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述图像检索方法。

本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述图像检索方法。

本申请上述实施例提供的技术方案，通过获取待检索图片的特征向量与产品原型特征进行逐点和前景区域内全局特征的匹配，进一步提高了检索结果的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的图像检索方法的应用场景示意图；

图2是本申请实施例提供的一种电子设备的示意图；

图3是本申请实施例提供的一种图像检索方法的流程示意图；

图4是本申请另一实施例提供的一种图像检索方法的流程示意图；

图5是本申请实施例提供的一种图像检索装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1为本申请实施例提供的图像检索方法的应用场景示意图。如图1所示，该应用场景包括客户端110以及服务端120，客户端110可以向服务端120发送目标产品的标识，从而服务端120可以从本地获取目标产品的标识对应的产品原型特征，采用本申请实施例提供的方法，确定待检索图片是否包含该目标产品，从而找出包含目标产品的图片。

图2是本申请实施例提供的一种电子设备的示意图。该电子设备200可以作为服务端120，该电子设备200包括:处理器220；用于存储处理器220可执行指令的存储器210；其中，所述处理器220被配置为执行本申请实施例提供的图像检索方法。

存储器210可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器中还存储有多个模块，分别借由该处理器执行，以完成下述图像检索方法步骤。

本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成下述图像检索方法。

基于内容的图像检索方法主要有三技术策略：一是基于特征点提取、池化，然后进行query(问题集)和gallery(训练集)集的特征匹配来获取检索结果；二是利用CNN(Convolutional Neural Networks，卷积神经网络)来提取特征进行全局特征匹配获取检索结果；三是结合检测模型以及上述两种特征进行特征融合来进行局部特征匹配，以获取检索结果。但应用于商超渠道领域，上述三种方法均有明显局限性：一无法适应类内特征变化较大的匹配任务，当目标产品摆放姿态、拍摄角度/光照/距离发生变化时，低层级的局部特征匹配大多会失败；二无法适应密集陈列场景需求，当目标过多时则无法使用全局高层级特征进行特征匹配；三是目前在无大量数据进行预训练的条件下，无稳定的检测模型可以获取所有潜在目标的检测框，以提取局部深度特征；除此之外，较快的目标内容特征的更新速度以及大量相似的目标内容特征的干扰，造成难以建立稳定的特征数据集用于快速的稳定的内容检索，实际任务中通常会因为特征不匹配和大量的错误匹配造成检索失败。

图3是本申请实施例提供的一种图像检索方法的流程示意图。如图3所示，该方法包括以下步骤S310-步骤S340。

步骤S310：获取目标产品的产品原型特征。

其中，目标产品是指已知产品中的其中一个。以商超领域举例来说，目标产品可以是某个款式的杯子、某个品种的洗发水。产品原型特征用于表征目标产品的特征，不同产品的产品原型特征不同，从而区分不同的产品。每个产品的产品原型特征可以提前存储在服务端本地，便于在需要检索时包含目标产品的图片时，直接获取到目标产品的产品原型特征。

步骤S320：计算待检索图片中每个点的特征向量与所述产品原型特征的相似度，获得所述待检索图片相对所述目标产品的相似度图。

待检索图片可以是一张或多张，针对每张待检索图片可以重复执行步骤S320-S340，确定每张待检索图片中是否包含目标产品。

待检索图片中每个点的特征向量可以通过特征提取器进行提取，特征提取器可以是语义分割模型的一部分，语义分割模型可以通过训练数据集训练得到。训练数据集中可以包含已知目标产品区域的训练图片。将训练图片作为输入，目标产品区域作为输出，训练得到语义分割模型。

其中，通过语义分割模型的特征提取器可以提取待检索图片的三维特征矩阵Gk_feat，为C*W*H维矩阵，那么对应该待检索图片相应的特征向量尺寸为C*1，从中可以获得每个点的特征向量。

针对待检索图片的每个点，可以一一针对每个点计算其特征向量与产品原型特征的相似度。在一实施例中，相似度可以是采用余弦距离度量的余弦相似度，还可以是欧式距离。每个点对应计算得到的相似度，构成相似度图。假设待检索图片有很多张，则可以针对每张待检索图片计算与目标产品的相似度图Simk_fg_i(i＝1,2,3…)，为2*W*H维矩阵。目标产品除了有产品原型特征(又可以称为前景原型特征)，还可以具有背景原型特征，根据需要，还可以计算待检索图片的每个点的特征向量与背景原型特征的相似度，从而得到背景相似度图Sim_bg。

步骤S330：通过语义分割模型从所述待检索图片中分割出前景区域，并从所述相似度图中截取相似度大于第一阈值的有效区域。

其中，前景区域是指通过语义分割模型预测的待检索图片中目标产品所在的区域。将待检索图片作为语义分割模型的输入，语义分割模型的输出即为目标产品的前景区域mask_k，mask_k＝argmax(Simk_fg_i,axis＝0)。

有效区域是指从相似度图中相似度大于第一阈值的点构成的区域。在一实施例中，选取第一阈值alpha，针对相似图Simk_fg_i中的每个像素点(k，j)，如果Simk_fg_i(k,j)>alpha，goodmask_k_i(k,j)＝1，否则goodmask_k_i(k,j)＝0，也就是说，某个像素点(k，j)的相似度大于第一阈值，就标记为1，否则就标记为0，由此，标记为1的像素点可以认为是有效区域goodmask_k_i。

步骤S340：根据所述有效区域的平均相似度值、所述有效区域占所述前景区域的比例、所述待检索图片在所述有效区域内的池化特征与所述产品原型特征之间的全局相似度，确定所述待检索图片是否包含所述目标产品。

在步骤S340之前，可以先计算有效区域的平均相似度值、有效区域占所述前景区域的比例以及计算待检索图片在有效区域内的池化特征与所述产品原型特征之间的全局相似度。

其中，可以利用以下公式，计算在有效区域goodmask_k_i内的平均类相似度值Ak_i＝mean(Simk_fg_i*goodmask_k_i)。

其中，有效区域占所述前景区域的比例R，可以是采用公式R＝sum(goodmask_k_i)/sum(mask_k)。

其中，计算待检索图片在有效区域内的池化特征与所述产品原型特征之间的全局相似度可以先通过计算池化特征，再计算全局相似度。在一实施例中，可以采用以下公式Gk_feat_i＝pool(Gk_feat*goodmask_k_i)计算在有效区域goodmask_k_i内的待检索图片Gk(k＝1,..n，假设一共有n张待检索图片)的对应i类(假设目标产品是i类)的池化特征Gk_feat_i，尺寸为C*1维向量。池化方法可以采用平均池化等多种检索方法的常用降维手段。之后，计算待检索图片的池化特征Gk_feat_i与产品原型fg_feat_i的余弦相似度Bk_i。

在一实施例中，有效区域的平均相似度值Ak_i大于第二阈值bate2，所述有效区域占所述前景区域的面积比例R大于第三阈值bate3，且所述待检索图片在所述有效区域内的池化特征与所述产品原型特征之间的全局相似度Bk_i大于第四阈值bate4，确定所述待检索图片包含所述目标产品。即上述三个条件均满足时，表明待检索图片Gk中包含目标产品i，从而可以找出包含目标产品i的图片。

在一实施例中，有效区域的平均相似度值Ak_i、有效区域占所述前景区域的面积比例R以及待检索图片在所述有效区域内的池化特征与所述产品原型特征之间的全局相似度Bk_i这三个参数Ak_i、R、Bk_i可以按照配置的权重参数进行加权处理，在最终结果大于指定值时，认为待检索图片Gk中包含目标产品i。

本申请上述实施例提供的技术方案，通过对点的特征匹配和局部池化后的全局特征匹配，进一步提高了检索结果的准确性。

图4是本申请一实施例提供的图像检索方法的流程示意图。如图4所示，该图像检索方法可以分为准备阶段和检索阶段，上述步骤S310-S340的实施例可以认为是检索阶段，在检索阶段之前，图像检索方法还可以包括准备阶段。在准备阶段，第一步，获取包含所述目标产品的多张样图以及真实场景图片。其中，每种产品的样本可以小于20张，包含产品各种角度特征。真实场景图片是相对虚拟场景而言的，可以是真实场景中拍摄的图片。其中，真实场景图片中的目标位置处已被标注出。

第二步，对所述多张样图进行数据增强操作后，在所述真实场景图片的已知目标位置处进行所述样图的贴图操作，获得训练数据集。

其中，数据增强操作可以是对样图进行明暗度、对比度、旋转、翻转、色差变化等处理。贴图操作是指对真实场景图片中已有目标进行替换，从而获得具有真实场景背景信息的训练数据集。其中，目标产品区域为前景，其余为背景，每种目标产品为一个类。也就是说，训练数据集中每张图片的目标产品区域是已知的。

第三步，利用训练数据集进行深度学习，获得语义分割模型。利用基于深度学习的小样本语义分割技术(如PANet)，在上述训练数据集上进行模型训练，可以获得可以对目标产品区域进行分割的深度模型(即语义分割模型)。

第四步，利用训练数据集以及训练好的语义分割模型，提取每一类产品(包含目标产品)的类原型特征，类原型特征包括产品原型特征(即前景原型特征)和背景原型特征。假设训练数据集中有k张训练图片，一共有M类产品，假设目标产品是i类。每张训练图片Fk(k＝1,…N)的该类i(i＝1,…M)标注区域label_i＝1,其他区域label_i＝0。也就是说，目标产品区域的像素点标记为1，其他区域标记为0。通过语义分割模型提取所述训练数据集中每张训练图片的特征向量。假设语义分割模型提取训练图片Fk的特征为Fk_feat，Fk_feat为C*W*H维矩阵，那么对应于该训练图片Fk相应的特征向量尺寸为C*1。对于目标产品i的类原型特征计算方法为：

针对训练数据集中的每张训练图片，根据对所述训练图片中目标产品区域的标注结果，对所述训练图片的特征向量进行归一化，获得所述训练图片对应的前景特征。

即前景特征为Fk_fg_feat_i＝sum_i(Fk_feat*label_i)/sum(label_i)。

即前景原型特征(即产品原型特征为:fg_feat_i＝sum_k(Fk_fg_feat_i)/N。

同理，背景特征为：

Fk_bg_feat_i＝sum_i(Fk_feat*(1-label_i))/sum(1-label_i)。

背景原型特征为：bg_feat＝sum_i(sum_k(Fk_feat*(1-label_i))))/N/M。

在其他实施例中，可以在训练图片的前景区域内进行预处理后选取最大联通区域获取产品原型特征。

之后，可以执行上述步骤S310-S340，通过语义分割模型提取待检索图片的图片特征以及前景区域，然后与目标产品的产品原型特征进行特征匹配和相似度阈值筛选，确定待检索图片是否包含目标产品，从而从大量待检索图片图片中找出包含目标产品的图片。

本发明所提供的方法利用小样本语义分割模型的优点，通过有限的目标数据和符合实际的场景数据构建训练集，有效的提升了无充分训练数据条件下的实际图片中的目标定位的准确性、降低负样本区域阳性的可能性；进一步通过模型训练后获取的图特征向量与产品原型特征进行逐点和前景区域内全局特征的匹配，进一步提升了在复杂场景条件下，目标检索的准确性和稳定性。

本发明可以从目标特征获取、目标定位、目标特征匹配检索三个方面对现有方法进行优化：一是，初始训练集的构建可以降低获取真实目标数据的难度，并尽可能满足真实情况下复杂背景的实际情况；二是，小样本分割模型训练，可以有效的在少量数据的条件下获取较为准确的类语义分割模型，以用于定位待检索的真实图片数据中目标的潜在位置；三是，通过对点的特征匹配和局部池化后的全局特征匹配，进一步提高了检索结果的准确性。

下述为本申请装置实施例，可以用于执行本申请上述图像检索方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请图像检索方法实施例。

图5为本申请一实施例示出的图像检索装置的框图，如图5所示，该装置包括：产品特征获取模块510、相似度计算模块520、区域分割模块530以及图片检索模块540。

产品特征获取模块510，用于获取目标产品的产品原型特征；

相似度计算模块520，用于计算待检索图片中每个点的特征向量与所述产品原型特征的相似度，获得所述待检索图片相对所述目标产品的相似度图；

区域分割模块530，用于通过语义分割模型从所述待检索图片中分割出前景区域，并从所述相似度图中截取相似度大于第一阈值的有效区域；

图片检索模块540，用于根据所述有效区域的平均相似度值、所述有效区域占所述前景区域的比例、所述待检索图片在所述有效区域内的池化特征与所述产品原型特征之间的全局相似度，确定所述待检索图片是否包含所述目标产品。

上述装置中各个模块的功能和作用的实现过程具体详见上述图像检索方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种图像检索方法，其特征在于，包括：

获取目标产品的产品原型特征；

2.根据权利要求1所述的方法，其特征在于，所述根据所述有效区域的平均相似度值、所述有效区域占所述前景区域的比例、所述待检索图片在所述有效区域内的池化特征与所述产品原型特征之间的全局相似度，确定所述待检索图片是否包含所述目标产品，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取目标产品的产品原型特征，包括：

4.根据权利要求3所述的方法，其特征在于，在所述利用所述目标产品的训练数据集和训练好的语义分割模块，提取所述目标产品的产品原型特征之前，所述方法还包括：

获取包含所述目标产品的多张样图以及真实场景图片；

5.根据权利要求4所述的方法，其特征在于，在获得训练数据集之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述利用所述目标产品的训练数据集和训练好的语义分割模块，提取所述目标产品的产品原型特征，包括：

7.根据权利要求1所述的方法，其特征在于，在所述计算待检索图片中每个点的特征向量与所述产品原型特征的相似度之前，所述方法还包括：

8.一种图像检索装置，其特征在于，包括：

产品特征获取模块，用于获取目标产品的产品原型特征；

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7任意一项所述的图像检索方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的图像检索方法。