CN111198964B

CN111198964B - 图像检索方法及系统

Info

Publication number: CN111198964B
Application number: CN202010026336.0A
Authority: CN
Inventors: 王春恒; 徐健; 肖柏华
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2023-04-25
Anticipated expiration: 2040-01-10
Also published as: CN111198964A

Abstract

本发明涉及一种图像检索方法及系统，所述检索方法包括：对训练图像集标记类别，得到多个标记图像；根据各所述标记图像，进行建模，得到基于对抗注意力机制的卷积神经网络模型；获取参考图库的各参考图像；通过所述卷积神经网络模型，分别提取待检索图像及各参考图像对应的全局特征；根据所述待检索图像及各参考图像对应的全局特征，确定检索结果；所述检索结果为选取与所述待检索图像不相似的参考图像，作为推荐图像。本发明根据训练图像集建模，得到基于对抗注意力机制的卷积神经网络模型，可直接提取待检索图像及各参考图像对应的全局特征；进而可根据待检索图像及各参考图像对应的全局特征，准确得到与所述待检索图像不相似的推荐图像。

Description

图像检索方法及系统

技术领域

本发明涉及图像识别技术领域，特别涉及一种基于对抗注意力机制的图像检索方法及系统。

背景技术

随着互联网、计算机和人工智能技术的飞速发展，包含丰富信息的图像数据呈几何级数增长。在大数据时代，如何对海量图像数据进行合理高效地管理、分析和使用，是一项非常重要的应用需求和研究课题。因此，基于内容的图像检索技术受到了广泛的关注和研究。

例如，在智能旅游(景点检索)、自动驾驶(场景识别)、网络购物(拍立淘)、智能安保(行人再识别)、知识产权保护(商标检索)等领域，基于内容的图像检索技术得到了广泛的应用，并且为人们的生活提供了便利。

而且随着深度学习在各大领域取得了优秀的成果，越来越多的图像检索的研究开始关注基于深度学习的方法。其中，深度卷积神经网络是一种多层神经网络，擅长处理图像的相关机器学习问题。基于深度卷积神经网络的图像检索方法近些年的研究关注于深层卷积特征的聚合，提取鉴别性的特征。

但是大部分工作没有很好地利用深层卷积特征的语义和部件信息进行特征，在特征聚合阶段丢失了大量的鉴别性的语义和部件信息，造成图像检索的准确性较差，参考意义不大。

发明内容

为了解决现有技术中的上述问题，即为了提高图像检索的准确性，本发明的目的在于提供一种图像检索方法及系统。

为解决上述技术问题，本发明提供了如下方案：

一种图像检索方法，所述检索方法包括：

对训练图像集标记类别，得到多个标记图像；

根据各所述标记图像，进行建模，得到基于对抗注意力机制的卷积神经网络模型；

获取参考图库的各参考图像；

通过所述卷积神经网络模型，分别提取待检索图像及各参考图像对应的全局特征；

根据所述待检索图像及各参考图像对应的全局特征，确定检索结果；其中，所述检索结果为选取与所述待检索图像不相似的参考图像，作为推荐图像。

可选地，所述对训练图像集标记类别，得到多个标记图像，具体包括：

从所述训练图像集中，选择同类别的图像构成正样本训练数据对，多对正样本训练数据对构成正样本训练数据对集；

从所述训练图像集中的剩余图像中选择部分图像，作为负样本候选训练集。

可选地，所述根据各所述标记图像，进行建模，得到基于对抗注意力机制的卷积神经网络模型，具体包括：

从所述正样本训练数据对集中随机选取一张图像作为待检索训练图像；

分别从所述负样本候选训练集中的各候选训练图像及待检索训练图像进行特征提取，得到对应的H×W×C维度的特征图，各所述特征图由H×W×C个特征子图构成，且所述特征图分为待检索候选训练特征图及待检索训练特征图；

针对每一特征子图，

提取第一注意力图；

使用对抗擦除方法，提取第二注意力图，所述第一注意力图与所述第二注意力图对应不同的语义内容；

通过对应不同语义内容的一组注意力图，进行特征加权，得到加权特征；

对所述加权特征进行全局平均池化，获得局部特征，各所述特征图对应有多个局部特征；

针对每一特征图，

将所述特征图全部的局部特征串联，获得对应所述特征图的初始全局特征；

对所述初始全局特征进行降维处理，得到降维全局特征；

对所述降维全局特征进行归一化处理，得到所述特征图对应的终级的全局特征；

根据所述待检索图像、各候选训练图像及对应的全局特征，建立卷积神经网络模型；其中，所述卷积神经网络模型包括依次连接的特征图提取基本卷积网络层、对抗注意力机制层、加权层、池化层、串联层、降维层及归一化层。

可选地，所述根据各所述标记图像，进行建模，得到基于对抗注意力机制的卷积神经网络模型，还包括：

基于反向传播算法，最小化对比损失值，获得收敛的卷积神经网络模型的参数；

根据所述参数修正所述卷积神经网络模型。

可选地，通过以下公式计算对比损失值：

E＝||rep(q)-rep(p)||²+max(0，τ-||rep(q)-rep(n)||²)；

其中，E表示对比损失函数，τ表示余量参数，用于保证负对距离足够大时不影响损失函数，训练集图像q和训练集图像p构成正样本训练数据对，训练集图像q和训练集图像n构成正样本训练数据对，rep(q)表示图像q对应的全局特征。

可选地，所述图像检索方法还包括：

基于欧式距离计算方法及全局特征，分别计算所述待检索训练图像及各候选训练图像的相似值；

根据各相似值，从各候选训练图像中选择出困难负样本训练图像，困难负样本训练图像与待检索图像构成负样本训练数据对；

根据当前的负样本训练数据对，更新负样本训练数据对集。

可选地，根据各相似值，从各候选训练图像中选择出困难负样本训练图像，具体包括：

按照相似值从小到大的顺序，排列对应的各候选训练图像；

选择设定的排名阈值内的各候选训练图像，作为困难负样本训练图像。

为解决上述技术问题，本发明还提供了如下方案：

一种图像检索系统，所述检索系统包括：

标记单元，用于对训练图像集标记类别，得到多个标记图像；

建模单元，用于根据各所述标记图像，进行建模，得到基于对抗注意力机制的卷积神经网络模型；

获取单元，用于获取参考图库的各参考图像；

提取单元，用于通过所述卷积神经网络模型，分别提取待检索图像及各参考图像对应的全局特征；

检索单元，用于根据所述待检索图像及各参考图像对应的全局特征，确定检索结果；其中，所述检索结果为选取与所述待检索图像不相似的参考图像，作为推荐图像。

为解决上述技术问题，本发明还提供了如下方案：

一种图像检索系统，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

对训练图像集标记类别，得到多个标记图像；

获取参考图库的各参考图像；

为解决上述技术问题，本发明还提供了如下方案：

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

对训练图像集标记类别，得到多个标记图像；

获取参考图库的各参考图像；

根据本发明的实施例，本发明公开了以下技术效果：

本发明根据训练图像集建模，得到基于对抗注意力机制的卷积神经网络模型，可直接提取待检索图像及各参考图像对应的全局特征；进而可根据待检索图像及各参考图像对应的全局特征，准确得到与所述待检索图像不相似的推荐图像。

附图说明

图1是本发明图像检索方法的流程图；

图2是本发明图像检索系统的模块结构示意图。

符号说明：

标记单元—1，建模单元—2，获取单元—3，提取单元—4，检索单元—5。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明的目的是提供一种图像检索方法，根据训练图像集建模，得到基于对抗注意力机制的卷积神经网络模型，可直接提取待检索图像及各参考图像对应的全局特征；进而可根据待检索图像及各参考图像对应的全局特征，准确得到与所述待检索图像不相似的推荐图像。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明图像检索方法包括：

步骤100：对训练图像集标记类别，得到多个标记图像；

步骤200：根据各所述标记图像，进行建模，得到基于对抗注意力机制的卷积神经网络模型；

步骤300：获取参考图库的各参考图像；

步骤400：通过所述卷积神经网络模型，分别提取待检索图像及各参考图像对应的全局特征；

步骤500：根据所述待检索图像及各参考图像对应的全局特征，确定检索结果；其中，所述检索结果为选取与所述待检索图像不相似的参考图像，作为推荐图像。

其中，在步骤100中，所述对训练图像集标记类别，得到多个标记图像，具体包括：

步骤101：从所述训练图像集中，选择同类别的图像构成正样本训练数据对，多对正样本训练数据对构成正样本训练数据对集；

步骤102：从所述训练图像集中的剩余图像中选择部分图像，作为负样本候选训练集。

在步骤200中，所述根据各所述标记图像，进行建模，得到基于对抗注意力机制的卷积神经网络模型，具体包括：

步骤201：从所述正样本训练数据对集中随机选取一张图像作为待检索训练图像；

步骤202：分别从所述负样本候选训练集中的各候选训练图像及待检索训练图像进行特征提取，得到对应的H×W×C维度的特征图，各所述特征图由H×W×C个特征子图构成，且所述特征图分为待检索候选训练特征图及待检索训练特征图；

步骤203：针对每一特征子图，

提取第一注意力图；

步骤204：使用对抗擦除方法，提取第二注意力图，所述第一注意力图与所述第二注意力图对应不同的语义内容；

步骤205：通过对应不同语义内容的一组注意力图，进行特征加权，得到加权特征；

步骤206：对所述加权特征进行全局平均池化，获得局部特征，各所述特征图对应有多个局部特征；

步骤207：针对每一特征图，

步骤208：对所述初始全局特征进行降维处理，得到降维全局特征；

步骤209：对所述降维全局特征进行归一化处理(在本实施例中，采用L2归一化处理方法)，得到所述特征图对应的终级的全局特征；

步骤210：根据所述待检索图像、各候选训练图像及对应的全局特征，建立卷积神经网络模型。

其中，所述卷积神经网络模型包括依次连接的特征图提取基本卷积网络层(步骤202)、对抗注意力机制层(步骤203-步骤204)、加权层(步骤205)、池化层(步骤206)、串联层(步骤207)、降维层(步骤208)及归一化层(步骤209)。

进一步地，在步骤200中，所述根据各所述标记图像，进行建模，得到基于对抗注意力机制的卷积神经网络模型，还包括：

步骤211：基于反向传播算法，最小化对比损失值，获得收敛的卷积神经网络模型的参数。

具体可通过以下公式计算对比损失值：

E＝||rep(q)-rep(p)||²+max(0，τ-||rep(q)-rep(n)||²)；

步骤212：根据所述参数修正所述卷积神经网络模型。

本发明使用Adam优化器即自适应时刻估计(Adaptive Moment Estimation)优化器，通过反向传播算法(Backpropagation algorithm，BP)对卷积神经网络模型的参数进行优化，最小化对比损失，获得收敛的卷积神经网络模型的参数。

其中，Adam优化器利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，其优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。其公式如下：

其中，m_t，n_t分别是对梯度的一阶矩估计和二阶矩估计；

对m_t，n_t的校正。

参数更新的最终公式为：

其中，设定参数：

η＝10^-6，β₁＝0.9，β₂＝0.999，∈＝10^-8用来保证分母非零。

此外，本发明图像检索方法还包括：

根据当前的负样本训练数据对，更新负样本训练数据对集。

优选地，根据各相似值，从各候选训练图像中选择出困难负样本训练图像，具体包括：

按照相似值从小到大的顺序，排列对应的各候选训练图像；

本发明使用困难负样本训练图像的在线挖掘，每轮训练更新负样本训练数据对集。基于每轮训练后的卷积神经网络模型参数，提取训练集图像的全局特征，基于欧式距离度量待检索训练图像与各候选训练图像的相似性，将排序靠前的非同类样本作为困难负样本训练图像与待检索训练图像构成负样本训练数据对。每次随机选取部分图像作为负样本候选训练集，可提升困难负样本的在线挖掘效率。

本发明图像检索方法基于对抗擦除方法改进注意力机制算法以提取对应不同语义内容的感兴趣区域，然后基于注意力机制加权聚合并串联对应不同语义的特征作为最终的特征，进行距离度量以实现图像检索。本发明具有准确率高，泛化性好的特点，能对提取鉴别性的图像特征，对于基于内容的图像检索任务有着重要的意义。

此外，本发明还提供一种图像检索系统，可提高图像检索的准确性。

其中，本发明图像检索系统包括标记单元1、建模单元2、获取单元3、提取单元4及检索单元5。

具体地，如图2所示，所述标记单元1用于对训练图像集标记类别，得到多个标记图像；

所述建模单元2用于根据各所述标记图像，进行建模，得到基于对抗注意力机制的卷积神经网络模型；

所述获取单元3用于获取参考图库的各参考图像；

所述提取单元4分别与所述建模单元2及所述获取单元3连接，所述提取单元4用于通过所述卷积神经网络模型，分别提取待检索图像及各参考图像对应的全局特征；

所述检索单元5用于根据所述待检索图像及各参考图像对应的全局特征，确定检索结果；其中，所述检索结果为选取与所述待检索图像不相似的参考图像，作为推荐图像。

此外，本发明还提供一种图像检索系统，包括：

处理器；以及

对训练图像集标记类别，得到多个标记图像；

获取参考图库的各参考图像；

进一步地，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

对训练图像集标记类别，得到多个标记图像；

获取参考图库的各参考图像；

相对于现有技术，本发明图像检索系统、计算机可读存储介质与上述图像检索方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种图像检索方法，其特征在于，所述检索方法包括：

对训练图像集标记类别，得到多个标记图像，包括：

从所述训练图像集中的剩余图像中选择部分图像，作为负样本候选训练集；

根据各所述标记图像，进行建模，得到基于对抗注意力机制的卷积神经网络模型，包括：

分别对所述负样本候选训练集中的各候选训练图像及待检索训练图像进行特征提取，得到对应的H×W×C维度的特征图，各所述特征图由H×W×C个特征子图构成，且所述特征图分为各候选训练特征图及待检索训练特征图；

针对每一特征子图，

提取第一注意力图；

针对每一特征图，

对所述初始全局特征进行降维处理，得到降维全局特征；

根据所述待检索训练图像、各候选训练图像及对应的终级的全局特征，建立基于对抗注意力机制的卷积神经网络模型；其中，所述基于对抗注意力机制的卷积神经网络模型包括依次连接的特征图提取基本卷积网络层、对抗注意力机制层、加权层、池化层、串联层、降维层及归一化层；

获取参考图库的各参考图像；

通过所述基于对抗注意力机制的卷积神经网络模型，分别提取待检索图像及各参考图像对应的终级的全局特征；

根据所述待检索图像及各参考图像对应的终级的全局特征，确定检索结果；其中，所述检索结果为选取与所述待检索图像相似的参考图像，作为推荐图像。

2.根据权利要求1所述的图像检索方法，其特征在于，所述根据各所述标记图像，进行建模，得到基于对抗注意力机制的卷积神经网络模型，还包括：

基于反向传播算法，最小化对比损失值，获得收敛的基于对抗注意力机制的卷积神经网络模型的参数；

根据所述参数修正所述基于对抗注意力机制的卷积神经网络模型。

3.根据权利要求2所述的图像检索方法，其特征在于，通过以下公式计算对比损失值：

E＝||rep(q)-rep(p)|||²+max(0，τ-||rep(q)-rep(n)|||²)；

其中，E表示对比损失函数，τ表示余量参数，用于保证负对距离足够大时不影响损失函数，训练集图像q和训练集图像p构成正样本训练数据对，训练集图像q和训练集图像n构成负样本训练数据对，rep(q)表示图像q对应的终级的全局特征。

4.根据权利要求2-3中任一项所述的图像检索方法，其特征在于，所述图像检索方法还包括：

基于欧式距离计算方法及终级的全局特征，分别计算所述待检索训练图像及各候选训练图像的相似值；

根据当前的负样本训练数据对，更新负样本训练数据对集。

5.根据权利要求4所述的图像检索方法，其特征在于，根据各相似值，从各候选训练图像中选择出困难负样本训练图像，具体包括：

按照相似值从小到大的顺序，排列对应的各候选训练图像；

6.一种图像检索系统，其特征在于，所述检索系统包括：

标记单元，用于对训练图像集标记类别，得到多个标记图像，包括：

建模单元，用于根据各所述标记图像，进行建模，得到基于对抗注意力机制的卷积神经网络模型，包括：

针对每一特征子图，

提取第一注意力图；

针对每一特征图，

对所述初始全局特征进行降维处理，得到降维全局特征；

获取单元，用于获取参考图库的各参考图像；

提取单元，用于通过所述基于对抗注意力机制的卷积神经网络模型，分别提取待检索图像及各参考图像对应的终级的全局特征；

检索单元，用于根据所述待检索图像及各参考图像对应的终级的全局特征，确定检索结果；其中，所述检索结果为选取与所述待检索图像相似的参考图像，作为推荐图像。

7.一种图像检索系统，其特征在于，包括：

处理器；以及

对训练图像集标记类别，得到多个标记图像，包括：

针对每一特征子图，

提取第一注意力图；

针对每一特征图，

对所述初始全局特征进行降维处理，得到降维全局特征；

获取参考图库的各参考图像；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

对训练图像集标记类别，得到多个标记图像，包括：

针对每一特征子图，

提取第一注意力图；

针对每一特征图，

对所述初始全局特征进行降维处理，得到降维全局特征；

获取参考图库的各参考图像；