CN113377991B

CN113377991B - 一种基于最难正负样本的图像检索方法

Info

Publication number: CN113377991B
Application number: CN202110650238.9A
Authority: CN
Inventors: 杨阳; 胡鑫; 位纪伟; 王国庆
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2022-04-15
Anticipated expiration: 2041-06-10
Also published as: CN113377991A

Abstract

本发明公开了一种基于最难正负样本的图像检索方法，先获取样本集，通过多组样本训练卷积神经网络BN‑Inception，在训练过程中，通过BN‑Inception提取样本的编码特征，然后根据编码特征选取最难正样本和最难负样本，再通过不同的加权方式为最难正样本和最难负样本分配权重并计算损失值，直至BN‑Inception收敛，最后完成待测样本的实时检索。

Description

一种基于最难正负样本的图像检索方法

技术领域

本发明属于图像检索技术领域，更为具体地讲，涉及一种基于最难正负样本的图像检索方法。

背景技术

对于细粒度图像检索，卷积神经网络提取的图像特征被投影到一个嵌入空间，在这个嵌入空间中，语义相似的数据(例如，相同类别的图像)被紧密地分组在一起。图像检索需要学习一个嵌入空间，其质量主要取决于用于训练网络的损失函数。因此，深度度量学习的损失函数起着非常重要的作用。本专利主要研究的领域是图像检索。在嵌入空间中，投影特征之间的相似性是通过样本间的距离来度量，经过学习的嵌入空间应使得正样本彼此接近，负样本尽可能远离。

现有的图像检索方法采用手工设计的加权损失函数来训练网络，具体而言，首先采用特定的采样策略来从batch内选择信息对，之后通过手工设计的权重函数为正对和负对赋予合适的权重值。主要采用两种策略来学习好的嵌入空间，一种是设计新颖的采样策略。由于在一个batch内有很多冗余的样本对，这些样本对本身包含的信息量较少，在模型训练时不能提供有效的梯度，使得模型收敛速度较慢且精度较差。而采样策略则可以从冗余的样本对中筛选出富含信息的样本对，从而加速模型的训练。另一种是设计高级的样本加权方案。不同的样本对其包含的信息量不同，有学者则设计新型的加权策略来区分这些样本对。

三元组损失(Triplet Loss)选择距离正对阈值范围内的负对形成三元组，不考虑权重。N-pair损失选择几个不同类别的负对，并使用Log-Sum-Exp函数来分配权重。排名列表损失(Ranked List Loss)设置一个过滤负对的阈值，再从阈值处划一个选择区域，只选择区域内的正负对，且只对负样本进行加权。现有方法在采样策略上典型的方法是通过阈值等进行采样，在加权策略上典型的方法是只对负对加权或者对正负对采用相同的加权函数，实际上忽略了正样本和负样本本身的特征。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于最难正负样本的图像检索方法，通过最难样本差异损失对特征提取网络进行训练，这样充分考虑了正样本和负样本的不同性质，使同一类样本彼此靠近，而不同类样本彼此远离，从而使网络能够精准的提取特征，进而实现图像检索。

为实现上述发明目的，本发明一种基于最难正负样本的图像检索方法，其特征在于，包括以下步骤：

(1)、获取样本集

从图像数据库中下载N个类别的多张图像，其中每个类别下载M张，将N×M张图像组成样本集；

(2)、训练卷积神经网络BN-Inception；

(2.1)、利用卷积神经网络BN-Inception提取图像的特征；

从样本集随机选取n个类别，每个类别中再随机选取m张图像作为BN-Inception的输入，利用在ImageNet上预训练的BN-Inception提取每张图像的编码特征，其中，第i张图像的编码特征记为x_i，对应的类别记为y_k，i＝1,2,…,n×m，k＝1,2,…,n；

(2.2)、选取最难正样本和最难负样本；

(2.2.1)、选取最难正样本；

计算每一个编码特征x_i与同类别的其他编码特征x_j之间的余弦相似度S_ij，x_i、x_j∈y_k，再选取余弦相似度最小的一组编码特征作为最难正样本，对应的相似度记为

共计得到n×m个最难正样本；

(2.2.2)、选取最难负样本；

计算每一个编码特征x_i与不同类别的其他编码特征x_j之间的余弦相似度S_ij，x_i∈y_k且

再选取余弦相似度最大的一组编码特征作为最难负样本，对应的相似度记为

共计得到n×m个最难负样本；

(2.3)、通过不同的加权方式为最难正样本和最难负样本分配权重；

(2.3.1)、分配最难正样本的权重

(2.3.2)、分配最难负样本的权重

(2.4)、根据分配的权重计算BN-Inception的损失函数值；

其中，α，δ，λ为待调整的超参数，

(2.5)、通过比较相邻μ轮训练后得到的损失函数值，判断BN-Inception是否收敛，如果BN-Inception收敛，则保存本轮训练完成后的BN-Inception，再进入步骤(3)；否则，返回步骤(2.1)进行下一轮训练；

(3)、图像实时检索

(3.1)、将图像数据库中所有图像输入至训练完成的BN-Inception，从而输出每一张图像的编码特征

i＝1,2,…；

(3.2)、将待检索的图像输入至训练完成的BN-Inception，从而输出该图像的编码特征

(3.3)、计算编码特征

与每一个编码特征

的余弦相似度，再将所有的余弦相似度进行降序排列，然后选取前p个余弦相似度，并找到对应的p幅图像作为待检索图像的检索结果。

本发明的发明目的是这样实现的：

本发明基于最难正负样本的图像检索方法，先获取样本集，通过多组样本训练卷积神经网络BN-Inception，在训练过程中，通过BN-Inception提取样本的编码特征，然后根据编码特征选取最难正样本和最难负样本，再通过不同的加权方式为最难正样本和最难负样本分配权重并计算损失值，直至BN-Inception收敛，最后完成待测样本的实时检索。

同时，本发明基于最难正负样本的图像检索方法还具有以下有益效果：

(1)、现有的方法在采样策略方面，通过阈值等进行采样，训练时将一个样本拉得更近或推得更远可能会导致其他样本受到影响，这样选用的大量元组是无效的，有时甚至会降低学习到的嵌入空间的质量。为了解决这个问题，本发明选用最难样本采样，通过相似度最小的正样本和相似度最大的负样本包含更多的信息，这样可以更快地使模型学习到合适的嵌入空间。

(2)、现有的方法在加权策略方面，只对负对加权或者对正负对使用相同类型的加权函数，这些方法实际上忽略了正样本和负样本本身的特征。为了解决这个问题，本发明设计了一种新的深度度量学习损失函数——最难样本差异(Hardest Sampling Variance)损失，该损失函数考虑了正样本和负样本的不同性质。根据正样本和负样本的特点，分别设计不同类型的加权函数，以不同的方式分配权重，更新训练过程中的梯度，这样进一步确保了同一类样本彼此靠近，而不同类样本彼此远离。

附图说明

图1是本发明基于最难正负样本的图像检索方法流程图；

图2是不同加权方式的权重分配示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于最难正负样本的图像检索方法流程图。

在本实施例中，如图1所示，本发明一种基于最难正负样本的图像检索方法，包括以下步骤：

S1、获取样本集

从CUB200-2011数据集中下载5800张图像，共计100个类别，组成样本集；

S2、训练卷积神经网络BN-Inception；

S2.1、利用卷积神经网络BN-Inception提取图像的特征；

从样本集随机选取56个类别，每个类别中再随机选取5张图像作为BN-Inception的输入，利用在ImageNet上预训练的BN-Inception提取每张图像的编码特征，其中，第i张图像的编码特征记为x_i，对应的类别记为y_k，i＝1,2,…,280，k＝1,2,…,56；

S2.2、选取最难正样本和最难负样本；

S2.2.1、选取最难正样本；

共计得到280个最难正样本；

S2.2.2、选取最难负样本；

共计得到280个最难负样本；

S2.3、通过不同的加权方式为最难正样本和最难负样本分配权重；

S2.3.1、分配最难正样本的权重

S2.3.2、分配最难负样本的权重

S2.4、根据分配的权重计算BN-Inception的损失函数值；

其中，α，δ，λ为待调整的超参数，

S2.5、通过比较相邻μ轮训练后得到的损失函数值，判断BN-Inception是否收敛，如果BN-Inception收敛，则保存本轮训练完成后的BN-Inception，再进入步骤S3；否则，返回步骤S2.1进行下一轮训练；

在本实施例中，最难样本差异(Hardest Sampling Variance)损失的主要目标是选择最难的正样本和最难的负样本，分别使用不同类型的加权函数进行加权。

过去的方法通常使用阈值来过滤正负对，选择相对较难的大量正负样本进行训练，然后使用Log-Sum-Exp函数对正负样本进行加权。但采样时选取的大量元组不一定都是有效的，有时甚至会降低学习到的嵌入空间的质量，因为在训练时将一个样本拉得更近或推得更远可能会导致其他样本受到影响。加权方式的相同则忽略了正样本和负样本本身具有不同的特征。

针对这些问题，本实施例设计了一个新的深度度量学习损失函数——最难样本差异(Hardest Sampling Variance)损失，其中，采样和加权策略如下图2所示，其中，左图中○表示同类，×表示不同类，箭头引出的黑色点表示待处理的基准点，箭头指向的黑色点表示其他编码特征点。在本实施例中，根据采样策略选出了左图中的正负样本；然后按照右图所示分配权重，其中，s₁为最难正样本的相似度，分配权重为w₁；s₂为最难负样本的相似度，分配权重w₂。

在加权策略上，本实施例分别考虑了加权函数的设计。为负样本设计的加权函数是Softplus函数。本实施例选择的最难负样本可能在培训期间产生较大的波动，而Softplus是一种平滑函数，它的设计恰恰就是为了能够避免训练过程中的过度波动。为正样本设计的加权函数是最简单的反比例函数，因此不需要设置过多的超参数来控制权函数。不使用与负样本相同的加权函数是为了让它们分配权重的方式不同。函数不一样，训练时的梯度下降也会不同，从而适应正样本和负样本的不同特征，分别更新梯度。

S3、图像实时检索

S3.1、将CUB200-2011数据集中所有图像输入至训练完成的BN-Inception，从而输出每一张图像的编码特征

i＝1,2,…；

S3.2、将待检索的图像输入至训练完成的BN-Inception，从而输出该图像的编码特征

S3.3、计算编码特征

与每一个编码特征

在本实施例中，通过在BN-Inception网络结构下对数据集CUB200-2011/CARS-196进行实验，用通用的R@1、R@5和NMI作为评估指标。实验结果如表1所示：

表1

从表1中可以得出，本发明提出的方法BN-Inception网络结构下取得了最好的表现，在CUB200-2011数据集上，R@1、R@2和NMI取得了67.9％、78.6％和70.5％的准确率；在CARS-196数据集上，R@1、R@2和NMI取得了84.2％、90.6％和69.4％的准确率。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。