CN111125396B

CN111125396B - 一种单模型多分支结构的图像检索方法

Info

Publication number: CN111125396B
Application number: CN201911245796.6A
Authority: CN
Inventors: 路红; 任豪; 李思洋
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-12-07
Filing date: 2019-12-07
Publication date: 2023-06-30
Anticipated expiration: 2039-12-07
Also published as: CN111125396A

Abstract

本发明属于图像检索技术领域，具体为一种单模型多分支结构的图像检索方法。本发明采用单模型集成多学习分支结构，特征提取器为多层卷积神经网络结构，学习分支为多卷积层与多隐藏层结构；单个特征提取器与多学习分支共享特征参数，其中，单个特征提取器保证统一的特征表达，结合学习分支的差异化训练方法，实现图像特征属性的映射；多分支结构拼接各个学习器的输出向量以获得最后描述图像的高维向量；最后这个特征向量相似度排序，根据相似度排序，即检索到同类别图像。本发明模型训练时间短，计算效率高。

Description

一种单模型多分支结构的图像检索方法

技术领域

本发明属于图像检索技术领域，具体涉及单模型多分支结构的图像检索方法。

背景技术

图像检索是根据待查询图像搜索数据库中与之相同类别的图像的任务，其主要目的是更为准确地在数据库中召回同类别的图像。

本发明涉及一种基于卷积神经网络的单模型多分支图像检索方法。图像检索是提取图像特征基于相似度度量标准查询数据库中与之相似的图像的过程。一般来说，训练一个网络作为映射函数，将RGB三通道的数字图像映射到高维空间中，训练的结果是让网络能将同类别的图像映射到高维空间中相近的位置，另一方面使得不同类的图像在高维空间的距离被拉开。所以每一个经过网络映射的图像，都会拥有一个高维向量来描述其在高维空间中的位置。图像检索任务就是输入一张查询图像，通过某种映射方法将图像映射成高维向量，与数据库里的其他同样经过此映射方法的图像的高维向量进行相似度比较，以此检索到同类图像。

与图像分类利用带类别标签的图像对网络进行训练使得网络能够分辨图像中的目标类别不同，图像检索虽同样使用带类别标签的图像对网络进行训练，但却可以得到一个映射网络来分辨图像中的某些属性，并以此基于相似度度量标准对语义或视觉相近的图像进行比对，所检索图片的类别不一定需要送入网络训练。

近年来，随着卷积神经网络的突破，图像特征提取更为丰富、高效，使用卷积神经网络的图像检索算法性能相对于传统算法大幅提升。目前在主流图像检索数据集上性能排名靠前的算法，主干网络都基于卷积神经网络。模型结构上分为单模型和多模型，单模型为单个网络结构独立输出高维向量，多模型为多网络叠加结构共同输出高维向量。其中，单模型方法又分为不共享参数和部分共享参数的结构。训练方法方面，根据损失函数的不同，数据准备的方式也不同，较为主流的损失函数有Triplet Loss[1]：

其中，A为训练图像，P为训练集中与A同类别图像，N为训练集中与A不同类别图像，margin是间隔，d描述两个样本的空间距离。基于其改进的还有N-pair Loss[2]、AngularLoss[3]。

发明内容

本发明旨在提供一种训练时间短、计算效率高的单模型多分支结构的图像检索方法。

本发明提供的单模型多分支结构的图像检索方法，采用单模型集成多学习分支结构，特征提取器为多层卷积神经网络结构，学习分支为多卷积层与多隐藏层结构。相比传统的单模型结构映射空间更为广阔，多属性映射能力更强。相比传统多模型方法在结构上更加紧凑，参数更少，也更为轻量化。单模型结构为单个特征提取器连接学习器的结构；多模型结构为多个特征提取器各自连接学习器的结构；本发明采用单模型集成多学习分支结构，是由单个特征提取器与多学习分支共享特征参数的结构，其中，单个特征提取器保证了统一的特征表达，结合学习分支的差异化训练方法，实现了图像特征属性的映射。多模型结构和本方法的多分支结构都会拼接各个学习器的输出向量以获得最后描述图像的高维向量。

此外，本发明采用随机标签分配的方法对每个学习分支进行差异化的训练。其中，将训练数据按照类别分组，同类别标签的图像存在于同一组。随机地将其中固定数量的类别划分为一个超级类别，这些类别中的图像标签变为这个超级类别，之后将剩下的数据重复这样的操作，直至将所有原始类别数据分入超级类别中。至此，产生的新数据集只有超级类别，所有的图像都被分配了一个超级类别标签，原始类别相同的图像一定会被分配到相同的超级类别标签。每个学习分支都有这样一个完整操作，并且相互独立，形成不同的新数据集标签。

本发明使用这些新的数据集搭配 Cross Entropy Loss[4]来将每个学习分支训练成一个分类器，用于对相应超级类进行分类：

其中，class为训练数据类别真实值。这样的设定使得当模型用于检索中时，各个学习分支会将那些在本分支上，属于一个超级类别的图像映射到高维空间中的一个区域并与其他超级类别的映射位置区别开来。也就是说，同属一个超级类的图像会获得相似度更高的高维向量表达。初始时为同类别的图像，不论在任何分支都会被分配到同一超级类别标签下，而初始时为不同类别的图像则不然。由于最后的特征向量被用于检索时，同类的图像的高维向量会比不同类的图像更加相似，所以根据相似度排序，可以顺利检索到同类别图像。

本发明提供的单模型多分支结构的图像检索方法,具体计算步骤如下：

（1）准备图像检索训练数据集，进行相应的数据增强操作，例如随机裁剪、数据归一化等；

（2）将训练数据集进行多次随机重标记，将标签数量缩减到一个相对小的值；

（3）在重标记后的多个训练数据集上进行多个Learner的学习，此多个Learner共享同一个BackboneNetwork；

（4）将每个Learner的输出向量与正确重标记进行对比，作为损失值训练整个模型；

（5）在训练完毕之后，对于用户输入的待检索图片，先进行对应的数据增强操作，如中心裁剪、数据归一化等；

（6）将数据增强过后的待检索图片输入训练好的模型，得到多个Learner输出的向量；

（7）将检索数据库中的所有图片同样输入训练的模型，得到其相应的向量表示；

（8）将待检索图片的向量表示与数据库中的所有图片的向量表示进行一一相似度比较；

（9）将相似度进行排序，得到最相似的所要检索的图片。

与现有技术相比，本发明的有益效果为：

1.现有技术采用单模型结构，而本方法采用单特征提取器多学习分支的结构。相比于单模型方法，映射能力更强；

2.现有技术采用多模型结构，而本方法采用单特征提取器多学习分支的结构。相比于多模型结构，在结构上更加紧凑，参数量更少，可以一次性训练整个网络，无需像多模型结构那样交替训练多个模型，减少了训练时间；

3.现有技术采用Triplet Loss作为损失函数，本方法采用Cross Entropy Loss作为损失函数。相比现有方法，本方法不需要特殊的数据准备，减少了数据加载，数据I/O操作更为高效，加速了数据准备时间；

4.本方法在多分支结构和交叉熵损失函数的基础上，搭配一种标签分配方法，从而创新了一种检索模型（映射网络）以及一种训练检索模型的方法。

附图说明

图1为本发明的单模型多分支结构的图像检索方法的总流程框图。

图2为图1中Training set的重标记流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。

参照图1、2，本发明的单模型多分支结构的图像检索方法，将待检索图像（如图中Query Image）输入主干网络（如图中BackboneNetwork）后，再由各个学习分支（如图中Learner）提取相应属性并映射为向量（如图中vector），最后所有分支输出的向量共同组成一个特征向量（如图中FeatureVector），以表示待检索图像的高维空间位置。最后这个特征向量通过余弦相似度来度量其与数据库中其他图像的空间距离。

具体计算步骤如下：

（1）准备图像检索训练数据集，进行相应的数据增强操作：随机裁剪、数据归一化等；

（2）将训练数据集进行多次随机重标记，参照图2，将n个class随机分组到m个superclass，将标签数量缩减到一个相对小的值；

（3）在重标记后的多个训练数据集上进行多个Learner的学习，参照图1，此多个Learner共享同一个BackboneNetwork；

（4）每个Learner的输出向量与正确重标记进行对比，作为损失值训练整个模型；

（5）在训练完毕之后，对于用户输入的待检索图片，先进行对应的数据增强操作：中心裁剪、数据归一化等；

（7）将检索数据库中的所有图片经过此训练完毕之后的模型，得到其相应的向量表示；

（9）将相似度进行排序，得到最相似的所要检索的图片。

参考文献

[1]Cheng D, Gong Y, Zhou S, et al. Person re-identification by multi-channel parts-based cnn with improved triplet loss function[C]//Proceedingsof the IEEE conference on computer vision and pattern recognition. 2016:1335-1344.

[2]Sohn K. Improved deep metric learning with multi-class n-pair lossobjective[C]//Advances in Neural Information Processing Systems. 2016: 1857-1865.

[3]Wang J, Zhou F, Wen S, et al. Deep metric learning with angularloss[C]//Proceedings of the IEEE International Conference on Computer Vision.2017: 2593-2601.

[4]Zhang Z, Sabuncu M. Generalized cross entropy loss for trainingdeep neural networks with noisy labels[C]//Advances in neural informationprocessing systems. 2018: 8778-8788.。

Claims

1.一种单模型多分支结构的图像检索方法,其特征在于，采用单模型集成多学习分支结构，特征提取器为多层卷积神经网络结构，学习分支为多卷积层与多隐藏层结构；单个特征提取器与多学习分支共享特征参数，其中，单个特征提取器保证统一的特征表达，结合学习分支的差异化训练方法，实现图像特征属性的映射；多分支结构拼接各个学习器的输出向量以获得最后描述图像的高维向量；

此外，采用随机标签分配的方法对每个学习分支进行差异化的训练；其中，将训练数据按照类别分组，同类别标签的图像存在于同一组；随机地将其中固定数量的类别划分为一个超级类别，这些类别中的图像标签变为这个超级类别，之后将剩下的数据重复这样的操作，直至将所有原始类别数据分入超级类别中；这样，产生的新数据集只有超级类别，所有的图像都被分配了一个超级类别标签，原始类别相同的图像被分配到相同的超级类别标签；每个学习分支都进行这样一个完整操作，并且相互独立，形成不同的新数据集标签；

使用这些新的数据集搭配 Cross Entropy Loss将每个学习分支训练成一个分类器，用于对相应超级类进行分类：

；

其中，class为训练数据类别真实值；这样的设定使得当模型用于检索中时，各个学习分支将那些在本分支上、属于一个超级类别的图像映射到高维空间中的一个区域并与其他超级类别的映射位置区别开来，即同属一个超级类的图像会获得相似度更高的高维向量表达，于是根据相似度排序，可以顺利检索到同类别图像。

2.根据权利要求1所述的单模型多分支结构的图像检索方法,其特征在于，具体计算步骤如下：

（1）准备图像检索训练数据集，进行相应的数据增强操作；所述数据增强操作包括随机裁剪、数据归一化处理；

（3）在重标记后的多个训练数据集上进行多个学习分支的学习，此多个学习分支共享同一个主干网络；

（4）将每个学习分支的输出向量与正确重标记进行对比，作为损失值训练整个模型；

（5）在训练完毕之后，对于用户输入的待检索图片，先进行对应的数据增强操作；所述数据增强操作包括随机裁剪、数据归一化处理；

（6）将数据增强过后的待检索图片输入训练好的模型，得到多个学习分支输出的向量；

（9）将相似度进行排序，得到最相似的所要检索的图片。