CN110222218B

CN110222218B - 基于多尺度NetVLAD和深度哈希的图像检索方法

Info

Publication number: CN110222218B
Application number: CN201910312824.5A
Authority: CN
Inventors: 叶凌智; 翁立; 王建中
Original assignee: Hangzhou Dianzi University
Current assignee: Xi'an Huaqi Zhongxin Technology Development Co ltd
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2021-07-09
Anticipated expiration: 2039-04-18
Also published as: CN110222218A

Abstract

本发明涉及基于多尺度NetVLAD和深度哈希的图像检索方法。本发明采用的是基于多尺度卷积神经网络的局部聚合描述符向量方法来对图像检索中的图片进行特征提取。将原始的只采用最后一层卷积层输出特征，优化为采用多层卷积层的输出特征融合后的特征。融合后的特征不仅包含高层语义特征，同时也包含了低层图片细节信息。在NetVLAD后面加一个哈希层进行特征编码，特征变得更加简洁，通过哈希编码层，使得特征维度和复杂度降低，显著减少了后续的存储开销和计算复杂度。加快了图像检索时的速度，实现在大规模数据集中快速精确的检索到相似图片。

Description

基于多尺度NetVLAD和深度哈希的图像检索方法

技术领域

本发明属于计算机视觉、目标检索领域，涉及一种基于多尺度 NetVLAD和深度哈希的图像检索方法。

背景技术

图像检索技术是从图片数据库中检索出满足条件的图片，在现实生活中有着广泛的应用场景，比如在遥感影像，安防监控，检索引擎，电子商务，生物医学等方面，都起着至关重要的作用。

目前普遍使用的图像检索方法主要包括基于文本和内容的检索。基于文本的检索方法是采用人工或半监督学习方式分配给图像一组自由文本来描述图像的内容，并经过文本检索系统将图像检索转换成文本检索。由于图像含有丰富的信息，文本标签往往不能对图像信息进行完整的表示，甚至会出现无法找到合适的关键词来描述，从而导致大量信息的丢失，影响最终的检索性能。在基于内容的图像检索算法中，基于词袋(Bag of Word,BoW)和局部聚合描述符向量(Vector of Locally Aggregated Descriptors,VLAD)的图像检索是目前的基础方法，并且有着广泛的应用。然而，需要指出的是，随着如今数据爆炸式的增长，为了不降低检索精度，所用的词典规模也急剧增大，从而导致检索速度降低。因此，如何在大数据中提取更加高级抽象的特征来进行快速准确的大规模图像检索是目前图像检索技术面临的主要问题。

本文提出了一种基于多尺度NetVLAD(基于卷积神经网络的局部聚合描述符向量)和深度哈希的图像检索方法。

发明内容

针对现有图像检索算法中存在的问题，本发明提出了一种基于多尺度NetVLAD和深度哈希的图像检索方法。该方法具有以下优点：1)具有卷积神经网络(ConvolutionalNeural Network,CNN)对图像强大的表达能力；2)通过NetVLAD层，能够在单纯的CNN基础上，提取更加高级且具有更强鲁棒能力的图像特征；3)通过融合不同卷积层的输出，使得学习到的特征对图像具有更完整的表示；4)通过哈希编码层，使得特征维度和复杂度降低，显著减少了后续的存储开销和计算复杂度。相比较于目前存在的图像检索技术，本发明提出的方法具有更高的检索速度以及更加准确的检索性能。

本发明具体包括以下步骤：

步骤一、训练流程：对网络参数进行训练，以获得最佳的网络参数。首先将训练集分为查询集和数据库，将数据库中的数据按照与查询集的相似程度,从高到低进行排序，选取前m₁个相对相似为正类，后m₂个相对不相似为负类，构成三元组，并输入到提出的基于多尺度NetVLAD的深度哈希算法网络中进行网络训练。

具体步骤如下：

步骤1、获得训练样本数据：

训练样本数据分为查询集和数据库，数据库中图片标签为与查询集中图片的近似程度，由相似度判别算法获得，一般采用直方图匹配，像素平均值向量匹配等。

步骤2、根据训练样本数据，分别对查询集中的每一个样本 q_j，j＝1,2,...,Q，其中Q为查询集样本数量，取图像数据库中的m₁个与q_j最相似的图片构成

i＝1,2,...,m₁，取m₂个与q_j最不相似的图片构成

k＝1,2,...,m₂，从而得到三元组

j＝1,2,...,Q。

步骤3、将步骤二得到的三元组

j＝1,2,...,Q作为输入，输入到多尺度卷积网络中，将输出的特征进行融合，得到融合的特征，具体步骤如下：

3-1、将训练样本输入到多尺度卷积网络，获得

l＝1,2,...,L, 总共P个卷积网络的中间层特征输出,其中x为卷积网络的中间层输出特征矩阵，L为训练样本总数量，P为任意大于等于2的整数值。

3-2、对特征进行融合：

l＝1,2,...,L,X_l为融合后输出特征矩阵，f表示基于深度学习的特征融合算法，一般采用多卷积层特征矩阵拼接，以及多规格卷积核滤波方法。

步骤4、用K均值聚类算法获得初始化簇中心，具体步骤如下：

4-1、选取聚类的簇数为K，最大迭代次数为n_max；

4-2、以步骤3所得的融合后特征{X₁,X₂,...,X_L}为输入，并从中随机选取K个值作为初始化质心{μ₁,μ₂,...,μ_K}，μ为簇中心矩阵。

4-3、将簇划分为C，并初始化为C_t＝φ,t＝1,2,...,K，其中C表示聚类簇群集合,t表示类别标号，总共有K个，φ为空集；

4-4、计算所有样本特征{X₁,X₂,...,X_L}与质心{μ₁,μ₂,...,μ_K}的距离

l＝1,2,...,L；k＝1,2,...,K,将X_l归入距离最小的对应的类别t 类，更新C_t＝C_t∪X_l。

4-5、重新计算出新的质心

4-6、重复4-4，4-5操作，直至质心不再发生改变或达到最大迭代次数，输出最终质心为所求簇中心c＝{μ₁”,μ₂”,...,μ_K”}；

步骤5、对步骤3所得融合特征进行VLAD池化，具体步骤如下：

5-1、用K个空间大小为1*1，参数矩阵为W_k，偏置矩阵为b_k的滤波器对特征矩阵X_l进行卷积操作获得输出

其中S_k表示卷积后输出矩阵。

5-2、卷积后结果S_k(X_l)再经过Soft-max函数，获得连续化后的权重a_k(X_l)，见式(1)：

其中，k'＝1,2,...,k。

5-3、将图片特征矩阵X_l作为输入，步骤4中得出的k个簇中心、 5-2中所得的a_k(X_l)作为VLAD的参数，得到D*K维VLAD特征矩阵V_l，见式(2)：

其中V_l(g,k)表示池化后特征矩阵V_l的第g行第k列元素，X_l(g)表示第l个样本特征的第g维，c_k(g)表示第k个簇中心的第g维。

5-4、将5-3获得的VLAD特征矩阵V_l进行对列进行L2范数内部正则化，获得一个D*K维的矩阵V_l'，见式(3)：

5-5、对5-4获得的V_l'再次进行整体L2范数正则化，见式(4)：

步骤6、进行哈希编码：

6-1、将步骤5所得的D*K的列向量V_l”，降维为N维向量V_N，见式 (5)：

V_N＝V_l”*w^H+b^H (5)；

其中w^H为(D*K)*N维权重矩阵，b^H为N维偏差。

6-2、对N维向量V_N进行二进制编码，见式(6)：

其中

表示激活函数,我们采用的是sigmoid函数，其表达式为

z表示函数

的输入，e^(-z)表示以自然常数e为底，-z为指数的指数函数；sgn(.)为阶跃函数。

步骤7、损失函数求取，见式(7)-(10)：

Figure DEST_PATH_RE-FDA0002134489860000041

L＝αE₁-βE₂+γE₃ (10)；

其中，d表示欧式距离；m为阈值；α、β、γ为权值；t取值为{1， 2}；mean(.)用来计算向量中元素的平均值；E₁、E₂、E₃分别表示三个损失函数，通过最小化查询图像与相似图像集的欧式距离，最大化与不相似图像集之间的欧式距离，即E₁，来获得更好的图像特征表示；通过最大化哈希编码与0.5之间的平方误差，即E₂，来实现尽可能多的激活结点；通过最小化哈希编码向量均值与0.5之间的误差，即E₃，使得哈希编码的离散分布的熵最大；L表示网络总的损失函数；

步骤8、使用反向传播算法，对步骤7所得损失函数进行求导优化以上步骤出现过的可学习参数。

步骤二、测试流程：用新的图片数据集对步骤一训练得到的网络进行检索测试，观察其效果。具体步骤如下：

1.1、将新的样本输入已经训练好的网络中，得到查询图片的最后输出特征哈希码

和对应的数据集的最后输出特征

1.2、取

对应的图片为最后检索结果,其中，

距离计算为汉明距离，汉明距离定义为，两个等长字符串，将其中一个变换成另一个所需要的最小替换数。取最小距离对应的数据库图像为检索结果。

本发明采用的是基于多尺度卷积神经网络的局部聚合描述符向量(Multiscale-NetVLAD)方法来对图像检索中的图片进行特征提取，该方法是一种比普通NetVLAD更全面的特征提取方法。它将原始的只采用最后一层卷积层输出特征，优化为采用多层卷积层的输出特征融合后的特征。融合后的特征不仅包含高层语义特征，同时也包含了低层图片细节信息。低层和高层特征的互补性可以提高查询图像与其他候选图像之间的相似性度量，对于图像检索，核心是需要找到与之最为相似而并非同类的图片这一特性。相对于直接将NetVLAD网络输出的图片特征表示直接进行计算损失函数，在NetVlAD后面加一个哈希层进行特征编码，特征变得更加简洁，通过哈希编码层，使得特征维度和复杂度降低，显著减少了后续的存储开销和计算复杂度。加快了图像检索时的速度。是一种实用高效的大规模图像检索算法，实现在大规模数据集中快速精确的检索到相似图片。

附图说明：

图1为本发明训练流程图；

图2为用于提取CNN特征的多尺度卷积神经网络的示例结构；

图3为NetVLAD层结构；

图4为哈希层输入与输出的特征结构；

图5为本发明测试流程图。

具体实施方式

下面结合附图对本发明作进一步说明。

基于多尺度NetVLAD和深度哈希的图像检索方法，如图1所示，步骤一、训练流程：将训练样本输入多尺度卷积神经网络中，得到P 层卷积特征组

然后将其经过特征融合，得到融合后特征X_l, 后经过NetVLAD层，得到池化后特征V_l，再经过哈希编码，输出最后的图片特征表示

最后利用反向传播算法，对损失函数进行求导，优化网络中出现的所有可学习参数。而测试流程则是将新的样本数据输入训练好的网络结构中，测试网络检索精度。

具体步骤如下：

步骤1、获得训练样本标签：训练样本分为查询集和数据库，数据库中图片标签为与查询集中图片的近似程度，一般采用直方图匹配，像素平均值向量匹配等。

i＝1,2,...,m₁，取m₂个与q_j最不相似的图片构成

k＝1,2,...,m₂，从而得到三元组

j＝1,2,...,Q；

步骤3将步骤二得到的三元组

3-1、将训练样本输入到多尺度卷积网络，获得

l＝1,2,...,L, 总共P个卷积网络的中间层特征输出,其中x为卷积网络的中间层输出特征矩阵，L为训练样本总数量；

如图2所示，以VGG16网络为例，融合特征个数P选取为2，选取第三个卷积块的最大池化后输出特征和第四个卷积块的第三层卷积后输出特征进行融合，由该两层不同深度的特征进行融合后的特征同时包含图片的细节信息和深度语义信息。在实际应用中，神经网络选取可以任意，并不局限于VGG16，特征融合个数也可以大于2。

输出两个卷积后特征，见式(11)：

其中x表示卷积后特征矩阵，x表示x的每一维。

3-2、对特征进行融合，以拼接方式为例，见式(12)：

其中X_l表示融合后特征，f表示拼接融合方法。

4-1、选取聚类的簇数为K，最大迭代次数为n_max；

4-2、以步骤3所得的融合后特征{X₁,X₂,...,X_L}为输入，并从中随机选取K个值作为初始化质心{μ₁,μ₂,...,μ_K}，μ为簇中心矩阵；

l＝1,2,...,L；k＝1,2,...,K,将X_l归入距离最小的对应的类别t 类，更新C_t＝C_t∪X_l；

4-5、重新计算出新的质心

4-6、重复4-4、4-5操作，直至质心不再发生改变或达到最大迭代次数，输出最终质心为所求簇中心c＝{μ₁”,μ₂”,...,μ_K”}；

步骤5、如图3所示，对步骤3所得融合特征X_l进行VLAD池化，具体步骤如下：

其中S_k表示卷积后输出矩阵；

其中，k'＝1,2,...,k；

其中V_l(g,k)表示池化后特征矩阵V_l的第g行第k列元素，X_l(g)表示第l个样本特征的第g维，c_k(g)表示第k个簇中心的第g维；

5-5、对5-4获得的V_l'再次进行整体L2范数正则化，见式(4)：

步骤6、如图4所示，进行哈希编码：

V_N＝V_l”*w^H+b^H (5)；

其中w^H为(D*K)*N维权重矩阵，b^H为N维偏差；

6-2、对N维向量V_N进行二进制编码，见式(6)：

其中

表示激活函数,我们采用的是sigmoid函数，其表达式为

z表示函数

的输入，e^(-z)表示以自然常数e为底，-z为指数的指数函数；sgn()为阶跃函数；

步骤7、损失函数求取，见式(7)-(10)：

Figure 483288DEST_PATH_RE-FDA0002134489860000041

L＝αE₁-βE₂+γE₃ (10)；

其中，表示欧式距离；为阈值；为权值；t取值为{1，2}；用来计算向量中元素的平均值；分别表示三个损失函数，通过最小化查询图像与相似图像集的欧式距离，最大化与不相似图像集之间的欧式距离，即，来获得更好的图像特征表示；通过最大化哈希编码与0.5之间的平方误差，即，来实现尽可能多的激活结点；通过最小化哈希编码向量均值与 0.5之间的误差，即，使得哈希编码的离散分布的熵最大；表示网络总的损失函数；

步骤8、使用反向传播算法，对步骤7所得损失函数进行求导优化以上步骤出现过的可学习参数；

步骤二、如图5所示，测试流程：用新的图片数据集对步骤一训练得到的网络进行检索测试，观察其效果；具体步骤如下：

和对应的数据库的最后输出特征

1.2、计算所有的

其中，

表示数据库图像特征

的任意一个；d(.)为特征距离计算，我们采用的是汉明距离。汉明距离定义为，两个等长字符串，将其中一个变换成另一个所需要的最小替换数。

1.3、取所有的

中最小值对应的数据库图片为最后检索结果。

Claims

1.基于多尺度NetVLAD和深度哈希的图像检索方法，其特征在于：包括以下步骤：

步骤一、训练流程：对网络参数进行训练，以获得最佳的网络参数；首先将训练集分为查询集和数据库，将数据库中的数据按照与查询集的相似程度,从高到低进行排序，选取前m₁个相对相似为正类，后m₂个相对不相似为负类，构成三元组，并输入到提出的基于多尺度NetVLAD的深度哈希算法网络中进行网络训练；具体步骤如下：

步骤1、获得训练样本数据：

训练样本数据分为查询集和数据库，数据库中图片标签为与查询集中图片的近似程度，由相似度判别方法获得；

步骤2、根据训练样本数据，分别对查询集中的每一个样本q_j，j＝1,2,...,Q，其中Q为查询集样本数量，取图像数据库中的m₁个与q_j最相似的图片构成

取m₂个与q_j最不相似的图片构成

从而得到三元组

步骤3、将步骤二得到的三元组

作为输入，输入到多尺度卷积网络中，将输出的特征进行融合，得到融合的特征，具体步骤如下：

3-1、将训练样本输入到多尺度卷积网络，获得

总共P个卷积网络的中间层特征输出,其中x为卷积网络的中间层输出特征矩阵，L为训练样本总数量，P为任意大于等于2的整数值；

3-2、对特征进行融合：

X_l为融合后输出特征矩阵，f表示基于深度学习的特征融合方法；

4-1、选取聚类的簇数为K，最大迭代次数为n_max；

将X_l归入距离最小的对应的类别t类，更新C_t＝C_t∪X_l；

4-5、重新计算出新的质心

步骤5、对步骤3所得融合特征X_l进行VLAD池化，具体步骤如下：

其中S_k表示卷积后输出矩阵；

其中，k'＝1,2,...,k,k＝1,2,...,K；

5-3、将图片特征矩阵X_l作为输入，步骤4中得出的K个簇中心、5-2中所得的a_k(X_l)作为VLAD的参数，得到D*K维VLAD特征矩阵V_l，见式(2)：

5-4、对5-3获得的VLAD特征矩阵V_l的每列进行L2范数内部正则化，获得一个D*K维的矩阵V_l'，见式(3)：

5-5、对5-4获得的V_l'再次进行整体L2范数正则化，见式(4)：

步骤6、进行哈希编码：

6-1、将步骤5所得的D*K的列向量V_l”，降维为N维向量V_N，见式(6)：

V_N＝V_l”*W^H+b^H (6)；

其中W^H为(D*K)*N维权重矩阵，b^H为N维偏差；

6-2、对N维向量V_N进行二进制编码，见式(7)：

其中

表示激活函数,我们采用的是sigmoid函数，其表达式为

z表示函数

步骤7、损失函数求取，见式(8)-(11)：

L＝αE₁-βE₂+γE₃ (11)；

其中，d表示欧式距离；m为阈值；α、β、γ为权值；t取值为{1，2}；mean(.)用来计算向量中元素的平均值；E₁、E₂、E₃分别表示三个损失函数，通过最小化查询图像与相似图像集的欧式距离，最大化与不相似图像集之间的欧式距离，即E₁，来获得更好的图像特征表示；通过最大化哈希编码与0.5之间的平方误差，即E₂，来实现尽可能多的激活结点；通过最小化哈希编码向量均值与0.5之间的误差，即E₃，使得哈希编码的离散分布的熵最大；L表示网络总的损失函数；

步骤二、测试流程：用新的图片数据集对步骤一训练得到的网络进行检索测试，观察其效果；具体步骤如下：

和对应的数据集的最后输出特征

1.2、取

对应的图片为最后检索结果,其中，

距离计算为汉明距离，汉明距离定义为，两个等长字符串，将其中一个变换成另一个所需要的最小替换数；取最小距离对应的数据库图像为检索结果。

2.如权利要求1所述的基于多尺度NetVLAD和深度哈希的图像检索方法，其特征在于：所述的相似度判别方法采用直方图匹配或像素平均值向量匹配。

3.如权利要求1所述的基于多尺度NetVLAD和深度哈希的图像检索方法，其特征在于：所述的基于深度学习的特征融合方法采用多卷积层特征矩阵拼接或多规格卷积核滤波方法。