CN113343002A

CN113343002A - 一种基于深度cnn特征的图像检索和分类方法

Info

Publication number: CN113343002A
Application number: CN202110629365.0A
Authority: CN
Inventors: 邹送上; 陈浩; 徐江龙
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-09-03

Abstract

本发明提供了一种基于深度CNN特征的图像检索和分类方法，其特征在于：该方法流程如下：(1)把查询图像输入CBIR系统内预处理；(2)利用已学习好的CNN提取图像的特征；(3)特征提取完成后，将信息输送至检索模块；(4)通过稀疏编码采用余弦距离进行相似性度量；(5)索引和检索到相关信息，输出检索结果；(6)通过CNN的算法，调整CNN的每个参数的学习率，自动提取数据的局部特征，并进行归档；本发明方法的网络特征提取能力比传统网络要有所提升，训练学习到的哈希码具有较佳的判别力，能够有效实现对多媒体图像检索及特征表达。

Description

一种基于深度CNN特征的图像检索和分类方法

技术领域

本发明主要涉及信息检索的技术领域，具体为一种基于深度CNN 特征的图像检索和分类方法。

背景技术

随着信息技术的发展使得越来越多的物联网智能设备进入大众的生活，人们通过这些设备获取的图像数据也出现了爆发式的增长，伴随图像数据段时间内大幅度增加，传统图像检索已经无法顺应时代的发展需求，通过了解发现，以往图像检索基本上都是通过数据库来对数据进行检索，通过建立索引、分组和关键字等手段来获取符合要求的图片。随着智能设备的增多，网络中的图像资源剧增，利用传统的图像检索对这些图像资源进行管理和检索的效率较低。

发明内容

本发明主要提供了一种基于深度CNN特征的图像检索和分类方法，用以解决上述背景技术中提出的技术问题。

本发明解决上述技术问题采用的技术方案为：

一种基于深度CNN特征的图像检索和分类方法，该方法流程如下：

(1)把查询图像输入CBIR系统内预处理；

(2)利用已学习好的CNN提取图像的特征；

(3)特征提取完成后，将信息输送至检索模块；

(4)通过稀疏编码采用余弦距离进行相似性度量；

(5)索引和检索到相关信息，输出检索结果；

(6)通过CNN的算法，调整CNN的每个参数的学习率，自动提取数据的局部特征，并进行归档。

优选的，图像的特征提取包括单层和多层图像特征提取，其中单层图像特提取，稀疏编码按照由低到高的层次对不同大小的图像块依次进行，方法如下：

2.1、图像从粗到细分为3个不同层次，分别得到大块、中块和小块，首先将它们的灰度值按列重组为一个列向量，列向量的元素为此块中的像素值；如果是彩色图像，则将小块中的像素按列重组后提取R、G、B 3个通道的值得到3个列向量，再将3个列向量连接成为一个长的列向量；

其中多层图像特征提取，三层图像特征提取要在3个递进的层上依次对图像进行稀疏编码，方法如下：

2.2、第一层：在第一层的编码流程与单层的特征提取算法相同，即在图像分块后，从小块开始用之前训练好的词典C1进行编码，对编码进行汇总得到大块的编码，再将大块的编码连接得到FB1，FB1 经归一化处理后输入到第二层中；

2.3、第二层：将第一层输出的归一化后的编码FB1用第二层训练好的词典C2进行进一步的编码，然后进行汇总、连接和归一化得到第二层相应的稀疏编码FB2；

2.4、第三层：将第二层输出的归一化后的编码FB2用第三层训练好的词典C3进行进一步的编码，然后进行汇总、连接和归一化得到第三层相应的稀疏编码FB3，更多层可依次类推。

优选的，如果图像特征向量为

图像B的特征向量为B＝(b₁,b₂,L,b_n)，A与B之间的距离为d(A,B)，a_i为特征向量A的第 i维，b_i为特征向量B的第i维，那么几种常用的相似性度量距离方法如下：

3.1、欧式距离法

欧式距离也叫做欧几里得几何距离，计算n维空间任意向量A、 B间的绝对距离d(A,B)，欧式距离法的表达式见公式(3.1)：

在公式(3-1)中，w_i代表权重，如果w_i都相等，那么加权欧式距离变为一般欧式距离；

3.2、直方图距离法

直方图距离法代表的是不同表征向量中的最小距离数值之和， d(A,B)的公式为：

通过标准化计算将公式(3-2)除以具有最小向量和的表征向量，可以得到：

3.3、余弦距离法

余弦距离法的相似度和距离为负相关，余弦距离法的公式为：

在公式(3.4)中，

优选的，Adam算法：

在确定给定随机目标函数的一、二矩估计的指数衰减率和超参数学习率后，在满足迭代终止条件之前迭代执行以下参数更新过程。在确定给定随机目标函数f(θ)的一、二矩α和β₁和β₂后,循环执行下列规则以更新参数。

4.1、从训练集种随机采样包含m个样本{x⁽¹⁾,x⁽²⁾,L x^(m)}；

4.2、计算梯度g，

4.3、更新时间步t，t＝t+1；

4.4、更新偏一阶矩估计s，

s^(t)＝β₁s^(t-1)+(1-β₁)g^(t-1) (4-2)

4.5、更新偏二阶矩估计r，

r^(t)＝β₂r^(t-1)+(1-β₂)g^(t-1) (4-3)

4.6、修正一阶矩偏差

4.7、修正二阶矩偏差

4.8、计算更新Δθ，

θ＝θ+Δθ (4-6)

其中δ是一个防止除0的小浮点数,L为损失函数。

本发明的有益效果为：

1、主要解决CNN中卷积核权值系数的更新问题，通过将Adam算法的卷积核权值系数的更替迭代提高CNN的特征搜索能力，提升神经网络的检索精度和效率，最终可以训练出一个性能较为优异的网络来实现多媒体图像检索；

2、提升了CNN检索多媒体图像的技术性能，能够有效增强CNN 特征获取的能力，提升多媒体图像检索精度和效率；

3、CNN网络在识别空间结构较强的二维图形时具有良好的效果且需要训练的参数较少，使其能够广泛应用，极大地推动了图像检索领域的发展，在图像提取特征这方面而言，深度学习有着不可替代的优势。

以下将结合附图与具体的实施例对本实用新型进行详细的解释说明。

附图说明

图1为发明的数据集Cifar10实验结果图；

图2为本发明的数据集Caltech256实验结果图。

具体实施方式

(1)把查询图像输入CBIR系统内预处理；

(2)利用已学习好的CNN提取图像的特征；

(3)特征提取完成后，将信息输送至检索模块；

(4)通过稀疏编码采用余弦距离进行相似性度量；

(5)索引和检索到相关信息，输出检索结果；

本发明的图像特征提取：

图像的特征提取包括单层和多层图像特征提取，其中单层图像特提取，稀疏编码按照由低到高的层次对不同大小的图像块依次进行，方法如下：

本发明的相似性度量：

如果图像A特征向量为A＝(a₁,a₂,L,a_n)，图像B的特征向量为 B＝(b₁,b₂,L,b_n)，A与B之间的距离为d(A,B)，a_i为特征向量A的第i维，b_i为特征向量B的第i维，那么几种常用的相似性度量距离方法如下：

3.1、欧式距离法

在公式(3-1)中，w_i代表权重，如果w_i都相等，那么加权欧式距离变为一般欧式距离。

3.2、直方图距离法

3.3、余弦距离法

在公式(3.4)中，

本发明的Adam算法：

4.2、计算梯度g，

4.3、更新时间步t，t＝t+1；

4.4、更新偏一阶矩估计s，

s^(t)＝β₁s^(t-1)+(1-β₁)g^(t-1) (4-2)

4.5、更新偏二阶矩估计r，

r^(t)＝β₂r^(t-1)+(1-β₂)g^(t-1) (4-3)

4.6、修正一阶矩偏差

4.7、修正二阶矩偏差

4.8、计算更新Δθ，

θ＝θ+Δθ (4-6)

其中δ是一个防止除0的小浮点数,L为损失函数。

本发明Adam算法的具体实施流程：

第1步：具有多个卷积层，池化层和完全连接层的神经网络设计，并按照一定顺序相互连接。各层参数如下：

(1)卷积层：卷积核大小[w_f,h_f]，移动步长s_f，个数n_f，初始化取值H_init，系数学习率缩放因子k_f。

(2)池化层：滤波器大小用[w_p,h_p]来进行表示，移动步长用s_p来进行表示。池化方法应用的是区域最大值Maxpooling。

(3)全连接层：n_c为输出量值的数目，k_c是联接参数的学习率标度因子，W_init是初始化系数值。

第2步：在全连接层后加入损失层(Loss layer)，用来计算Loss function，Cross-loss损失函数用于网络训练，并且Cross-loss损失函数如下：

公式中，n表示训练任何一个批次图像的大小，m，z_i,j和y_i,j，分别表示FC-1层节点数，任何节点的预期输出值和实际输出值。

第3步：数据集分成K个类别，α为网络的学习速率、n_max为最大学习次数，N为运算Loss function时的数据个数，l_c是卷积核所在的卷积层号码。

第4步：当CNN学习次数到n次以后，暂时停止学习。把当前CNN 结构状态保存，保存下来的网络结构记作N_net。保存后的CNN状态会与后续的CNN状态进行比对评估性能优劣。

第5步：把Loss layer运算得到的loss通过Adam算法反方向传递到第l_c个卷积层，之后运算每个卷积核对CNN损失函数的权重比率。第i个卷积核的损失比率公式为：

其中，|δ_ab|为第i个卷积核中位于第a行、第b列的卷积核系数绝对值，X和Y分别为其行号和列号。C_i的值越大，表示第i个卷积核对CNN网络误差的影响越大，那么第i个卷积核的参数就越需要修正。

第6步：对第l_c个卷积层卷积核的权重比率按照从小到大进行排序，并获取多个图像表征提取结果最好和最差的卷积核。选取前排的 1％～2％的卷积核作为性能最优的卷积核，标记为

选取后排的8％～10％的卷积核作为性能最差的卷积核，标记为

第7步：对于

和

首先从每个卷积核中任意选择1％～2％的卷积核系数，然后用

中选取出来的系数去更新

中的系数。择优选取的1％～2％的系数可以防止系数剧烈变化对整个CNN模型性能的负面影响，使得训练学习过程更加稳定。

第8步：更新CNN中每层的学习率标度因子k_f，减少第l_c层和前排层数的k_f，增加第l_c层后排层数的k_f。对更新后的CNN继续进行学习，一直进行到m次暂时停止，然后保存更新以后的CNN状态，记作

第9步：取得N_net和

两个net的loss，分别记为L_net和

通过loss对比来衡定N_net和

的性能。如果

表示卷积核过滤后CNN性能比过滤前的效果要好，那么采用更新后的网络

去替代更新前的网络N_net，并且把CNN学习次数保存为

的学习次数。如果

那么卷积核过滤后的CNN性能比过滤前的效果要差，那么就不采用更新后的网络

而保留更新前的网络N_net，并且把 CNN学习次数保存为N_net的学习次数。

第10步：如果网络训练总次数达到了最大次数n_max，那么停止训练，输出最终的结果。

本发明的实验方法：

本实验选用了LSH、PCAH、SH、SKLSH、DSH、SELVE、SP等7种基于哈希的图像检索方法与本章所提出的算法进行对比实验。各个方法的思想及特点介绍如下：

1.LSH方法

局部敏感哈希(LSH)的主要思想是：高维空间中的两个点如果相距很近，则可能获得相等的Hash值；如果这两个点相距较远，则可能获得不同的Hash值。

2.PCAH方法

PCAH方法首先对数据进行线性降维处理，然后在结果空间中应用二值量化处理。从最大方差原则进行分析，得到PCA投影值，然后将原始空间数据映射到二值空间中，通过PCAH哈希函数得到二值编码。

3.SH方法

SH方法对沿主成分分析(PCA)方向的最小一维解析特征函数进行计算，具体实现过程是对各方向最小特征值进行计算，并就特征值列表进行创建，之后排序该列表，最终确定最小的特征值。

4.SKLSH

SKLSH算法是较为典型的一种无监督哈希算法，其技术依赖于 LSH，经常用来对任意内核函数执行快速相似性的检索当中。基于中心极限理论，可以通过随机的方式投影LSH内核空间。并且其中应用到了核函数等，相似性度量函数可以使用任意函数。SKLSH方法主要解决的问题是根据核函数快速找到与查询对象最类似的数据项。

5.DSH

DSH方法避免了纯随机的投影选择，解决了其他许多算法随机生成哈希表(投影)而导致需要大量的哈希表(即长码字)来实现高精度和召回率的问题。

6.SELVE

SELVE方法一般是在训练样本空间中，通过稀疏地的方式嵌入样本，并且通过学习字典来编码向量，提出一种有效且高效的哈希方法。该方法利用线性光谱聚类方法对样本空间进行划分，从而得到相应的聚类，然后将每个样本表示为归入其几个最接近聚类的归一化概率的稀疏向量，然后在空间中稀疏地嵌入所有样本，稀疏嵌入向量被用作每个样本的哈希特征。之后提出一种最小方差编码模型，然后将编码系数二进制化为哈希码，并联合优化了字典和二值化阈值。

7.SP

稀疏投影(Sparse Projections,SP)方法在稀疏鼓励正则化器中进行了引入，在正则化器上，不只是使得学习投影算子需要的有效参数数量实现了下降，而且使得过拟合降低。因为投影矩阵存在稀疏性，所以使得计算成本有显著降低。SP方法解决了从高维数据中学习和使用长二进制代码时遇到两个关键挑战：缺乏用于学习的高维映射的有效正则化器，以及计算长代码时的高计算成本。

本发明实验数据集及评估指标：

1、本实验选择使用Cifar10和Caltech256两个图像数据集进行测试，这两个数据集即使是属于同一类别的图像也有很大的差异。为评估本实验所要对比的图像检索方法性能，使用查全率、查准率和平均正确率等评价指标，对各方法检索性能进行对比分析。

本实验中查全率的计算公式可表示为：

本实验中查准率的计算公式可表示为：

本实验中平均正确率的计算公式可表示为：

2、实验性能分析：

在Cifar10数据集上将本章算法与LSH、PCAH、SH、SKLSH、DSH、 SELVE和SP方法进行图像检索，在64位编码下查全率随返回样本数曲线、查准率随返回样本数曲线等具体如附图1所示：

附图1(a)为在64位编码下Cifar10数据集查全率随返回样本数曲线图。可以看到，随着返回图像样本数的增加，LSH、PCAH、SH、 SKLSH、DSH、SELVE、SP和本章方法查全率均随之有明显增加，且本章方法查全率始终高于其他方法，本章所提出的方法性能最优。

附图1(b)为在64位编码下Cifar10数据集查准率随返回样本数曲线图。可以看到，随着返回图像样本数的增加，LSH、PCAH、SH、 SKLSH、DSH、SELVE、SP和本章方法方法查准率呈现下降趋势，但本章方法查准率始终高于其他方法，本章方法性能最优。

附图1(c)为Cifar10数据集PR曲线图，可以看到，本章方法的 PR曲线比LSH、PCAH、SH、SKLSH、DSH、SELVE和SP方法更接近图像右上角，本章方法性能良好，且较其他方法具有显著优势。

附图1(d)为Cifar10数据集平均检索精度MAP随哈希位数长度变化曲线图，不同哈希码位的MAP值如表1所示。通过表4.1可知，哈希位数不断增加的时候，LSH、SH、SKLSH、DSH、SP和本章方法MAP 值呈现明显增加趋势。

表1数据集Cifar10的不同哈希位数MAP值

综合上述实验结果，在Cifar10数据集上，本章方法图像检索性能优于LSH、PCAH、SH、SKLSH、DSH、SELVE和SP方法，为各方法中的最优方法。

在Caltech256数据集上使用上述不同方法进行图像检索，在64 位编码下查全率随返回样本数曲线、查准率随返回样本数曲线、PR 曲线和平均检索精度MAP随哈希位数长度变化曲线如附图2所示；

附图2(a)为在64位编码下Caltech256数据集查全率随返回样本数曲线图。可以看到，随着返回图像样本数的增加，LSH、PCAH、 SH、SKLSH、DSH、SELVE、SP和本章方法查全率均随之有明显增加，本章方法查全率略高于SP方法去，并显著高于LSH、PCAH、SH、SKLSH、 DSH和SELVE方法，本章方法性能最优。

附图2(b)为在64位编码下Caltech256数据集查准率随返回样本数曲线图。可以看到，随着返回图像样本数的增加，LSH、PCAH、 SH、SKLSH、DSH、SELVE、SP和本章方法查准率呈现下降趋势，但本章方法查准率高于其他方法，因此本章方法性能最优。

附图2(c)为Caltech256数据集PR曲线图，可以看到，本章方法的PR曲线比LSH、PCAH、SH、SKLSH、DSH、SELVE和SP方法更接近图像右上角，本章方法性能良好，且较LSH、PCAH、SH、SKLSH、 DSH和SELVE方法具有显著优势。

附图2(d)为Caltech256数据集平均检索精度MAP随哈希位数长度变化曲线图，不同哈希码位的MAP值如表4.2所示。通过表4.2可知，哈希位数不断增加的时候，LSH、SH、SKLSH、DSH、SP和本章方法的MAP值呈现明显增加趋势，其中，本章方法在各哈希位数时的平均精度值均高于其他方法，本章方法性能优势明显。

表2数据集Caltech256的不同哈希位数MAP值

从上面表1和表2以及附图2的实验结果能够得出，本发明方法在Cifar10和Caltech256两个数据集上效果良好，其性能优于LSH、 PCAH、SH、SKLSH、DSH、SELVE和SP等主流的Hash检索算法。

上述结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的这种非实质改进，或未经改进将本发明的构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。