CN113343002A - 一种基于深度cnn特征的图像检索和分类方法 - Google Patents

一种基于深度cnn特征的图像检索和分类方法 Download PDF

Info

Publication number
CN113343002A
CN113343002A CN202110629365.0A CN202110629365A CN113343002A CN 113343002 A CN113343002 A CN 113343002A CN 202110629365 A CN202110629365 A CN 202110629365A CN 113343002 A CN113343002 A CN 113343002A
Authority
CN
China
Prior art keywords
image
layer
cnn
distance
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110629365.0A
Other languages
English (en)
Inventor
邹送上
陈浩
徐江龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110629365.0A priority Critical patent/CN113343002A/zh
Publication of CN113343002A publication Critical patent/CN113343002A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种基于深度CNN特征的图像检索和分类方法,其特征在于:该方法流程如下:(1)把查询图像输入CBIR系统内预处理;(2)利用已学习好的CNN提取图像的特征;(3)特征提取完成后,将信息输送至检索模块;(4)通过稀疏编码采用余弦距离进行相似性度量;(5)索引和检索到相关信息,输出检索结果;(6)通过CNN的算法,调整CNN的每个参数的学习率,自动提取数据的局部特征,并进行归档;本发明方法的网络特征提取能力比传统网络要有所提升,训练学习到的哈希码具有较佳的判别力,能够有效实现对多媒体图像检索及特征表达。

Description

一种基于深度CNN特征的图像检索和分类方法
技术领域
本发明主要涉及信息检索的技术领域,具体为一种基于深度CNN 特征的图像检索和分类方法。
背景技术
随着信息技术的发展使得越来越多的物联网智能设备进入大众的生活,人们通过这些设备获取的图像数据也出现了爆发式的增长,伴随图像数据段时间内大幅度增加,传统图像检索已经无法顺应时代的发展需求,通过了解发现,以往图像检索基本上都是通过数据库来对数据进行检索,通过建立索引、分组和关键字等手段来获取符合要求的图片。随着智能设备的增多,网络中的图像资源剧增,利用传统的图像检索对这些图像资源进行管理和检索的效率较低。
发明内容
本发明主要提供了一种基于深度CNN特征的图像检索和分类方法,用以解决上述背景技术中提出的技术问题。
本发明解决上述技术问题采用的技术方案为:
一种基于深度CNN特征的图像检索和分类方法,该方法流程如下:
(1)把查询图像输入CBIR系统内预处理;
(2)利用已学习好的CNN提取图像的特征;
(3)特征提取完成后,将信息输送至检索模块;
(4)通过稀疏编码采用余弦距离进行相似性度量;
(5)索引和检索到相关信息,输出检索结果;
(6)通过CNN的算法,调整CNN的每个参数的学习率,自动提取数据的局部特征,并进行归档。
优选的,图像的特征提取包括单层和多层图像特征提取,其中单层图像特提取,稀疏编码按照由低到高的层次对不同大小的图像块依次进行,方法如下:
2.1、图像从粗到细分为3个不同层次,分别得到大块、中块和小块,首先将它们的灰度值按列重组为一个列向量,列向量的元素为此块中的像素值;如果是彩色图像,则将小块中的像素按列重组后提取R、G、B 3个通道的值得到3个列向量,再将3个列向量连接成为一个长的列向量;
其中多层图像特征提取,三层图像特征提取要在3个递进的层上依次对图像进行稀疏编码,方法如下:
2.2、第一层:在第一层的编码流程与单层的特征提取算法相同,即在图像分块后,从小块开始用之前训练好的词典C1进行编码,对编码进行汇总得到大块的编码,再将大块的编码连接得到FB1,FB1 经归一化处理后输入到第二层中;
2.3、第二层:将第一层输出的归一化后的编码FB1用第二层训练好的词典C2进行进一步的编码,然后进行汇总、连接和归一化得到第二层相应的稀疏编码FB2;
2.4、第三层:将第二层输出的归一化后的编码FB2用第三层训练好的词典C3进行进一步的编码,然后进行汇总、连接和归一化得到第三层相应的稀疏编码FB3,更多层可依次类推。
优选的,如果图像特征向量为
Figure RE-GDA0003135545890000031
图像B的特征向量为B=(b1,b2,L,bn),A与B之间的距离为d(A,B),ai为特征向量A的第 i维,bi为特征向量B的第i维,那么几种常用的相似性度量距离方法如下:
3.1、欧式距离法
欧式距离也叫做欧几里得几何距离,计算n维空间任意向量A、 B间的绝对距离d(A,B),欧式距离法的表达式见公式(3.1):
Figure RE-GDA0003135545890000032
在公式(3-1)中,wi代表权重,如果wi都相等,那么加权欧式距离变为一般欧式距离;
3.2、直方图距离法
直方图距离法代表的是不同表征向量中的最小距离数值之和, d(A,B)的公式为:
Figure RE-GDA0003135545890000033
通过标准化计算将公式(3-2)除以具有最小向量和的表征向量,可以得到:
Figure RE-GDA0003135545890000034
3.3、余弦距离法
余弦距离法的相似度和距离为负相关,余弦距离法的公式为:
Figure RE-GDA0003135545890000035
在公式(3.4)中,
Figure RE-GDA0003135545890000041
优选的,Adam算法:
在确定给定随机目标函数的一、二矩估计的指数衰减率和超参数学习率后,在满足迭代终止条件之前迭代执行以下参数更新过程。在确定给定随机目标函数f(θ)的一、二矩α和β1和β2后,循环执行下列规则以更新参数。
4.1、从训练集种随机采样包含m个样本{x(1),x(2),L x(m)};
4.2、计算梯度g,
Figure RE-GDA0003135545890000042
4.3、更新时间步t,t=t+1;
4.4、更新偏一阶矩估计s,
s(t)=β1s(t-1)+(1-β1)g(t-1) (4-2)
4.5、更新偏二阶矩估计r,
r(t)=β2r(t-1)+(1-β2)g(t-1) (4-3)
4.6、修正一阶矩偏差
Figure RE-GDA0003135545890000043
Figure RE-GDA0003135545890000044
4.7、修正二阶矩偏差
Figure RE-GDA0003135545890000045
Figure RE-GDA0003135545890000046
4.8、计算更新Δθ,
θ=θ+Δθ (4-6)
其中δ是一个防止除0的小浮点数,L为损失函数。
本发明的有益效果为:
1、主要解决CNN中卷积核权值系数的更新问题,通过将Adam算法的卷积核权值系数的更替迭代提高CNN的特征搜索能力,提升神经网络的检索精度和效率,最终可以训练出一个性能较为优异的网络来实现多媒体图像检索;
2、提升了CNN检索多媒体图像的技术性能,能够有效增强CNN 特征获取的能力,提升多媒体图像检索精度和效率;
3、CNN网络在识别空间结构较强的二维图形时具有良好的效果且需要训练的参数较少,使其能够广泛应用,极大地推动了图像检索领域的发展,在图像提取特征这方面而言,深度学习有着不可替代的优势。
以下将结合附图与具体的实施例对本实用新型进行详细的解释说明。
附图说明
图1为发明的数据集Cifar10实验结果图;
图2为本发明的数据集Caltech256实验结果图。
具体实施方式
一种基于深度CNN特征的图像检索和分类方法,该方法流程如下:
(1)把查询图像输入CBIR系统内预处理;
(2)利用已学习好的CNN提取图像的特征;
(3)特征提取完成后,将信息输送至检索模块;
(4)通过稀疏编码采用余弦距离进行相似性度量;
(5)索引和检索到相关信息,输出检索结果;
(6)通过CNN的算法,调整CNN的每个参数的学习率,自动提取数据的局部特征,并进行归档。
本发明的图像特征提取:
图像的特征提取包括单层和多层图像特征提取,其中单层图像特提取,稀疏编码按照由低到高的层次对不同大小的图像块依次进行,方法如下:
2.1、图像从粗到细分为3个不同层次,分别得到大块、中块和小块,首先将它们的灰度值按列重组为一个列向量,列向量的元素为此块中的像素值;如果是彩色图像,则将小块中的像素按列重组后提取R、G、B 3个通道的值得到3个列向量,再将3个列向量连接成为一个长的列向量;
其中多层图像特征提取,三层图像特征提取要在3个递进的层上依次对图像进行稀疏编码,方法如下:
2.2、第一层:在第一层的编码流程与单层的特征提取算法相同,即在图像分块后,从小块开始用之前训练好的词典C1进行编码,对编码进行汇总得到大块的编码,再将大块的编码连接得到FB1,FB1 经归一化处理后输入到第二层中;
2.3、第二层:将第一层输出的归一化后的编码FB1用第二层训练好的词典C2进行进一步的编码,然后进行汇总、连接和归一化得到第二层相应的稀疏编码FB2;
2.4、第三层:将第二层输出的归一化后的编码FB2用第三层训练好的词典C3进行进一步的编码,然后进行汇总、连接和归一化得到第三层相应的稀疏编码FB3,更多层可依次类推。
本发明的相似性度量:
如果图像A特征向量为A=(a1,a2,L,an),图像B的特征向量为 B=(b1,b2,L,bn),A与B之间的距离为d(A,B),ai为特征向量A的第i维,bi为特征向量B的第i维,那么几种常用的相似性度量距离方法如下:
3.1、欧式距离法
欧式距离也叫做欧几里得几何距离,计算n维空间任意向量A、 B间的绝对距离d(A,B),欧式距离法的表达式见公式(3.1):
Figure RE-GDA0003135545890000071
在公式(3-1)中,wi代表权重,如果wi都相等,那么加权欧式距离变为一般欧式距离。
3.2、直方图距离法
直方图距离法代表的是不同表征向量中的最小距离数值之和, d(A,B)的公式为:
Figure RE-GDA0003135545890000072
通过标准化计算将公式(3-2)除以具有最小向量和的表征向量,可以得到:
Figure RE-GDA0003135545890000073
3.3、余弦距离法
余弦距离法的相似度和距离为负相关,余弦距离法的公式为:
Figure RE-GDA0003135545890000081
在公式(3.4)中,
Figure RE-GDA0003135545890000082
本发明的Adam算法:
在确定给定随机目标函数的一、二矩估计的指数衰减率和超参数学习率后,在满足迭代终止条件之前迭代执行以下参数更新过程。在确定给定随机目标函数f(θ)的一、二矩α和β1和β2后,循环执行下列规则以更新参数。
4.1、从训练集种随机采样包含m个样本{x(1),x(2),L x(m)};
4.2、计算梯度g,
Figure RE-GDA0003135545890000083
4.3、更新时间步t,t=t+1;
4.4、更新偏一阶矩估计s,
s(t)=β1s(t-1)+(1-β1)g(t-1) (4-2)
4.5、更新偏二阶矩估计r,
r(t)=β2r(t-1)+(1-β2)g(t-1) (4-3)
4.6、修正一阶矩偏差
Figure RE-GDA0003135545890000084
Figure RE-GDA0003135545890000085
4.7、修正二阶矩偏差
Figure RE-GDA0003135545890000086
Figure RE-GDA0003135545890000087
4.8、计算更新Δθ,
θ=θ+Δθ (4-6)
其中δ是一个防止除0的小浮点数,L为损失函数。
本发明Adam算法的具体实施流程:
第1步:具有多个卷积层,池化层和完全连接层的神经网络设计,并按照一定顺序相互连接。各层参数如下:
(1)卷积层:卷积核大小[wf,hf],移动步长sf,个数nf,初始化取值Hinit,系数学习率缩放因子kf
(2)池化层:滤波器大小用[wp,hp]来进行表示,移动步长用sp来进行表示。池化方法应用的是区域最大值Maxpooling。
(3)全连接层:nc为输出量值的数目,kc是联接参数的学习率标度因子,Winit是初始化系数值。
第2步:在全连接层后加入损失层(Loss layer),用来计算Loss function,Cross-loss损失函数用于网络训练,并且Cross-loss损失函数如下:
Figure RE-GDA0003135545890000091
公式中,n表示训练任何一个批次图像的大小,m,zi,j和yi,j,分别表示FC-1层节点数,任何节点的预期输出值和实际输出值。
第3步:数据集分成K个类别,α为网络的学习速率、nmax为最大学习次数,N为运算Loss function时的数据个数,lc是卷积核所在的卷积层号码。
第4步:当CNN学习次数到n次以后,暂时停止学习。把当前CNN 结构状态保存,保存下来的网络结构记作Nnet。保存后的CNN状态会与后续的CNN状态进行比对评估性能优劣。
第5步:把Loss layer运算得到的loss通过Adam算法反方向传递到第lc个卷积层,之后运算每个卷积核对CNN损失函数的权重比率。第i个卷积核的损失比率公式为:
Figure RE-GDA0003135545890000101
其中,|δab|为第i个卷积核中位于第a行、第b列的卷积核系数绝对值,X和Y分别为其行号和列号。Ci的值越大,表示第i个卷积核对CNN网络误差的影响越大,那么第i个卷积核的参数就越需要修正。
第6步:对第lc个卷积层卷积核的权重比率按照从小到大进行排序,并获取多个图像表征提取结果最好和最差的卷积核。选取前排的 1%~2%的卷积核作为性能最优的卷积核,标记为
Figure RE-GDA0003135545890000102
选取后排的8%~10%的卷积核作为性能最差的卷积核,标记为
Figure RE-GDA0003135545890000103
第7步:对于
Figure RE-GDA0003135545890000104
Figure RE-GDA0003135545890000105
首先从每个卷积核中任意选择1%~2%的卷积核系数,然后用
Figure RE-GDA0003135545890000106
中选取出来的系数去更新
Figure RE-GDA0003135545890000107
中的系数。择优选取的1%~2%的系数可以防止系数剧烈变化对整个CNN模型性能的负面影响,使得训练学习过程更加稳定。
第8步:更新CNN中每层的学习率标度因子kf,减少第lc层和前排层数的kf,增加第lc层后排层数的kf。对更新后的CNN继续进行学习,一直进行到m次暂时停止,然后保存更新以后的CNN状态,记作
Figure RE-GDA0003135545890000108
第9步:取得Nnet
Figure RE-GDA0003135545890000109
两个net的loss,分别记为Lnet
Figure RE-GDA00031355458900001010
通过loss对比来衡定Nnet
Figure RE-GDA0003135545890000111
的性能。如果
Figure RE-GDA0003135545890000112
表示卷积核过滤后CNN性能比过滤前的效果要好,那么采用更新后的网络
Figure RE-GDA0003135545890000113
去替代更新前的网络Nnet,并且把CNN学习次数保存为
Figure RE-GDA0003135545890000114
的学习次数。如果
Figure RE-GDA0003135545890000115
那么卷积核过滤后的CNN性能比过滤前的效果要差,那么就不采用更新后的网络
Figure RE-GDA0003135545890000116
而保留更新前的网络Nnet,并且把 CNN学习次数保存为Nnet的学习次数。
第10步:如果网络训练总次数达到了最大次数nmax,那么停止训练,输出最终的结果。
本发明的实验方法:
本实验选用了LSH、PCAH、SH、SKLSH、DSH、SELVE、SP等7种基于哈希的图像检索方法与本章所提出的算法进行对比实验。各个方法的思想及特点介绍如下:
1.LSH方法
局部敏感哈希(LSH)的主要思想是:高维空间中的两个点如果相距很近,则可能获得相等的Hash值;如果这两个点相距较远,则可能获得不同的Hash值。
2.PCAH方法
PCAH方法首先对数据进行线性降维处理,然后在结果空间中应用二值量化处理。从最大方差原则进行分析,得到PCA投影值,然后将原始空间数据映射到二值空间中,通过PCAH哈希函数得到二值编码。
3.SH方法
SH方法对沿主成分分析(PCA)方向的最小一维解析特征函数进行计算,具体实现过程是对各方向最小特征值进行计算,并就特征值列表进行创建,之后排序该列表,最终确定最小的特征值。
4.SKLSH
SKLSH算法是较为典型的一种无监督哈希算法,其技术依赖于 LSH,经常用来对任意内核函数执行快速相似性的检索当中。基于中心极限理论,可以通过随机的方式投影LSH内核空间。并且其中应用到了核函数等,相似性度量函数可以使用任意函数。SKLSH方法主要解决的问题是根据核函数快速找到与查询对象最类似的数据项。
5.DSH
DSH方法避免了纯随机的投影选择,解决了其他许多算法随机生成哈希表(投影)而导致需要大量的哈希表(即长码字)来实现高精度和召回率的问题。
6.SELVE
SELVE方法一般是在训练样本空间中,通过稀疏地的方式嵌入样本,并且通过学习字典来编码向量,提出一种有效且高效的哈希方法。该方法利用线性光谱聚类方法对样本空间进行划分,从而得到相应的聚类,然后将每个样本表示为归入其几个最接近聚类的归一化概率的稀疏向量,然后在空间中稀疏地嵌入所有样本,稀疏嵌入向量被用作每个样本的哈希特征。之后提出一种最小方差编码模型,然后将编码系数二进制化为哈希码,并联合优化了字典和二值化阈值。
7.SP
稀疏投影(Sparse Projections,SP)方法在稀疏鼓励正则化器中进行了引入,在正则化器上,不只是使得学习投影算子需要的有效参数数量实现了下降,而且使得过拟合降低。因为投影矩阵存在稀疏性,所以使得计算成本有显著降低。SP方法解决了从高维数据中学习和使用长二进制代码时遇到两个关键挑战:缺乏用于学习的高维映射的有效正则化器,以及计算长代码时的高计算成本。
本发明实验数据集及评估指标:
1、本实验选择使用Cifar10和Caltech256两个图像数据集进行测试,这两个数据集即使是属于同一类别的图像也有很大的差异。为评估本实验所要对比的图像检索方法性能,使用查全率、查准率和平均正确率等评价指标,对各方法检索性能进行对比分析。
本实验中查全率的计算公式可表示为:
Figure RE-GDA0003135545890000131
本实验中查准率的计算公式可表示为:
Figure RE-GDA0003135545890000132
本实验中平均正确率的计算公式可表示为:
Figure RE-GDA0003135545890000133
2、实验性能分析:
在Cifar10数据集上将本章算法与LSH、PCAH、SH、SKLSH、DSH、 SELVE和SP方法进行图像检索,在64位编码下查全率随返回样本数曲线、查准率随返回样本数曲线等具体如附图1所示:
附图1(a)为在64位编码下Cifar10数据集查全率随返回样本数曲线图。可以看到,随着返回图像样本数的增加,LSH、PCAH、SH、 SKLSH、DSH、SELVE、SP和本章方法查全率均随之有明显增加,且本章方法查全率始终高于其他方法,本章所提出的方法性能最优。
附图1(b)为在64位编码下Cifar10数据集查准率随返回样本数曲线图。可以看到,随着返回图像样本数的增加,LSH、PCAH、SH、 SKLSH、DSH、SELVE、SP和本章方法方法查准率呈现下降趋势,但本章方法查准率始终高于其他方法,本章方法性能最优。
附图1(c)为Cifar10数据集PR曲线图,可以看到,本章方法的 PR曲线比LSH、PCAH、SH、SKLSH、DSH、SELVE和SP方法更接近图像右上角,本章方法性能良好,且较其他方法具有显著优势。
附图1(d)为Cifar10数据集平均检索精度MAP随哈希位数长度变化曲线图,不同哈希码位的MAP值如表1所示。通过表4.1可知,哈希位数不断增加的时候,LSH、SH、SKLSH、DSH、SP和本章方法MAP 值呈现明显增加趋势。
表1数据集Cifar10的不同哈希位数MAP值
Figure RE-GDA0003135545890000141
综合上述实验结果,在Cifar10数据集上,本章方法图像检索性能优于LSH、PCAH、SH、SKLSH、DSH、SELVE和SP方法,为各方法中的最优方法。
在Caltech256数据集上使用上述不同方法进行图像检索,在64 位编码下查全率随返回样本数曲线、查准率随返回样本数曲线、PR 曲线和平均检索精度MAP随哈希位数长度变化曲线如附图2所示;
附图2(a)为在64位编码下Caltech256数据集查全率随返回样本数曲线图。可以看到,随着返回图像样本数的增加,LSH、PCAH、 SH、SKLSH、DSH、SELVE、SP和本章方法查全率均随之有明显增加,本章方法查全率略高于SP方法去,并显著高于LSH、PCAH、SH、SKLSH、 DSH和SELVE方法,本章方法性能最优。
附图2(b)为在64位编码下Caltech256数据集查准率随返回样本数曲线图。可以看到,随着返回图像样本数的增加,LSH、PCAH、 SH、SKLSH、DSH、SELVE、SP和本章方法查准率呈现下降趋势,但本章方法查准率高于其他方法,因此本章方法性能最优。
附图2(c)为Caltech256数据集PR曲线图,可以看到,本章方法的PR曲线比LSH、PCAH、SH、SKLSH、DSH、SELVE和SP方法更接近图像右上角,本章方法性能良好,且较LSH、PCAH、SH、SKLSH、 DSH和SELVE方法具有显著优势。
附图2(d)为Caltech256数据集平均检索精度MAP随哈希位数长度变化曲线图,不同哈希码位的MAP值如表4.2所示。通过表4.2可知,哈希位数不断增加的时候,LSH、SH、SKLSH、DSH、SP和本章方法的MAP值呈现明显增加趋势,其中,本章方法在各哈希位数时的平均精度值均高于其他方法,本章方法性能优势明显。
表2数据集Caltech256的不同哈希位数MAP值
Figure RE-GDA0003135545890000161
从上面表1和表2以及附图2的实验结果能够得出,本发明方法在Cifar10和Caltech256两个数据集上效果良好,其性能优于LSH、 PCAH、SH、SKLSH、DSH、SELVE和SP等主流的Hash检索算法。
上述结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的这种非实质改进,或未经改进将本发明的构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。

Claims (4)

1.一种基于深度CNN特征的图像检索和分类方法,其特征在于:该方法流程如下:
(1)把查询图像输入CBIR系统内预处理;
(2)利用已学习好的CNN提取图像的特征;
(3)特征提取完成后,将信息输送至检索模块;
(4)通过稀疏编码采用余弦距离进行相似性度量;
(5)索引和检索到相关信息,输出检索结果;
(6)通过CNN的算法,调整CNN的每个参数的学习率,自动提取数据的局部特征,并进行归档。
2.根据权利要求1所述的一种基于深度CNN特征的图像检索和分类方法,其特征在于,图像的特征提取包括单层和多层图像特征提取,其中单层图像特提取,稀疏编码按照由低到高的层次对不同大小的图像块依次进行,方法如下:
2.1、图像从粗到细分为3个不同层次,分别得到大块、中块和小块,首先将它们的灰度值按列重组为一个列向量,列向量的元素为此块中的像素值;如果是彩色图像,则将小块中的像素按列重组后提取R、G、B 3个通道的值得到3个列向量,再将3个列向量连接成为一个长的列向量;
其中多层图像特征提取,三层图像特征提取要在3个递进的层上依次对图像进行稀疏编码,方法如下:
2.2、第一层:在第一层的编码流程与单层的特征提取算法相同,即在图像分块后,从小块开始用之前训练好的词典C1进行编码,对编码进行汇总得到大块的编码,再将大块的编码连接得到FB1,FB1经归一化处理后输入到第二层中;
2.3、第二层:将第一层输出的归一化后的编码FB1用第二层训练好的词典C2进行进一步的编码,然后进行汇总、连接和归一化得到第二层相应的稀疏编码FB2;
2.4、第三层:将第二层输出的归一化后的编码FB2用第三层训练好的词典C3进行进一步的编码,然后进行汇总、连接和归一化得到第三层相应的稀疏编码FB3,更多层可依次类推。
3.根据权利要求1所述的一种基于深度CNN特征的图像检索和分类方法,其特征在于,如果图像特征向量为
Figure FDA0003103015030000021
图像B的特征向量为B=(b1,b2,L,bn),A与B之间的距离为d(A,B),ai为特征向量A的第i维,bi为特征向量B的第i维,那么几种常用的相似性度量距离方法如下:
3.1、欧式距离法
欧式距离也叫做欧几里得几何距离,计算n维空间任意向量A、B间的绝对距离d(A,B),欧式距离法的表达式见公式(3.1):
Figure FDA0003103015030000022
在公式(3-1)中,wi代表权重,如果wi都相等,那么加权欧式距离变为一般欧式距离;
3.2、直方图距离法
直方图距离法代表的是不同表征向量中的最小距离数值之和,d(A,B)的公式为:
Figure FDA0003103015030000031
通过标准化计算将公式(3-2)除以具有最小向量和的表征向量,可以得到:
Figure FDA0003103015030000032
3.3、余弦距离法
余弦距离法的相似度和距离为负相关,余弦距离法的公式为:
Figure FDA0003103015030000033
在公式(3-4)中,
Figure FDA0003103015030000034
4.根据权利要求1所述的一种基于深度CNN特征的图像检索和分类方法,其特征在于,Adam算法:
在确定给定随机目标函数的一、二矩估计的指数衰减率和超参数学习率后,在满足迭代终止条件之前迭代执行以下参数更新过程。在确定给定随机目标函数f(θ)的一、二矩α和β1和β2后,循环执行下列规则以更新参数;
4.1、从训练集种随机采样包含m个样本{x(1),x(2),L x(m)};
4.2、计算梯度g,
Figure FDA0003103015030000035
4.3、更新时间步t,t=t+1;
4.4、更新偏一阶矩估计s,
s(t)=β1s(t-1)+(1-β1)g(t-1) (4-2)
4.5、更新偏二阶矩估计r,
r(t)=β2r(t-1)+(1-β2)g(t-1) (4-3)
4.6、修正一阶矩偏差
Figure FDA0003103015030000041
Figure FDA0003103015030000042
4.7、修正二阶矩偏差
Figure FDA0003103015030000043
Figure FDA0003103015030000044
4.8、计算更新Δθ,
θ=θ+Δθ (4-6)
其中δ是一个防止除0的小浮点数,L为损失函数。
CN202110629365.0A 2021-06-07 2021-06-07 一种基于深度cnn特征的图像检索和分类方法 Pending CN113343002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110629365.0A CN113343002A (zh) 2021-06-07 2021-06-07 一种基于深度cnn特征的图像检索和分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110629365.0A CN113343002A (zh) 2021-06-07 2021-06-07 一种基于深度cnn特征的图像检索和分类方法

Publications (1)

Publication Number Publication Date
CN113343002A true CN113343002A (zh) 2021-09-03

Family

ID=77474336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110629365.0A Pending CN113343002A (zh) 2021-06-07 2021-06-07 一种基于深度cnn特征的图像检索和分类方法

Country Status (1)

Country Link
CN (1) CN113343002A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224942A (zh) * 2015-07-09 2016-01-06 华南农业大学 一种rgb-d图像分类方法及系统
CN108647723A (zh) * 2018-05-11 2018-10-12 湖北工业大学 一种基于深度学习网络的图像分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224942A (zh) * 2015-07-09 2016-01-06 华南农业大学 一种rgb-d图像分类方法及系统
CN108647723A (zh) * 2018-05-11 2018-10-12 湖北工业大学 一种基于深度学习网络的图像分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SONGSHANG ZOU ET AL.,: "An Intelligent Image Feature Recognition Algorithm With Hierarchical Attribute Constraints Based on Weak Supervision and Label Correlation", 《IEEE ACCESS》, 4 June 2020 (2020-06-04), pages 105744 - 105753, XP011793016, DOI: 10.1109/ACCESS.2020.2998164 *
胡二雷等: "基于深度学习的图像检索系统", 《计算机系统应用》, vol. 26, no. 3, 31 March 2017 (2017-03-31), pages 8 - 19 *
郭继昌等: "基于多描述子分层特征学习的图像分类", 《哈尔滨工业大学学报》, vol. 48, no. 11, 30 November 2016 (2016-11-30), pages 83 - 89 *

Similar Documents

Publication Publication Date Title
CN105912611B (zh) 一种基于cnn的快速图像检索方法
CN107480261B (zh) 一种基于深度学习细粒度人脸图像快速检索方法
CN108920720B (zh) 基于深度哈希和gpu加速的大规模图像检索方法
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
CN106326288B (zh) 图像搜索方法及装置
CN105960647B (zh) 紧凑人脸表示
CN110929029A (zh) 一种基于图卷积神经网络的文本分类方法及系统
CN104050247B (zh) 实现海量视频快速检索的方法
CN108280187B (zh) 一种基于卷积神经网络深度特征的分级图像检索方法
CN109063666A (zh) 基于深度可分离卷积的轻量化人脸识别方法及系统
CN111125411B (zh) 一种深度强相关哈希学习的大规模图像检索方法
CN110942091B (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN108304573A (zh) 基于卷积神经网络和监督核哈希的目标检索方法
CN109271486B (zh) 一种相似性保留跨模态哈希检索方法
CN106033426A (zh) 一种基于潜在语义最小哈希的图像检索方法
Wei et al. Projected residual vector quantization for ANN search
CN111008224B (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
Bhute et al. Content based image indexing and retrieval
Wei et al. Compact MQDF classifiers using sparse coding for handwritten Chinese character recognition
CN112163114B (zh) 一种基于特征融合的图像检索方法
CN112784884A (zh) 一种医学图像分类方法、系统、介质及电子终端
Mathan Kumar et al. Multiple kernel scale invariant feature transform and cross indexing for image search and retrieval
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN113806580A (zh) 基于层次语义结构的跨模态哈希检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210903

RJ01 Rejection of invention patent application after publication