CN111198959A - 一种基于卷积神经网络的两阶段图像检索方法 - Google Patents
一种基于卷积神经网络的两阶段图像检索方法 Download PDFInfo
- Publication number
- CN111198959A CN111198959A CN201911396473.7A CN201911396473A CN111198959A CN 111198959 A CN111198959 A CN 111198959A CN 201911396473 A CN201911396473 A CN 201911396473A CN 111198959 A CN111198959 A CN 111198959A
- Authority
- CN
- China
- Prior art keywords
- image
- neural network
- hash
- convolutional neural
- binary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提出了一种基于卷积神经网络的两阶段图像检索方法,其步骤如下:在VGG16网络的卷积层和密集连接层之间添加特征提取层构建卷积神经网络模型;利用训练集和验证集对卷积神经网络模型进行训练,利用反向传播调整卷积神经网络模型的参数;将测试集输入训练好的卷积神经网络模型,利用哈希函数映射将特征向量映射得到二进制哈希码,利用softmax分类函数对密集连接层输出的向量进行分类,构建二级索引库;将待检索图像输入训练好的卷积神经网络模型,进行第一阶段的检索,进行第二阶段检索。本发明在相应的图像类别下进一步搜索,通过分类优化检索实现了图像的精确分类和快速检索,加快了相似特征的检索速度,提高了查询效率。
Description
技术领域
本发明涉及图像检索的技术领域,尤其涉及一种基于卷积神经网络的两阶段图像检索方法。
背景技术
随着各领域可用图像资源的快速增长,有效的图像搜索方法变得越来越重要。基于内容的图像检索(CBIR)旨在通过分析图像内容功能(如颜色、纹理和布局)来检索类似的图像。因此图像表示和相似性测量是任务的关键。卷积神经网络(CNN)具有强大的特征提取能力,可以直接处理图像,消除不同基础特征的影响。因此,深度CNN显著提高了各种视觉任务的性能。这些成就都归功于CNN深入学习丰富的中层图像表现的能力。然而,由于卷积神经网络所提取的特征是高维的,因此直接计算两个向量之间的相似性是十分低效的。Babenko等人建议使用主成分分析(PCA)的方法来压缩提取的特征维度,并取得了良好的性能。
计算成本和图像表示在CBIR中起着至关重要的作用。随着视觉内容的持续增长,大型数据库的快速搜索已成为一种新兴需求。许多研究都旨在回答如何有效地从大型数据库中检索相关数据的问题。传统的线性搜索由于计算成本大,不适合在大型语料库中搜索。基于哈希的图像检索将高维特征映射到低维空间,并生成紧凑的二进制代码。生成的二进制代码可用于快速图像搜索,以进行二进制模式匹配或汉明距离测量。这一理念大大降低了计算成本,进一步优化了搜索效率。但是,在处理大型数据集时,必须构建相应的矩阵并生成二进制码。
当前的几种加速图像检索的哈希算法可以分为两大类:无监督方法和监督法。最具代表性的无监督哈希方法是局部敏感哈希(LSH),使用未标记的数据来学习一组哈希函数,目标是将类似的数据映射到与类似的二进制文件到最大值。LSH通过将数据点投影到具有随机阈值的随机超平面来生成二进制代码。谱哈希(SH)是监督方法中另一种具有代表性的方法。根据给定数据的主要分量分析方向,通过给定数据PCA方向上的非线性函数阈值生成密集的二进制编码。虽然使用受监督的信息可以提高二进制哈希代码的学习性能。这些受监督的哈希方法通常使用成对标签来生成有效的哈希函数。
除了对哈希函数的研究之外,图像表示在CBIR中也起着至关重要的作用。近年来,基于卷积神经网络的视觉描述符在图像检索中得到了广泛的应用。一些研究侧重于尺寸减少,并通过压缩CNN功能提高检索性能。但是,利用卷积神经网络的学习功能直接在欧几里得空间中进行搜索匹配是低效的。Xia等人使用矩阵分解算法来学习数据的表示形式,并提出了一种监督哈希方法来学习二进制哈希代码,该方法通过深度学习快速检索图像,在常用数据集上表现出最高的图像检索性能。由于它重新计算了成对相似性矩阵数据的输入,占用了大量的存储空间和计算时间,因此不利于在大型数据集的情况下使用。
发明内容
针对现有图像检索的方法计算成本大,搜索匹配效率低,不适合在大型数据库中搜索的技术问题,本发明提出一种基于卷积神经网络的两阶段图像检索方法,修改VGG16网络的原始模型用于图像检索,可以更快速、简单、高效地执行图像检索,适用于大型数据集。
为了达到上述目的,本发明的技术方案是这样实现的:一种基于卷积神经网络的两阶段图像检索方法,其步骤如下:
步骤一:在VGG16网络的卷积层和密集连接层之间添加一个特征提取层构建卷积神经网络模型;将数据集分成训练集、验证集和测试集;
步骤二:利用训练集和验证集对步骤一构建的卷积神经网络模型进行训练,同时利用反向传播调整卷积神经网络模型的参数,将卷积神经网络模型训练为具有特征提取能力和图像分类能力;
步骤三:将测试集中的图像输入步骤二中训练好的卷积神经网络模型,特征提取层对图像进行特征提取得到特征向量,利用哈希函数映射将特征向量映射得到二进制哈希码,利用softmax分类函数对密集连接层输出的向量进行分类,将测试集中的图像按类别分类构造类别索引码,从而构建二级索引库;
步骤四:将待检索图像输入训练好的卷积神经网络模型,获得待检索图像的特征向量和密集连接层输出向量,进行第一阶段的检索:将待检索图像的密集连接层输出向量输入softmax分类函数得到二进制类别码,根据二进制类别码在二级索引库中检索得到哈希索引码列表;
步骤五:进行第二阶段检索:利用哈希函数映射处理待检索图像的特征向量得到二进制哈希码,将二进制哈希码的值传递到哈希索引码列表中进行局部敏感哈希操作,得到根据相似度排序的检索结果。
所述卷积神经网络模型中VGG16网络的结构包括依次连接的卷积层、特征提取层和密集连接层,其中,卷积层包括依次连接的两个卷积层I、池化层I、三个卷积层II、池化层II、三个卷积层III、池化层III、三个卷积层IV、池化层IV和三个卷积层V,卷积层I-V的大小都为3*3,池化层I-IV的大小都为2*2;特征提取层和最终分类层的权重是随机初始化的,特征提取层的初始权重是随机的,密集连接层训练并微调之前设定的参数。
所述步骤二中反向传播调整卷积神经网络模型的参数的方法为:
1)由于神经网络的输出结果与实际结果有误差,计算估计值与实际值之间的误差,并将误差从输出层向隐藏层反向传播,直至传播到输入层;
2)根据误差调整相连神经元的权重,使得总损失函数减小;
所述哈希函数映射通过离散余弦变换将图像从像素域变换到频率域,经过离散余弦变换后的系数矩阵从左上角到右下角频率越来越高,因此图片的能量主要保留在左上角的低频系数上了,只要保留系数矩阵左上角的8*8的矩阵,计算所有64个像素的灰度平均值为离散余弦变换均值;设置0和1组成的64位哈希值,大于等于离散余弦变换均值的设为1,小于离散余弦变换均值的设为0,组合在一起,构成一个64位的二进制哈希码。
所述类别索引码用10位二进制表示,从0000000000到1111111111分别代表不同的图像类别;所述类别索引码的构造方法为:
softmax分类函数的判别公式为:
将softmax分类函数输出的概率P(i)转化为二进制数:
其中,s(i)为每个二进制位的值,10个二进制数s组成二进制类别码S;若概率大于0.5,则该二进制位的值为位1,否则为0。
所述二级索引库中二进制类别码组成第一级索引,二进制哈希索引码组成第二级索引。
所述步骤五中局部敏感哈希操作的实现方法为:计算两点经过局部敏感哈希后的冲突概率,对于点H1和点H2,经过哈希函数映射之后两点的冲突概率为:
其中,f2(t)表示正态分布的绝对值的概率密度函数,r=|H1-H2|为两点的欧式距离,当宽度W固定时,点H1和点H2之间的碰撞概率随它们之间的距离的增加而单调减小;t为积分变量,t的区间为[0,W];
从哈希索引列表L中找出所有与待检索图像的二进制哈希码的欧氏距离不大于查询范围r的所有图像。
给定查询图像q和相似性度量,为每个数据集图像分配排名:精确评估前g个图像相对于查询图像q的排名:
其中,Rel(u)表示查询图像q和第u个排名图像之间的相关性;对于查询图像q,若输出图像的类别标签和查询图像q的类别标签相同,则Rel(u)∈{0,1}为1,否则为0。
本发明的有益效果:修改现有的神经网络并进行微调,利用卷积神经网络(CNN)构建了基于VGG16的两阶段CNN模型,使用分类器对图像进行分类;在相应的图像类别下进一步搜索,通过分类优化检索实现了图像的精确分类和快速检索,且具有简单而高效的优点。实验结果表明,在公开可用数据集上获得了满意的结果,本发明的图像匹配速度优于CIFAR-10和ImageNet等数据集上几种最先进的图像检索算法,可以加快相似特征的检索速度,提高查询效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程图。
图2为本发明改进的VGG16网络的结构示意图。
图3为本发明二级索引库的列表示意图。
图4为本发明ImageNet数据集中示例的灰度图。
图5为本发明数据集CIFAR-10中的图像检索精度对比图。
图6为本发明数据集CIFAR-10中的精密召回曲线。
图7为本发明从数据集CIFAR-10中检索到的前4个图像,其中,(a)为猫,(b)为飞机。
图8为本发明不同背景鸟类的检索结果,其中,(a)为第一种,(b)为第二种。
图9为本发明检索原始图像的结果,其中,(a)为别针,(b)为雷达。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于卷积神经网络的两阶段图像检索方法,其步骤如下:
步骤一:在VGG16网络的卷积层和密集连接层之间添加一个特征提取层构建具备特征提取和图像分类能力的卷积神经网络模型;将数据集分成训练集、验证集和测试集。
训练集和验证集用于训练神经网络模型。测试集用于在训练好的神经网络模型上进行实验。如图2所示,卷积神经网络模型中VGG16网络的结构包括依次连接的卷积层、特征提取层和密集连接层,其中,卷积层包括依次连接的两个3*3卷积层I、池化层I、三个3*3卷积层II、池化层II、三个卷积层III、池化层III、三个卷积层IV、池化层IV和三个卷积层V,卷积层大小都为3*3,池化层都为2*2。本发明的VGG16网络是一种具有16层的CNN(卷积神经)网络,训练图像网的权重。通过采用小核堆栈、重复堆栈3*3小卷积内核和2*2最大池化层,包含13个卷积、3个完整连接层、224*224*3的输入数据,具有多个卷积和池化功能用于特征提取。特征提取层大小为3*3*512,用于在密集连接层之前提取并输出图像的高层语义,目的是在类别内精度检索时,加快图形检索的速度。而密集连接层大小为1*4096,将特征提取层输出的值整合为4096大小的向量,为softmax函数图像分类做准备。
CNN网络的初始权重设置为原始权重。特征提取层和最终分类层的权重是随机初始化的。特征提取层的初始权重是随机给出的,再加上密集连接层训练并微调之前设定的参数,最后得到了卷积神经网络模型。
步骤二:利用训练集和验证集对步骤一构建的卷积神经网络模型进行训练,同时利用反向传播对卷积神经网络模型调整参数,将卷积神经网络模型训练为具有特征提取能力和图像分类能力。
VGG16网络的卷积层和池化层可以学习丰富的图像特征。但是,这些特征是高维向量,在大型语料库中图像检索效率很低。为了取得更好的结果,通过反向传播对原始数据集上的网络进行微调。利用反向传播对卷积神经网络模型调整参数的方法为:
1,由于神经网络的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层;
2,在反向传播的过程中,根据误差调整各种参数的值(相连神经元的权重),使得总损失函数减小。
步骤三:对测试集数据构造二进制哈希索引:将测试集中的图像输入步骤二中训练完成的卷积神经网络模型,对图像进行特征提取,得到3*3*512特征向量,利用哈希函数映射将特征向量映射到二进制哈希码(即哈希索引码),利用softmax分类函数对密集连接层输出的向量进行分类,将测试集中的图像按类别分类构造类别索引码,从而构建二级索引库。
哈希函数映射通过离散余弦变换将图像从像素域变换到频率域。一般图像都存在很多冗余和相关性的,所以转换到频率域之后,只有很少的一部分频率分量的系数才不为0,大部分系数都为0(或者说接近于0)。经过离散余弦变换后的系数矩阵从左上角到右下角频率越来越高,因此图片的能量主要保留在左上角的低频系数上了。离散余弦变换的结果是32*32大小的矩阵,但只要保留左上角的8*8的矩阵。计算所有64个像素的灰度平均值即为离散余弦变换均值。设置0和1组成的64位哈希值,大于等于离散余弦变换均值的设为“1”,小于离散余弦变换均值的设为“0”,组合在一起,就构成了一个64位的二进制哈希码H。
同时,卷积神经网络的softmax分类函数对数据集图像进行分类,将图片按类别构造类别索引码,类别索引码S用10位二进制表示,从0000000000到1111111111分别代表不同的图像类别。
Softmax函数分类判别公式为:
其中,xi为密集连接层输出的4096维度向量(列向量),θk为步骤二训练模型得到的输出层参数,列向量,是θk的转置,将列向量转为行向量。k表示类别的个数;P(i)为输入图像是某类别的概率,其值在区间[0,1]。
再利用公式
其中,s(i)为每个二进制位的值,10个二进制数s组成类别索引码S。若概率大于0.5,则该二进制位的值为位1,否则为0。这样就将softmax分类函数输出的概率值转化为了对应的二进制类别码S,值的区间为(0000000000~1111111111)。
此时已经得到了每张图像的二进制类别码S和二进制哈希索引码H。注:若输入的为检索图像,获得S和H即可,则到此结束。若输入的是测试集数据,则继续进行。由于不同的图像会对应相同的类别,例如:两张小猫的图像会得到同样的类别码,所以就得到了二级索引库,所有二进制类别码组成第一级索引,所有二进制哈希索引码组成第二级索引。如图3所示:第一行为第一级索引,类别1、类别2……分别代表着不同类别的图像。第二行为第二级索引,哈希索引码列表1、2……分别汇总着对应类别下所有图像的哈希索引码。
测试集由两部分组成,一大部分用于建立索引,一小部分用于检索。这是国际通用的数据集用法:1,2用于训练模型,3用于实验数据。
表1数据集构成图
步骤四:将检索图像输入训练好的卷积神经网络模型,获得待检索图像的3*3*512特征向量,进行第一阶段的检索:利用哈希函数映射得到二进制哈希码,利用softmax分类函数得到二进制类别码,即经过步骤三中测试集相同的操作得到该检索图像的二进制哈希编码Hj和二进制类别码Sj,根据二进制类别码在二级索引库中检索得到哈希索引码列表。
为了方便图像的高效检索,降低计算成本,通过特征提取层提取特征向量,并通过哈希函数将它们映射到二进制哈希码H,同时用softmax分类函数输出二级制类别码S,再将二进制哈希码H和二进制类别码S整合为二级索引库。因此,可以通过两阶段检索策略实现快速图像检索。
进行第一步检索:在第一级索引中检索待检索图像的二进制类别码对应的哈希索引码列表L(即候选池L)。由于二制制类别码是由10位二进制码所组成,因此检索速度非常快。
步骤五:进行第二阶段检索:将二进制哈希编码的值传递到哈希索引码列表中进行局部敏感哈希(LSH)操作,得到根据相似度排序的检索结果。
根据步骤四中得到的相对应的哈希索引码列表L和二级制哈希编码Hj,进行第二步的检索。局部敏感哈希(LSH)操作使用欧里得空间中常用的LSH函数:
其中,随机生成一个d维向量a,其每个分量独立服从标准正态分布N(0,1),将向量a所在直线等分成宽度为W的区段。b是一个随机数,服从[0,W)上的均匀分布。H为输入的二进制哈希码,Q(H)表示二进制哈希码经过局部敏感哈希后在d维欧式空间的映射。首先计算两点经过哈希之后的冲突概率,使用f2(t)表示正态分布的绝对值的概率密度函数,对于点H1和点H2,r=|H1-H2|为两点的欧式距离。经过哈希函数映射之后两点的冲突概率为:
当宽度w固定时,x1和x2之间的碰撞概率随它们之间的距离r的增加而单调减小。t为积分变量,t的区间为[0,W]。同样碰撞概率越大,则说明两个图像的相似度越高。
第二步的检索目标是从哈希索引列表L中找出所有与检索图像二进制哈希编码Hj的欧氏距离不大于查询范围r的所有图像。求得冲突概率p(s)后,将哈希索引列表中的二进制哈希码按对应的冲突率从大到小依次排序,再根据二进制哈希码输出相对应的图像,图像检索结束。
本发明采用图像检索两阶段的概念,使用模型的特征提取层和哈希映射函数得到检索图像的二进制哈希码Hj,再利用模型的softmax分类函数得到检索图像的二进制类别码Sj。第一步通过二进制类别码Sj检索到一组具有类似类级语义的候选(候选池L)。第二步使用二进制哈希码H经行局部敏感哈希在候选池L中检索图像,实现图像的准确、快速检索。
本发明第一个部分在VGG16网络的卷积层和密集连接层之间添加一个新的隐藏层(即特征提取层)构建具备特征提取和图像分类能力的卷积神经网络模型。第二个部分将测试集数据输入卷积神经网络模型,使用特征提取层提取每张照片的特征向量,并利用哈希函数映射为二进制哈希码,同时使用softmax分类函数对图像进行分类生成对应的二进制类别码,最后构建二级索引库哈希索引库。最后一部分是使用两阶段检索策略进行图像检索,该策略首先对检索图像生成二进制类别码和二进制哈希码,然后在相对应类别下检索。第一步检索,在第一级索引中检索该图像的二进制类别码对应的哈希索引码列表L(即候选池);第二部检索利用局部敏感哈希在候选池中找出相似的图片。
为了验证本发明的性能,首先介绍数据集,然后介绍实验结果,并将其性能与公共数据集(CIFAR-10数据集)上的几种最先进的数据集进行比较。最后,验证了本发明在大规模ImageNet数据集上的可扩展性和有效性。CIFAR-10数据集包含10个对象类别,每个类别包含6000个图像,总共生成60000个图像。该数据集分为训练和测试集,分别包含50000和10000个图像。
ImageNet数据集共包含14197122个图像,分为21841个特定类。数据集是一项持续的研究工作,旨在为世界各地的研究人员提供可访问的图像数据。所有图像都标有类别,如鸟、回形针等。图4显示了数据集的一些示例。在CIFAR-10数据集和ImageNet2012数据集的实验中,使用本发明分层搜索检索相关图像,以便与其他哈希算法进行比较。
使用基于排名的标准和精度-召回曲线进行评估。给定查询图像q和相似性度量,可以为每个数据集图像分配排名。精确评估前g个图像相对于查询图像q的排名:
其中,Rel(u)表示查询图像q和第u个排名图像之间的相关性。对于查询图像q,若输出图像的类别标签和查询图像q的类别标签相同,则Rel(u)∈{0,1}为1,否则为0。
CIFAR-10数据集下的结果:为了与其他哈希算法进行公平的比较,统一了512维度向量检索相关图像的评估方法。图5显示了相对于检索到的样本在不同数量下的精度曲线。本发明比其他无监督和受监督的方法拥有更好的性能。由图5可以看出,无论检索到多少图像,本发明都表现出稳定的性能,稳定在97.5%的精度。即使改变检索到的图像数量,本发明也比CNNH+(R.Xia,Y.Pan,H.Lai,C.Liu,and S.Yan.Supervised hash-ing for imageretrieval via image representation learning.In Proc.AAAI,2014.)、ITQ(Y.Gongand S.Lazebnik.Iterative quantization:A pro-crustean method to learningbinary codes.In Proc.CVPR,pages 817–824,2011.)的精度分别提高了3%、9%,几乎是KSH(W.Liu,J.Wang,R.Ji,Y.-G.Jiang,and S.-F.Chang.Su-pervised hashing withkernels.In Proc.CVPR,pages 2074–2081,2012.)的两倍。实验结果表明,利用潜在层在卷积层后提取图像特征向量,然后进行两阶段检索是一种切实可行的方法。图6显示了本发明和其他不同方法的精度调用曲线。显然,在平衡点和离线区域方面,本发明比其他无监督和受监督的方法具有更好的性能。
图7显示了检索结果,本发明的卷积神经网络模型成功检索了具有相关类别和类似外观的图像,图7(a)和图7(b)中的顶部是输入,底部是输出。从图7中可以明显发现,检索到的图像具有极高的相似性。例如,检索到的飞机图像是飞机的左侧。特别是前三张图片都位于飞机的左侧,图中物体角度几乎相同。
为了进一步验证本发明的准确性,在同一类别中使用了不同样式的图片,例如,不同背景的鸟类,如图8所示。图8显示了即使对于同一类别标记下的图像,本发明也能获得很好的检索结果。虽然输入都是鸟类的照片,但由于背景图像不同,本发明给出了相应的输出结果。由于输入的两个图像都是鸟(图8中(a)和(b)),因此查看了两个图片经过softmax函数输出的二进制类别码是否具有一致性。实验发现,两个图像具有同样的二进制类别码1001101100,然而检索输出的图像却截然不同,虽然都是鸟类的图像,但是输出图像却因为输入图像鸟的背景不同而发生了相应变化,图8(a)中的鸟站在树枝上,输出的鸟也都是站在树枝上;图8(b)中的鸟站在平地上,输出的鸟也都在平地上。进一步发现两个输入图像具有不同的二进制哈希码,这说明在第二阶段图像检索时,二进制哈希码发挥了强大的作用。两个图像的实验证明,即使输入图像具有相同类别码,但是由于二进制哈希码的不同,在进行第二阶段检索时我们的模型在依然能给出相应不同的但更精确的结果。
进一步使用图像的本地信息来检索原始图像,从索引图像中随机提取和裁剪图像,然后,使用裁剪的图像作为输入图像来验证本发明是否可以匹配其原始图像。图9的结果表明,本发明取得了良好的效果。输出的第一个图像都是输入的图像的完整图像。
本发明利用了卷积神经网络强大的图像特征提取能力,首先利用softmax分类器对图像进行分类;然后在相应的图像类别下进一步搜索。本发明具有良好的分类精度、稳定性和搜索速度。通过修改和优化,本发明可以在大型公共数据集中实现更好的图像检索结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于卷积神经网络的两阶段图像检索方法,其特征在于,其步骤如下:
步骤一:在VGG16网络的卷积层和密集连接层之间添加一个特征提取层构建卷积神经网络模型;将数据集分成训练集、验证集和测试集;
步骤二:利用训练集和验证集对步骤一构建的卷积神经网络模型进行训练,同时利用反向传播调整卷积神经网络模型的参数,将卷积神经网络模型训练为具有特征提取能力和图像分类能力;
步骤三:将测试集中的图像输入步骤二中训练好的卷积神经网络模型,特征提取层对图像进行特征提取得到特征向量,利用哈希函数映射将特征向量映射得到二进制哈希码,利用softmax分类函数对密集连接层输出的向量进行分类,将测试集中的图像按类别分类构造类别索引码,从而构建二级索引库;
步骤四:将待检索图像输入训练好的卷积神经网络模型,获得待检索图像的特征向量和密集连接层输出向量,进行第一阶段的检索:将待检索图像的密集连接层输出向量输入softmax分类函数得到二进制类别码,根据二进制类别码在二级索引库中检索得到哈希索引码列表;
步骤五:进行第二阶段检索:利用哈希函数映射处理待检索图像的特征向量得到二进制哈希码,将二进制哈希码的值传递到哈希索引码列表中进行局部敏感哈希操作,得到根据相似度排序的检索结果。
2.根据权利要求1所述的基于卷积神经网络的两阶段图像检索方法,其特征在于,所述卷积神经网络模型中VGG16网络的结构包括依次连接的卷积层、特征提取层和密集连接层,其中,卷积层包括依次连接的两个卷积层I、池化层I、三个卷积层II、池化层II、三个卷积层III、池化层III、三个卷积层IV、池化层IV和三个卷积层V,卷积层I-V的大小都为3*3,池化层I-IV的大小都为2*2;特征提取层和最终分类层的权重是随机初始化的,特征提取层的初始权重是随机的,密集连接层训练并微调之前设定的参数。
4.根据权利要求1或3所述的基于卷积神经网络的两阶段图像检索方法,其特征在于,所述哈希函数映射通过离散余弦变换将图像从像素域变换到频率域,经过离散余弦变换后的系数矩阵从左上角到右下角频率越来越高,因此图片的能量主要保留在左上角的低频系数上了,只要保留系数矩阵左上角的8*8的矩阵,计算所有64个像素的灰度平均值为离散余弦变换均值;设置0和1组成的64位哈希值,大于等于离散余弦变换均值的设为1,小于离散余弦变换均值的设为0,组合在一起,构成一个64位的二进制哈希码。
5.根据权利要求4所述的基于卷积神经网络的两阶段图像检索方法,其特征在于,所述类别索引码用10位二进制表示,从0000000000到1111111111分别代表不同的图像类别;所述类别索引码的构造方法为:
softmax分类函数的判别公式为:
将softmax分类函数输出的概率P(i)转化为二进制数:
其中,s(i)为每个二进制位的值,10个二进制数s组成二进制类别码S;若概率大于0.5,则该二进制位的值为位1,否则为0。
6.根据权利要求5所述的基于卷积神经网络的两阶段图像检索方法,其特征在于,所述二级索引库中二进制类别码组成第一级索引,二进制哈希索引码组成第二级索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911396473.7A CN111198959B (zh) | 2019-12-30 | 2019-12-30 | 一种基于卷积神经网络的两阶段图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911396473.7A CN111198959B (zh) | 2019-12-30 | 2019-12-30 | 一种基于卷积神经网络的两阶段图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111198959A true CN111198959A (zh) | 2020-05-26 |
CN111198959B CN111198959B (zh) | 2023-03-28 |
Family
ID=70746395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911396473.7A Active CN111198959B (zh) | 2019-12-30 | 2019-12-30 | 一种基于卷积神经网络的两阶段图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111198959B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858990A (zh) * | 2020-07-28 | 2020-10-30 | 上海喆塔信息科技有限公司 | 一种基于卷积分类网络的晶圆图失效模式相似检索的方法 |
CN111930980A (zh) * | 2020-08-21 | 2020-11-13 | 深圳市升幂科技有限公司 | 图像检索模型的训练方法及图像检索方法、装置、及介质 |
CN111931743A (zh) * | 2020-10-09 | 2020-11-13 | 杭州科技职业技术学院 | 建筑违章监控方法、系统和电子设备 |
CN112132782A (zh) * | 2020-08-21 | 2020-12-25 | 广东省人民医院 | 一种基于深度神经网络对dme分型进行处理的方法和终端 |
CN112395457A (zh) * | 2020-12-11 | 2021-02-23 | 中国搜索信息科技股份有限公司 | 一种应用于视频版权保护的视频待检索定位方法 |
CN112417381A (zh) * | 2020-12-11 | 2021-02-26 | 中国搜索信息科技股份有限公司 | 应用于图像版权保护的快速定位侵权图像的方法及装置 |
CN112529018A (zh) * | 2020-12-22 | 2021-03-19 | 北京百度网讯科技有限公司 | 图像局部特征的训练方法、装置及存储介质 |
CN112685580A (zh) * | 2020-12-25 | 2021-04-20 | 公安部第三研究所 | 基于深度学习的社交网络头像比对的分布式检测系统、方法、装置、处理器及其存储介质 |
CN112884005A (zh) * | 2021-01-21 | 2021-06-01 | 汉唐信通(北京)科技有限公司 | 一种基于sptag及卷积神经网的图像检索方法及装置 |
CN113012098A (zh) * | 2021-01-25 | 2021-06-22 | 郑州轻工业大学 | 一种基于bp神经网络的铁塔角钢冲孔缺陷检测方法 |
CN113221658A (zh) * | 2021-04-13 | 2021-08-06 | 卓尔智联(武汉)研究院有限公司 | 图像处理模型的训练方法、装置、电子设备及存储介质 |
CN113254687A (zh) * | 2021-06-28 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 图像检索、图像量化模型训练方法、装置和存储介质 |
CN114064952A (zh) * | 2021-07-09 | 2022-02-18 | 武汉邦拓信息科技有限公司 | 一种基于空间感知增强的图形检索方法 |
CN115337026A (zh) * | 2022-10-19 | 2022-11-15 | 之江实验室 | 一种基于卷积神经网络的eeg信号特征检索方法、装置 |
CN116468960A (zh) * | 2023-06-19 | 2023-07-21 | 南京朵盛信息技术有限公司 | 一种视频图像分析检索方法及系统 |
CN113761262B (zh) * | 2021-09-03 | 2024-02-20 | 奇安信科技集团股份有限公司 | 图像的检索类别确定方法、系统以及图像检索方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017092183A1 (zh) * | 2015-12-03 | 2017-06-08 | 中山大学 | 一种基于可变长深度哈希学习的图像检索方法 |
CN106815362A (zh) * | 2017-01-22 | 2017-06-09 | 福州大学 | 一种基于kpca多表索引图像哈希检索方法 |
CN107092661A (zh) * | 2017-03-28 | 2017-08-25 | 桂林明辉信息科技有限公司 | 一种基于深度卷积神经网络的图像检索方法 |
CN109165306A (zh) * | 2018-08-09 | 2019-01-08 | 长沙理工大学 | 基于多任务哈希学习的图像检索方法 |
-
2019
- 2019-12-30 CN CN201911396473.7A patent/CN111198959B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017092183A1 (zh) * | 2015-12-03 | 2017-06-08 | 中山大学 | 一种基于可变长深度哈希学习的图像检索方法 |
CN106815362A (zh) * | 2017-01-22 | 2017-06-09 | 福州大学 | 一种基于kpca多表索引图像哈希检索方法 |
CN107092661A (zh) * | 2017-03-28 | 2017-08-25 | 桂林明辉信息科技有限公司 | 一种基于深度卷积神经网络的图像检索方法 |
CN109165306A (zh) * | 2018-08-09 | 2019-01-08 | 长沙理工大学 | 基于多任务哈希学习的图像检索方法 |
Non-Patent Citations (1)
Title |
---|
黄文明等: "基于卷积神经网络的哈希在图像检索中的应用", 《计算机工程与设计》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858990A (zh) * | 2020-07-28 | 2020-10-30 | 上海喆塔信息科技有限公司 | 一种基于卷积分类网络的晶圆图失效模式相似检索的方法 |
CN112132782B (zh) * | 2020-08-21 | 2023-09-05 | 广东省人民医院 | 一种基于深度神经网络对dme分型进行处理的方法和终端 |
CN111930980A (zh) * | 2020-08-21 | 2020-11-13 | 深圳市升幂科技有限公司 | 图像检索模型的训练方法及图像检索方法、装置、及介质 |
CN112132782A (zh) * | 2020-08-21 | 2020-12-25 | 广东省人民医院 | 一种基于深度神经网络对dme分型进行处理的方法和终端 |
CN111931743A (zh) * | 2020-10-09 | 2020-11-13 | 杭州科技职业技术学院 | 建筑违章监控方法、系统和电子设备 |
CN112395457A (zh) * | 2020-12-11 | 2021-02-23 | 中国搜索信息科技股份有限公司 | 一种应用于视频版权保护的视频待检索定位方法 |
CN112417381A (zh) * | 2020-12-11 | 2021-02-26 | 中国搜索信息科技股份有限公司 | 应用于图像版权保护的快速定位侵权图像的方法及装置 |
CN112529018A (zh) * | 2020-12-22 | 2021-03-19 | 北京百度网讯科技有限公司 | 图像局部特征的训练方法、装置及存储介质 |
CN112685580A (zh) * | 2020-12-25 | 2021-04-20 | 公安部第三研究所 | 基于深度学习的社交网络头像比对的分布式检测系统、方法、装置、处理器及其存储介质 |
CN112884005A (zh) * | 2021-01-21 | 2021-06-01 | 汉唐信通(北京)科技有限公司 | 一种基于sptag及卷积神经网的图像检索方法及装置 |
CN113012098A (zh) * | 2021-01-25 | 2021-06-22 | 郑州轻工业大学 | 一种基于bp神经网络的铁塔角钢冲孔缺陷检测方法 |
CN113221658A (zh) * | 2021-04-13 | 2021-08-06 | 卓尔智联(武汉)研究院有限公司 | 图像处理模型的训练方法、装置、电子设备及存储介质 |
CN113254687B (zh) * | 2021-06-28 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 图像检索、图像量化模型训练方法、装置和存储介质 |
CN113254687A (zh) * | 2021-06-28 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 图像检索、图像量化模型训练方法、装置和存储介质 |
CN114064952A (zh) * | 2021-07-09 | 2022-02-18 | 武汉邦拓信息科技有限公司 | 一种基于空间感知增强的图形检索方法 |
CN113761262B (zh) * | 2021-09-03 | 2024-02-20 | 奇安信科技集团股份有限公司 | 图像的检索类别确定方法、系统以及图像检索方法 |
CN115337026A (zh) * | 2022-10-19 | 2022-11-15 | 之江实验室 | 一种基于卷积神经网络的eeg信号特征检索方法、装置 |
CN115337026B (zh) * | 2022-10-19 | 2023-03-10 | 之江实验室 | 一种基于卷积神经网络的eeg信号特征检索方法、装置 |
CN116468960A (zh) * | 2023-06-19 | 2023-07-21 | 南京朵盛信息技术有限公司 | 一种视频图像分析检索方法及系统 |
CN116468960B (zh) * | 2023-06-19 | 2023-08-25 | 南京朵盛信息技术有限公司 | 一种视频图像分析检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111198959B (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111198959B (zh) | 一种基于卷积神经网络的两阶段图像检索方法 | |
CN105912611B (zh) | 一种基于cnn的快速图像检索方法 | |
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
JP5926291B2 (ja) | 類似画像を識別する方法および装置 | |
Zhu et al. | Theory of keyblock-based image retrieval | |
CN104036012B (zh) | 字典学习、视觉词袋特征提取方法及检索系统 | |
CN108280187B (zh) | 一种基于卷积神经网络深度特征的分级图像检索方法 | |
CN109063112B (zh) | 一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法 | |
Huang et al. | Object-location-aware hashing for multi-label image retrieval via automatic mask learning | |
Bergamo et al. | Classemes and other classifier-based features for efficient object categorization | |
CN106033426A (zh) | 一种基于潜在语义最小哈希的图像检索方法 | |
Cheng et al. | Semi-supervised multi-graph hashing for scalable similarity search | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
Passalis et al. | Learning neural bag-of-features for large-scale image retrieval | |
CN112182262B (zh) | 一种基于特征分类的图像查询方法 | |
Xu et al. | Iterative manifold embedding layer learned by incomplete data for large-scale image retrieval | |
CN111782852B (zh) | 基于深度学习的高层次语义图像检索方法 | |
Keisham et al. | Efficient content-based image retrieval using deep search and rescue algorithm | |
Lu et al. | Adversarial multi-label variational hashing | |
Wang et al. | Robust local metric learning via least square regression regularization for scene recognition | |
Kishore et al. | A Multi-class SVM Based Content Based Image Retrieval System Using Hybrid Optimization Techniques. | |
Song et al. | Hierarchical deep hashing for image retrieval | |
WO2012077818A1 (ja) | ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム | |
Liang et al. | Deep hashing with multi-task learning for large-scale instance-level vehicle search | |
Weng et al. | Random VLAD based deep hashing for efficient image retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |