CN116861022A - 一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法 - Google Patents
一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法 Download PDFInfo
- Publication number
- CN116861022A CN116861022A CN202310841050.1A CN202310841050A CN116861022A CN 116861022 A CN116861022 A CN 116861022A CN 202310841050 A CN202310841050 A CN 202310841050A CN 116861022 A CN116861022 A CN 116861022A
- Authority
- CN
- China
- Prior art keywords
- query
- image
- vector
- namely
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 18
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 238000012795 verification Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 71
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000011176 pooling Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000000691 measurement method Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 241000764238 Isis Species 0.000 description 1
- 101150071716 PCSK1 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/535—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像检索(ImageRetrieval)技术领域,尤其为通过设计一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法,其步骤具体如下:步骤S1:图像检索的开源数据集中训练集和验证集;步骤S2:训练时,模型的输入;步骤S3:测试检索排名;步骤S4:图像检索的损失函数采用对比损失函数,模型评价指标除了mAP以外,还新增mP@k,本方法通过设计一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法,该算法利用深度卷积的方式提取获取gallery库和query库的图像特征,进行LSH哈希编码,大大提升了检索性能,使用孪生网络中的对比学习,大大提升了检索精度。
Description
技术领域
本发明涉及图像检索(Image Retrieval)技术领域,具体为一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法。
背景技术
以图搜图,或称图像检索,是一种通过输入一张图像(多张可存放在query库),在图像库(也称gallery库),通常利用计算机视觉等技术,对输入图像进行特征提取,并与图像库中进行特征匹配,快速准确在图像库中查询到与之类似或相同图像的过程。目前,已有的真正能运用的基于图像内容的检索技术领域主要有2种:一种是基于图像特征(如颜色、纹理等)来区分不同的图像,将图像转换为颜色直方图等方式,利用相似性度量方法(如欧氏距离、余弦相似度等)方式计算图像之间的相似度。这种方法简单易实现,但对于复杂的图像来说,可能无法捕捉到图像的更高级别的语义特征,因此检索效果有限。另一种,基于深度学习的检索技术:利用卷积神经网络(CNN)等深度学习模型进行特征提取和匹配。这种方法可以有效地提取高级别的语义特征,并且在大规模数据集上进行端到端的训练,从而获得更好的性能。但需要大量的数据和计算资源,且对于小规模的数据集效果不佳。前者提取特征有限,只能运用到简单的图像比对,不适合实际场景应用,后者依赖大量的数据支持,精度无法保证。
综上所述,本发明通过设计一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法来解决存在的速度和精度无法同时保证的问题。
发明内容
为了克服检索复杂图像和精度的问题,本发明的目的在于提供一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法,去重特征冗余,并在损失函数层面进行了优化,实现精度和速度双提升,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法,其步骤具体如下:
步骤S1:图像检索的开源数据集中训练集和验证集采用的是retrieval-SfM-120k,测试集则采用Oxford5k、Paris6k、ROxford5k、RParis6k,如需在自己的数据集上进行训练,需要将数据格式准备为与上述数据集一致,对数据进行预处理后,图片输入大小1024*1024*3,使用深度卷积神经网络ResNet101提取RGB图像特征,涉及到gallery库和query库的图像均需提取特征,为了后续检索比对,从gallery库和query库提取特征的区别是是否返回LSH编码,通过局部敏感哈希算法LSH对每张图片特征图进行0,1二进制编码,旨在加快查询图像与图像搜索库的匹配速度;
步骤S2:训练时,模型的输入:训练集中的图片通过模型变成特征向量,从中选取QSIZE,即Q-P对的个数个元组,每个元组共有,即1+1+NNUM个特征向量,分别是查询对象Q,正类P和NNUM个负类N1,N2....查询和正类是由Q-P对直接给出;负类是Q由当前模型的在图片池中的查询结果,按照查询顺序从上到下依次选取NNUM个与q在不同簇的图片,且这NNUM个图片也在不同的簇中;模型的输出:每个元组经过模型的向量特征组成的矩阵;
测试时,模型的输入:测试集中图库的图片和查询对象的图片,测试模型的输出:查询对象的特征矩阵,即所有查询对象的特征向量组成的矩阵和图库图片特征矩阵,即图库图片所有的特征向量组成的矩阵;
步骤S3:测试检索排名:图库图片特征矩阵与查询对象特征矩阵的点乘,得到的是scores矩阵,即维度:图库图片数量*查询数量,其中第i行,第j列表示图片池中的第i个图片与第j个查询对象的相似度得分;ranks是scores的按列排序的索引值,即得分高的图片的索引排在前面,是最终的检索结果;
步骤S4:图像检索的损失函数采用对比损失函数,模型评价指标除了mAP以外,还新增mP@k,是结果列表中top-k检索结果的准确率指标,反映了图像搜索引擎的质量;匹配的图片排的越前面得分会越高,不匹配的图片越排在匹配的后面得分会越高。
作为本方法优选的方案,所述S1中的RGB图像维度是W*H*3,H和W分别的特征图的高和宽,3为通道数。
作为本方法优选的方案,所述S2中图像输入为1024*1024*3,图像经过卷积层,也即卷积神经网络,如ResNet101去掉最后一层,即全连接层,再经过GeM池化层和L2归一化操作,即向量单位化,最终形成一个图像的固定维度的向量表示,即高维特征,涉及到gallery库和query库的图像均需提取特征,为了后续检索比对,从gallery库和query库提取特征的区别是是否返回LSH编码,通过局部敏感哈希算法LSH对每张图片特征图进行0,1二进制编码,旨在加快查询图像与图像搜索库的匹配速度;GeM池化,广义平均池化可以提高输出描述符的质量,
GeM池化:
公式2中,当Pk→∞公式(2)为最大池化,当Pk=1公式(2)为平均池化,结合注意力机制。
作为本方法优选的方案,所述检索过程具体步骤如下:
首先,将检索库图片池里的图片转换为列向量特征,多个列向量特征再拼在一起组成矩阵,引入局部敏感哈希算法,即LSH对检索库中的图片进行编码,旨在提升检索效率;LSH算法如下所示:
S1-初始化:随机生成k个随机向量作为初始的哈希表;
S2-计算哈希:对于每个查询向量x,将其哈希为一个哈希值h(x),并将h(x)映射到对应的哈希表中的槽位上;
S3-扩展槽位:如果当前槽位上的元素数量超过了m,则需要进行槽位扩展。具体来说,从所有元素中随机选择p个元素,将它们添加到当前槽位上;
S4-计算相似度:对于每个待查找的向量y,计算其与所有槽位上的元素之间的相似度。常用的相似度度量方法有欧几里得距离、余弦相似度等;
S5-匹配结果:根据每个槽位上的相似度排名,选择前k个槽位作为可能匹配的位置;然后对于每个位置,计算其对应的对象的哈希值,并将其与查询向量进行比较,找到最接近的k个对象;
在S2中计算哈希过程中,对于每张图片特征图进行0,1编号意味着将每个像素点的值,通常为灰度值,转换为二进制数(0或1),并将其作为哈希函数的输入;目的是将图像中的每个像素点表示为一个固定长度的二进制向量,从而使得具有相似属性的对象在哈希空间中被映射到相邻的位置上;此种方法可以提高哈希算法的效率和准确性,因为它允许对图像进行更紧凑的编码,并且可以在相对较短的时间内找到与查询图像最相似的图像;
其次,将查询对象转换为列向量特征,如果有多个查询对象同时查询,则将它们的列向量特征拼成矩阵。
最后,将图片池的特征矩阵转置后与查询对象的向量特征,即计算余弦相似度得到相似度的结果;这个结果中第i行,第j列元素表示的是第i个图片池中的图片与第j个查询对象的相似度。
作为本方法优选的方案,所述S4中的对比损失函数,具体如下:
其中,d表示两个向量的距离,例如一般是欧氏距离;y表示两个输入是否相似,如果相似则为1,如果不相似为0;margin是设定好的阈值,当两个样本的向量距离超过一定值,也就是margin,就表示这两个样本不相似了。从公式(1)上,如果两个输入相似,即y=1,则式中只剩下d2;符合常规理解:如果两个输入相似,向量的距离越大,则损失越大。如果两个输入不相似,即y=0,则式中只剩下max(margin-d,0)2即当两个输入不相似时,若向量的距离大于margin,则损失为0;若向量的距离小于margin,且距离越小,损失越大。
与现有技术相比,本发明的有益效果是:
本发明中,通过设计一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法,该算法利用深度卷积的方式提取获取gallery库和query库的图像特征,进行LSH哈希编码,大大提升了检索性能,使用孪生网络中的对比学习,大大提升了检索精度。
附图说明
图1为本发明网络架构图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:
一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法,包括以下步骤:
步骤S1:图像检索的开源数据集中训练集和验证集采用的是retrieval-SfM-120k,测试集则采用Oxford5k、Paris6k、ROxford5k、RParis6k,如需在自己的数据集上进行训练,需要将数据格式准备为与上述数据集一致,对数据进行预处理后,图片输入大小1024*1024*3,RGB图像维度是W*H*3,H和W分别的特征图的高和宽,3为通道数,使用深度卷积神经网络ResNet101提取RGB图像特征,图像经过卷积层(即卷积神经网络,如ResNet101去掉最后一层【全连接层】),再经过添加注意力机制的GeM池化层和L2归一化操作(即向量单位化),最终形成一个图像的固定维度的向量表示,即高维特征。涉及到gallery库和query库的图像均需提取特征,为了后续检索比对,从gallery库和query库提取特征的区别是是否返回LSH编码,通过局部敏感哈希算法LSH对每张图片特征图进行0,1二进制编码,旨在加快查询图像与图像搜索库的匹配速度;GeM池化,广义平均池化可以提高输出描述符的质量,
GeM池化:
公式2中,当Pk→∞公式(2)为最大池化,当Pk=1公式(2)为平均池化,结合注意力机制,使用的效果如下所示,更加聚焦显著特征:
如图1网络架构图:在ResNet-101中添加3个注意力单元,
Att1单元由卷积核大小3*3,3*1,1*1,1*1四个卷积层组成,第一层步长为2,其余步长为1,输出通道分别为1024、512、512、2048,此外,每个卷积层之后是BN和ReLU激活,除最后一层由sigmoid函数,Att2、Att3都是只包含一个卷积层,卷积核大小为1*1,步长为1,输出通道大小与输入通道大小相同,然后是sigmoid激活,通过GeM池化和L2归一化,最终形成2048维的向量作为输入图像的描述符。
步骤S2:训练时,模型的输入:训练集中的图片通过模型变成特征向量,从中选取QSIZE(Q-P对的个数)个元组。每个元组共有(1+1+NNUM)个特征向量,分别是查询对象Q,正类P和NNUM个负类N1,N2....查询和正类是由Q-P对直接给出。负类是Q由当前模型的在图片池中的查询结果,按照查询顺序从上到下依次选取NNUM个与q在不同簇的图片,且这NNUM个图片也在不同的簇中。模型的输出:每个元组经过模型的向量特征组成的矩阵。测试时,模型的输入:测试集中图库的图片和查询对象的图片,测试模型的输出:查询对象的特征矩阵(所有查询对象的特征向量组成的矩阵)和图库图片特征矩阵(图库图片所有的特征向量组成的矩阵);
步骤S3:测试检索排名:图库图片特征矩阵与查询对象特征矩阵的点乘,得到的是scores矩阵(维度:图库图片数量*查询数量),其中第i行,第j列表示图片池中的第i个图片与第j个查询对象的相似度得分。ranks是scores的按列排序的索引值,即得分高的图片的索引排在前面,是最终的检索结果;
其中,检索过程具体步骤如下:
首先,将检索库图片池里的图片转换为列向量特征,多个列向量特征再拼在一起组成矩阵,引入局部敏感哈希算法(LSH)对检索库中的图片进行编码,旨在提升检索效率;LSH算法如下所示:
S1-初始化:随机生成k个随机向量作为初始的哈希表。
S2-计算哈希:对于每个查询向量x,将其哈希为一个哈希值h(x),并将h(x)映射到对应的哈希表中的槽位上。
S3-扩展槽位:如果当前槽位上的元素数量超过了m,则需要进行槽位扩展。具体来说,从所有元素中随机选择p个元素,将它们添加到当前槽位上。
S4-计算相似度:对于每个待查找的向量y,计算其与所有槽位上的元素之间的相似度。常用的相似度度量方法有欧几里得距离、余弦相似度等。
S5-匹配结果:根据每个槽位上的相似度排名,选择前k个槽位作为可能匹配的位置。然后对于每个位置,计算其对应的对象的哈希值,并将其与查询向量进行比较,找到最接近的k个对象。
在S2中计算哈希过程中,对于每张图片特征图进行0,1编号意味着将每个像素点的值(通常为灰度值)转换为二进制数(0或1),并将其作为哈希函数的输入。这样做的目的是将图像中的每个像素点表示为一个固定长度的二进制向量,从而使得具有相似属性的对象在哈希空间中被映射到相邻的位置上。这种方法可以提高哈希算法的效率和准确性,因为它允许对图像进行更紧凑的编码,并且可以在相对较短的时间内找到与查询图像最相似的图像。
其次,将查询对象转换为列向量特征,如果有多个查询对象同时查询,则将它们的列向量特征拼成矩阵。
最后,将图片池的特征矩阵转置后与查询对象的向量特征(即计算余弦相似度)得到相似度的结果。这个结果中第i行,第j列元素表示的是第i个图片池中的图片与第j个查询对象的相似度。
步骤S4:图像检索的损失函数采用对比损失函数。模型评价指标除了mAP以外,还新增mP@k,是结果列表中top-k检索结果的准确率指标,反映了图像搜索引擎的质量。匹配的图片排的越前面得分会越高,不匹配的图片越排在匹配的后面得分会越高。对比损失函数,具体如下:
其中,d表示两个向量的距离,例如一般是欧氏距离;y表示两个输入是否相似,如果相似则为1,如果不相似为0;margin是设定好的阈值,当两个样本的向量距离超过一定值,也就是margin,就表示这两个样本不相似了。从公式(1)上,如果两个输入相似(即y=1),则式中只剩下d2。符合常规理解:如果两个输入相似,向量的距离越大,则损失越大。如果两个输入不相似(即y=0),则式中只剩下max(margin-d,0)2即当两个输入不相似时,若向量的距离大于margin,则损失为0;若向量的距离小于margin,且距离越小,损失越大。
实施例:
算法的步骤具体如下:
图像输入为1024*1024*3,图像经过卷积层(也即卷积神经网络,如ResNet等去掉最后一层【全连接层】),再经过GeM池化层和L2归一化操作(即向量单位化),最终形成一个图像的固定维度的向量表示。通过LSH算法,对每张图片的特征图进行0、1二进制编号,对所有图片进行特征编码,为每张图片的尺寸可以不一样,Resnet101网络的最后通过一个全连接层输出1*2048,因此特征图每个特征编码是1*2048。同时对检索图像进行特征编码后进入图像检索,将gallery库的特征矩阵转置后与检索对象的向量特征(即计算余弦相似度)得到相似度的结果。这个结果中第i行,第j列元素表示的是第i个图片池中的图片与第j个查询对象的相似度。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法,其步骤具体如下:
步骤S1:图像检索的开源数据集中训练集和验证集采用的是retrieval-SfM-120k,测试集则采用Oxford5k、Paris6k、ROxford5k、RParis6k,如需在自己的数据集上进行训练,需要将数据格式准备为与上述数据集一致,对数据进行预处理后,图片输入大小1024*1024*3,使用深度卷积神经网络ResNe t101提取RGB图像特征,涉及到gallery库和query库的图像均需提取特征,为了后续检索比对,从gallery库和query库提取特征的区别是是否返回LSH编码,通过局部敏感哈希算法LSH对每张图片特征图进行0,1二进制编码,旨在加快查询图像与图像搜索库的匹配速度;
步骤S2:训练时,模型的输入:训练集中的图片通过模型变成特征向量,从中选取QSIZE,即Q-P对的个数个元组,每个元组共有,即1+1+NNUM个特征向量,分别是查询对象Q,正类P和NNUM个负类N1,N2....查询和正类是由Q-P对直接给出;负类是Q由当前模型的在图片池中的查询结果,按照查询顺序从上到下依次选取NNUM个与q在不同簇的图片,且这NNUM个图片也在不同的簇中;模型的输出:每个元组经过模型的向量特征组成的矩阵;
测试时,模型的输入:测试集中图库的图片和查询对象的图片,测试模型的输出:查询对象的特征矩阵,即所有查询对象的特征向量组成的矩阵和图库图片特征矩阵,即图库图片所有的特征向量组成的矩阵;
步骤S3:测试检索排名:图库图片特征矩阵与查询对象特征矩阵的点乘,得到的是scores矩阵,即维度:图库图片数量*查询数量,其中第i行,第j列表示图片池中的第i个图片与第j个查询对象的相似度得分;ranks是scores的按列排序的索引值,即得分高的图片的索引排在前面,是最终的检索结果;
步骤S4:图像检索的损失函数采用对比损失函数,模型评价指标除了mAP以外,还新增mP@k,是结果列表中top-k检索结果的准确率指标,反映了图像搜索引擎的质量;匹配的图片排的越前面得分会越高,不匹配的图片越排在匹配的后面得分会越高。
2.根据权利要求1所述的一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法,其特征在于,所述S1中的RGB图像维度是W*H*3,H和W分别的特征图的高和宽,3为通道数。
3.根据权利要求1所述的一基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索技术,其特征在于,所述S2中图像输入为1024*1024*3,图像经过卷积层,也即卷积神经网络,如ResNet101去掉最后一层,即全连接层,再经过GeM池化层和L2归一化操作,即向量单位化,最终形成一个图像的固定维度的向量表示,即高维特征,涉及到gallery库和query库的图像均需提取特征,为了后续检索比对,从gallery库和query库提取特征的区别是是否返回LSH编码,通过局部敏感哈希算法LSH对每张图片特征图进行0,1二进制编码,旨在加快查询图像与图像搜索库的匹配速度;GeM池化,广义平均池化可以提高输出描述符的质量,
GeM池化:
公式2中,当Pk→∞公式(2)为最大池化,当Pk=1公式(2)为平均池化,结合注意力机制。
4.根据权利要求1所述的一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法,其特征在于,所述检索过程具体步骤如下:
首先,将检索库图片池里的图片转换为列向量特征,多个列向量特征再拼在一起组成矩阵,引入局部敏感哈希算法,即LSH对检索库中的图片进行编码,旨在提升检索效率;LSH算法如下所示:
S1-初始化:随机生成k个随机向量作为初始的哈希表;
S2-计算哈希:对于每个查询向量x,将其哈希为一个哈希值h(x),并将h(x)映射到对应的哈希表中的槽位上;
S3-扩展槽位:如果当前槽位上的元素数量超过了m,则需要进行槽位扩展。具体来说,从所有元素中随机选择p个元素,将它们添加到当前槽位上;
S4-计算相似度:对于每个待查找的向量y,计算其与所有槽位上的元素之间的相似度。常用的相似度度量方法有欧几里得距离、余弦相似度等;
S5-匹配结果:根据每个槽位上的相似度排名,选择前k个槽位作为可能匹配的位置;然后对于每个位置,计算其对应的对象的哈希值,并将其与查询向量进行比较,找到最接近的k个对象;
在S2中计算哈希过程中,对于每张图片特征图进行0,1编号意味着将每个像素点的值,通常为灰度值,转换为二进制数(0或1),并将其作为哈希函数的输入;目的是将图像中的每个像素点表示为一个固定长度的二进制向量,从而使得具有相似属性的对象在哈希空间中被映射到相邻的位置上;此种方法可以提高哈希算法的效率和准确性,因为它允许对图像进行更紧凑的编码,并且可以在相对较短的时间内找到与查询图像最相似的图像;
其次,将查询对象转换为列向量特征,如果有多个查询对象同时查询,则将它们的列向量特征拼成矩阵。
最后,将图片池的特征矩阵转置后与查询对象的向量特征,即计算余弦相似度得到相似度的结果;这个结果中第i行,第j列元素表示的是第i个图片池中的图片与第j个查询对象的相似度。
5.根据权利要求1所述的一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法,其特征在于,所述S4中的对比损失函数,具体如下:
其中,d表示两个向量的距离,例如一般是欧氏距离;y表示两个输入是否相似,如果相似则为1,如果不相似为0;margin是设定好的阈值,当两个样本的向量距离超过一定值,也就是margin,就表示这两个样本不相似了。从公式(1)上,如果两个输入相似,即y=1,则式中只剩下d2;符合常规理解:如果两个输入相似,向量的距离越大,则损失越大。如果两个输入不相似,即y=0,则式中只剩下max(margin-d,0)2即当两个输入不相似时,若向量的距离大于margin,则损失为0;若向量的距离小于margin,且距离越小,损失越大。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310841050.1A CN116861022A (zh) | 2023-07-11 | 2023-07-11 | 一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310841050.1A CN116861022A (zh) | 2023-07-11 | 2023-07-11 | 一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116861022A true CN116861022A (zh) | 2023-10-10 |
Family
ID=88233690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310841050.1A Pending CN116861022A (zh) | 2023-07-11 | 2023-07-11 | 一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116861022A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573915A (zh) * | 2024-01-16 | 2024-02-20 | 山东建筑大学 | 基于对比学习的二值码图像检索方法及系统 |
-
2023
- 2023-07-11 CN CN202310841050.1A patent/CN116861022A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573915A (zh) * | 2024-01-16 | 2024-02-20 | 山东建筑大学 | 基于对比学习的二值码图像检索方法及系统 |
CN117573915B (zh) * | 2024-01-16 | 2024-04-26 | 山东建筑大学 | 基于对比学习的二值码图像检索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | A deeper look at facial expression dataset bias | |
Van Der Maaten | Barnes-hut-sne | |
CN107577990B (zh) | 一种基于gpu加速检索的大规模人脸识别方法 | |
CN106649715B (zh) | 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法 | |
CN104199827B (zh) | 基于局部敏感哈希的大规模多媒体数据的高维索引方法 | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
CN105095435A (zh) | 一种图像高维特征的相似比较方法及装置 | |
WO2021098585A1 (en) | Image search based on combined local and global information | |
CN109871454B (zh) | 一种鲁棒离散监督跨媒体哈希检索方法 | |
CN108304573A (zh) | 基于卷积神经网络和监督核哈希的目标检索方法 | |
CN106033426A (zh) | 一种基于潜在语义最小哈希的图像检索方法 | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
CN109145143A (zh) | 图像检索中的序列约束哈希算法 | |
CN107180079B (zh) | 基于卷积神经网络以及树与哈希结合索引的图像检索方法 | |
CN114064948A (zh) | 基于广义平均池化策略的哈希图像检索方法及装置 | |
CN116861022A (zh) | 一种基于深度卷积神经网络和局部敏感哈希算法相结合的图像检索方法 | |
CN111241326A (zh) | 基于注意力金字塔图网络的图像视觉关系指代定位方法 | |
Chakraborty et al. | Cascaded asymmetric local pattern: a novel descriptor for unconstrained facial image recognition and retrieval | |
CN111832706A (zh) | 基于哈希中心的连续学习方法 | |
CN109241315B (zh) | 一种基于深度学习的快速人脸检索方法 | |
Sun et al. | Search by detection: Object-level feature for image retrieval | |
CN111563180A (zh) | 一种基于深度哈希方法的商标图像检索方法 | |
Liang et al. | Deep hashing with multi-task learning for large-scale instance-level vehicle search | |
CN111914108A (zh) | 基于语义保持的离散监督跨模态哈希检索方法 | |
CN112650877B (zh) | 一种基于改进的深度残差卷积神经网络和深度哈希的高清遥感图像快速检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |