CN114547358A - 一种多尺度特征融合的图像检索方法 - Google Patents
一种多尺度特征融合的图像检索方法 Download PDFInfo
- Publication number
- CN114547358A CN114547358A CN202210125599.6A CN202210125599A CN114547358A CN 114547358 A CN114547358 A CN 114547358A CN 202210125599 A CN202210125599 A CN 202210125599A CN 114547358 A CN114547358 A CN 114547358A
- Authority
- CN
- China
- Prior art keywords
- layer
- module
- image
- convolution
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种多尺度特征融合的图像检索方法,属于图像检索技术领域。方法包括:获取待检索的图像;将待检索的图像输入训练好的多尺度特征融合模型中,得到特征提取结果;多尺度特征融合模型包括主干网络、第一添加模块、第二添加模块以及特征融合模块;第一添加模块中包括至少一个添加层,第二添加模块包括至少一个添加层,各添加层均包括依次设置的空洞卷积层、第二归一化层和第二激活层,并且第一添加模块中的空洞卷积层的空洞率小于第二添加模块中的空洞卷积层的空洞率;根据特征提取结果在图像信息库中进行搜索,找到与特征提取结果相似的图像,完成待检索图像的检索。本发明的特征提取保留了更多的图像细节信息,进而提高图像检索的精度。
Description
技术领域
本发明涉及一种多尺度特征融合的图像检索方法,属于图像检索技术领域。
背景技术
“一图胜千言”,相对于文本检索,图像检索具有直观形象、准确、高效等优势,因而被广泛应用于搜索引擎、电子商务、医学等领域。面对呈指数式增长的图像数据,如何从中准确、方便、快速地查询到感兴趣的图像,成为当前图像检索方向亟需解决的问题。
现有的图像检索方法一般包括特征提取、哈希函数学习和图像索引三个阶段。其中,通过特征提取对待检索图像的特征进行提取,并对提取的特征通过哈希函数进行哈希编码,最后通过索引的方式进行图像搜索,完成图像检索。
现有技术中一般采样深度学习的方式进行特征提取,深度学习受神经学研究的启发,构建了神经网络对信息进行学习和分析,主要针对海量数据进行逐层筛选和提取,获得特征表示,可以有效解决低层特征对图像内容表征能力不足的问题。基于深度哈希的图像检索以其搜索效率高、存储成本低、搜索结果准确等优势,逐渐成为图像检索的一个重要研究方向。根据哈希函数的训练是否有监督信息,现有的哈希方法可以分为有监督哈希方法和无监督哈希方法。但由于未考虑数据本身的内在性质,无监督哈希方法的性能始终受到限制,检索精度欠佳。而有监督哈希方法由于是从训练数据中得到的哈希函数,可以获得更紧凑、性能更优的哈希编码。代表性的有监督深度哈希方法包括基于卷积神经网络的哈希(CNNH),深度成对监督哈希(DPSH),深度哈希网络(DHN),深度监督哈希(DSH)和非对称深度监督哈希(ADSH)等。
上述深度哈希检索方法更多关注于图像编码过程和搜索过程,但图像特征提取作为图像检索的第一步,在很大程度上决定了图像检索的性能。目前,Alexnet模型、VGGnet模型、Resnet等神经网络广泛应用于图像的特征提取,其中,VGGnet模型通过堆叠多个3×3的卷积核来代替大尺度卷积核,减少所需参数,构建了16-19层的卷积神经网络,探索了卷积神经网络的深度和其性能之间的关系。Resnet网络具有最多超过1000层的网络结构,同时提出residual模块解决梯度消失、梯度爆炸、退化等问题,从而加速训练,提高检测效率。但这些特征提取网络只利用卷积网络最后一层的特征映射来反映输入图像的信息,忽略了浅层特征中包含的信息,造成语义信息丢失。
为此,有人提出采用多尺度融合模型进行特征提取,然而现有的多尺度融合模型中的卷积神经网络通常使用池化操作来减少参数个数,加快计算速度,但是池化操作会减小感受野,导致图像分辨率降低,丢失图像特征的细节,而且现有的多尺度融合模型还采用上采样和下采样的方法,对图像进行缩放,图像质量将不可避免的受到影响,最终导致图像检索的精度低。
发明内容
本申请的目的在于提供一种多尺度特征融合的图像检索方法,用以解决现有特征提取采用池化操作丢失图像特征的细节,导致图像检索精度低的问题。
为实现上述目的,本申请提出了一种多尺度特征融合的图像检索方法的技术方案,包括以下步骤:
1)获取待检索的图像;
2)将待检索的图像输入训练好的多尺度特征融合模型中,得到特征提取结果;所述多尺度特征融合模型包括主干网络、第一添加模块、第二添加模块以及特征融合模块,主干网络输出连接第一添加模块,第一添加模块输出连接第二添加模块,特征融合模块连接主干网络、第一添加模块、第二添加模块的输出端;第一添加模块中包括至少一个添加层,第二添加模块包括至少一个添加层,各添加层均包括依次设置的空洞卷积层、第二归一化层和第二激活层,并且第一添加模块中的空洞卷积层的空洞率小于第二添加模块中的空洞卷积层的空洞率;主干网络用于输出至少一个基础特征图,第一添加模块用于输出第一添加特征图,第二添加模块用于输出第二添加特征图,特征融合模块用于将基础特征图、第一添加特征图、以及第二添加特征图进行融合后得到特征提取结果;
3)根据特征提取结果在图像信息库中进行搜索,找到与特征提取结果相似的图像,完成待检索图像的检索。
本发明的多尺度特征融合的图像检索方法的技术方案的有益效果是:本发明通过两个包含空洞卷积层的添加模块替代了原有的池化层、上采样和下采样操作,构建了表达能力更强的特征表示,并且通过两种不同的空洞率的添加模块提取出相应的特征图,通过融合主干网络和不同的空洞率的添加模块提取的特征图可以实现局部信息和全局信息的融合,提高对小目标的特征提取能力,从而提高检索精度。本发明的空洞卷积层可以通过空洞率调整卷积核的大小,使其在相同参数和计算量下拥有更大的感受野,不仅不损失图像的分辨率,还可以有效的控制参数个数。本发明的特征提取保留了更多的图像细节信息,进而提高图像检索的精度。
进一步地,为了扩大感受野,提取图像更深层的语义特征,同时保留更多的图像细节,且保持参数量不变,所述第一添加模块包括第一添加层、第二添加层和第三添加层,第一添加层、第二添加层和第三添加层的结构相同,第一添加层的输入端连接主干网络的输出端,第一添加层的输出端连接第二添加层的输入端,第二添加层的输出端连接第三添加层的输入端,第三添加层的输出端连接第二添加模块的输入端,且第三添加层输出连接特征融合模块。
进一步地,所述第二添加模块包括第四添加层和第五添加层,第四添加层和第五添加层的结构相同,第四添加层的输入端连接第一添加模块的输出端,第四添加层的输出端连接第五添加层的输入端,第五添加层的输出端连接特征融合模块。
进一步地,为了加深网络深度,有利于提取图像语义信息,各添加层中空洞卷积层的前端、从输入到输出还设置有卷积层、第一归一化层和第一激活层。
进一步地,空洞卷积层的空洞卷积为:
其中,F为离散函数,表示特征图,k为大小为k×k的卷积核,l为空洞率,s为特征图的像素值,t为卷积核的参数值,p为卷积函数的自变量,p=s+lt。
进一步地,为了提高卷积核的感受野,第一添加模块中的空洞卷积层的空洞率为2,第二添加模块中的空洞卷积层的空洞率为3。
进一步地,所述主干网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块,且第二卷积模块、第四卷积模块、第五卷积模块输出连接特征融合模块,第二卷积模块输出第三基础特征图、第四卷积模块输出第二基础特征图,第五卷积模块输出第一基础特征图。
进一步地,所述步骤3)中采用训练好的哈希函数确定特征提取结果的哈希编码,根据特征提取结果的哈希编码在图像信息库中的哈希编码中进行查找,得到若干候选图像的哈希编码,计算候选图像的哈希编码和特征提取结果的哈希编码的汉明距离,汉明距离较小的候选图像为检索出的图像。
进一步地,为了更好的保留图像特征数据的空间信息,通过卷积自编码器学习哈希函数,卷积自编码器的损失函数JCoAE可以表示为:
其中,x为输入数据,y为输出数据,L′为自编码器的损失函数,W为权重,λ为控制正则化强度的参数。
进一步地,为了提高查找速度,通过多索引哈希搜索的方式查找得到若干候选图像的哈希编码。
附图说明
图1是本发明多尺度特征融合的图像检索方法的流程图;
图2是本发明Res50-Dilated模型的结构图;
图3a是本发明空洞率为1的空洞卷积示意图;
图3b是本发明空洞率为2的空洞卷积示意图;
图3c是本发明空洞率为3的空洞卷积示意图;
图4是本发明自编码器的结构示意图;
图5是本发明在CIFAR10数据集下Resnet34,Resnet50,Resnet101和Resnet152的最后一层特征的提取对比图;
图6是本发明在NUS-WIDE数据集下Resnet34,Resnet50,Resnet101和Resnet152的最后一层特征的提取对比图;
图7是本发明在CIFAR10数据集下Res50-Dilated模型,Alexnet模型,VGGnet模型以及Resnet50模型的特征提取结果对比图;
图8是本发明在NUS-WIDE数据集下Res50-Dilated模型,Alexnet模型,VGGnet模型以及Resnet50模型的特征提取结果对比图;
图9a是本发明在CIFAR10数据集下DSH、DHN、DPSH、ADSH、MSDH的mAP对比曲线图;
图9b是本发明在NUS-WIDE数据集下DSH、DHN、DPSH、ADSH、MSDH的mAP对比曲线图;
图10a是本发明在CIFAR10数据集下,哈希编码位数为12bit时,DSH、DHN、DPSH、ADSH、MSDH的P-R曲线对比图;
图10b是本发明在CIFAR10数据集下,哈希编码位数为24bit时,DSH、DHN、DPSH、ADSH、MSDH的P-R曲线对比图;
图10c是本发明在CIFAR10数据集下,哈希编码位数为32bit时,DSH、DHN、DPSH、ADSH、MSDH的P-R曲线对比图;
图10d是本发明在CIFAR10数据集下,哈希编码位数为48bit时,DSH、DHN、DPSH、ADSH、MSDH的P-R曲线对比图;
图11a是本发明在NUS-WIDE数据集下,哈希编码位数为12bit时,DSH、DHN、DPSH、ADSH、MSDH的P-R曲线对比图;
图11b是本发明在NUS-WIDE数据集下,哈希编码位数为24bit时,DSH、DHN、DPSH、ADSH、MSDH的P-R曲线对比图;
图11c是本发明在NUS-WIDE数据集下,哈希编码位数为32bit时,DSH、DHN、DPSH、ADSH、MSDH的P-R曲线对比图;
图11d是本发明在NUS-WIDE数据集下,哈希编码位数为48bit时,DSH、DHN、DPSH、ADSH、MSDH的P-R曲线对比图;
图12a是本发明在CIFAR10数据集下,DSH、DHN、DPSH、ADSH、MSDH的训练时间对比图;
图12b是本发明在NUS-WIDE数据集下,DSH、DHN、DPSH、ADSH、MSDH的训练时间对比图。
具体实施方式
多尺度特征融合的图像检索方法实施例:
本发明的主要构思在于,基于现有的多尺度特征融合模型导致检索精度低的问题,本发明的多尺度特征融合模型不设置池化层、上采样以及下采样的操作,添加了两个新的添加模块,并且每个添加模块中的添加层中包含空洞卷积层,通过设置空洞卷积层的空洞率保留了图像的特征细节,提高了图像检索的精度。
具体地,多尺度特征融合的图像检索方法如图1所示,包括以下步骤:
1)获取待检索的图像(也即图1中的查询图像)。
2)将待检索的图像输入训练好的多尺度特征融合模型中,得到特征提取结果。
本步骤为图1中的特征提取阶段,其中多尺度特征融合模型如图2所示,包括主干网络、第一添加模块、第二添加模块以及特征融合模块,主干网络输出连接第一添加模块,第一添加模块输出连接第二添加模块,特征融合模块连接主干网络、第一添加模块、第二添加模块的输出端。主干网络选用Resnet50,因此将多尺度特征融合模型命名为Res50-Dilated模型。
主干网络包括依次设置的第一卷积模块Conv1、第二卷积模块Conv2_x、第三卷积模块Conv3_x、第四卷积模块Conv4_x、第五卷积模块Conv5_x,且第二卷积模块Conv2_x、第四卷积模块Conv4_x、第五卷积模块Conv5_x输出连接特征融合模块,第二卷积模块Conv2_x输出第三基础特征图(即特征图3)、第四卷积模块输出第二基础特征图(即特征图2),第五卷积模块输出第一基础特征图(即特征图1)。
第一添加模块包括第一添加层、第二添加层和第三添加层,第一添加层、第二添加层和第三添加层的结构相同,第一添加层的输入端连接主干网络的输出端,第一添加层的输出端连接第二添加层的输入端,第二添加层的输出端连接第三添加层的输入端,第三添加层的输出端连接第二添加模块的输入端,且第三添加层输出连接特征融合模块。第一添加层、第二添加层和第三添加层均包括从输入到输出设置的卷积层Conv2d、第一归一化层Batch Normalization1、第一激活层Relu1、空洞卷积层Conv2d(s=2、dilation=2)、第二归一化层Batch Normalization2和第二激活层Relu2,第一添加模块输出第一添加特征图(即特征图4)。随着网络层数的加深,容易出现梯度爆炸和梯度消失的问题,因此在卷积层后添加归一化层和relu激活层。其作用为:归一化为了防止梯度爆炸和梯度消失;relu激活函数缓解梯度消失,更快的收敛。
第二添加模块包括第四添加层和第五添加层,第四添加层和第五添加层的结构相同,第四添加层的输入端连接第一添加模块的输出端,第四添加层的输出端连接第五添加层的输入端,第五添加层的输出端连接特征融合模块。第四添加层和第五添加层均包括从输入到输出设置的卷积层Conv2d、第一归一化层Batch Normalization1、第一激活层Relu1、空洞卷积层Conv2d(步长s=2、dilation=3)、第二归一化层Batch Normalization2和第二激活层Relu2,第二添加模块输出第二添加特征图(即特征图5)。
特征融合模块用于将特征图3、特征图2、特征图1、特征图4和特征图5进行融合后得到特征提取结果。
空洞卷积层通过设置参数“空洞率dilation”来调整卷积核的大小,使其在相同参数和计算量下拥有更大的感受野,同时不损失图像的分辨率,不仅无需下采样和上采样操作,而且还有效控制了参数个数。
空洞卷积定义为:
其中,F为离散函数,表示特征图,k为大小为k×k的卷积核,l为空洞率,s为特征图的像素值,t为卷积核的参数值,p为卷积函数的自变量,p=s+lt。
空洞率为l的空洞卷积在两个连续的卷积核值之间引入l-1个0,相当于将卷积核大小由k增大到k'=k+(k-1)(l-1),但不会增加参数的个数和计算量。
图3a为空洞率dilation=1的卷积,即普通卷积,卷积后的每个像素能看到的卷积前图像的区域为3×3;图3b为空洞率dilation=2的卷积,可以当成是使用卷积核为7×7进行卷积运算,但其中只有标记为圆圈的9个点参与计算,能看到的感受野范围是7×7大小;图3c可以当成是使用卷积核为11×11进行卷积运算,其中只有标记为圆圈的9个点参与计算,能看到的感受野范围是11×11大小。原始卷积核感受野为3×3,空洞率为2时感受野为7×7,空洞率为3时感受野为11×11。浅层网络更多注重于目标图像的形状、大小、颜色等基本信息,且由于特征信息损失少,更容易提取到小目标。另外,感受野越大,对全局信息把握越高,故网络深层采用空洞率为3的卷积核。
本实施例中,第一添加模块中的空洞卷积层的空洞率小于第二添加模块中的空洞卷积层的空洞率;且第一添加模块中的空洞卷积层的空洞率dilation=2,第二添加模块中的空洞卷积层的空洞率dilation=3。空洞率可任意设置,但空洞率为3时,卷积核感受野已达到11×11,已经较大。
Res50-Dilated模型在提取特征时不降低图像分辨率,保证了每个输出的特征图分辨率相同,有效保留了图像的特征细节,提高了特征提取的精度,且在很大程度上减少了卷积参数个数,减少了计算量,从而有效地提高了训练速度。
3)采用训练好的哈希函数确定步骤2)得到的特征提取结果的哈希编码。
本步骤为图1的哈希函数学习阶段,哈希函数通过空间映射的方式,将欧氏空间中的图像映射到汉明空间,得到图像的哈希编码,哈希函数具有保持原始空间中数据点相似性的特性,即对于任意两张图像,如果它们之间的语义相同,那它们所对应的哈希编码的汉明距离较小。
假设图像库X={x1,x2,…,xn}中有n张图像,共有N个类别,(xi,xj)为图像对,标签为yij,若两张图像语义相同,那么yij=0,否则,yij=1。设(hi,hj)为图像对经过哈希函数映射得到哈希编码对,其中h=[h1,h2,…,hm]T∈{0,1}m,m为哈希编码的长度。为了使哈希编码保持原始空间中数据的相似性,在训练哈希函数时,要最小化损失函数L,即
其中,Dh(·,·)为计算哈希编码间的汉明距离的函数,ρ>0是间隔阈值参数。上式中,第一项保证相同语义图像对应的哈希编码有较近的汉明距离,第二项保证不同语义图像之间的距离大于一个较大的间隔。
哈希函数将图像映射为二值哈希码,利用哈希编码易于比较和存储的特性,提升大规模图像的检索速度。传统的哈希函数的构造方法有直接定址法、数字分析法、平方取中法、折叠法、除留余数法、随机数法等。此外,二值自编码器(Binary Autoencoder,BA)用自编码器学习哈希函数。
自编码器如图4所示,由编码器和解码器两部分组成,通常用作特征学习或数据降维。编码器将输入数据编码成潜在变量,解码器再把潜在变量重构为原数据。由于自编码器能够对数据进行降维,并有效滤除冗余信息,在图像检索方面极具优势,因此被广泛采用。
训练自编码器的目的是尝试学习一个的恒等函数,通过使该函数的输出值最大程度地逼近输入值,学习到输入数据中的某些隐含特征。传统自编码器一般使用全连接层,可有效处理一维数据,而对二维图像数据,全连接层会损失空间信息,通过卷积操作,卷积自编码器(Convolutional Auto-Encoder,CAE)能很好的保留二维信号的空间信息,因此,发明采用卷积自编码器学习哈希函数,以更好的保留图像特征数据的空间信息,同时计算损失函数,利用反向传播算法对网络进行训练,得到更优的模型参数。
卷积自编码器的损失函数JCoAE可以表示为:
其中,x为输入数据,y为输出数据,W为权重,L′为自编码器的损失函数;λ为控制正则化强度的参数,一般取0~1之间的值。
4)将特征提取结果的哈希编码通过多索引哈希搜索的方式进行搜索,完成图像检索。
在实际情况中,哈希编码的位数越多,哈希检索精度越高,但待检索数据也呈指数级增长,影响检索速度,为此本发明采用多索引哈希算法进行搜索。
多索引哈希搜索过程如下:
a.将图像信息库中图像的哈希编码分割为若干个连续不重叠的子哈希码,并为每个子哈希码建立一个哈希表;
b.将待检索图像的哈希编码分割为若干个子哈希码,并在相应的哈希表中进行查找,返回候选图像的哈希编码;
c.计算待检索图像的哈希编码和候选图像哈希编码的汉明距离,并根据汉明距离对候选结果排序,从而得到检索到的图像。
本发明采用多索引哈希算法进行图像搜索,在哈希编码的位数为12bits,24bits,32bits,48bit时,以4位哈希码为一组,依次将哈希码分割为3组,6组,8组,12组。多索引哈希算法通过分割哈希编码的预处理,极大地减少了数据计算量,提高了查询速度。
以下通过实验对本发明的图像检索方法进行验证。
本发明利用单标签数据集CIFAR10和多标签数据集NUS-WIDE进行实验。CIFAR10数据集是单标签数据集,每张图像只含一种类别,包含10种类别,共60000张彩色图像;NUS-WIDE是多标签数据集,每张图像包含一种或多种类别,数据集中的图像均从社交媒体中获取,包含20种类别,共193734张图像。
实验硬件配置为Intel Corei9-9900X CPU、NVIDIA GeForce RTX 2080Ti GPU,实验环境为Ubuntu 18.04 64位操作系统和PyTorch深度学习库。
根据网络层数和结构的不同,常用的Resnet模型有Resnet34,Resnet50,Resnet101和Resnet152,为验证上述网络的特征提取效果,分别将Resnet34,Resnet50,Resnet101和Resnet152模型在CIFAR10数据集和NUS-WIDE数据集上进行训练,并提取最后一层特征,生成类激活图,通过类激活图展示特征提取效果,选取的代表性结果如图5、图6所示。
图5是在CIFAR10数据集下Resnet34,Resnet50,Resnet101和Resnet152的最后一层特征的提取对比图,CIFAR10数据集图像分辨率为32×32,类激活图输出图像分辨率为224×224。由于数据集图像分辨率较小,图像模糊,携带的信息少,导致特征表达能力弱,特征提取结果不完整或包含较多背景信息。如图5所示,随着Resnet网络层数增加,提取的目标特征点越多,但提取的背景信息也随之增多,整体来看,Resnet50模型提取效果最好,提取的目标点最多且背景信息较少。
图6是在NUS-WIDE数据集下Resnet34,Resnet50,Resnet101和Resnet152的最后一层特征的提取对比图,NUS-WIDE数据集图像分辨率较大。第一张图像包含两个类别,在只提取狗特征的前提下,Resnet50模型特征提取最精确;第二张图像存在遮挡现象,相对于其他三个模型,Resnet50模型可以较完整地提取狗的脸部和腿部;其余三张图像代表不同分类别,从特征提取整体结果来看,Resnet50模型特征提取较完整和精确。基于此,多尺度特征融合模型采用Resnet50模型为主干网络,以更精确提取图像特征,保证图像检索精度。
为验证Res50-Dilated模型提取特征的有效性,本发明将其与经典特征提取模型Alexnet模型、VGGnet模型以及Resnet50进行对比试验,分别在CIFAR10数据集和NUS-WIDE数据集上进行训练,其部分特征提取结果如图7、图8所示。
在小分辨率图像CIFAR10数据集和NUS-WIDE数据集中,Alexnet模型和VGGnet模型提取较多的背景特征点,且存在不能完全提取目标特征的现象,例如,图7第二张图像中,Alexnet模型和VGGnet模型均提取了部分目标特征。此外,在目标被遮挡时,例如图8中第二张图像,Alexnet模型和VGGnet模型提取的特征较少。Resnet50模型与Res50-Dilated模型都能较好地处理多种类、遮挡等问题,在加入空洞卷积后,Res50-Dilated模型能更完整、精确地提取目标特征。
综合来看,Res50-Dilated模型的特征提取效果最优,因此,MSDH检索方法(基于多尺度特征融合的深度哈希图像检索)采用Res50-Dilated模型进行特征提取,以提高图像检索精度。
现有经典深度哈希模型有DSH、DHN、DPSH、ADSH,将MSDH与现有经典深度哈希模型在CIFAR10单标签数据集和NUS-WIDE多标签数据集上测试,哈希编码位数分别设置为12bits,24bits,32bits,48bits,各模型学习率为0.0001,batchsize为64,迭代次数为150,不同模型的mAP如表一所示:
表一各模型测试mAP对比
通过表一的数据得到如图9a、图9b的mAP对比曲线,可以看出,在CIFAR10数据集和NUS-WIDE数据集上,MSDH模型在哈希码为12bits、24bits、32bits、48bits时的mAP均高于其他深度哈希模型,其中,相比效果较好的ADSH模型,mAP约提高了2%-4%。当哈希编码为12bits时,MSDH的mAP基本均高于其他模型使用48bits哈希编码的mAP,表明在相同mAP的要求下,MSDH模型能够以更短的哈希编码实现,提高检索效率。
为了进一步评估MSDH模型,在CIFAR10数据集和NUS-WIDE数据集上分别绘制了P-R曲线,如图10a、图10b、图10c、图10d、图11a、图11b、图11c、图11d所示,从实验结果来看,在两个数据集上,MSDH模型的准确率和召回率较高,其性能优于其他深度哈希模型。
图12a、12b为各深度哈希模型在CIFAR10数据集、NUS-WIDE数据集的训练时间,由图12a、12b可知,在相同条件下,MSDH模型的训练时间最少。在两个数据集中,当哈希编码为48bits时,MSDH模型的训练时间相比DHN模型减少52.9%,相比ADSH减少12%,且少于当经典模型的哈希编码为12bits时,表明MSDH模型可以更快的训练速度达到更高的精度。此外,由折线图可知,随着哈希编码位数增加,MSDH模型训练时间增加相对缓慢,且相对在CIFAR10数据集,在数据量更大的NUS-WIDE数据集上时,MSDH模型时间增长率最小,表明MSDH模型能更有效地处理大规模数据。
图像特征提取的准确率在很大程度上决定了图像检索的性能。针对因特征提取造成图像检索准确率低的问题,提出多尺度特征融合的深度哈希图像检索方法。在特征提取阶段,提出Res50-Dilated模型,采用空洞卷积方法,保证图像的分辨率,避免图像因上采样导致信息丢失的问题,同时,将浅层特征与高层语义信息进行融合,最大程度保留了图像语义信息;在图像索引阶段,利用哈希码具有搜索效率高、存储成本低、搜索结果准确的优势,将图像用哈希码表示,并构建多索引哈希方法进行索引,以提升检索精度与速度。实验结果表明,Res50-Dilated模型能较完整、准确地提取图像特征,MSDH模型检索效率较高,可以更快的训练速度达到更高的精度。
Claims (10)
1.一种多尺度特征融合的图像检索方法,其特征在于,包括以下步骤:
1)获取待检索的图像;
2)将待检索的图像输入训练好的多尺度特征融合模型中,得到特征提取结果;所述多尺度特征融合模型包括主干网络、第一添加模块、第二添加模块以及特征融合模块,主干网络输出连接第一添加模块,第一添加模块输出连接第二添加模块,特征融合模块连接主干网络、第一添加模块、第二添加模块的输出端;第一添加模块中包括至少一个添加层,第二添加模块包括至少一个添加层,各添加层均包括依次设置的空洞卷积层、第二归一化层和第二激活层,并且第一添加模块中的空洞卷积层的空洞率小于第二添加模块中的空洞卷积层的空洞率;主干网络用于输出至少一个基础特征图,第一添加模块用于输出第一添加特征图,第二添加模块用于输出第二添加特征图,特征融合模块用于将基础特征图、第一添加特征图、以及第二添加特征图进行融合后得到特征提取结果;
3)根据特征提取结果在图像信息库中进行搜索,找到与特征提取结果相似的图像,完成待检索图像的检索。
2.根据权利要求1所述的多尺度特征融合的图像检索方法,其特征在于,所述第一添加模块包括第一添加层、第二添加层和第三添加层,第一添加层、第二添加层和第三添加层的结构相同,第一添加层的输入端连接主干网络的输出端,第一添加层的输出端连接第二添加层的输入端,第二添加层的输出端连接第三添加层的输入端,第三添加层的输出端连接第二添加模块的输入端,且第三添加层输出连接特征融合模块。
3.根据权利要求1所述的多尺度特征融合的图像检索方法,其特征在于,所述第二添加模块包括第四添加层和第五添加层,第四添加层和第五添加层的结构相同,第四添加层的输入端连接第一添加模块的输出端,第四添加层的输出端连接第五添加层的输入端,第五添加层的输出端连接特征融合模块。
4.根据权利要求1所述的多尺度特征融合的图像检索方法,其特征在于,各添加层中空洞卷积层的前端、从输入到输出还设置有卷积层、第一归一化层和第一激活层。
6.根据权利要求1所述的多尺度特征融合的图像检索方法,其特征在于,第一添加模块中的空洞卷积层的空洞率为2,第二添加模块中的空洞卷积层的空洞率为3。
7.根据权利要求1所述的多尺度特征融合的图像检索方法,其特征在于,所述主干网络包括依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块,且第二卷积模块、第四卷积模块、第五卷积模块输出连接特征融合模块,第二卷积模块输出第三基础特征图、第四卷积模块输出第二基础特征图,第五卷积模块输出第一基础特征图。
8.根据权利要求1所述的多尺度特征融合的图像检索方法,其特征在于,所述步骤3)中采用训练好的哈希函数确定特征提取结果的哈希编码,根据特征提取结果的哈希编码在图像信息库中的哈希编码中进行查找,得到若干候选图像的哈希编码,计算候选图像的哈希编码和特征提取结果的哈希编码的汉明距离,汉明距离较小的候选图像为检索出的图像。
10.根据权利要求8所述的多尺度特征融合的图像检索方法,其特征在于,通过多索引哈希搜索的方式查找得到若干候选图像的哈希编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210125599.6A CN114547358A (zh) | 2022-02-10 | 2022-02-10 | 一种多尺度特征融合的图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210125599.6A CN114547358A (zh) | 2022-02-10 | 2022-02-10 | 一种多尺度特征融合的图像检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114547358A true CN114547358A (zh) | 2022-05-27 |
Family
ID=81673847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210125599.6A Pending CN114547358A (zh) | 2022-02-10 | 2022-02-10 | 一种多尺度特征融合的图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114547358A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274111A (zh) * | 2023-11-17 | 2023-12-22 | 国网智能科技股份有限公司 | 一种基于多尺度特征融合的图像畸变矫正方法及系统 |
-
2022
- 2022-02-10 CN CN202210125599.6A patent/CN114547358A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274111A (zh) * | 2023-11-17 | 2023-12-22 | 国网智能科技股份有限公司 | 一种基于多尺度特征融合的图像畸变矫正方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679250B (zh) | 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN106909924B (zh) | 一种基于深度显著性的遥感影像快速检索方法 | |
Joly et al. | A posteriori multi-probe locality sensitive hashing | |
KR100903961B1 (ko) | 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템 | |
CN109166615B (zh) | 一种随机森林哈希的医学ct图像存储与检索方法 | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
CN106503223B (zh) | 一种结合位置和关键词信息的在线房源搜索方法及装置 | |
CN110941734B (zh) | 基于稀疏图结构的深度无监督图像检索方法 | |
CN106033426A (zh) | 一种基于潜在语义最小哈希的图像检索方法 | |
CN111125411A (zh) | 一种深度强相关哈希学习的大规模图像检索方法 | |
CN114791958B (zh) | 一种基于变分自编码器的零样本跨模态检索方法 | |
CN113377981B (zh) | 基于多任务深度哈希学习的大规模物流商品图像检索方法 | |
CN107180079B (zh) | 基于卷积神经网络以及树与哈希结合索引的图像检索方法 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN112732864A (zh) | 一种基于稠密伪查询向量表示的文档检索方法 | |
CN110598022A (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
CN114547358A (zh) | 一种多尺度特征融合的图像检索方法 | |
CN105740428A (zh) | 一种基于b+树的高维磁盘索引结构和图像检索方法 | |
CN117763185A (zh) | 一种基于思考空间维度的哈希图像检索方法 | |
CN116975651A (zh) | 相似度确定模型处理方法、目标对象搜索方法和装置 | |
CN116955650A (zh) | 基于小样本知识图谱补全的信息检索优化方法及其系统 | |
Al Aghbari et al. | Efficient KNN search by linear projection of image clusters | |
CN114331883A (zh) | 一种基于局部协方差优化的点云补全方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |