CN113326390B - 基于深度特征一致哈希算法的图像检索方法 - Google Patents

基于深度特征一致哈希算法的图像检索方法 Download PDF

Info

Publication number
CN113326390B
CN113326390B CN202110883325.9A CN202110883325A CN113326390B CN 113326390 B CN113326390 B CN 113326390B CN 202110883325 A CN202110883325 A CN 202110883325A CN 113326390 B CN113326390 B CN 113326390B
Authority
CN
China
Prior art keywords
hash
neural network
image
label
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110883325.9A
Other languages
English (en)
Other versions
CN113326390A (zh
Inventor
曹媛
刘峻玮
陶小旖
桂杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202110883325.9A priority Critical patent/CN113326390B/zh
Publication of CN113326390A publication Critical patent/CN113326390A/zh
Application granted granted Critical
Publication of CN113326390B publication Critical patent/CN113326390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度特征一致哈希算法的图像检索方法。该方法包括:获取多标签或者单标签图像数据,包括训练集和测试集;预处理训练集;利用预处理后的训练集,对神经网络进行优化;将训练集输入到优化后的神经网络中得到哈希码;计算得到的哈希码与所述测试集得到哈希码的汉明距离,并按从小到大的距离排序,输出前k个检索结果,完成检索。经验证,本发明所提出的模型比其他现有基线方法具有更优的检索性能。本发明在单标签和多标签图像数据集的检索中,与现有常用方法相比,检索精度和时间都具有明显优势。

Description

基于深度特征一致哈希算法的图像检索方法
技术领域
本发明属于深度学习技术领域,具体涉及一种基于深度特征一致哈希算法的用于单标签和多标签图像检索方法。
背景技术
随着多媒体大数据的快速发展,图像的数量呈爆炸性增长,这就需要快速准确的检索方法。精确的最近邻检索(KNN)耗时长,不适合大数据检索,而近似最近邻检索(ANN)由于兼顾了时间和效率而更受欢迎。
有监督学习是训练神经网络和决策树的常用技术。神经网络和决策树这两种技术高度依赖于预先确定的分类系统给出的信息,对于神经网络,分类系统利用这些信息判断网络误差,然后不断调整网络参数;对于决策树,分类系统使用它来确定哪些属性提供了最多的信息。基于成对标记的代表性方法是最小损失哈希法(MLH)和带核监督哈希法(KSH),监督哈希学习使用人工标记的标签作为监督信息来学习哈希函数,这种方法通常优于无监督方法。近年来,深度学习已经成为一种流行的学习方法,并且已经开发了各种各样的深度哈希学习方法,如Lin等人提出了一种无监督的深度学习方法DeepBit,它对二进制码实施了三个标准(即最小化量化损失,均匀分布编码和不相关位)学习压缩二进制描述子,从而实现高效的视觉对象匹配。Gong等人提出的ITQ方法使每个二进制位的方差最大化,并且最小化量化损失,从而获得更高的图像检索性能。Liong等人提出利用深度神经网络学习哈希码,并通过优化实现了三个目标:(1)最小化实值特征描述子与学习二进制码之间的损失;(2)二进制代码均匀地分布在每个位上;(3)不同的位尽可能独立。
利用未标记数据来学习数据的分布或数据之间的关系称为无监督学习,无监督学习是人工智能网络的一种算法;其目的是对原始数据进行分类,以了解数据的内部结构。LSH是无监督哈希学习的代表之一,它将相似的项映射到同一个桶中。与有监督学习网络不同,无监督学习网络不知道其分类结果是否正确,也就是说,它没有被监督所增强(告诉它什么样的学习是正确的)。近年来,由于有监督哈希学习算法需要人工标注大量标签,耗费大量的人力物力,提出了许多无监督哈希学习算法,自监督哈希学习作为一种新的无监督哈希学习方法,在深度学习领域得到了广泛的应用。许多基于“借口任务”的方法被提出。但这些方法都依赖于预训练模型,其精度明显低于有监督哈希学习方法。
有监督哈希方法的缺点是获取标签需要耗费大量的人力物力,因此提出了无监督哈希方法。无监督哈希方法将图像从原始空间映射到哈希空间,并设置一系列损失函数来保持图像的相似性。通常采用预训练模型得到图像的特征向量,按距离排序后得到语义相似度矩阵,Gidaris等人提出了一种基于图像旋转的自监督方法,然而,这导致了特征表示和图像变换之间的协方差。Misra等人解决了这个问题,然而,它们并没有将原始空间中相似图像的相似性映射到特征空间。
而无论是监督哈希学习还是非监督哈希学习,现有的大多数方法都将语义相似度矩阵的值设置为1或0(如果至少有一个标签相同,则该值为1,如果没有标签相同,值为0)。对于多标签图像,这种方法不能很好地反映图像的相似度排序。且最近的研究表明,深度神经网络可以根据区域小部分的像素来判断图像的类别,即在训练过程中很容易受到像素的影响。
发明内容
本发明的目的是提供一种基于深度特征一致哈希算法的图像检索方法,以弥补现有技术的不足。
为达到上述目的,本发明采取的具体技术方案为:
一种基于深度特征一致哈希算法的图像检索方法,包括以下步骤:
S1:获取多标签或者单标签图像数据,包括训练集和测试集;
S2:预处理训练集;
S3:利用S2预处理后的训练集,对神经网络进行优化;
S4:将训练集输入到S3优化后的神经网络中得到哈希码;
S5:计算S4得到的哈希码与所述测试集得到哈希码的汉明距离,并按从小到大的距离排序,输出前k个检索结果,k取值为正整数,完成检索。
进一步的,上述方法还包括评估步骤S6:根据S5所得到的前k个检索结果的标签和测试集的标签,计算mAP(平均精度均值),完成评估。
进一步的,所述S2中:所述预处理包括进行旋转、翻转和添加噪声操作中的一种或者几种,目的是为了使处理后的图像与原图像有不同的像素信息,进而提高检索准确度。
进一步的,所述S3中的神经网络优化具体包括:
S3-1:根据训练集得到改进的语义相似度矩阵;
S3-2:将预处理后的训练集输入到神经网络中;
S3-3:并根据S3-1得到的语义相似度矩阵设置目标函数对神经网络进行训练和优化。
更进一步的,所述S3-1具体为:给定n个训练集图像 I={I1,I2,In},n取值为正整数。首先,利用标签计算相似度矩阵;如果Ii和Ij具有任何相同的标签,那么sij=1,否则sij=0;使用百分比来计算s;公式如下:
Figure DEST_PATH_IMAGE002
(1)
其中,li和lj表示图像Ii和Ij的标签向量;<li,lj>表示图像Ii和Ij的内积;且根据公式(1),将图像分为两类:强相似性和弱相似性;强相似分为完全相似和完全不相似;具体的分类方法为:若两张图像共享至少一个标签,则称它们为弱相似;若两张图片没有相同的标签,则称为强相似中的完全不相似;若两张图片的标签完全相同,则称为强相似中的完全相似。
更进一步的,所述S3-2中:所述神经网络为卷积神经网络,具体使用Vgg19作为网络结构;所述Vgg19包含19个隐藏层,为16个卷积层和3个完全连接层,Vgg19整个网络使用相同大小的卷积核(3x3)和最大池(2x2),用哈希层替换fc8层。当然也可以推广到其他模型,如AlexNet和GooLeNet。
更进一步的,所述S3-3具体为:传统的语义相似度矩阵的值只有1和0,给定所有图像的哈希码B={b1,b2,…bn}(该哈希码B为所有b的总称)和语义相似度矩阵s=sij,条件概率p(sij | B)表示为:
Figure DEST_PATH_IMAGE004
(2)
其中,
Figure DEST_PATH_IMAGE005
是激活函数;内积可以很好地表示汉明距离,所以构造了一个内积
Figure DEST_PATH_IMAGE007
;然后使用负对数似然作为损失函数:
Figure DEST_PATH_IMAGE009
(3)
使用公式(3)来计算具有强相似性的图像的损失;对于部分相似(弱相似)的图像,使用以下公式计算损失:
Figure DEST_PATH_IMAGE011
(4)
bi,bj为图像的哈希码,<bi,bj>的范围为[-q,q],结合式(3)和式(4),用Wij来标记这两种情况,即Wij=1表示这两幅图片是强相似的,Wij=0表示这两幅图片是弱相似的;因此,目标函数可以写为:
Figure DEST_PATH_IMAGE013
(5)
其中,γ是一个权重参数;
由于哈希码是离散的,直接优化会导致反向传播过程中梯度的消失,采用连续松弛法来解决这个问题;使用连续单元代替离散单元,这样会造成量化损失。因此,设定目标函数以减少损失,并鼓励网络输入准确的二进位码:
Figure DEST_PATH_IMAGE014
(6)
其中||·||1是向量的L1范数,|·|是绝对值运算,ui、uj为松弛的近似哈希码;
为了更好地表达图像的高层语义信息,通过设置特征损失来调整网络参数,并将图像进行预处理后输入到网络中。图像预处理后像素信息会发生变化,即网络不会根据一小部分像素来确定图像标签,为使网络尽可能地理解相似图像的高层语义信息,并接近深层理解而不是深层学习,使用余弦距离来衡量配对特征的损失:
Figure DEST_PATH_IMAGE016
(7)
其中fi、fj为神经网络fc7层的输出特征向量;将式(7)与式(5)结合,得到如下目标函数:
Figure DEST_PATH_IMAGE018
(8)
结合数量损失和语义损失,最终目标函数如下:
Figure DEST_PATH_IMAGE020
(9)
其中,λ是控制量化损失的参数,ui、uj为松弛的近似哈希码,fi、fj为神经网络fc7层的输出特征向量,S为语义相似度矩阵,sij为矩阵S中第i行第j列的元素,bi,bj为图像的哈希码,<bi,bj>的范围为[-q,q],Ω为内积,
Figure DEST_PATH_IMAGE021
,Wij用来标记强相似或弱相似,Wij=1表示这两幅图片是强相似的,Wij=0表示这两幅图片是弱相似的。
进一步的,所述S4中:
S4-1:使用标准的反向传播和梯度下降法来优化目标函数;通过将哈希码b替换为u,目标函数重写如下:
Figure DEST_PATH_IMAGE023
(10)
S4-2:再经过学习过程,得到了近似的哈希码,其值在(-1,1)范围内;
S4-3:为了评估该方法的有效性,使用以下公式来获得精确的哈希码:
Figure DEST_PATH_IMAGE024
(11)
最终通过上述一系列公式,最终实现了端到端地学习哈希码。
进一步的,所述S5为:将测试集输入到S4训练好的神经网络中得到其哈希码,并计算与S4中训练集哈希码的汉明距离,按从小到大的顺序排序,输出前k个检索结果。
本发明的优点和技术效果:
本发明在检索过程中,对图像数据进行预处理,且改进了多标签数据集的训练方法,用“强相似性”和“弱相似性”代替传统的“相似性”和“不相似性”。并且改进了神经网络的损失函数,减少了图像像素对神经网络的干扰,极大地提高了检索准确度。
实验表明,本发明在单标签和多标签图像数据集的检索中都具有较好的检索性能,与改进的软相似性深度哈希算法(IDHN)相比,本发明在Flickr(多标签)数据集的12位、24位、36位和48位的mAP(平均精度均值)结果分别提高了2.06%、11.62%、2.22%和3.3%。另外,本发明与无监督方法相比,在Cifar-10(单标签)数据集的12位、24位、36位和48位的mAP(平均精度均值)结果分别提高了31.2%、21.5%、21.3%、19.9%,即本发明在单标签和多标签图像数据集的检索中,与现有常用方法相比,在检索精度和时间上都具有明显优势。
附图说明
图1为本发明自监督对抗哈希的过程示意图。
图2位本发明训练集预处理时旋转不同角度的对比图。
具体实施方式
以下通过具体实施例并结合附图对本发明进一步解释和说明。
实施例1:
一种基于深度特征一致哈希算法的图像检索方法,包括以下步骤(如图1所示):
S1:首先根据图像数据的标签得到语义相似度矩阵(如图1的Semanticsimilarity matrix(语义相似度矩阵)部分);
给定n个训练集图像I={I1,I2,In},n取值为正整数;首先,利用标签计算相似度矩阵。传统的计算方法是,如果Ii和Ij具有任何相同的标签,那么sij=1,否则sij=0。遵循前人的方法,使用百分比来计算s;公式如下:
Figure DEST_PATH_IMAGE025
(1)
其中,li和lj表示图像Ii和Ij的标签向量;<li,lj>表示图像Ii和Ij的内积;根据公式(1),将图像分为两类:强相似性和弱相似性。强相似分为完全相似和完全不相似。
S2:将图像进行预处理后输入到神经网络中(如图1的Dataset(afterpreprocessing)部分),所述预处理包括进行旋转、翻转和添加噪声操作中的一种或者几种;
所述的神经网络使用Vgg19作为网络结构。Vgg19包含19个隐藏层(16个卷积层和3个完全连接层)。Vgg19结构非常简单,整个网络使用相同大小的卷积核(3x3)和最大池(2x2),使用哈希层替换fc8层。
S3:根据S1得到的相似度矩阵设置目标函数并对神经网络进行优化。
传统的语义相似度矩阵的值只有1和0,给定所有图像的哈希码B和语义相似度矩阵s=sij,条件概率p(sij | B)可以表示为:
Figure DEST_PATH_IMAGE026
(2)
其中,
Figure DEST_PATH_IMAGE027
是激活函数;内积可以很好地表示汉明距离,所以构造了一个内积
Figure DEST_PATH_IMAGE028
,再使用负对数似然作为损失函数:
Figure DEST_PATH_IMAGE029
(3)
使用公式(3)来计算具有强相似性的图像的损失;对于部分相似(弱相似)的图像,使用以下公式计算损失:
Figure DEST_PATH_IMAGE030
(4)
<bi,bj>的范围为[-q,q],结合式(3)和式(4),使用Wij来标记这两种情况,即Wij=1表示这两幅图片是强相似的,Wij=0表示这两幅图片是弱相似的。因此,目标函数可以写为:
Figure DEST_PATH_IMAGE031
(5)
其中,γ是一个权重参数。
由于哈希码是离散的,直接优化会导致反向传播过程中梯度的消失,采用连续松弛法来解决这个问题,使用连续单元代替离散单元,这样会造成质量损失。因此,设定目标函数以减少损失,并鼓励网络输入准确的二进位码:
Figure DEST_PATH_IMAGE033
(6)
其中||·||1是向量的L1范数。|·|是绝对值运算。
为了更好地表达图像的高层语义信息,通过设置特征损失来调整网络参数,并将图像进行预处理后输入到网络中。图像预处理后像素信息会发生变化,即网络不会根据一小部分像素来确定图像标签,因此目标是使网络尽可能地理解相似图像的高层语义信息,并接近深层理解而不是深层学习;最终使用余弦距离来衡量配对特征的损失:
Figure DEST_PATH_IMAGE034
(7)
其中fi、fj为神经网络fc7层的输出特征向量;将式(7)与式(5)结合,得到如下目标函数:
Figure DEST_PATH_IMAGE035
(8)
结合数量损失和语义损失,最终目标函数如下:
Figure DEST_PATH_IMAGE036
(9)
其中,λ是控制量化损失的参数。
使用标准的反向传播和梯度下降法来优化目标函数;通过将哈希码b替换为u,目标函数重写如下:
Figure DEST_PATH_IMAGE037
(10)
经过学习过程,得到了近似的哈希码,其值在(-1,1)范围内。为了评估该方法的有效性,使用以下公式来获得准确的哈希码:
Figure DEST_PATH_IMAGE038
(11)
通过上述一系列公式,最终可以达到进行端到端地学习哈希代码。
S4:将训练集输入到S3优化后的神经网络中得到训练集哈希码;
S5:将测试集输入到训练好的神经网络中得到其哈希码,并计算与训练集哈希码的汉明距离,按从小到大的顺序排序,输出前k个检索结果,k取值为正整数。
S6:根据所得到的前k个检索结果的标签和测试集的标签,计算mAP(平均精度均值),完成评估。
实施例2:
为了验证该方法的有效性,在广泛使用的数据集Flickr和Cifar-10上进行了实验,并与其他先进的方法进行了比较,Flickr是一个包含25000幅图像的数据集,每幅图像至少有一个标签。将图像的大小调整为227×227,一个图像可能包含多个标签。Cifar-10是更接近通用对象的彩色图像数据集。Cifar-10是Hinton的学生alexkrizhevsky和Ilyasutskever编制的一个小数据集,用于识别宇宙物体。有10种类别:飞机,汽车,鸟,猫,鹿,狗,青蛙,马,船和卡车。每个图像的大小是32×32,每个类别有6000张图片。数据集中有50000个训练图像和10000个测试图像。
对于Flickr,随机选择4000张图片作为训练集,1000张图片作为测试集。设置λ=0.1,因为λ会导致更多的离散化,而λ值太小将减少量化损失函数的影响。设置γ=0.1/q来自适应调整均方误差损失梯度。γ值过大或过小都会破坏语义损失和量化损失之间的平衡。对于Cifar-10,每类随机抽取1000张图片作为训练集,100张图片作为测试集。
评估指标平均精度均值(mAP)和平均精度(AP)用于评估本发明的所提供的检索方法(FIDH),对于每个查询,平均精度(AP)是前k个结果的平均值,而平均精度均值(mAP)是所有查询的平均值;平均精度的计算公式如下:
Figure DEST_PATH_IMAGE039
(12)
其中N是用于查询的数据库(测试集)中与基本事实相关的实例数。P(k)是前k个实例的精度。当第k个实例与查询相关时(它们至少有一个相同的标签),δ(k)=1,否则δ(k)=0。
本发明提供的方法深度特征一致图像检索方法(FIDH)与迭代量化(ITQ)、局部敏感哈希(LSH)、谱哈希(SH)、压缩二进制码的最小损失哈希(MLH)、核哈希(KSH)、快速图像检索中二进制哈希码的深度学习(DLBHC)、深入学习哈希(HashNet)、基于深度监督哈希的多标签大规模图像检索(DMSSPH)、基于深度哈希网络的有效相似性检索(DHN)、用于高效图像检索的深度量化网络(DQN)、改进的软相似性深度哈希算法(IDHN)在Flickr数据集上的性能(表1)和训练时间(表2)如下表所示:
表 1图像预处理后,在Flickr(多标签)数据集上上的平均精度均值结果
Figure DEST_PATH_IMAGE040
表2 DH,BGAN和本发明FIDH的训练和测试时间对比
Figure DEST_PATH_IMAGE041
表3图像预处理后,在Cifar-10(单标签)数据集上上的平均精度均值结果
Figure DEST_PATH_IMAGE042
本发明(FIDH)与改进的软相似性深度哈希算法(IDHN)相比,在Flickr数据集的12位、24位、36位和48位的mAP(平均精度均值)结果分别提高了2.06%、11.62%、2.22%和3.3%,实验结果如表1所示。其中,在高比特位数上的实验结果是最好的,这表明本发明的高比特位数的哈希码能够更好地表示图像的高级语义信息。
如表2所示,本发明(FIDH)在时间性能上具有优势,本发明在训练时间上比DH(深度哈希)和BGAN(二进制对抗哈希)分别节省了0.5h和4.5h;测试时间比BGAN(二进制对抗哈希)节省了2.5ms。
为了更好地验证我们的方案,我们分别将图像旋转90度、180度和270度,实验结果如图2所示,表明图像的预处理方式并不会对实验结果产生太大的影响。
为了将本发明扩展到单标签数据集,在单标签数据集Cifar-10上进行了实验,将几种常用方法与Vgg19模型进行了结合,结果如表3所示。与其他深度无监督哈希学习方法相比,本发明(FIDH)具有更好的学习效果,与BGAN(二进制对抗哈希)相比,在Cifar-10数据集的12位、24位、36位和48位的mAP(平均精度均值)结果分别提高了31.2%、21.5%、21.3%、19.9%。
上述实验结果表明,本发明在多标签数据集和单标签数据集的图像数据检索上均优于现有常用方法,检索精度和时间都有明显优势。
神经网络可以通过一小部分像素信息直接判断图像的类别,这与“人工智能”的字面意义不同。因此,如何使机器了解图像信息是一个值得研究的问题。强迫神经网络学习图像的高级语义信息是一种深刻的理解,利用预处理训练集,破坏原始像素结构,迫使神经网络理解图像的高层语义信息。它是一种从深度学习到深度理解的尝试。如果神经网络能够识别图像预处理前后的标签,就可以理解图像的高层语义信息。

Claims (7)

1.一种基于深度特征一致哈希算法的图像检索方法,其特征在于,该方法包括以下步骤:
S1:获取多标签或者单标签图像数据,包括训练集和测试集;
S2:预处理训练集;
S3:利用S2预处理后的训练集,对神经网络进行优化;
S4:将训练集输入到S3优化后的神经网络中得到哈希码;
S5:计算S4得到的哈希码与所述测试集得到哈希码的汉明距离,并按从小到大的距离排序,输出前k个检索结果,k取值为正整数,完成检索;
所述S3中的神经网络优化具体包括:
S3-1:根据训练集得到改进的语义相似度矩阵;
S3-2:将预处理后的训练集输入到神经网络中;
S3-3:并根据S3-1得到的语义相似度矩阵设置目标函数对神经网络进行训练和优化,所述S3-3具体为:传统的语义相似度矩阵的值只有1和0,给定所有图像的哈希码B={b1,b2,…bn}和语义相似度矩阵s=sij,条件概率p(sij | B)表示为:
Figure 41775DEST_PATH_IMAGE001
(2)
其中,
Figure 717170DEST_PATH_IMAGE002
是激活函数;内积表示汉明距离,
Figure 169011DEST_PATH_IMAGE003
,使用负对数似然作为损失函数:
Figure 236325DEST_PATH_IMAGE004
(3)
使用公式(3)来计算具有强相似性的图像的损失;对于弱相似的图像,使用以下公式计算损失:
Figure 191642DEST_PATH_IMAGE005
(4)
其中,bi,bj为图像的哈希码,<bi,bj>的范围为[-q,q],结合式(3)和式(4),用Wij来标记这两种情况,即Wij=1表示这两幅图片是强相似的,Wij=0表示这两幅图片是弱相似的;因此,目标函数可以写为:
Figure 968099DEST_PATH_IMAGE006
(5)
其中,γ是一个权重参数;
设定目标函数以减少损失,并鼓励网络输入准确的二进位码:
Figure 907237DEST_PATH_IMAGE007
(6)
其中||·||1是向量的L1范数,|·|是绝对值运算,ui、uj为松弛的近似哈希码;
使用余弦距离来衡量配对特征的损失:
Figure 263394DEST_PATH_IMAGE008
(7)
其中fi、fj为神经网络fc7层的输出特征向量;将式(7)与式(5)结合,得到如下目标函数:
Figure 371421DEST_PATH_IMAGE009
(8)
结合数量损失和语义损失,最终目标函数如下:
Figure 771309DEST_PATH_IMAGE010
(9)
其中,λ是控制量化损失的参数,ui、uj为松弛的近似哈希码,fi、fj为神经网络fc7层的输出特征向量,S为语义相似度矩阵,sij为矩阵S中第i行第j列的元素,bi,bj为图像的哈希码,<bi,bj>的范围为[-q,q],
Figure 196079DEST_PATH_IMAGE012
,Wij用来标记强相似或弱相似,Wij=1表示这两幅图片是强相似的,Wij=0表示这两幅图片是弱相似的。
2.如权利要求1所述的基于深度特征一致哈希算法的图像检索方法,其特征在于,该方法还包括评估步骤S6:根据S5所得到的前k个检索结果的标签和测试集的标签,计算mAP,完成评估。
3.如权利要求1所述的基于深度特征一致哈希算法的图像检索方法,其特征在于,所述S2中:所述预处理包括进行旋转、翻转和添加噪声操作中的一种或者几种。
4.如权利要求1所述的基于深度特征一致哈希算法的图像检索方法,其特征在于,所述S3-1具体为:给定n个训练集图像I={I1,I2,In},利用标签计算相似度矩阵,n取值为正整数;如果Ii和Ij具有任何相同的标签,那么sij=1,否则sij=0;使用百分比来计算sij;公式如下:
Figure 74036DEST_PATH_IMAGE013
(1)
其中,li和lj表示图像Ii和Ij的标签向量;<li,lj>表示图像Ii和Ij的内积;且根据公式(1),将图像分为两类:强相似性和弱相似性;强相似分为完全相似和完全不相似。
5.如权利要求1所述的基于深度特征一致哈希算法的图像检索方法,其特征在于,所述S3-2中:所述神经网络为卷积神经网络,具体使用Vgg19作为网络结构。
6.如权利要求1所述的基于深度特征一致哈希算法的图像检索方法,其特征在于,所述S4中:
S4-1:使用标准的反向传播和梯度下降法来优化目标函数;通过将哈希码b替换为u,所述目标函数(9)重写如下:
Figure 738367DEST_PATH_IMAGE014
(10)
S4-2:再经过学习过程,得到了近似的哈希码,其值在(-1,1)范围内;
S4-3:为了评估该方法的有效性,使用以下公式来获得精确的哈希码:
Figure 43578DEST_PATH_IMAGE015
(11)
最终通过上述(1)-(11)一系列公式,最终实现了端到端地学习哈希码。
7.如权利要求1所述的基于深度特征一致哈希算法的图像检索方法,其特征在于,所述S5为:将测试集输入到S4训练好的神经网络中得到其哈希码,并计算与S4中训练集哈希码的汉明距离,按从小到大的顺序排序,输出前k个检索结果,k取值为正整数。
CN202110883325.9A 2021-08-03 2021-08-03 基于深度特征一致哈希算法的图像检索方法 Active CN113326390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110883325.9A CN113326390B (zh) 2021-08-03 2021-08-03 基于深度特征一致哈希算法的图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110883325.9A CN113326390B (zh) 2021-08-03 2021-08-03 基于深度特征一致哈希算法的图像检索方法

Publications (2)

Publication Number Publication Date
CN113326390A CN113326390A (zh) 2021-08-31
CN113326390B true CN113326390B (zh) 2021-11-02

Family

ID=77426787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110883325.9A Active CN113326390B (zh) 2021-08-03 2021-08-03 基于深度特征一致哈希算法的图像检索方法

Country Status (1)

Country Link
CN (1) CN113326390B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547354B (zh) * 2022-02-15 2023-04-07 华南师范大学 一种基于函数自适应映射的深度哈希方法
CN114491115B (zh) * 2022-02-17 2023-03-24 重庆邮电大学 一种基于深度哈希的多模型融合的集成图像检索方法
CN115964527B (zh) * 2023-01-05 2023-09-26 北京东方通网信科技有限公司 一种用于单标签图像检索的标签表征构建方法
CN117390515B (zh) * 2023-11-01 2024-04-12 江苏君立华域信息安全技术股份有限公司 基于深度学习和SimHash的数据分类方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766469A (zh) * 2018-12-14 2019-05-17 浙江工业大学 一种基于深度哈希学习优化的图像检索方法
CN109948585A (zh) * 2019-03-29 2019-06-28 湖北工业大学 一种基于高精度哈希图像检索技术的行人检测方法及系统
CN110674323A (zh) * 2019-09-02 2020-01-10 山东师范大学 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN110795591A (zh) * 2019-10-14 2020-02-14 中山大学 一种基于离散梯度反向传播的图像检索方法
CN113191445A (zh) * 2021-05-16 2021-07-30 中国海洋大学 基于自监督对抗哈希算法的大规模图像检索方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680858B2 (en) * 2006-07-05 2010-03-16 Yahoo! Inc. Techniques for clustering structurally similar web pages
US9552549B1 (en) * 2014-07-28 2017-01-24 Google Inc. Ranking approach to train deep neural nets for multilabel image annotation
CN109766455B (zh) * 2018-11-15 2021-09-24 南京邮电大学 一种有鉴别的全相似性保留哈希跨模态检索方法
CN109918528A (zh) * 2019-01-14 2019-06-21 北京工商大学 一种基于语义保护的紧凑的哈希码学习方法
EP3731154A1 (en) * 2019-04-26 2020-10-28 Naver Corporation Training a convolutional neural network for image retrieval with a listwise ranking loss function
CN110196918B (zh) * 2019-05-28 2021-05-04 北京理工大学 一种基于目标检测的无监督深度哈希方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766469A (zh) * 2018-12-14 2019-05-17 浙江工业大学 一种基于深度哈希学习优化的图像检索方法
CN109948585A (zh) * 2019-03-29 2019-06-28 湖北工业大学 一种基于高精度哈希图像检索技术的行人检测方法及系统
CN110674323A (zh) * 2019-09-02 2020-01-10 山东师范大学 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN110795591A (zh) * 2019-10-14 2020-02-14 中山大学 一种基于离散梯度反向传播的图像检索方法
CN113191445A (zh) * 2021-05-16 2021-07-30 中国海洋大学 基于自监督对抗哈希算法的大规模图像检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Deeply learnt hashing forests for content based image retrieval in prostate MR images》;Amit Shah等;《SPIE Medical Imaging》;20160321;第 1-7页 *
《基于哈希学习的近似最近邻搜索方法的研究》;曹媛;《中国博士学位论文全文数据库》;20200615;I135-46 *

Also Published As

Publication number Publication date
CN113326390A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN113326390B (zh) 基于深度特征一致哈希算法的图像检索方法
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
CN110909820B (zh) 基于自监督学习的图像分类方法及系统
CN110321967B (zh) 基于卷积神经网络的图像分类改进方法
Okafor et al. Comparative study between deep learning and bag of visual words for wild-animal recognition
CN106528826A (zh) 一种基于深度学习的多视图外观专利图像检索方法
CN110647907B (zh) 利用多层分类和字典学习的多标签图像分类算法
CN115410026A (zh) 基于标签传播对比半监督学习的图像分类方法与系统
Varga et al. Fast content-based image retrieval using convolutional neural network and hash function
CN110196918B (zh) 一种基于目标检测的无监督深度哈希方法
Vallet et al. A multi-label convolutional neural network for automatic image annotation
Peng et al. Leaf disease image retrieval with object detection and deep metric learning
Singh Content-based image retrieval using deep learning
CN113095229B (zh) 一种无监督域自适应行人重识别系统及方法
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN114491115A (zh) 一种基于深度哈希的多模型融合的集成图像检索方法
Bai et al. Learning high-level image representation for image retrieval via multi-task dnn using clickthrough data
Gao et al. An improved XGBoost based on weighted column subsampling for object classification
CN112307225A (zh) 基于改进哈希学习算法的大规模数据检索方法
CN116108217B (zh) 一种基于深度哈希编码和多任务预测的逃费车辆相似图片检索方法
Laroze et al. Active learning to assist annotation of aerial images in environmental surveys
CN114281985A (zh) 样本特征空间增强方法及装置
Eghbali et al. Deep Convolutional Neural Network (CNN) for Large-Scale Images Classification
Wang et al. Object recognition via adaptive multi-level feature integration
CN117197590B (zh) 一种基于神经架构搜索与知识蒸馏的图像分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant