CN107943938A - 一种基于深度乘积量化的大规模图像相似检索方法及系统 - Google Patents
一种基于深度乘积量化的大规模图像相似检索方法及系统 Download PDFInfo
- Publication number
- CN107943938A CN107943938A CN201711182524.7A CN201711182524A CN107943938A CN 107943938 A CN107943938 A CN 107943938A CN 201711182524 A CN201711182524 A CN 201711182524A CN 107943938 A CN107943938 A CN 107943938A
- Authority
- CN
- China
- Prior art keywords
- picture
- retrieved
- pictures
- character representation
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于深度乘积量化的大规模图像相似检索方法,包括将待检索的图片输入到训练后的深度神经网络中,获取所述待检索的图片对应的特征表示,所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层;基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示,计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离;在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。本发明通过在深度表征学习基础上将量化误差最小化,显著提高了深度特征的可量化性,从而大大提高检索的准确度和时间效率。
Description
技术领域
本发明涉及计算机数据管理技术领域,更具体地,涉及一种基于深度乘积量化的大规模图像相似检索方法及系统。
背景技术
在互联网时代,随着互联网上多媒体资源的不断增加,如何从大规模数据中快速、有效的查找到相关的数据,无论是在时间上还是空间上都是一个极大的考验。随着互联网的飞速发展,大容量、高维度的图像大数据在搜索引擎和社会网络中越来越普遍,也吸引了越来越多的关注,如何快速有效的进行图像检索分析是一个亟需解决的问题,近似近邻查询正是针对这一问题而产生的,而如何同时保证计算效率和搜索质量是近似近邻查询的关键。针对这一问题,一个非常常用且有效的解决方法是哈希,即将高维数据转换为紧凑的二进制码,并为相似的数据生成相似的二进制码。
现有技术中,一般采用基于深度学习的哈希方法,基于深度学习的哈希方法表明,使用深度神经网络可以更有效地学习特征表示和哈希编码,因为深度神经网络可以自然地拟合任何非线性哈希函数。这些深度哈希方法在一些标准数据集上取得了最好的结果。
然而,现有技术提供的深度哈希方法不能在统计学意义上最小化量化误差,从而无法在检索中提高图像深度特征的可量化性,导致检索精度不高。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的一种基于深度乘积量化的大规模图像相似检索方法及系统,所述方法包括:
S1、将待检索的图片输入到经深度乘积量化方法训练后的深度神经网络中,获取所述待检索的图片对应的特征表示,所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层;
S2、基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示,计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离;
S3、在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。
其中,步骤S1之前所述方法还包括:
基于预设的损失函数,对所述深度神经网络进行训练,所述损失函数包括成对余弦损失函数和乘积量化损失函数。
其中,训练过程包括:
将训练样本集输入到所述深度神经网络中,获取所述训练样本集对应的特征表示;
基于预设的损失函数和所述训练样本集对应的特征表示,计算所述损失函数对所述深度神经网络的梯度;
基于所述损失函数对所述深度神经网络的梯度以及标准的反向传播算法,对所述深度神经网络进行训练。
其中,所述深度神经网络的网络架构包括多个卷积层构成的子网络和多个单元的全连接量化层;
相应的,步骤S1包括:
将所述待检索的图片输入到训练后的深度神经网络中,基于所述多个卷积层构成的子网络,获取所述待检索的图片的图像表征;
基于所述多个单元的全连接量化层,对所述待检索的图片的图像表征进行量化,得到所述待检索的图片对应的压缩后的特征表示。
其中,所述多个单元的全连接量化层中的激活函数为双曲正切(tanh)函数。
其中,步骤S2包括:
S21、将所述检索库中每一张图片输入到所述训练后的深度神经网络,得到所述检索库中每一张图片各自对应的特征表示;
S22、基于预设的乘积量化算法,计算所述检索库中每一张图片对应的哈希编码和所述检索库在预设的多个码本下对应的多个聚类中心矩阵;
S23、基于所述检索库中每一张图片对应的哈希编码和所述聚类中心矩阵以及所述待检索的图片对应的特征表示,构建距离度量函数,以计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离。
其中,步骤S23中所述距离度量函数具体为:
其中,所述AQD(q,xi)为非对称量化距离,q代表带检索图片,xi代表检索库中的其中一张图片,M为预设的码本数量,zq为待检索的图片对应的特征表示,C是所述聚类中心矩阵,hi为所述检索库中的其中一张图片对应的哈希编码。
其中,步骤S2之后步骤S3之前所述方法还包括:
预先计算所述带检索的图片的特征向量和所述多个聚类中心矩阵中每一个聚类中心矩阵之间的欧几里德距离,并将计算结果存储在预设的查找表中。
根据本发明的第二方面,提供一种基于深度乘积量化的大规模图像相似检索系统,包括:
量化模块,用于将待检索的图片输入到训练后的深度神经网络中,获取所述待检索的图片对应的特征表示,所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层;
测距模块,用于基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示,计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离;
检索模块,用于在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。
根据本发明的第三方面,提供一种非暂态计算机可读存储介质,用于存储如前所述的计算机程序。
本发明提供的基于深度乘积量化的大规模图像相似检索方法及系统,通过在深度表征学习基础上将量化误差最小化,显著提高了深度特征的可量化性,从而大大提高检索的准确度和时间效率。
附图说明
图1是本发明实施例提供的一种基于深度乘积量化的大规模图像相似检索方法流程图;
图2是本发明提出的一种基于深度乘积量化的大规模图像相似检索的总体架构图;
图3是本发明提出的一种基于深度乘积量化的大规模图像相似检索的总体流程图;
图4是本发明实施例提供的一种基于深度乘积量化的大规模图像相似检索系统结构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明实施例提供的一种基于深度乘积量化的大规模图像相似检索方法流程图,如图1所示,所述方法包括:
S1、将待检索的图片输入到经深度乘积量化方法训练后的深度神经网络中,获取所述待检索的图片对应的特征表示,所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层;
S2、基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示,计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离;
S3、在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。
现有技术中,已有的深度哈希方法的一个关键缺点是没有在统计学意义上最小化量化误差,并且特征表示与二进制哈希编码不能完美匹配。
具体的,这是由于不是所有的输入向量都可以使用向量量化方法来进行有效的量化:如果输入向量没有表现出一个簇结构,那么它们就不能被准确地量化,这正是特征表示与二进制编码不能完美匹配的原因所在,我们将此种性质定义为可量化性。
因此,提高图像深度特征的可量化性是深度哈希方法中非常重要的一部分,在另一方面,这些方法没有采用定义良好的成对损失函数来关联成对距离与相似性标签,即基于成对距离来辨别两个数据是相似还是不相似。
那么现有技术使用深度哈希方法只会产生次优的哈希编码,而不是最优的哈希编码。
针对上述现有技术中存在的问题,本发明实施例提供了一种基于深度乘积量化的高效图片检索方法,一定程度上解决了上述问题,并在标准数据集中验证了该方法的有效性。
具体的,S1中,所述深度神经网络是本发明实施例在深度卷积神经网络AlexNet的基础上针对量化做出的改进后的神经网络,具体的,在保留AlexNet多个卷积层子网络的基础上,用一个具有R个单元的全连接量化层替换了原始AlexNet中的多项对率回归分类器前的最后一个全连接层。
其中,所述子网络共包含5层卷积层和两层全连接层,每个全连接层学习一个非线性映射其中是图片xi在第l层的隐含表征1≤l≤8,Wl和bl分别是第l层的权重和偏置参数,al是激活函数,在本发明中对所有隐藏层使用的激活函数均为整流线性单元函数(ReLU):al(x)=max(0,x)。
本发明实施例用一个具有R个单元的全连接量化层替换了原始AlexNet中的多项对率回归分类器前的最后一个全连接层,那么本发明实施例提供的全连接量化层会将子网络中的7层表征转换为R维量化表征zi,其中l=8是总层数。
可以理解的是,上述量化表征zi即为由深度神经网络获取的特征表示,在本发明实施例中也称为特征表示,所述特征表示是图片经过深度神经网络学习后与哈希编码匹配的深层图像特征。
对于待检索图片q,对应为待检索的图片的特征表示zq,对于检索库中的每张图片,对应的特征表示为zi。
然后计算待检索的图片与检索库中每张图片之间的非对称量化距离,并在检索库中选出非对称距离最小的若干张图片作为检索结果,可以理解的是,选择的数量可自由设置,本发明实施例对此不做具体限定。
图2是本发明实施例提供的深度神经网络架构示意图,如图2所示,将样本输入深度神经网络后,经卷积层和全连接层处理后,由预设的成对余弦损失函数和乘积量化损失函数进行处理,处理后实现将所有码本的数据转换为二进制编码。
图3是本发明提出的一种基于深度乘积量化的大规模图像相似检索的总体流程图,如图3所示,当需要进行相似检索时,将待检索图片输入深度神经网络中,根据是否进行训练过程,完成后续检索流程,训练过程如图3流程图中内容所示,根据训练结果计算待检索图片和检索库中图片的非对称量化距离,从而从检索库中选出相似的图片。
在上述实施例的基础上,步骤S1之前所述方法还包括:
基于预设的损失函数,对所述深度神经网络进行训练,所述损失函数包括成对余弦损失函数和乘积量化损失函数。
其中,需要说明的是,对于一对二进制编码hi和hj,它们汉明距离distH(.,.)和内积<.,.>有如下关系:其中B为二进制编码的维度。因此,我们可以使用内积代替汉明距离来量化成对相似性。然而,由于我们的目标是在zi为连续值时,学习zi对于哈希编码的最优全连接量化表征,且内积<zi,zj>∈[-R,R]与sij∈{-1,1]不一致。因此,我们使用如下基于余弦距离的成对平方损失函数来量化全连接量化表征对之间的相似性:
其中,||·||表示向量长度,由于余弦距离故其与二进制相似度标签sij∈{-1,1}保持一致,因此上面定义的余弦损失保留了相似矩阵S中所包含的成对相似性信息。需要说明的是,在实际的检索系统中,余弦距离被广泛用于减轻矢量长度的多样性,从而提高检索质量,但对于有监督哈希学习的方法中却尚未得到很好的应用,而在本发明实施例中,我们定义的成对余弦函数能得到非常好的损失函数定义效果。
对于乘积量化损失函数,我们采用最前沿的乘积量化(PQ)方法从保留了相似性的量化表征z中构建紧凑二进制编码hi。当需要大量的聚类中心来准确地重构输入向量时,乘积量化是向量量化的一个有效的解决方案。
乘积量化的关键思想是将原始向量空间分解为M个低维子空间的笛卡尔乘积,并通过K均值(K-means)聚类算法将每个子空间划分为K个簇。具体来说,我们将深度特征表示划分为M个子空间,即zi=[zi1;...;zim],其中zim∈RR/M是与第m个子空间相关联的zi的子向量。然后,我们通过K-means独立地量化每个子空间m的所有子向量到K个簇。故乘积量化误差定义如下:
him0=1,him∈{0,1}K,
其中表示第m个子空间中的K个聚类中心的码本,而him是一个1-of-k,即k维向量中有且仅有一个值为1,其余值全为0的指示编码,指示zi在第m个码本中对应的聚类中心。Cm用于近似表示第i个点zi。记hi=[hi1;...;hiM]∈RMK为点zi对应的编码。由于每个him都能被压缩到log2K位,故hi可被压缩到M log2K位。
为了保证全连接量化层输出的特征zi对于哈希编码是最佳的,我们需要:控制将zi二进制化为二进制码hi的量化误差,并且提高zi的可量化性,以便可以有效量化。
由此,我们亦可以将乘积量化误差重写为如下紧凑的矩阵形式:
其中聚类中心矩阵C∈RR×MK是一个分块对角阵:
在上述实施例的基础上,所述基于预设的损失函数,对所述深度神经网络进行训练,所述损失函数包括成对余弦损失函数和乘积量化损失函数,包括:
将训练样本集输入到所述深度神经网络中,获取所述训练样本集对应的特征表示;
基于预设的损失函数和所述训练样本集对应的特征表示,计算所述损失函数对所述深度神经网络的梯度;
基于所述损失函数对所述深度神经网络的梯度和反向传播算法,对所述深度神经网络进行训练。
可以理解的是,区别于传统的神经网络训练过程,本发明实施例提供的训练过程是需要调整损失函数中参数的值从而完成训练,整个训练过程具体为:
记当前训练轮数为Epochcurrent,所述Epochcurrent的初始值为0,最大训练轮数为Epochmax。每一次训练对Epochcurrent进行一次更新,更新式为:Epochcurrent=Epochcurrent+1,若更新后Epochcurrent<Epochmax,则代表尚未训练结束,标记训练集中所有图片均为未使用状态,若Epochcurrent=1,首先使用当前深度网络获取所有训练图片的深度特征{z1,z2,...zN},若Epochcurrent>1,则所有训练图片深度特征已由深度神经网络得到,使用M个独立的K-means算法求解下列目标函数,得到更新后的中心矩阵C=diag(C1,C2,...CM)和训练图片对应的二进制码H=[h1,...hN],所述目标函数为:
然后从训练集中随机获取一批本轮训练尚为使用过的图片以及这些图片之间的相关关系,图片数量为批次数量,并将其标记为已使用。将图片记为X,X={x1,x2,...,xn},图片之间的相关关系记为S,S={Sij|1<i,j≤n},Sij=1代表xi,xj为语义相关,而Sij=-1代表图片xi,xj为语义无关。
可以理解的是,若本轮训练中所有图片均已经被使用过,则重新进行训练过程。
将X传入具有多个卷积层的子网络,获得紧致的图像表征zl-1,再将zl-1传入给全连接量化层,用于生成对哈希编码更匹配的低维度表征zl,即z。
计算损失函数对于深度网络参数的梯度并根据梯度更新Wl,bl的值,其中最后一层的残差δik的计算方式如下:
最后使用标准的反向传播算法对全连接量化层进行训练,对子网络的卷积层以及全连接层进行微调。
所述对子网络的卷积层以及全连接层进行微调是指根据损失函数中训练后更新的参数值再次对子网络的卷积层以及全连接层进行训练,从而再次更新子网络的卷积层以及全连接层的特征表示,从而完成微调。
在上述实施例的基础上,所述深度神经网络包括多个卷积层构成的子网络和多个单元的全连接量化层,步骤S1包括:
将所述待检索的图片输入到训练后的深度神经网络中,基于所述多个卷积层构成的子网络,获取所述待检索的图片的图像表征;
基于所述多个单元的全连接量化层,对所述待检索的图片的图像表征进行量化,得到所述待检索的图片对应的特征表示。
可以理解的是,对于本发明实施例提供的深度神经网络,实质上是包括了多个卷积层构成的子网络和多个单元的全连接量化层构成的,其中多个卷积层的子网络,用于获得良好的图像表征,全连接量化层,用于生成与哈希编码最匹配的低维度表征,从而得到与哈希编码匹配的深层图像特征。
在上述实施例的基础上,所述全连接量化层中的激活函数为双曲正切(tanh)函数。
需要说明的是,为了保证全连接量化层表征zi对于哈希编码是最佳的,我们使用双曲正切(tanh)激活函数a(x)=tanh(x)来生成低维表征。
在上述实施例的基础上,步骤S2包括:
S21、将所述检索库中每一张图片输入到所述训练后的深度神经网络,得到所述检索库中每一张图片各自对应的特征表示;
S22、基于预设的乘积量化算法,计算所述检索库中每一张图片对应的哈希编码和所述检索库在预设的多个码本下对应的多个聚类中心矩阵;
S23、基于所述检索库中每一张图片对应的哈希编码和所述聚类中心矩阵以及所述待检索的图片对应的特征表示,构建距离度量函数,以计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离。
可以理解的是,对于检索库中的图片zi,同样需要将图片输入训练后的深度神经网络中进行特征表示提取,对于其中的每一张图片,将其输入给子网络及全连接量化层得到图片的特征表示,然后根据乘积量化算法计算聚类中心矩阵C和每张图片对应的哈希编码hi。
进一步的,步骤S23中所述距离度量函数具体为:
其中,所述AQD(q,xi)为非对称量化距离,q代表带检索图片,xi代表检索库中的其中一张图片,M为预设的码本数量,zq为待检索的图片对应的特征表示,C是所述聚类中心矩阵,hi为所述检索库中的其中一张图片对应的哈希编码。
需要说明的是,具体的乘积量化算法在上述实施例中的乘积量化损失函数处已有详细说明,本发明实施例对此不再进行赘述。
那么通过上述公式可以由所述检索库中每一张图片对应的哈希编码和所述聚类中心矩阵以及所述待检索的图片对应的特征表示,构建距离度量函数,计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离。
在上述实施例的基础上,步骤S2之后步骤S3之前所述方法还包括:
预先计算所述带检索的图片的特征向量和所述多个聚类中心矩阵中每一个聚类中心矩阵之间的欧几里德距离,并将计算结果存储在预设的查找表中。
可以理解的是,为了加速检索的速度,需做一些预处理。对于每个待查询的图片q,可以预先计算图片q的深度特征zq与M个码本中所有聚类中心之间的欧几里德距离并存储在一个与q关联的M×K大小的查询表中,该查询表用于计算q和所有数据库点之间的AQD距离。
有了该查找表,在进行检索操作时每次计算只需要进行M次表查找操作和M次加法操作,计算代价仅仅比计算汉明距离略高。
其中,M是本发明实施例提供的预设码本数量,一个码本对应一个聚类中心,对于每一个聚类中心计算图片与该聚类中心的欧几里德距离,并将计算结果存储在该查找表中,待查询时查找相应的聚类中心即可完成快速查询的功能。
图4是本发明实施例提供的一种基于深度乘积量化的大规模图像相似检索系统结构图,如图4所示,一种基于深度乘积量化的大规模图像相似检索系统,包括:量化模块1、测距模块2以及检索模块3,其中:
量化模块1用于将待检索的图片输入到训练后的深度神经网络中,获取所述待检索的图片对应的特征表示,所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层;
测距模块2用于基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示,计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离;
检索模块3用于在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。
具体的,在本发明实施例中,对于大规模图像的相似检索,首先需要明确待检索图片以及检索库,那么在对待检索图片进行检索时,量化模块1会将待检索图片输入到训练后的深度神经网络中,获取所述待检索的图片对应的特征表示,所述特征表示是待检索图片对于哈希编码匹配的深层图像特征,然后测距模块2根据待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示进行非对称量化距离计算,在计算过程中,为了提高计算效率,本发明实施例会优先对待检索图片进行预处理,即预先计算所述带检索的图片的特征向量和所述多个聚类中心矩阵中每一个聚类中心矩阵之间的欧几里德距离,并将计算结果存储在预设的查找表中,那么检索模块3将直接通过在查找表中查找的方式直接获取到预设数量与待检索图片相似的若干张图片。
本发明提供的基于深度乘积量化的大规模图像相似检索系统,通过在深度表征学习基础上将量化误差最小化,显著提高了深度特征的可量化性,从而大大提高检索的准确度和时间效率。
本发明实施例提供一种基于深度乘积量化的大规模图像相似检索系统,包括:至少一个处理器;以及与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令以执行上述各方法实施例所提供的方法,例如包括:S1、将待检索的图片输入到训练后的深度神经网络中,获取所述待检索的图片对应的特征表示,所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层;S2、基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示,计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离;S3、在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:S1、将待检索的图片输入到训练后的深度神经网络中,获取所述待检索的图片对应的特征表示,所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层;S2、基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示,计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离;S3、在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:S1、将待检索的图片输入到训练后的深度神经网络中,获取所述待检索的图片对应的特征表示,所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层;S2、基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示,计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离;S3、在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度乘积量化的大规模图像相似检索方法,其特征在于,包括:
S1、将待检索的图片输入到经深度乘积量化方法训练后的深度神经网络中,获取所述待检索的图片对应的特征表示,所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层;
S2、基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示,计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离;
S3、在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。
2.根据权利要求1所述的方法,其特征在于,步骤S1之前所述方法还包括:
基于预设的损失函数,对所述深度神经网络进行训练,所述损失函数包括成对余弦损失函数和乘积量化损失函数。
3.根据权利要求2所述的方法,其特征在于,训练过程包括:
将训练样本集输入到所述深度神经网络中,获取所述训练样本集对应的特征表示;
基于预设的损失函数和所述训练样本集对应的特征表示,计算所述损失函数对所述深度神经网络的梯度;
基于所述损失函数对所述深度神经网络的梯度以及标准的反向传播算法,对所述深度神经网络进行训练。
4.根据权利要求1所述的方法,其特征在于,所述深度神经网络的网络架构包括多个卷积层构成的子网络和多个单元的全连接量化层;
相应的,步骤S1包括:
将所述待检索的图片输入到训练后的深度神经网络中,基于所述多个卷积层构成的子网络,获取所述待检索的图片的图像表征;
基于所述多个单元的全连接量化层,对所述待检索的图片的图像表征进行量化,得到所述待检索的图片对应的压缩后的特征表示。
5.根据权利要求4所述的方法,其特征在于,所述多个单元的全连接量化层中的激活函数为双曲正切tanh函数。
6.根据权利要求1所述的方法,其特征在于,步骤S2包括:
S21、将所述检索库中每一张图片输入到所述训练后的深度神经网络,得到所述检索库中每一张图片各自对应的特征表示;
S22、基于预设的乘积量化算法,计算所述检索库中每一张图片对应的哈希编码和所述检索库在预设的多个码本下对应的多个聚类中心矩阵;
S23、基于所述检索库中每一张图片对应的哈希编码和所述聚类中心矩阵以及所述待检索的图片对应的特征表示,构建距离度量函数,以计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离。
7.根据权利要求6所述的方法,其特征在于,步骤S23中所述距离度量函数具体为:
<mrow>
<mi>A</mi>
<mi>Q</mi>
<mi>D</mi>
<mrow>
<mo>(</mo>
<mi>q</mi>
<mo>,</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</munderover>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>z</mi>
<mrow>
<mi>q</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>C</mi>
<mi>m</mi>
</msub>
<msub>
<mi>h</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>,</mo>
</mrow>
其中,所述AQD(q,xi)为非对称量化距离,q代表带检索图片,xi代表检索库中的其中一张图片,M为预设的码本数量,zq为待检索的图片对应的特征表示,C是所述聚类中心矩阵,hi为所述检索库中的其中一张图片对应的哈希编码。
8.根据权利要求6所述的方法,其特征在于,步骤S2之后步骤S3之前所述方法还包括:
预先计算所述带检索的图片的特征向量和所述多个聚类中心矩阵中每一个聚类中心矩阵之间的欧几里德距离,并将计算结果存储在预设的查找表中。
9.一种基于深度乘积量化的大规模图像相似检索系统,其特征在于,包括:
量化模块,用于将待检索的图片输入到训练后的深度神经网络中,获取所述待检索的图片对应的特征表示,所述深度神经网络包括将AlexNet中多项对率回归分类器前最后一个全连接层替换为具有多个单元的全连接量化层;
测距模块,用于基于所述待检索的图片对应的特征表示和检索库中每一张图片对应的特征表示,计算所述待检索的图片和所述检索库中每一张图片之间的非对称量化距离;
检索模块,用于在所述检索库中选取与所述待检索的图片的非对称量化距离最小的预设数量的图片作为检索结果。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至8任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711182524.7A CN107943938A (zh) | 2017-11-23 | 2017-11-23 | 一种基于深度乘积量化的大规模图像相似检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711182524.7A CN107943938A (zh) | 2017-11-23 | 2017-11-23 | 一种基于深度乘积量化的大规模图像相似检索方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107943938A true CN107943938A (zh) | 2018-04-20 |
Family
ID=61931008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711182524.7A Pending CN107943938A (zh) | 2017-11-23 | 2017-11-23 | 一种基于深度乘积量化的大规模图像相似检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107943938A (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921952A (zh) * | 2018-06-15 | 2018-11-30 | 深圳大学 | 物体功能性预测方法、装置、计算机设备和存储介质 |
CN108984642A (zh) * | 2018-06-22 | 2018-12-11 | 西安工程大学 | 一种基于哈希编码的印花织物图像检索方法 |
CN109063113A (zh) * | 2018-07-30 | 2018-12-21 | 成都快眼科技有限公司 | 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法 |
CN109189973A (zh) * | 2018-08-30 | 2019-01-11 | 清华大学 | 基于策略梯度的大规模图像检索方法及装置 |
CN109284420A (zh) * | 2018-08-31 | 2019-01-29 | 国科赛思(北京)科技有限公司 | 电子元器件替代选型系统及替代选型方法 |
CN109376636A (zh) * | 2018-10-15 | 2019-02-22 | 电子科技大学 | 基于胶囊网络的眼底视网膜图像分类方法 |
CN109670057A (zh) * | 2019-01-03 | 2019-04-23 | 电子科技大学 | 一种渐进式的端到端深度特征量化系统及方法 |
CN109740660A (zh) * | 2018-12-27 | 2019-05-10 | 深圳云天励飞技术有限公司 | 图像处理方法及装置 |
CN109840290A (zh) * | 2019-01-23 | 2019-06-04 | 北京航空航天大学 | 一种基于端到端深度哈希的皮肤镜图像检索方法 |
CN110046660A (zh) * | 2019-04-10 | 2019-07-23 | 江南大学 | 一种基于半监督学习的乘积量化方法 |
CN110322414A (zh) * | 2019-07-05 | 2019-10-11 | 北京探境科技有限公司 | 一种基于ai处理器的图像数据在线量化矫正方法及系统 |
CN110895573A (zh) * | 2018-08-24 | 2020-03-20 | 华为技术有限公司 | 一种检索方法和装置 |
WO2020147857A1 (zh) * | 2019-01-18 | 2020-07-23 | 上海极链网络科技有限公司 | 海量视频特征提取以及存储和检索方法及系统 |
CN111582476A (zh) * | 2020-05-09 | 2020-08-25 | 北京百度网讯科技有限公司 | 自动量化策略搜索方法、装置、设备以及存储介质 |
CN111930984A (zh) * | 2019-04-24 | 2020-11-13 | 北京京东振世信息技术有限公司 | 图像检索方法、装置、服务器、客户端及介质 |
CN112100412A (zh) * | 2020-09-01 | 2020-12-18 | 深圳市欢太科技有限公司 | 图片检索方法、装置、计算机设备和存储介质 |
CN112668632A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大华技术股份有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN113656373A (zh) * | 2021-08-16 | 2021-11-16 | 百度在线网络技术(北京)有限公司 | 构建检索数据库的方法、装置、设备以及存储介质 |
CN113821670A (zh) * | 2021-07-23 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 图像检索方法、装置、设备及计算机可读存储介质 |
WO2022134728A1 (zh) * | 2020-12-25 | 2022-06-30 | 苏州浪潮智能科技有限公司 | 一种图像检索方法、系统、设备以及介质 |
US11960455B2 (en) | 2021-08-16 | 2024-04-16 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for building database for retrieval, device and storage medium |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897390A (zh) * | 2017-01-24 | 2017-06-27 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
-
2017
- 2017-11-23 CN CN201711182524.7A patent/CN107943938A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897390A (zh) * | 2017-01-24 | 2017-06-27 | 北京大学 | 基于深度度量学习的目标精确检索方法 |
Non-Patent Citations (2)
Title |
---|
YUE CAO等: "Deep Quantization Network for Efficient Image Retrieval", 《PROCEEDINGS OF THE THIRTIETH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-16)》 * |
文庆福等: "面向近似近邻查询的分布式哈希学习方法", 《计算机学报》 * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921952A (zh) * | 2018-06-15 | 2018-11-30 | 深圳大学 | 物体功能性预测方法、装置、计算机设备和存储介质 |
WO2019237450A1 (zh) * | 2018-06-15 | 2019-12-19 | 深圳大学 | 物体功能性预测方法、计算机设备和存储介质 |
US11288538B2 (en) | 2018-06-15 | 2022-03-29 | Shenzhen University | Object functionality predication methods, computer device, and storage medium |
CN108984642A (zh) * | 2018-06-22 | 2018-12-11 | 西安工程大学 | 一种基于哈希编码的印花织物图像检索方法 |
CN108984642B (zh) * | 2018-06-22 | 2021-07-27 | 西安工程大学 | 一种基于哈希编码的印花织物图像检索方法 |
CN109063113A (zh) * | 2018-07-30 | 2018-12-21 | 成都快眼科技有限公司 | 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法 |
CN109063113B (zh) * | 2018-07-30 | 2021-11-02 | 成都快眼科技有限公司 | 一种基于不对称深度离散哈希的快速图像检索方法、检索模型及模型构建方法 |
CN110895573A (zh) * | 2018-08-24 | 2020-03-20 | 华为技术有限公司 | 一种检索方法和装置 |
CN110895573B (zh) * | 2018-08-24 | 2022-04-05 | 华为技术有限公司 | 一种检索方法和装置 |
CN109189973B (zh) * | 2018-08-30 | 2021-07-30 | 清华大学 | 基于策略梯度的大规模图像检索方法及装置 |
CN109189973A (zh) * | 2018-08-30 | 2019-01-11 | 清华大学 | 基于策略梯度的大规模图像检索方法及装置 |
CN109284420A (zh) * | 2018-08-31 | 2019-01-29 | 国科赛思(北京)科技有限公司 | 电子元器件替代选型系统及替代选型方法 |
CN109284420B (zh) * | 2018-08-31 | 2020-11-13 | 国科赛思(北京)科技有限公司 | 电子元器件替代选型系统及替代选型方法 |
CN109376636A (zh) * | 2018-10-15 | 2019-02-22 | 电子科技大学 | 基于胶囊网络的眼底视网膜图像分类方法 |
CN109376636B (zh) * | 2018-10-15 | 2022-03-15 | 电子科技大学 | 基于胶囊网络的眼底视网膜图像分类方法 |
CN109740660A (zh) * | 2018-12-27 | 2019-05-10 | 深圳云天励飞技术有限公司 | 图像处理方法及装置 |
CN109670057A (zh) * | 2019-01-03 | 2019-04-23 | 电子科技大学 | 一种渐进式的端到端深度特征量化系统及方法 |
CN109670057B (zh) * | 2019-01-03 | 2021-06-29 | 电子科技大学 | 一种渐进式的端到端深度特征量化系统及方法 |
WO2020147857A1 (zh) * | 2019-01-18 | 2020-07-23 | 上海极链网络科技有限公司 | 海量视频特征提取以及存储和检索方法及系统 |
CN109840290A (zh) * | 2019-01-23 | 2019-06-04 | 北京航空航天大学 | 一种基于端到端深度哈希的皮肤镜图像检索方法 |
CN110046660B (zh) * | 2019-04-10 | 2023-06-27 | 江南大学 | 一种基于半监督学习的乘积量化方法 |
CN110046660A (zh) * | 2019-04-10 | 2019-07-23 | 江南大学 | 一种基于半监督学习的乘积量化方法 |
CN111930984A (zh) * | 2019-04-24 | 2020-11-13 | 北京京东振世信息技术有限公司 | 图像检索方法、装置、服务器、客户端及介质 |
CN110322414A (zh) * | 2019-07-05 | 2019-10-11 | 北京探境科技有限公司 | 一种基于ai处理器的图像数据在线量化矫正方法及系统 |
CN110322414B (zh) * | 2019-07-05 | 2021-08-10 | 北京探境科技有限公司 | 一种基于ai处理器的图像数据在线量化矫正方法及系统 |
CN111582476A (zh) * | 2020-05-09 | 2020-08-25 | 北京百度网讯科技有限公司 | 自动量化策略搜索方法、装置、设备以及存储介质 |
CN112100412A (zh) * | 2020-09-01 | 2020-12-18 | 深圳市欢太科技有限公司 | 图片检索方法、装置、计算机设备和存储介质 |
CN112100412B (zh) * | 2020-09-01 | 2024-04-12 | 深圳市欢太科技有限公司 | 图片检索方法、装置、计算机设备和存储介质 |
CN112668632A (zh) * | 2020-12-25 | 2021-04-16 | 浙江大华技术股份有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN112668632B (zh) * | 2020-12-25 | 2022-04-08 | 浙江大华技术股份有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
WO2022134728A1 (zh) * | 2020-12-25 | 2022-06-30 | 苏州浪潮智能科技有限公司 | 一种图像检索方法、系统、设备以及介质 |
CN113821670A (zh) * | 2021-07-23 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 图像检索方法、装置、设备及计算机可读存储介质 |
CN113821670B (zh) * | 2021-07-23 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 图像检索方法、装置、设备及计算机可读存储介质 |
CN113656373A (zh) * | 2021-08-16 | 2021-11-16 | 百度在线网络技术(北京)有限公司 | 构建检索数据库的方法、装置、设备以及存储介质 |
US11960455B2 (en) | 2021-08-16 | 2024-04-16 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for building database for retrieval, device and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107943938A (zh) | 一种基于深度乘积量化的大规模图像相似检索方法及系统 | |
Cui et al. | Scaling up dataset distillation to imagenet-1k with constant memory | |
Sau et al. | Deep model compression: Distilling knowledge from noisy teachers | |
Dong et al. | Learning deep representations using convolutional auto-encoders with symmetric skip connections | |
CN111291139B (zh) | 基于注意力机制的知识图谱长尾关系补全方法 | |
US12073328B2 (en) | Integrating a memory layer in a neural network for one-shot learning | |
WO2019091020A1 (zh) | 权重数据存储方法和基于该方法的神经网络处理器 | |
JP5235666B2 (ja) | 選択されたセグメントのビット平面表現を用いた連想マトリックス法、システムおよびコンピュータプログラム製品 | |
JP2019032808A (ja) | 機械学習方法および装置 | |
KR20210040248A (ko) | 물질의 생성 구조-특성 역 계산 공동 설계 | |
CN114186084B (zh) | 在线多模态哈希检索方法、系统、存储介质及设备 | |
Wang et al. | Learning A deep l1 encoder for hashing | |
CN116011682B (zh) | 一种气象数据预测方法、装置、存储介质及电子装置 | |
Liu et al. | RBCN: Rectified binary convolutional networks for enhancing the performance of 1-bit DCNNs | |
CN115862751A (zh) | 基于边特征更新聚合注意力机制的量子化学性质计算方法 | |
Qi et al. | Learning low resource consumption cnn through pruning and quantization | |
WO2023212390A1 (en) | Neural network methods | |
Xue et al. | A study on transformer configuration and training objective | |
CN114417161A (zh) | 基于异构图的虚拟物品时序推荐方法、装置、介质及设备 | |
Azizi et al. | Sensitivity-Aware Mixed-Precision Quantization and Width Optimization of Deep Neural Networks Through Cluster-Based Tree-Structured Parzen Estimation | |
Giffon et al. | PSM-nets: Compressing neural networks with product of sparse matrices | |
Yang et al. | A novel ga-taguchi-based feature selection method | |
CN116821362A (zh) | 一种通过动态知识图谱预测实体及关系的方法 | |
CN116467466A (zh) | 基于知识图谱的编码推荐方法、装置、设备及介质 | |
CN116089731A (zh) | 一种缓解灾难性遗忘的在线哈希检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180420 |