CN110688502A - 一种基于深度哈希和量化的图像检索方法及存储介质 - Google Patents

一种基于深度哈希和量化的图像检索方法及存储介质 Download PDF

Info

Publication number
CN110688502A
CN110688502A CN201910846400.7A CN201910846400A CN110688502A CN 110688502 A CN110688502 A CN 110688502A CN 201910846400 A CN201910846400 A CN 201910846400A CN 110688502 A CN110688502 A CN 110688502A
Authority
CN
China
Prior art keywords
layer
image
quantization
neural network
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910846400.7A
Other languages
English (en)
Other versions
CN110688502B (zh
Inventor
甘玲
张天振
熊子文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910846400.7A priority Critical patent/CN110688502B/zh
Publication of CN110688502A publication Critical patent/CN110688502A/zh
Application granted granted Critical
Publication of CN110688502B publication Critical patent/CN110688502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明请求保护一种基于深度哈希和量化的图像检索方法及存储介质,首先建立训练集和测试集,对需要识别的图像进行预处理,然后构建卷积神经网络,采用Alexnet模型结构作为基本架构,再利用训练样本随时生成数据对,根据卷积神经网络进行训练,得到相应的输出值Zn。通过将图像类别通过Glove模型处理得到嵌入标签V,再结合嵌入标签V,计算卷积神经网络输出值的误差函数,并更新网络参数,最后,将查询图像和数据库图像分别通过训练好的模型处理得到相应的二值编码后,通过非对称距离量化方法计算内积相似性,输出检索结果。本发明引入分块编码模块,利用精心设计的混合网络和指定的损失函数,联合学习深度视语义标签,大大提高了图像检索的准确性。

Description

一种基于深度哈希和量化的图像检索方法及存储介质
技术领域
本发明属于人工智能技术领域以及图像检索技术领域,尤其涉及一种基于深度哈希和量化的的图像检索方法。
背景技术
图像是人们对自身和世界认知的重要源泉,而随着信息科学技术的迅速发展,人们对信息的需求量也越来越大,从互联网中获取图像变得越来越方便,同时当前的社交网络也变得越来越流行。面对海量的数据如何组织、有效利用这些数据成为一个待解决的问题,另外图像检索技术在安防、保险、娱乐以及社会民生等领域都有广泛的应用。
图像检索是根据目标图像找到其相近的图像。面对大量图像处理,因可扩展图像检索,紧凑的二进制表示和有效的汉明距离计算,使得哈希方法被广泛应用到最近邻搜索方法。哈希方法解决了高维特征检索效率低的问题,通过映射机制,将图像映射成简洁的二值表示。
另一方面卷积神经网络拥有强大的学习能力,研究者开始应用于目标检测、图像分类等计算机视觉任务,取得了突破性的进展。现在许多学者开始将卷积神经网络与哈希方法结合进行图像检索。
2016年,曹等人提出将量化方法引入深度哈希方法和最小化量化误差,实验证明具有较高的准确性,详见文献“Cao Y,Long M,Wang J,et al.Deep Quantization Networkfor efficient image retrieval[C].national conference on artificialintelligence,2016:3457-3463.”。2017年,曹等人提出将特征空间映射到语义空间,取得了更好的结果,详见文献“Cao Y,Long M,Wang J,et al.Deep Visual-SemanticQuantization for Efficient Image Retrieval[C].computer vision and patternrecognition,2017:916-925.”。
以上提到的深度哈希方法的一个关键缺点是仍然未解决连续阈值化为二进制而产生的量化误差以及哈希函数之间的独立性问题。因此提出一种基于深度哈希和量化的图像检索方法。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种能够进一步控制产生的量化误差和提高哈希函数之间的独立性,从而提高图像检索的准确性的基于深度哈希和量化的图像检索方法及存储介质。本发明的技术方案如下:
一种基于深度哈希和量化的图像检索方法,其包括以下步骤:
步骤S1:建立训练集和测试集,对需要识别的图像进行预处理,预处理的方法包括图像的旋转、白化、均值与方差的均衡在内的操作;
步骤S2:构建卷积神经网络,采用Alexnet模型结构作为基本架构,卷积神经网络中包含5个卷积层、3个池化层和2个全连接层,1个哈希层;哈希层为一个组合层,用于将图像特征通过分层和合并输出二值编码;
步骤S3:训练集中随机生成训练图像并且设置网络参数,通过卷积神经网络进行前向传导得到相应的二值编码Zn
步骤S4:将图像类别通过Glove模型处理得到嵌入标签V;
步骤S5:通过结合嵌入标签V,设置损失函数,计算卷积神经网络实际输出值和预测输出值的误差,将损失函数通过反向传播算法和随机梯度下降方法更新网络参数;
步骤S6:将查询图像和数据库图像分别通过训练好的模型处理得到相应的二值编码,通过非对称距离量化方法计算内积相似性,从小到大进行相似性排序,得到检索结果。
进一步的,所述步骤S2构建卷积神经网络采用Alexnet模型结构作为基本架构。卷积神经网络中包含5个大卷积层、3个池化层和2个全连接层,1个哈希层,具体包括:
第一层卷积层:核尺度为11*11*3(3为RGB通道数),步长为4;
第一层池化层:池化尺度为3*3步长为2;
第二层卷积层:核尺度为5*5*3,步长为1;
第二层池化层:池化尺度为3*3,步长为2;
第三层卷积层:核尺度为3*3*3,步长为1;
第四层卷积层:核尺度为3*3*3,步长为1;
第五层卷积层:核尺度为3*3*3,步长为1;
第五层池化层:池化尺度为3*3,步长为2;
第六层和第七层为全连接层,每一层的神经元的个数为4096;
第八层为哈希层,其中哈希层的分片层,对图像特征X进行分片,假设图像特征为X的维数为m,需要生成哈希码的长度为q,则需要将图像特征分为q片,记为x(i),每一片包含的维度为m/q,分片层得到的q个子特征分别进入全连接层,且每个全连接层的输出为1维,表示为fi(x(i))=Wix(i)其中Wi为第i层全连接层的权重矩阵,每一个子块分片进入激活层,激活层使用双正切激活函数将每个子块输出的1维数值映射为值域在[-1,1]之间的数值,采用双正切激活函数近似代替符号函数,使用分片且分别为每个子块分配随机权重矩阵Wi,使得每个哈希码仅与特征的部分是相关的,从而达到哈希码构造的独立性;然后进入合并层,合并层主要将q个子块的1维输出合并一个q维向量,表示为s=(V1,V2,V3…Vq)T,Vq表示将一个全连接层分成q部分,每个部分为向量表示,其中Vq表示第q部分表示的向量,合并层的输出即为哈希函数输出值的近似值,为连续的哈希值。
进一步的,所述步骤S4将图像类别通过Glove模型处理得到嵌入标签,具体包括:
首先基于语料库构建词的共现矩阵,然后基于共现矩阵和Glove模型学习词向量,其中共线矩阵H,Hij表示整个语料库中单词i和单词j出现在同一个窗口中的次数,其中窗口为中心词和左右词总个数构成窗口大小,然后再通过Glove模型处理,其计算公式如下:
Figure BDA0002195391920000041
J表示通过Glove模型处理完得到的结果即步骤S4得到的嵌入标签V,其中Vi,Vj为单词i和单词j的词向量,bi和bj为两个标量f(Hij)的权重函数,N表示词汇表大小,Hij表示为整个语料库中单词i和单词j出现在同一个窗口中的次数。
进一步的,所述步骤S5通过结合嵌入标签V,设置损失函数,计算卷积神经网络实际输出值和预测输出值的误差,将损失函数通过反向传播算法和随机梯度下降方法更新网络参数。具体包括:结合嵌入标签V,设置损失函数,其中损失函数包括焦点损失函数和自适应边缘损失函数以及优化乘积量化损失函数;
Part1:焦点损失函数,计算公式为:
FL(pt)=-αt(1-pt)rlog(pt)
其中pt为模型预测类标签为1的概率(sigmoid函数),r被称为聚焦参数,r≥0,-(1-pt)r为调节参数,控制分类样本和难分类样本,αt为控制正负样本权重参数,αt∈[0,1];
Part 2:自适应边缘损失函数,计算公式为:
其中
Figure BDA0002195391920000052
Vi,Vj为正负标签,δij表示自适应边缘,通过公式δij使得调节目标和正负标签之间的距离Zn为卷积神经网络的输出值,通过上述公式使得目标与正确标签相近,与负标签距离拉大;
Part3:优化乘积量化损失函数,使用优化乘积量化OPQ方法,为乘积量化PQ方法的改进,在做PQ编码时候,对于切分的各个子空间,需要将各个子控件的方法都相等,在聚类的时候对聚类中心寻找最优旋转矩阵,使得所有子控件中各个数据点到对应子控件的类中心的L2损失的求和最小,然后再通过PQ方法得到结果,其中乘积量化(PQ)方法为将D维空间划分为M个码本,每个码本包含k个码字表示为Cm=[Cm1,...,Cmk],k个码字为Kmeans聚类得到的聚类中心,将二进制bn表示为bn=[b1n;...;bMn],每个指示向量bmn表示第m个码本中k个码字中的仅有一个近似表示第n个数据点,将Zn近似为
Figure BDA0002195391920000053
引入标签嵌入Vi,通过最大内积方法处理,计算公式为:
Figure BDA0002195391920000054
其中Vi表示由Glove模型处理得到的标签嵌入,y表示图像标签,v表示处理后的表示值,|y|表示图像标签数量,Zn表示卷积神经网络的输出值;
通过联合算法联合三种损失方法,计算公式为:
Figure BDA0002195391920000061
其中λ、α为参数,C表示码本,B表示二值编码,W为网络参数,其中网络参数包含迭代次数、学习率、每次训练图像数量,通过损失函数优化最终结果,利用反向传播算法和随机梯度下降方法更新网络参数。
进一步的,所述利用反向传播算法和随机梯度下降方法更新网络参数,具体包括:
将误差进行反向传播,且逐步更新卷积神经网络的所有权值参数,参数的更新计算,表达式如下所示:
Figure BDA0002195391920000062
其中θ表示参数,L(θ)是损失函数,参数θ的梯度为
Figure BDA0002195391920000063
η为学习率,定义每次更新的幅度;
随机梯度下降方法(SGD):从样本中随机抽取一组,训练后按梯度更新一次,然后再抽取一组,再更新一次;传统梯度下降算法中L(θ)为整个训练集进行评估的,而在SGD方法中为简单地使用单个或者少量训练样本来估计期望值。
新的更新公式定义如下:
其中(x(i),y(i))为训练集中一个样本。
进一步的,所述步骤S6将查询图像和数据库图像分别通过训练好的模型处理得到相应的二值编码,通过非对称距离量化方法计算内积相似性,从小到大进行相似性排序,得到检索结果,具体实现步骤如下:
给定数据库二进制代码
Figure BDA0002195391920000071
使用非对称量化器距离(AQD)作为度量,计算给定查询q与数据库图像Xn在语义空间内的内积相似性,从小到大进行相似性排序,得到检索结果,计算公式为:
Figure BDA0002195391920000072
其中q为查询图像,Xn为数据库图像,Zq为查询图像通过卷积神经网络处理的结果,Cm表示码本,bmn为指示向量。
一种存储介质,该存储介质内部存储计算机程序,所述计算机程序被处理器读取时,执行上述权利要求1~6任一项的方法。
本发明的优点及有益效果如下:
(1)本发明在构建卷积神经网络阶段,通过引入分片层和合并层,使得进一步提高了哈希函数之间的独立性,从而提高图像检索的准确性。
(2)将类别通过Glove模型处理后,可以在充分利用了语料库的全局统计信息的同时也提高了词向量在大语料上的训练速度,得到的词向量更能把握住词与词之间的线性关系,使得进一步提高检索的时间和准确性。
(3)引入联合优化算法,通过约束三个损失函数:焦点损失函数和自适应边缘损失函数以及优化乘积量化损失函数,使得哈希编码更好的表示图像特征。
(本发明的创新点是步骤S2、步骤S4、步骤S5)
附图说明
图1是本发明提供优选实施例发明提供的基于深度哈希和量化的图像检索方法的流程示意图。
图2是本发明所构的深度哈希和量化网络的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,本发明的实现流程包括如下:
步骤1:从图像数据库中随机生成两个图像作为网络的输入,一张为训练的图像I1,另外一张为查询图像I2,进行图像预处理;
步骤2:构建卷积神经网络,采用Alexnet模型结构作为基本架构。卷积神经网络中包含5个卷积层、3个池化层和2个全连接层,1个哈希层;
本步骤的具体实现如下:
2.1首先本发明采用Alexnet模型结构作为基本架构。卷积神经网络中包含5个大卷积层、3个池化层和2个全连接层,1个哈希层。
第一层卷积层:核尺度为11*11*3(3为RGB通道数),步长为4;
第一层池化层:池化尺度为3*3步长为2;
第二层卷积层:核尺度为5*5*3,步长为1;
第二层池化层:池化尺度为3*3,步长为2;
第三层卷积层:核尺度为3*3*3,步长为1;
第四层卷积层:核尺度为3*3*3,步长为1;
第五层卷积层:核尺度为3*3*3,步长为1;
第五层池化层:池化尺度为3*3,步长为2;
第六层和第七层为全连接层,每一层的神经元的个数为4096;
2.2第八层为哈希层,其中哈希层的分片层,对图像特征X进行分片,假设图像特征为X的维数为m,需要生成哈希码的长度为q,则需要将图像特征分为q片,记为x(i),每一片包含的维度为m/q,分片层得到的q个子特征分别进入全连接层,且每个全连接层的输出为1维,表示为fi(x(i))=Wix(i)其中Wi为第i层全连接层的权重矩阵。
2.3每一个子块分片进入激活层,激活层使用双正切激活函数将每个子块输出的1维数值映射为值域在[-1,1]之间的数值。本发明采用双正切激活函数近似代替符号哈数,使用分片且分别为每个子块分配随机权重矩阵Wi,使得每个哈希码仅与特征的部分是相关的,从而达到哈希码构造的独立性。
2.4然后进入合并层,合并层主要将q个子块的1维输出合并一个q维向量,表示为s=(V1,V2,V3…Vq)T,合并层的输出即为哈希函数输出值的近似值,为连续的哈希值。
步骤3:利用训练样本随时生成数据对(I1,I2),根据卷积神经网络进行训练,得到相应的输出值Zn
步骤4:将图像类别通过Glove模型处理得到嵌入标签V。
本步骤具体实现如下:
4.1通过首先居于语料库构建词的共现矩阵,然后基于共现矩阵和Glove模型学习词向量。其中共线矩阵X,Xij表示整个语料库中单词i和单词j出现在同一个窗口中的次数,其中窗口为中心词和左右词总个数构成窗口大小。
4.2Glove模型处理过程,公式如下:
Figure BDA0002195391920000091
其中Vi,Vj为单词i和单词j的词向量,bi和bj为两个标量f(Xij)的权重函数,N表示词汇表大小,Xij表示为整个语料库中单词i和单词j出现在同一个窗口中的次数。
步骤5:通过结合嵌入标签V,计算卷积神经网络输出值的误差函数,对卷积神经网络进行训练,利用反向传播算法和随机梯度下降方法更新网络参数。
本步骤具体实现步骤如下:
损失函数包括三个部分:焦点损失函数和自适应边缘损失函数以及优化乘积量化损失函数。
5.1焦点损失函数,计算公式为:
FL(pt)=-αt(1-pt)rlog(pt)
其中pt为模型预测类标签为1的概率(sigmoid函数),r为聚焦参数,r≥0,-(1-pt)r为调节参数,控制分类样本和难分类样本,αt为控制正负样本权重参数,αt∈[0,1]。
5.2自适应边缘损失函数,计算公式为:
Figure BDA0002195391920000101
其中
Figure BDA0002195391920000102
Vi,Vj为正负标签,Zn为经过卷积神经网络的输出值。通过上述公式使得正确图像和相似图像相近,与负图像距离较远。
5.3优化乘积量化损失函数:本发明使用优化乘积量化(OPQ)方法:优化乘积量化方法使对乘积量化(PQ)方法的改进,在做PQ编码时候,对于切分的各个子空间,我们需要将各个子控件的方法都相等,在聚类的时候对聚类中心寻找最优旋转矩阵,使得所有子控件中各个数据点到对应子控件的类中心的L2损失的求和最小,然后再通过PQ方法得到结果。
乘积量化(PQ)方法:将D维空间划分为M个码本,每个码本包含K个码字表示为Cm==[Cm1,...,Cmk],k个码字为Kmeans聚类得到的聚类中心,将二进制bn表示为bn=[b1n;...;bMn],每个指示向量bmn表示第m个码本中K个码字中的一个(且仅一个)用于近似第n个数据点。将Zn近似为
Figure BDA0002195391920000103
引入标签嵌入Vi,通过公式计算为:
Figure BDA0002195391920000104
其中Vi表示标签嵌入,Zn表示通过卷积神经网络的到的值。
5.4通过联合三种损失方法,计算公式为:
Figure BDA0002195391920000105
联合优化最终结果,利用反向传播算法和随机梯度下发更新网络参数。
步骤6:获得训练数据集的二值编码后,通过非对称距离量化方法计算内积相似性,输出检索结果。
本步骤具体实现步骤如下:
给定数据库二进制代码
Figure BDA0002195391920000111
使用非对称量化器距离(AQD)作为度量,计算给定查询q与数据库图像Xn在语义空间内的内积相似性,输出检索结果,计算公式为:
Figure BDA0002195391920000112
其中q为查询图像,Xn为数据库图像,Zq为查询图像通过卷积神经网络处理的结果,Cm表示码本,bmn为指示向量。
将本发明在3个标准数据库进行测试:NUS-WIDE、CIFAR-10、ImageNet数据库。实验结果表明,本人发明提出的技术方案相较于五种传统监督算法SQ、SDH、KSH、BRE、ITQ-CCA以及五种深度监督方法DVSQ、DQH、DHN、DNNH、CNNH,具有较高的检索准确率,并且类别分化的更加准确。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种基于深度哈希和量化的图像检索方法,其特征在于,包括以下步骤:
步骤S1:建立训练集和测试集,对需要识别的图像进行预处理,预处理的方法包括图像的旋转、白化、均值与方差的均衡在内的操作;
步骤S2:构建卷积神经网络,采用Alexnet模型结构作为基本架构,卷积神经网络中包含5个卷积层、3个池化层和2个全连接层,1个哈希层;哈希层为一个组合层,用于将图像特征通过分层和合并输出二值编码;
步骤S3:训练集中随机生成训练图像并且设置网络参数,通过卷积神经网络进行前向传导得到相应的二值编码Zn
步骤S4:将图像类别通过Glove模型处理得到嵌入标签V;
步骤S5:通过结合嵌入标签V,设置损失函数,计算卷积神经网络实际输出值和预测输出值的误差,将损失函数通过反向传播算法和随机梯度下降方法更新网络参数;
步骤S6:将查询图像和数据库图像分别通过训练好的模型处理得到相应的二值编码,通过非对称距离量化方法计算内积相似性,从小到大进行相似性排序,得到检索结果。
2.根据权利要求1所述的一种基于深度哈希和量化的图像检索方法,其特征在于,所述步骤S2构建卷积神经网络采用Alexnet模型结构作为基本架构。卷积神经网络中包含5个大卷积层、3个池化层和2个全连接层,1个哈希层,具体包括:
第一层卷积层:核尺度为11*11*3(3为RGB通道数),步长为4;
第一层池化层:池化尺度为3*3步长为2;
第二层卷积层:核尺度为5*5*3,步长为1;
第二层池化层:池化尺度为3*3,步长为2;
第三层卷积层:核尺度为3*3*3,步长为1;
第四层卷积层:核尺度为3*3*3,步长为1;
第五层卷积层:核尺度为3*3*3,步长为1;
第五层池化层:池化尺度为3*3,步长为2;
第六层和第七层为全连接层,每一层的神经元的个数为4096;
第八层为哈希层,其中哈希层的分片层,对图像特征X进行分片,假设图像特征为X的维数为m,需要生成哈希码的长度为q,则需要将图像特征分为q片,记为x(i),每一片包含的维度为m/q,分片层得到的q个子特征分别进入全连接层,且每个全连接层的输出为1维,表示为fi(x(i))=Wix(i)其中Wi为第i层全连接层的权重矩阵,每一个子块分片进入激活层,激活层使用双正切激活函数将每个子块输出的1维数值映射为值域在[-1,1]之间的数值,采用双正切激活函数近似代替符号函数,使用分片且分别为每个子块分配随机权重矩阵Wi,使得每个哈希码仅与特征的部分是相关的,从而达到哈希码构造的独立性;然后进入合并层,合并层主要将q个子块的1维输出合并一个q维向量,表示为s=(V1,V2,V3…Vq)T,Vq表示将一个全连接层分成q部分,每个部分为向量表示,其中Vq表示第q部分表示的向量,合并层的输出即为哈希函数输出值的近似值,为连续的哈希值。
3.根据权利要求2所述的一种基于深度哈希和量化的图像检索方法,其特征在于,所述步骤S4将图像类别通过Glove模型处理得到嵌入标签,具体包括:
首先基于语料库构建词的共现矩阵,然后基于共现矩阵和Glove模型学习词向量,其中共线矩阵H,Hij表示整个语料库中单词i和单词j出现在同一个窗口中的次数,其中窗口为中心词和左右词总个数构成窗口大小,然后再通过Glove模型处理,其计算公式如下:
J表示通过Glove模型处理完得到的结果即步骤S4得到的嵌入标签V,其中Vi,Vj为单词i和单词j的词向量,bi和bj为两个标量f(Hij)的权重函数,N表示词汇表大小,Hij表示为整个语料库中单词i和单词j出现在同一个窗口中的次数。
4.根据权利要求3所述的一种基于深度哈希和量化的图像检索方法,其特征在于,所述步骤S5通过结合嵌入标签V,设置损失函数,计算卷积神经网络实际输出值和预测输出值的误差,将损失函数通过反向传播算法和随机梯度下降方法更新网络参数。具体包括:结合嵌入标签V,设置损失函数,其中损失函数包括焦点损失函数和自适应边缘损失函数以及优化乘积量化损失函数;
Part1:焦点损失函数,计算公式为:
FL(pt)=-αt(1-pt)rlog(pt)
其中pt为模型预测类标签为1的概率(sigmoid函数),r被称为聚焦参数,r≥0,-(1-pt)r为调节参数,控制分类样本和难分类样本,αt为控制正负样本权重参数,αt∈[0,1];
Part 2:自适应边缘损失函数,计算公式为:
Figure FDA0002195391910000032
其中
Figure FDA0002195391910000041
Vi,Vj为正负标签,δij表示自适应边缘,通过公式δij使得调节目标和正负标签之间的距离Zn为卷积神经网络的输出值,通过上述公式使得目标与正确标签相近,与负标签距离拉大;
Part3:优化乘积量化损失函数,使用优化乘积量化OPQ方法,为乘积量化PQ方法的改进,在做PQ编码时候,对于切分的各个子空间,需要将各个子控件的方法都相等,在聚类的时候对聚类中心寻找最优旋转矩阵,使得所有子控件中各个数据点到对应子控件的类中心的L2损失的求和最小,然后再通过PQ方法得到结果,其中乘积量化(PQ)方法为将D维空间划分为M个码本,每个码本包含k个码字表示为Cm=[Cm1,...,Cmk],k个码字为Kmeans聚类得到的聚类中心,将二进制bn表示为bn=[b1n;...;bMn],每个指示向量bmn表示第m个码本中k个码字中的仅有一个近似表示第n个数据点,将Zn近似为
Figure FDA0002195391910000044
引入标签嵌入Vi,通过最大内积方法处理,计算公式为:
Figure FDA0002195391910000042
其中Vi表示由Glove模型处理得到的标签嵌入,y表示图像标签,v表示处理后的表示值,|y|表示图像标签数量,Zn表示卷积神经网络的输出值;
通过联合算法联合三种损失方法,计算公式为:
Figure FDA0002195391910000043
其中λ、α为参数,C表示码本,B表示二值编码,W为网络参数,其中网络参数包含迭代次数、学习率、每次训练图像数量,通过损失函数优化最终结果,利用反向传播算法和随机梯度下降方法更新网络参数。
5.根据权利要求4所述的一种基于深度哈希和量化的图像检索方法,其特征在于,所述利用反向传播算法和随机梯度下降方法更新网络参数,具体包括:
将误差进行反向传播,且逐步更新卷积神经网络的所有权值参数,参数的更新计算,表达式如下所示:
Figure FDA0002195391910000051
其中θ表示参数,L(θ)是损失函数,参数θ的梯度为η为学习率,定义每次更新的幅度;
随机梯度下降方法(SGD):从样本中随机抽取一组,训练后按梯度更新一次,然后再抽取一组,再更新一次;传统梯度下降算法中L(θ)为整个训练集进行评估的,而在SGD方法中为简单地使用单个或者少量训练样本来估计期望值。新的更新公式定义如下:
Figure FDA0002195391910000052
其中(x(i),y(i))为训练集中一个样本。
6.根据权利要求5所述的一种基于深度哈希和量化的图像检索方法,其特征在于,所述步骤S6将查询图像和数据库图像分别通过训练好的模型处理得到相应的二值编码,通过非对称距离量化方法计算内积相似性,从小到大进行相似性排序,得到检索结果,具体实现步骤如下:
给定数据库二进制代码
Figure FDA0002195391910000054
使用非对称量化器距离(AQD)作为度量,计算给定查询q与数据库图像Xn在语义空间内的内积相似性,从小到大进行相似性排序,得到检索结果,计算公式为:
Figure FDA0002195391910000061
其中q为查询图像,Xn为数据库图像,Zq为查询图像通过卷积神经网络处理的结果,Cm表示码本,bmn为指示向量。
7.一种存储介质,该存储介质内部存储计算机程序,其特征在于,所述计算机程序被处理器读取时,执行上述权利要求1~6任一项的方法。
CN201910846400.7A 2019-09-09 2019-09-09 一种基于深度哈希和量化的图像检索方法及存储介质 Active CN110688502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910846400.7A CN110688502B (zh) 2019-09-09 2019-09-09 一种基于深度哈希和量化的图像检索方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910846400.7A CN110688502B (zh) 2019-09-09 2019-09-09 一种基于深度哈希和量化的图像检索方法及存储介质

Publications (2)

Publication Number Publication Date
CN110688502A true CN110688502A (zh) 2020-01-14
CN110688502B CN110688502B (zh) 2022-12-27

Family

ID=69108063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910846400.7A Active CN110688502B (zh) 2019-09-09 2019-09-09 一种基于深度哈希和量化的图像检索方法及存储介质

Country Status (1)

Country Link
CN (1) CN110688502B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368972A (zh) * 2020-02-21 2020-07-03 华为技术有限公司 一种卷积层量化方法及其装置
CN111382837A (zh) * 2020-02-05 2020-07-07 鹏城实验室 一种基于深度乘积量化的对抗样本生成方法
CN113626588A (zh) * 2020-05-09 2021-11-09 北京金山数字娱乐科技有限公司 卷积神经网络训练的方法和装置、文章分类的方法和装置
CN113704522A (zh) * 2021-10-28 2021-11-26 山东建筑大学 基于人工智能的目标图像快速检索方法及系统
WO2022032725A1 (zh) * 2020-08-13 2022-02-17 驭势科技(浙江)有限公司 用于图像检索的神经网络训练方法、装置及电子设备
CN115063845A (zh) * 2022-06-20 2022-09-16 华南理工大学 基于轻量级网络及深度哈希的指静脉识别方法
CN115658307A (zh) * 2022-10-26 2023-01-31 中国人民大学 一种基于压缩数据直接计算的智能负载处理方法和系统
CN116050508A (zh) * 2021-10-28 2023-05-02 腾讯科技(深圳)有限公司 神经网络训练方法以及装置
CN116127164A (zh) * 2023-04-17 2023-05-16 中国科学技术大学 码本量化模型的训练方法、搜索数据量化方法及其装置
CN117391150A (zh) * 2023-12-07 2024-01-12 之江实验室 一种基于分层池化图哈希的图数据检索模型训练方法
CN118397379A (zh) * 2024-06-27 2024-07-26 长春工程学院 基于深度学习的砂岩型铀矿含铀层自动识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710334A (zh) * 2009-12-04 2010-05-19 大连理工大学 基于图像哈希的大规模图像库检索方法
AU2011254041A1 (en) * 2011-12-14 2013-07-04 Canon Kabushiki Kaisha Compression of sift vectors for image matching
CN107092661A (zh) * 2017-03-28 2017-08-25 桂林明辉信息科技有限公司 一种基于深度卷积神经网络的图像检索方法
CN108734728A (zh) * 2018-04-25 2018-11-02 西北工业大学 一种基于高分辨序列图像的空间目标三维重构方法
CN109740471A (zh) * 2018-12-24 2019-05-10 中国科学院西安光学精密机械研究所 基于联合潜在语义嵌入的遥感图像描述方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710334A (zh) * 2009-12-04 2010-05-19 大连理工大学 基于图像哈希的大规模图像库检索方法
AU2011254041A1 (en) * 2011-12-14 2013-07-04 Canon Kabushiki Kaisha Compression of sift vectors for image matching
CN107092661A (zh) * 2017-03-28 2017-08-25 桂林明辉信息科技有限公司 一种基于深度卷积神经网络的图像检索方法
CN108734728A (zh) * 2018-04-25 2018-11-02 西北工业大学 一种基于高分辨序列图像的空间目标三维重构方法
CN109740471A (zh) * 2018-12-24 2019-05-10 中国科学院西安光学精密机械研究所 基于联合潜在语义嵌入的遥感图像描述方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SEAN RYAN FANELLO等: "Low Compute and Fully Parallel Computer Vision with HashMatch", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
张天振: "基于深度哈希的图像检索算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
熊舒羽等: "基于深度哈希的批量图像并行检索方法", 《重庆理工大学学报(自然科学)》 *
邹昌: "基于深度特征的遥感图像检索", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382837A (zh) * 2020-02-05 2020-07-07 鹏城实验室 一种基于深度乘积量化的对抗样本生成方法
CN111368972A (zh) * 2020-02-21 2020-07-03 华为技术有限公司 一种卷积层量化方法及其装置
CN111368972B (zh) * 2020-02-21 2023-11-10 华为技术有限公司 一种卷积层量化方法及其装置
CN113626588A (zh) * 2020-05-09 2021-11-09 北京金山数字娱乐科技有限公司 卷积神经网络训练的方法和装置、文章分类的方法和装置
US12008803B2 (en) 2020-08-13 2024-06-11 Uisee Technologies (Zhejiang) Ltd. Neural network training method and apparatus for image retrieval, and electronic device
WO2022032725A1 (zh) * 2020-08-13 2022-02-17 驭势科技(浙江)有限公司 用于图像检索的神经网络训练方法、装置及电子设备
JP7438591B2 (ja) 2020-08-13 2024-02-27 馭勢科技(浙江)有限公司 画像検索のためのニューラルネットワークのトレーニング方法、装置および電子装置
JP2023536761A (ja) * 2020-08-13 2023-08-29 馭勢科技(浙江)有限公司 画像検索のためのニューラルネットワークのトレーニング方法、装置および電子装置
CN116050508A (zh) * 2021-10-28 2023-05-02 腾讯科技(深圳)有限公司 神经网络训练方法以及装置
CN113704522A (zh) * 2021-10-28 2021-11-26 山东建筑大学 基于人工智能的目标图像快速检索方法及系统
CN115063845A (zh) * 2022-06-20 2022-09-16 华南理工大学 基于轻量级网络及深度哈希的指静脉识别方法
CN115063845B (zh) * 2022-06-20 2024-05-28 华南理工大学 基于轻量级网络及深度哈希的指静脉识别方法
CN115658307B (zh) * 2022-10-26 2023-04-18 中国人民大学 一种基于压缩数据直接计算的智能负载处理方法和系统
CN115658307A (zh) * 2022-10-26 2023-01-31 中国人民大学 一种基于压缩数据直接计算的智能负载处理方法和系统
CN116127164A (zh) * 2023-04-17 2023-05-16 中国科学技术大学 码本量化模型的训练方法、搜索数据量化方法及其装置
CN117391150A (zh) * 2023-12-07 2024-01-12 之江实验室 一种基于分层池化图哈希的图数据检索模型训练方法
CN117391150B (zh) * 2023-12-07 2024-03-12 之江实验室 一种基于分层池化图哈希的图数据检索模型训练方法
CN118397379A (zh) * 2024-06-27 2024-07-26 长春工程学院 基于深度学习的砂岩型铀矿含铀层自动识别方法及系统

Also Published As

Publication number Publication date
CN110688502B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN110688502B (zh) 一种基于深度哈希和量化的图像检索方法及存储介质
Hassantabar et al. SCANN: Synthesis of compact and accurate neural networks
CN107657008B (zh) 基于深度判别排序学习的跨媒体训练及检索方法
CN109299342A (zh) 一种基于循环生成式对抗网络的跨模态检索方法
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
CN109902714B (zh) 一种基于多图正则化深度哈希的多模态医学图像检索方法
CN110457514A (zh) 一种基于深度哈希的多标签图像检索方法
CN113361278B (zh) 一种基于数据增强与主动学习的小样本命名实体识别方法
Liu et al. EACP: An effective automatic channel pruning for neural networks
CN115422369B (zh) 基于改进TextRank的知识图谱补全方法和装置
CN113157919A (zh) 语句文本方面级情感分类方法及系统
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
Ni et al. Enhancing cloud-based large language model processing with elasticsearch and transformer models
CN117494815A (zh) 面向档案的可信大语言模型训练、推理方法和装置
CN116403231A (zh) 基于双视图对比学习与图剪枝的多跳阅读理解方法及系统
Zhong et al. Exploring the potential of low-bit training of convolutional neural networks
CN113806543B (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
Yu et al. Neural network language model compression with product quantization and soft binarization
CN116167353A (zh) 一种基于孪生长短期记忆网络的文本语义相似度度量方法
CN117171393A (zh) 一种面向多模态检索的自适应半配对询问哈希方法
CN116168437A (zh) 基于多任务的预测模型训练方法、装置、设备及存储介质
US20230334320A1 (en) Latency-Aware Neural Network Pruning and Applications Thereof
CN115906825A (zh) 多通道混合空洞卷积结合残差和注意力的汉语词义消歧
CN115357715A (zh) 基于奇异值分解和领域预训练的短文本聚类方法
CN114548293A (zh) 基于跨粒度自蒸馏的视频-文本跨模态检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant