CN110688502A

CN110688502A - 一种基于深度哈希和量化的图像检索方法及存储介质

Info

Publication number: CN110688502A
Application number: CN201910846400.7A
Authority: CN
Inventors: 甘玲; 张天振; 熊子文
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2020-01-14
Anticipated expiration: 2039-09-09
Also published as: CN110688502B

Abstract

本发明请求保护一种基于深度哈希和量化的图像检索方法及存储介质，首先建立训练集和测试集，对需要识别的图像进行预处理，然后构建卷积神经网络,采用Alexnet模型结构作为基本架构，再利用训练样本随时生成数据对，根据卷积神经网络进行训练，得到相应的输出值Z_n。通过将图像类别通过Glove模型处理得到嵌入标签V，再结合嵌入标签V，计算卷积神经网络输出值的误差函数，并更新网络参数，最后，将查询图像和数据库图像分别通过训练好的模型处理得到相应的二值编码后，通过非对称距离量化方法计算内积相似性，输出检索结果。本发明引入分块编码模块，利用精心设计的混合网络和指定的损失函数，联合学习深度视语义标签，大大提高了图像检索的准确性。

Description

一种基于深度哈希和量化的图像检索方法及存储介质

技术领域

本发明属于人工智能技术领域以及图像检索技术领域，尤其涉及一种基于深度哈希和量化的的图像检索方法。

背景技术

图像是人们对自身和世界认知的重要源泉，而随着信息科学技术的迅速发展，人们对信息的需求量也越来越大，从互联网中获取图像变得越来越方便，同时当前的社交网络也变得越来越流行。面对海量的数据如何组织、有效利用这些数据成为一个待解决的问题，另外图像检索技术在安防、保险、娱乐以及社会民生等领域都有广泛的应用。

图像检索是根据目标图像找到其相近的图像。面对大量图像处理，因可扩展图像检索，紧凑的二进制表示和有效的汉明距离计算，使得哈希方法被广泛应用到最近邻搜索方法。哈希方法解决了高维特征检索效率低的问题，通过映射机制，将图像映射成简洁的二值表示。

另一方面卷积神经网络拥有强大的学习能力，研究者开始应用于目标检测、图像分类等计算机视觉任务，取得了突破性的进展。现在许多学者开始将卷积神经网络与哈希方法结合进行图像检索。

2016年，曹等人提出将量化方法引入深度哈希方法和最小化量化误差，实验证明具有较高的准确性，详见文献“Cao Y,Long M,Wang J,et al.Deep Quantization Networkfor efficient image retrieval[C].national conference on artificialintelligence,2016:3457-3463.”。2017年，曹等人提出将特征空间映射到语义空间，取得了更好的结果，详见文献“Cao Y,Long M,Wang J,et al.Deep Visual-SemanticQuantization for Efficient Image Retrieval[C].computer vision and patternrecognition,2017:916-925.”。

以上提到的深度哈希方法的一个关键缺点是仍然未解决连续阈值化为二进制而产生的量化误差以及哈希函数之间的独立性问题。因此提出一种基于深度哈希和量化的图像检索方法。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种能够进一步控制产生的量化误差和提高哈希函数之间的独立性，从而提高图像检索的准确性的基于深度哈希和量化的图像检索方法及存储介质。本发明的技术方案如下：

一种基于深度哈希和量化的图像检索方法，其包括以下步骤：

步骤S1：建立训练集和测试集，对需要识别的图像进行预处理，预处理的方法包括图像的旋转、白化、均值与方差的均衡在内的操作；

步骤S2：构建卷积神经网络,采用Alexnet模型结构作为基本架构，卷积神经网络中包含5个卷积层、3个池化层和2个全连接层，1个哈希层；哈希层为一个组合层，用于将图像特征通过分层和合并输出二值编码；

步骤S3：训练集中随机生成训练图像并且设置网络参数，通过卷积神经网络进行前向传导得到相应的二值编码Z_n。

步骤S4：将图像类别通过Glove模型处理得到嵌入标签V；

步骤S5：通过结合嵌入标签V，设置损失函数，计算卷积神经网络实际输出值和预测输出值的误差，将损失函数通过反向传播算法和随机梯度下降方法更新网络参数；

步骤S6：将查询图像和数据库图像分别通过训练好的模型处理得到相应的二值编码，通过非对称距离量化方法计算内积相似性，从小到大进行相似性排序，得到检索结果。

进一步的，所述步骤S2构建卷积神经网络采用Alexnet模型结构作为基本架构。卷积神经网络中包含5个大卷积层、3个池化层和2个全连接层，1个哈希层，具体包括：

第一层卷积层：核尺度为11*11*3(3为RGB通道数)，步长为4；

第一层池化层：池化尺度为3*3步长为2；

第二层卷积层：核尺度为5*5*3,步长为1；

第二层池化层：池化尺度为3*3,步长为2；

第三层卷积层：核尺度为3*3*3，步长为1；

第四层卷积层：核尺度为3*3*3，步长为1；

第五层卷积层：核尺度为3*3*3,步长为1；

第五层池化层：池化尺度为3*3，步长为2；

第六层和第七层为全连接层，每一层的神经元的个数为4096；

第八层为哈希层，其中哈希层的分片层，对图像特征X进行分片，假设图像特征为X的维数为m,需要生成哈希码的长度为q,则需要将图像特征分为q片,记为x⁽ⁱ⁾，每一片包含的维度为m/q,分片层得到的q个子特征分别进入全连接层，且每个全连接层的输出为1维,表示为f_i(x⁽ⁱ⁾)＝W_ix⁽ⁱ⁾其中W_i为第i层全连接层的权重矩阵，每一个子块分片进入激活层，激活层使用双正切激活函数将每个子块输出的1维数值映射为值域在[-1,1]之间的数值，采用双正切激活函数近似代替符号函数，使用分片且分别为每个子块分配随机权重矩阵W_i,使得每个哈希码仅与特征的部分是相关的，从而达到哈希码构造的独立性；然后进入合并层，合并层主要将q个子块的1维输出合并一个q维向量，表示为s＝(V₁,V₂，V₃…V_q)^T,V_q表示将一个全连接层分成q部分，每个部分为向量表示，其中V_q表示第q部分表示的向量，合并层的输出即为哈希函数输出值的近似值，为连续的哈希值。

进一步的，所述步骤S4将图像类别通过Glove模型处理得到嵌入标签，具体包括：

首先基于语料库构建词的共现矩阵，然后基于共现矩阵和Glove模型学习词向量，其中共线矩阵H，H_ij表示整个语料库中单词i和单词j出现在同一个窗口中的次数，其中窗口为中心词和左右词总个数构成窗口大小，然后再通过Glove模型处理，其计算公式如下：

J表示通过Glove模型处理完得到的结果即步骤S4得到的嵌入标签V，其中V_i,V_j为单词i和单词j的词向量，b_i和b_j为两个标量f(H_ij)的权重函数，N表示词汇表大小，H_ij表示为整个语料库中单词i和单词j出现在同一个窗口中的次数。

进一步的，所述步骤S5通过结合嵌入标签V，设置损失函数，计算卷积神经网络实际输出值和预测输出值的误差，将损失函数通过反向传播算法和随机梯度下降方法更新网络参数。具体包括：结合嵌入标签V,设置损失函数，其中损失函数包括焦点损失函数和自适应边缘损失函数以及优化乘积量化损失函数；

Part1:焦点损失函数，计算公式为：

FL(p_t)＝-α_t(1-p_t)^rlog(p_t)

其中p_t为模型预测类标签为1的概率(sigmoid函数)，r被称为聚焦参数，r≥0,-(1-p_t)^r为调节参数，控制分类样本和难分类样本，α_t为控制正负样本权重参数，α_t∈[0,1]；

Part 2：自适应边缘损失函数，计算公式为：

其中

V_i,V_j为正负标签，δ_ij表示自适应边缘，通过公式δ_ij使得调节目标和正负标签之间的距离Z_n为卷积神经网络的输出值，通过上述公式使得目标与正确标签相近，与负标签距离拉大；

Part3：优化乘积量化损失函数，使用优化乘积量化OPQ方法，为乘积量化PQ方法的改进，在做PQ编码时候，对于切分的各个子空间，需要将各个子控件的方法都相等，在聚类的时候对聚类中心寻找最优旋转矩阵，使得所有子控件中各个数据点到对应子控件的类中心的L₂损失的求和最小，然后再通过PQ方法得到结果，其中乘积量化(PQ)方法为将D维空间划分为M个码本，每个码本包含k个码字表示为C_m＝[C_m1,...,C_mk]，k个码字为Kmeans聚类得到的聚类中心，将二进制b_n表示为b_n＝[b_1n；...；b_Mn]，每个指示向量b_mn表示第m个码本中k个码字中的仅有一个近似表示第n个数据点，将Z_n近似为

引入标签嵌入V_i，通过最大内积方法处理，计算公式为：

其中V_i表示由Glove模型处理得到的标签嵌入，y表示图像标签，v表示处理后的表示值，|y|表示图像标签数量，Z_n表示卷积神经网络的输出值；

通过联合算法联合三种损失方法，计算公式为：

其中λ、α为参数，C表示码本，B表示二值编码，W为网络参数，其中网络参数包含迭代次数、学习率、每次训练图像数量，通过损失函数优化最终结果，利用反向传播算法和随机梯度下降方法更新网络参数。

进一步的，所述利用反向传播算法和随机梯度下降方法更新网络参数，具体包括：

将误差进行反向传播,且逐步更新卷积神经网络的所有权值参数,参数的更新计算，表达式如下所示：

其中θ表示参数，L(θ)是损失函数，参数θ的梯度为

η为学习率，定义每次更新的幅度；

随机梯度下降方法(SGD):从样本中随机抽取一组，训练后按梯度更新一次,然后再抽取一组，再更新一次；传统梯度下降算法中L(θ)为整个训练集进行评估的，而在SGD方法中为简单地使用单个或者少量训练样本来估计期望值。

新的更新公式定义如下：

其中(x⁽ⁱ⁾,y⁽ⁱ⁾)为训练集中一个样本。

进一步的，所述步骤S6将查询图像和数据库图像分别通过训练好的模型处理得到相应的二值编码，通过非对称距离量化方法计算内积相似性，从小到大进行相似性排序，得到检索结果，具体实现步骤如下：

给定数据库二进制代码

使用非对称量化器距离(AQD)作为度量,计算给定查询q与数据库图像X_n在语义空间内的内积相似性，从小到大进行相似性排序，得到检索结果,计算公式为：

其中q为查询图像，X_n为数据库图像，Z_q为查询图像通过卷积神经网络处理的结果，C_m表示码本，b_mn为指示向量。

一种存储介质，该存储介质内部存储计算机程序，所述计算机程序被处理器读取时，执行上述权利要求1～6任一项的方法。

本发明的优点及有益效果如下：

(1)本发明在构建卷积神经网络阶段，通过引入分片层和合并层，使得进一步提高了哈希函数之间的独立性，从而提高图像检索的准确性。

(2)将类别通过Glove模型处理后，可以在充分利用了语料库的全局统计信息的同时也提高了词向量在大语料上的训练速度，得到的词向量更能把握住词与词之间的线性关系，使得进一步提高检索的时间和准确性。

(3)引入联合优化算法，通过约束三个损失函数：焦点损失函数和自适应边缘损失函数以及优化乘积量化损失函数，使得哈希编码更好的表示图像特征。

(本发明的创新点是步骤S2、步骤S4、步骤S5)

附图说明

图1是本发明提供优选实施例发明提供的基于深度哈希和量化的图像检索方法的流程示意图。

图2是本发明所构的深度哈希和量化网络的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1所示，本发明的实现流程包括如下：

步骤1：从图像数据库中随机生成两个图像作为网络的输入，一张为训练的图像I₁，另外一张为查询图像I₂，进行图像预处理；

步骤2：构建卷积神经网络,采用Alexnet模型结构作为基本架构。卷积神经网络中包含5个卷积层、3个池化层和2个全连接层，1个哈希层；

本步骤的具体实现如下：

2.1首先本发明采用Alexnet模型结构作为基本架构。卷积神经网络中包含5个大卷积层、3个池化层和2个全连接层，1个哈希层。

第一层卷积层：核尺度为11*11*3(3为RGB通道数)，步长为4；

第一层池化层：池化尺度为3*3步长为2；

第二层卷积层：核尺度为5*5*3,步长为1；

第二层池化层：池化尺度为3*3,步长为2；

第三层卷积层：核尺度为3*3*3，步长为1；

第四层卷积层：核尺度为3*3*3，步长为1；

第五层卷积层：核尺度为3*3*3,步长为1；

第五层池化层：池化尺度为3*3，步长为2；

第六层和第七层为全连接层，每一层的神经元的个数为4096；

2.2第八层为哈希层，其中哈希层的分片层，对图像特征X进行分片，假设图像特征为X的维数为m,需要生成哈希码的长度为q,则需要将图像特征分为q片,记为x⁽ⁱ⁾，每一片包含的维度为m/q,分片层得到的q个子特征分别进入全连接层，且每个全连接层的输出为1维,表示为f_i(x⁽ⁱ⁾)＝W_ix⁽ⁱ⁾其中W_i为第i层全连接层的权重矩阵。

2.3每一个子块分片进入激活层，激活层使用双正切激活函数将每个子块输出的1维数值映射为值域在[-1,1]之间的数值。本发明采用双正切激活函数近似代替符号哈数，使用分片且分别为每个子块分配随机权重矩阵W_i,使得每个哈希码仅与特征的部分是相关的，从而达到哈希码构造的独立性。

2.4然后进入合并层，合并层主要将q个子块的1维输出合并一个q维向量，表示为s＝(V₁,V₂，V₃…V_q)^T,合并层的输出即为哈希函数输出值的近似值，为连续的哈希值。

步骤3：利用训练样本随时生成数据对(I₁,I₂)，根据卷积神经网络进行训练，得到相应的输出值Z_n；

步骤4：将图像类别通过Glove模型处理得到嵌入标签V。

本步骤具体实现如下：

4.1通过首先居于语料库构建词的共现矩阵，然后基于共现矩阵和Glove模型学习词向量。其中共线矩阵X，X_ij表示整个语料库中单词i和单词j出现在同一个窗口中的次数，其中窗口为中心词和左右词总个数构成窗口大小。

4.2Glove模型处理过程，公式如下：

其中V_i,V_j为单词i和单词j的词向量，b_i和b_j为两个标量f(X_ij)的权重函数，N表示词汇表大小，X_ij表示为整个语料库中单词i和单词j出现在同一个窗口中的次数。

步骤5：通过结合嵌入标签V，计算卷积神经网络输出值的误差函数，对卷积神经网络进行训练，利用反向传播算法和随机梯度下降方法更新网络参数。

本步骤具体实现步骤如下：

损失函数包括三个部分：焦点损失函数和自适应边缘损失函数以及优化乘积量化损失函数。

5.1焦点损失函数，计算公式为：

FL(p_t)＝-α_t(1-p_t)^rlog(p_t)

其中p_t为模型预测类标签为1的概率(sigmoid函数)，r为聚焦参数，r≥0,-(1-p_t)^r为调节参数，控制分类样本和难分类样本，α_t为控制正负样本权重参数，α_t∈[0,1]。

5.2自适应边缘损失函数，计算公式为：

其中

V_i,V_j为正负标签，Z_n为经过卷积神经网络的输出值。通过上述公式使得正确图像和相似图像相近，与负图像距离较远。

5.3优化乘积量化损失函数：本发明使用优化乘积量化(OPQ)方法：优化乘积量化方法使对乘积量化(PQ)方法的改进，在做PQ编码时候，对于切分的各个子空间，我们需要将各个子控件的方法都相等，在聚类的时候对聚类中心寻找最优旋转矩阵，使得所有子控件中各个数据点到对应子控件的类中心的L₂损失的求和最小，然后再通过PQ方法得到结果。

乘积量化(PQ)方法：将D维空间划分为M个码本，每个码本包含K个码字表示为C_m＝＝[C_m1,...,C_mk]，k个码字为Kmeans聚类得到的聚类中心，将二进制b_n表示为b_n＝[b_1n；...；b_Mn]，每个指示向量b_mn表示第m个码本中K个码字中的一个(且仅一个)用于近似第n个数据点。将Z_n近似为

引入标签嵌入V_i，通过公式计算为：

其中V_i表示标签嵌入，Z_n表示通过卷积神经网络的到的值。

5.4通过联合三种损失方法，计算公式为：

联合优化最终结果，利用反向传播算法和随机梯度下发更新网络参数。

步骤6：获得训练数据集的二值编码后，通过非对称距离量化方法计算内积相似性，输出检索结果。

本步骤具体实现步骤如下：

给定数据库二进制代码

使用非对称量化器距离(AQD)作为度量,计算给定查询q与数据库图像X_n在语义空间内的内积相似性，输出检索结果,计算公式为：

将本发明在3个标准数据库进行测试：NUS-WIDE、CIFAR-10、ImageNet数据库。实验结果表明，本人发明提出的技术方案相较于五种传统监督算法SQ、SDH、KSH、BRE、ITQ-CCA以及五种深度监督方法DVSQ、DQH、DHN、DNNH、CNNH，具有较高的检索准确率，并且类别分化的更加准确。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于深度哈希和量化的图像检索方法，其特征在于，包括以下步骤：

步骤S4：将图像类别通过Glove模型处理得到嵌入标签V；

2.根据权利要求1所述的一种基于深度哈希和量化的图像检索方法，其特征在于，所述步骤S2构建卷积神经网络采用Alexnet模型结构作为基本架构。卷积神经网络中包含5个大卷积层、3个池化层和2个全连接层，1个哈希层，具体包括：

第一层卷积层：核尺度为11*11*3(3为RGB通道数)，步长为4；

第一层池化层：池化尺度为3*3步长为2；

第二层卷积层：核尺度为5*5*3,步长为1；

第二层池化层：池化尺度为3*3,步长为2；

第三层卷积层：核尺度为3*3*3，步长为1；

第四层卷积层：核尺度为3*3*3，步长为1；

第五层卷积层：核尺度为3*3*3,步长为1；

第五层池化层：池化尺度为3*3，步长为2；

第六层和第七层为全连接层，每一层的神经元的个数为4096；

3.根据权利要求2所述的一种基于深度哈希和量化的图像检索方法，其特征在于，所述步骤S4将图像类别通过Glove模型处理得到嵌入标签，具体包括：

4.根据权利要求3所述的一种基于深度哈希和量化的图像检索方法，其特征在于，所述步骤S5通过结合嵌入标签V，设置损失函数，计算卷积神经网络实际输出值和预测输出值的误差，将损失函数通过反向传播算法和随机梯度下降方法更新网络参数。具体包括：结合嵌入标签V,设置损失函数，其中损失函数包括焦点损失函数和自适应边缘损失函数以及优化乘积量化损失函数；

Part1:焦点损失函数，计算公式为：

FL(p_t)＝-α_t(1-p_t)^rlog(p_t)

Part 2：自适应边缘损失函数，计算公式为：