CN112597324A

CN112597324A - 一种基于相关滤波的图像哈希索引构建方法、系统及设备

Info

Publication number: CN112597324A
Application number: CN202011479598.9A
Authority: CN
Inventors: 马雷; 罗心怡; 刘红; 李璇
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-04-02

Abstract

本发明涉及一种基于相关滤波的图像哈希索引构建方法及系统，方法包括：对图像数据集进行数据预处理得到相似矩阵，并将预处理后的图像数据集划分为训练样本集和测试样本集；利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络；定义成对语义损失函数和分类损失函数，并根据所述成对语义损失函数和分类损失函数构建协作学习框架，形成损失层；根据所述损失层和所述深度卷积网络构建深度网络哈希模型；利用所述训练样本集对所述深度网络哈希模型进行模型优化；利用所述测试样本集对优化后的所述深度网络哈希模型进行测试并生成索引。本发明能在利用图片多尺度信息的同时兼顾到图片的语义信息和潜在空间信息，从而使得最终得到的哈希二值码更准确。

Description

一种基于相关滤波的图像哈希索引构建方法、系统及设备

技术领域

本发明涉及深度监督哈希图像检索领域，尤其涉及一种基于相关滤波的图像哈希索引构建方法、系统及设备。

背景技术

传统的监督哈希方法利用手动设计的特征来学习哈希函数，将特征学习过程和哈希学习过程分为两个独立的阶段。因此，哈希编码过程与特征提取过程不是最优兼容的。并且，现有的深度监督哈希算法大多侧重于哈希码的生成，而忽略了对象在图像中的空间位置。

目前，一些监督哈希方法试图利用对象的潜在属性，如注意力机制、多尺度属性或对象边界框/掩膜来捕捉细微的差异，用于细粒度图像检索。虽然在实际的图像检索中，需要更多地关注有利于检索的目标区域，但是，对象边界框/掩膜的注释需要花费大量的时间和精力。此外，基于注意力和多尺度的哈希方法主要利用单模态视觉特征来解决判别区域定位问题，所以MAP平均准确率较低。

发明内容

本发明所要解决的技术问题是针对现有技术的不足提供一种基于相关滤波的图像哈希索引构建方法、系统及设备，能在利用图片多尺度信息的同时兼顾到图片的语义信息和潜在空间信息。

本发明解决上述技术问题的技术方案如下：一种基于相关滤波的图像哈希索引构建方法，其特征在于，包括：

S101:对图像数据集进行数据预处理得到相似矩阵S，并将预处理后的图像数据集划分为训练样本集和测试样本集；

S102:利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络；定义成对语义损失函数和分类损失函数，并根据所述成对语义损失函数和分类损失函数构建协作学习框架，形成损失层；根据所述损失层和所述深度卷积网络构建深度网络哈希模型；

S103:利用所述训练样本集对所述深度网络哈希模型进行模型优化；

S104:利用所述测试样本集对优化后的所述深度网络哈希模型进行测试并生成索引。

本发明的有益效果是，通过FPN和MLP实现相关滤波，并通过构建协作学习框架，将图片多尺度信息、图片的潜在空间信息和语义信息同时集成到哈希学习过程中，从而使得最终得到的哈希二值码MAP平均准确率更高，通过所述哈希二值码构建的索引效率更高，更精确。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，在上述技术方案中，所述对图像数据集进行数据预处理包括：

计算图像数据集中第i个图像I_i和第j个图像I_j的语义标签向量的内积；

当所述内积为1，则相似矩阵S∈{-1,+1}^n×n中S_ij＝1否则S_ij＝-1。

采用上述进一步方案的有益效果是，构建相似矩阵便于将图像数据集中的图像数据映射成二值码并保留其语义相似性。

进一步，所述深度卷积网络包括：卷积层、池化层和全连接层；所述利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络，包括：

卷积层：通过FPN特征金字塔网络获取所述训练样本集中图像的图像特征；通过MLP多层感知器构建标签嵌入网络，通过所述标签嵌入网络处理所述样本训练集图片的语义标签向量，生成标签嵌入向量；将所述标签嵌入向量整合为256ⅹ1ⅹ1的滤波器，利用所述滤波器对所述图像特征进行相关滤波，得到特征图；

池化层：对所述特征图进行全局平均池化后拼接成1024维特征向量；

全连接层：将所述1024维特征向量送入r维全连接层，得到r维全连接层输出F(I；θ)，将所述1024维特征向量送入L维全连接层，得到L维全连接层输出g，其中，θ为深度网络模型的整体参数，I表示训练样本集中图像。

采用上述进一步方案的有益效果是，通过FPN特征金字塔网络可以多尺度的提取图像特征，通过所述256ⅹ1ⅹ1的滤波器，可以对提取的图像特征进行相关滤波，从而利用语义信息与多尺度视觉特征之间的交叉模态相关性来挖掘具有判别性的潜在空间信息，从而使得最终得到的哈希二值码MAP平均准确率更高，通过所述哈希二值码构建的索引效率更高，更精确。

进一步，所述基于相关滤波的图像哈希索引构建方法中，所述成对语义损失函数可以为：

其中，b_i，b_j分别表示第i张图像I_i和第j张图像I_j的哈希码；成对语义损失为J₁，S_ij为所述相似矩阵中第i行第j列的元素，n为训练样本集的图像数量，F是范数的计算。

采用上述进一步方案的有益效果是，可以在汉明空间保持成对哈希码之间的语义相似性，因为二值码b_i＝sign(F(I_i；θ))是离散的，损失函数对该离散变量的导数为0，因此，无法通过反向传播梯度训练网络中函数F(I_i；θ)的参数θ。

优选地，利用tanh()作为激活函数来近似sign()，所述成对语义损失函数也可以为：

其中，

b_i表示第i张图像I_i的哈希码；成对语义损失为J₁，n为训练样本集的图像数量，F为数学符号是范数的计算，U为中间变量，α为超参数。

采用上述优选方案的有益效果是，利用tanh()作为激活函数来接近sign()函数，便于通过随机梯度下降和反向传播算法来训练网络参数θ的值。

进一步，所述基于相关滤波的图像哈希索引构建方法中，所述分类损失函数为：

其中，J₂为分类损失，g_i表示第i个图像I_i在L维全连接层的输出，χ_i,k表示第i个图像I_i属于第k类的预测概率，γ为超参数，n为训练样本集的图像数量。

采用上述优选方案的有益效果是，通过引入分类损失对难分类的或容易错误分类的示例分配更多的权重并对简单示例降低权重来处理类不平衡问题，从而提高图像特征的判别能力。

进一步，所述基于相关滤波的图像哈希索引构建方法中，所述构建协作学习框架包括：

根据下述公式构建协作学习框架：

其中，β为超参数，J₁为成对语义损失，J₂为分类损失，

b_i表示第i张图像I_i的哈希码；n为训练样本集的图像数量。

采用上述进一步方案的有益效果是，通过对参数β的设置，在如上述公式所述条件的情况下，取J＝J₁+βJ₂的最小值作为总损失，通过采用上述方法构建的协作学习框架，可以在进行模型训练时平衡成对语义损失J₁和分类损失J₂的重要性，提高图像特征的判别能力。

进一步，所述基于相关滤波的图像哈希索引构建方法中，所述利用所述训练样本集对所述深度网络哈希模型进行模型优化包括：

当θ固定时，B的次优化过程J(B)为：

其中，Q＝-2rUS^T-2αU，const为常数，α为超参数，

b_i表示第i张图像I_i的哈希码；Tr为数学符号表示求矩阵的迹；

令

表示B的第t行，

表示除

外的B矩阵；令

表示U的第t行，且

表示不含的

的U矩阵；

表示Q的第t行，而Q_t表示不包括

的矩阵Q；关于

的次优化过程为：

最优解

更新为：

采用上述进一步方案的有益效果是，通过此优化过程可以不断地训练B的值，使其不断趋近于最优解。

进一步，所述基于相关滤波的图像哈希索引构建方法中，所述利用所述训练样本集对所述深度网络哈希模型进行模型优化还包括：

当B固定时，利用Pytorch中的自动微分技术，基于随机梯度下降和反向传播算法，根据成对语义损失J₁和分类损失J₂，更新网络参数θ。

采用上述优选方案的有益效果是，通过随机梯度下降和反向传播算法，可以在固定B的值时不断对网络参数θ进行优化，使θ达到当前B的值固定情况下的最优值，从而不断对B和θ的值进行迭代优化。

为了解决上述技术问题，本发明还提供一种基于深度学习和相关滤波的图像哈希索引构建系统，包括预处理模块、哈希模型构建模块、训练测试模块；

所述预处理模块，用于对图像数据集进行数据预处理得到相似矩阵，并将预处理后的图像数据集划分为训练样本集和测试样本集；

所述哈希模型构建模块，用于利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络；定义成对语义损失函数和分类损失函数，并根据所述成对语义损失函数和分类损失函数构建协作学习框架，形成损失层；根据所述损失层和所述深度卷积网络构建深度网络哈希模型；

所述训练测试模块，用于利用所述训练样本集对所述深度网络哈希模型进行模型优化；利用所述测试样本集对优化后的所述深度网络哈希模型进行测试并生成索引。

为了解决上述技术问题，本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，所述处理器执行所述程序时实现如上所述的基于相关滤波的图像哈希索引构建方法的步骤。

附图说明

图1为本发明实施例提供的一种基于相关滤波的图像哈希索引构建方法的流程示意图；

图2为本发明实施例提供的一种基于相关滤波的图像哈希索引构建系统的模块图；

图3为本发明实施例提供的深度哈希模型示意图；

图4为本发明实施例提供的深度哈希模型中FPN特征金字塔网络示意图；

图5为本发明实施例提供的不同哈希方法在CUB-200-2011和Standford Dogs数据集的平均准确率比较。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例一

如图1所示，图1为本发明实施例提供的一种基于相关滤波的图像哈希索引构建方法的流程示意图，该方法包括：

其中，通过FPN和MLP实现相关滤波，并通过构建协作学习框架，将图片多尺度信息、图片的潜在空间信息和语义信息同时集成到哈希学习过程中，从而使得最终得到的哈希二值码MAP平均准确率更高，通过所述哈希二值码构建的索引效率更高，更精确。

本发明实施例是在两个公开的数据集CUB-200-2011和Stanford Dogs上测试提出的算法。CUB-200-2011是一个包含11788张鸟类图像的200个相互类的数据集。数据集被正式划分为训练集(5,994幅图像)和测试集(5,749幅图像)。Stanford Dogs是一个包含20380张和120个相互类的狗类图像的数据集；每个图像包含120个语义标签向量y_i∈{0,1}^L中的一个，L代表L个类别，所述语义标签向量是一个独热向量，即一个只存在1其余为0的序列，每个类包含大约150个图像。

测试时将所述数据集正式划分为训练样本集(每个类100张图像)和测试样本集(每个类总共8580张图像)。

数据集图像包含n个图像

其中I_i表示第i个图像，I_j表示第j个图像，对其进行预处理即计算图像数据集中第i个图像I_i和第j个图像I_j的语义标签向量的内积；当所述内积为1，则相似矩阵S∈{-1,+1}^n×n中S_ij＝1否则S_ij＝-1。

本发明将该方法与几种深度监督哈希方法进行了比较，包括deep pairwise-supervised hashing(DPSH)、deep triplet hashing(DTH)、HashNet、feature pyramidhashing(FPH)和simultaneous region localization and hashing(SRLH)。值得注意的是，FPH、SRLH和本发明实施例提出的方法采用了相同的CNN架构ResNet-18作为特征提取器。为了公平比较，本发明实施例采用预先训练好的ResNet-18模型作为所有深度监督哈希方法的特征提取器，利用一个GeForce RTX2080GPU和一个开源机器学习库Pytorch来实现提出的方法。将batchsize设置为64，对于CUB-200-2011和Stanford Dogs数据集，初始学习率分别设置为0.01和0.001，随着迭代次数的增加，初始学习率逐渐降低。通过交叉验证从0.01到100搜索超参数。最优参数为10，对于所有的数据集，设置为100并且迭代次数设置为150。最后，将训练好后的模型参数保存，以备后续测试。

如图5所示，与其他16位到64位的方法相比，所提出的CFH方法显示了更好的性能增益。实验结果表明，基于相关滤波的图像哈希索引构建方法能够更有效地捕捉细微差异，用于细粒度图像检索。此外，所提出的CFH方法在32位时性能最好。结果表明，该方法与其他方法相比具有优越性。

最后还会对查询图像的哈希码和数据库图像B的哈希码比对汉明距离，从小到大进行相似性排序产生索引。

在本实施例中深度卷积网络如图3所示，包括：

卷积层：通过FPN特征金字塔网络获取所述训练样本集中每个图像的图像特征(P₂、P₃、P₄、P₅)；通过MLP多层感知器构建标签嵌入网络，通过所述标签嵌入网络处理所述训练样本集图片的语义标签向量y_i∈{0,1}^L，生成标签嵌入向量(k₂、k₃、k₄、k₅)；将所述标签嵌入向量整合为256ⅹ1ⅹ1的滤波器，利用所述滤波器所述图像特征进行相关滤波，得到特征图(M₂、M₃、M₄、M₅)；

全连接层：将所述1024维特征向量送入r维全连接层，得到r维全连接层输出F(I；θ)，θ为深度网络模型的整体参数，I表示训练样本集中图像。将所述1024维特征向量送入L维全连接层，得到L维全连接层输出g。

其中，通过将数据集图片表示为特征图，即图片的特征空间，再将数据集图片表示为语义标签向量，也就是将图片的原始标签通过现有模型表示为标签空间，在这个空间中，语义相似则空间汉明距离更小，反之空间位置的汉明距离则大。

通过如图4所述的FPN特征金字塔网络可以多尺度的提取图像特征，所述FPN特征金字塔网络由自下而上路径、自上而下路径和横向连接组成，并使用双线性插值；所述自下而上路径通过预先训练好的ResNet-18模型作为特征提取器，对图像进行特征提取得到C₁、C₂、C₃、C₄、C₅(每个都有许多卷积层)的卷积网络，而所述自上而下路径的特征图会经过2倍的向上采样操作,所述横向连接会经历1×1的卷积，以减小自底向上路径的特征图的通道尺寸，并利用逐元素相加来合并自底向上路径和自顶向下路径的相同空间尺寸的特征图，最终输出的特征(P₂、P₃、P₄、P₅)；并且，包括(P₂、P₃、P₄、P₅)在内的所有金字塔特征都有256维通道输出。

利用特征金字塔网络能生成多层次的特征表示，利用MLP多层感知器生成了标签嵌入网络，该网络由两个全连接层组成，输出维度分别为8192和256，生成四个标签嵌入向量，并通过数据维度转换和维度扩充将所述四个标签嵌入向量整合为256ⅹ1ⅹ1的四个滤波器，通过四个滤波器与(P₂、P₃、P₄、P₅)进行深度卷积，可以对提取的图像特征进行相关滤波，即将语义标签映射到视觉特征空间中，其中不同的标签嵌入网络不共享权重，从而可以利用语义信息与多尺度视觉特征之间的交叉模态相关性来挖掘具有判别性的潜在空间信息，使得最终得到的哈希二值码MAP平均准确率更高，通过所述哈希二值码构建的索引效率更高，更精确。

用于分类的L维全连接层主要效果有两个方面:提高特征表示的判别能力和预测测试集中查询图像的标签。

在本实施例提供的基于相关滤波的图像哈希索引构建方法中，所述成对语义损失函数可以为：

其中，b_i，b_j分别表示第i张图像I_i和第j张图像的哈希码；成对语义损失为J₁，S_ij为所述相似矩阵中第i行第j列的元素，n为训练样本集的图像数量，F是范数的计算。

因为二值码

是离散的，损失函数对该离散变量的导数为0所以，这样很难通过反向传播梯度训练网络中F(I_i；θ)函数的网络参数θ。

优选的，利用tanh()作为激活函数来接近sign()函数，所述成对语义损失函数也可以为：

其中，

利用tanh()作为激活函数来接近sign()函数，同时为了减少离散二值码和实值近似之间的量化误差，增加了一个额外的惩罚项

从而便于通过随机梯度下降和反向传播算法来训练网络参数θ的值。

在本实施例提供的基于相关滤波的图像哈希索引构建方法中，所述分类损失函数为：

另外，分类损失也可以称作焦点损失或者多分类损失，所述分类损失可以通过对难分类的或容易错误分类的示例分配更多的权重并对简单示例降低权重来处理类不平衡问题，从而提高图像特征的判别能力。

在本实施例提供的基于相关滤波的图像哈希索引构建方法中，所述构建协作学习框架包括：

根据下述公式构建协作学习框架：

其中，β为超参数，J₁为成对语义损失，J₂为分类损失，

b_i表示第i张图像的哈希码；n为训练样本集的图像数量。

通过对参数β的设置，在如上述公式所述条件的情况下，取J＝J₁+βJ₂的最小值作为总损失，通过采用上述方法构建的协作学习框架，可以在进行模型训练时平衡成对语义损失J₁和分类损失J₂的重要性，提高图像特征的判别能力。

在本实施例提供的基于相关滤波的图像哈希索引构建方法中，所述利用所述训练样本集对所述深度网络哈希模型进行模型优化包括：

当θ固定时，B的次优化过程J(B)为：

其中，Q＝-2rUS^T-2αU，const为常数，α为超参数，

b_i表示第i张图像的哈希码；Tr为数学符号表示求矩阵的迹；

令

表示B的第t行，

表示除

外的B矩阵；令

表示U的第t行，且

表示不含的

的U矩阵；

表示Q的第t行，而Q_t表示不包括

的矩阵Q；关于

的次优化过程为：

最优解

更新为：

其中，B更新的过程为通过离散循环坐标下降策略更新，通过此优化过程可以不断地训练B的值，使其不断趋近于最优解。

在本实施例提供的基于相关滤波的图像哈希索引构建方法中，所述利用所述训练样本集对所述深度网络哈希模型进行模型优化还包括：

当B固定时，利用Pytorch中的自动微分技术，基于随机梯度下降和反向传播算法，根据成对语义损失J₁和分类损失J₂，更新网络参数θ，通过随机梯度下降和反向传播算法，可以在固定B的值时不断对网络参数θ进行优化，使θ达到当前B的值固定情况下的最优值，从而不断对B和θ的值进行迭代优化。

如图2所示，本实施例还提供一种基于深度学习和相关滤波的图像哈希索引构建系统，包括预处理模块、哈希模型构建模块、训练测试模块；

可以预见的是，上述系统能够实现如上各实施例中的基于相关滤波的图像哈希索引构建方法的步骤，在此不再一一赘述。

本实施例还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如上各实施例中的基于相关滤波的图像哈希索引构建方法的步骤，在此不再一一赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于相关滤波的图像哈希索引构建方法，其特征在于，包括：

对图像数据集进行数据预处理得到相似矩阵S，并将预处理后的图像数据集划分为训练样本集和测试样本集；

利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络；定义成对语义损失函数和分类损失函数，并根据所述成对语义损失函数和分类损失函数构建协作学习框架，形成损失层；根据所述损失层和所述深度卷积网络构建深度网络哈希模型；

利用所述训练样本集对所述深度网络哈希模型进行模型优化；利用所述测试样本集对优化后的所述深度网络哈希模型进行测试并生成索引。

2.如权利要求1所述的基于相关滤波的图像哈希索引构建方法，其特征在于，所述深度卷积网络包括：卷积层、池化层和全连接层；所述利用FPN特征金字塔网络和MLP多层感知器构建深度卷积网络，包括：

卷积层：通过FPN特征金字塔网络获取所述训练样本集中图像的图像特征；通过MLP多层感知器构建标签嵌入网络，通过所述标签嵌入网络处理所述训练样本集图片的语义标签向量，生成标签嵌入向量；将所述标签嵌入向量整合为256ⅹ1ⅹ1的滤波器，利用所述滤波器对所述图像特征进行相关滤波，得到特征图；

全连接层：将所述1024维特征向量送入r维全连接层，得到r维全连接层输出F(I；θ)，将所述1024维特征向量送入L维全连接层，得到L维全连接层输出g，其中，θ为深度网络模型的整体参数，I表示训练样本集的图像。

3.如权利要求2所述的基于相关滤波的图像哈希索引构建方法，其特征在于，所述成对语义损失函数为：

4.如权利要求2所述的基于相关滤波的图像哈希索引构建方法，其特征在于，所述成对语义损失函数为：

s.t.U＝tanh(F(I；θ)),B∈{-1,+1}^r×n

其中，

5.如权利要求4所述的基于相关滤波的图像哈希索引构建方法，其特征在于，利用所述训练样本集对所述深度网络哈希模型进行模型优化包括：

当θ固定时，B的次优化过程J(B)为：

其中，Q＝-2rUS^T-2αU，const为常数，α为超参数，Tr为数学符号表示求矩阵的迹；

令

表示B的第t行，

表示除

外的B矩阵；令

表示U的第t行，且

表示不含的

的U矩阵；

表示Q的第t行，而Q_t表示不包括

的矩阵Q；关于

的次优化过程为：

最优解

更新为：

6.如权利要求5所述的基于相关滤波的图像哈希索引构建方法，其特征在于，利用所述训练样本集对所述深度网络哈希模型进行模型优化还包括：

当B固定时，利用Pytorch中的自动微分技术，基于随机梯度下降和反向传播算法，根据成对语义损失J₁、分类损失J₂和协作学习框架，更新网络参数θ。

7.如权利要求2-6任一所述的基于相关滤波的图像哈希索引构建方法，其特征在于，所述分类损失函数为：

s.t.χ_i,k＝softmax(g_i)

8.如权利要求2-6任一所述的基于相关滤波的图像哈希索引构建方法，其特征在于，所述构建协作学习框架包括：

根据下述公式构建协作学习框架：

s.t.B＝{-1,+1}^r×n

其中，β为超参数，J₁为成对语义损失，J₂为分类损失，

b_i表示第i张图像I_i的哈希码，n为训练样本集的图像数量。

9.一种基于深度学习和相关滤波的图像哈希索引构建系统，其特征在于，包括预处理模块、哈希模型构建模块和训练测试模块；

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述的基于相关滤波的图像哈希索引构建方法的步骤。