CN114491115A

CN114491115A - 一种基于深度哈希的多模型融合的集成图像检索方法

Info

Publication number: CN114491115A
Application number: CN202210147119.6A
Authority: CN
Inventors: 夏书银; 单宏远; 孟坤; 王国胤; 高新波
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2022-05-13
Anticipated expiration: 2042-02-17
Also published as: CN114491115B

Abstract

本发明涉及图像检索技术领域，公开了一种基于深度哈希的多模型融合的集成图像检索方法，包括如下步骤：S1、创建图像数据集以及所述图像数据集中的图像所对应的图像标签，所述图像数据集包括图像训练集和图像测试集；S2、将所述图像标签和所述图像训练集中的图像分别输入至多个不同类型的个体学习器中以训练多个所述个体学习器，得到每个所述个体学习器的精度以及图像训练集中的图像对应的训练集二进制哈希编码；S3、将图像测试集中的图像及对应的图像标签输入至多个所述个体学习器中，得到对应的测试集二进制哈希编码。本发明使用多个卷积神经网络模型集成图像检索能充分利用每个个体学习器的学习特性，检索准确率更高。

Description

一种基于深度哈希的多模型融合的集成图像检索方法

技术领域

本发明涉及图像检索技术领域，具体涉及一种基于深度哈希的多模型融合的集成图像检索方法。

背景技术

图像是人类从客观世界获取信息的重要来源,随着通信技术、计算机网络技术、大容量存储器的飞速发展和移动数码设备的普及,图像数据爆发性增长。图像数据在新闻媒体、医学图像等许多领域得到广泛应用。因此，如何在海量图像数据中高效、快速地检索到用户所需要的图像成为了图像检索领域的一个关注点。

图像检索的定义是在图像数据库中，查找出用户想要的图像，主要分为两类：基于文本的图像检索(text-based image retrieval,TBIR)和基于内容的图像检索(content-based image retrieval,CBIR)。随着图像数据的指数式增长，TBIR需要大量的人工标注，并且对于场景复杂的图像，标注过程具有很强的主观性，需要耗费大量的时间和人力成本。CBIR根据图像的特征来对图像进行表征，不依赖于人工标注，自动提取每幅图像的不同特征作为特征描述符。随着半导体行业、计算机硬件的发展，算力瓶颈已被打破，推动了深度学习的发展，许多基于深度学习的图像检索技术取得了令人印象深刻的效果。因此，基于内容的图像检索又可以细分为两种方式：传统的基于内容的图像检索和基于深度学习的图像检索技术。传统的基于内容的图像检索主要使用图像的低级特征：如颜色、边缘、纹理、轮廓等等。基于深度学习的图像检索通过卷积神经网络提取图像的高级特征，较好地解决了“语义鸿沟”的问题。但是在相似度计算这一步骤中，大量的浮点计算成为图像检索系统的瓶颈，

在图像检索领域，最关键的两个步骤是特征提取和哈希编码。深度学习提取的特征具有较强的鲁棒性，同时具有良好的表达能力，同时，哈希方法对时间复杂度和空间复杂度的要求大幅降低，因此，基于深度哈希的图像检索成为一个值得研究的方向。

传统的哈希图像检索方法是将手工提取的图像特征转换成哈希值，但是手工提取特征的表征能力较差，从而会检索精度不高。深度哈希学习将特征提取表示和哈希编码联合起来同时进行学习，既可以提取到质量不错的图像特征，又可以生成包含语义信息的近似哈希编码，可以显著提高大规模图像检索的速度，然而，现有的深度哈希学习在训练时利用单个模型往往只能得到有偏好的模型，而不同模型的特征提取能力不一样，并且在进行图像特征提取时模型的聚焦点也不一样，因此，单个模型不能面面俱到。

发明内容

本发明提供一种基于深度哈希的多模型融合的集成图像检索方法，使用多个模型集成图像检索，充分利用每个个体学习器的学习特性，能更全面的正确的检索到图像。

本发明通过下述技术方案实现：

一种基于深度哈希的多模型融合的集成图像检索方法，包括如下步骤：

S1、创建图像数据集以及所述图像数据集中的图像所对应的图像标签，所述图像数据集包括图像训练集和图像测试集；

S2、将所述图像标签和所述图像训练集中的图像分别输入至多个不同类型的个体学习器中以训练多个所述个体学习器，得到每个所述个体学习器的精度以及图像训练集中的图像对应的训练集二进制哈希编码；

S3、将图像测试集中的图像及对应的图像标签输入至多个所述个体学习器中，得到对应的测试集二进制哈希编码，将所述测试集二进制哈希编码与所述训练集二进制哈希编码进行比较得到对应的汉明距离，并将多个所述个体学习器的精度分别与所述图像测试集中的图像在每个所述个体学习器对应的汉明距离的归一化值对应相乘所得到的值作为权重来求得测试集图像的得分。

作为优化，步骤2中，将所述图像标签和所述图像训练集中的图像输入至个体学习器中以训练所述个体学习器的具体实施步骤包括：

S2.1、对所述图像标签和图像训练集中的图像进行预处理；

S2.2、将预处理后的所述图像标签和图像训练集中的图像输入至卷积神经网络模型的特征提取模块以提取图像的高级特征向量；

S2.3、将所述高级特征向量输入至所述卷积神经网络模型的哈希隐层，将所述高级特征向量转化为近似哈希编码；

S2.4、将所述近似哈希编码进行哈希约束，使所述近似哈希编码量化为图像训练集中的图像所对应的二进制哈希编码。

作为优化，步骤S2.1中，对所述图像标签进行预处理的具体方法为：将所述图像标签进行独热编码，根据标签类别的数量使用N位0和1的离散状态码对所述图像标签的分类特征进行编码。

作为优化，步骤S2.1中，对所述图像训练集中的图像进行预处理的具体方法为：对所述图像进行数据增强，所述数据增强的方式包括将所述图像进行翻转、将所述图像进行旋转、调整所述图像的长宽比、调整所述图像的尺寸、对HSV空间色彩进行调整以及添加随机PCA噪声。

作为优化，步骤2.3中，所述高级特征向量通过所述哈希隐层得到近似哈希编码Hash(out)，所述哈希隐层设置在全连接层fc7之后，所述哈希隐层的哈希函数为：

h(x：w)＝sigmoid(w^T[fc6(x)；fc7(x)]

其中，w表示哈希隐层的权重矩阵，fc6(x)和fc7(x)表示特征提取模块中的全连接层fc6(x)和fc7(x)输出的高级特征向量，sigmoid为激活函数。

作为优化，步骤S2.3中，将所述高级特征向量输入至所述卷积神经网络模型的哈希隐层时，需要设计总损失函数，利用反向传播方法对所述卷积神经网络模型进行优化训练以提高损失个体学习器的精度。

作为优化，所述总损失函数包括第一哈希损失函数、第二哈希损失函数以及分类损失函数；

所述第一哈希损失函数为：

其中，MaxValue为0.25，MidValue为0.5，B_i为哈希隐层的输出特征向量；

所述第二哈希损失函数为：

其中，

即B_i，为哈希隐层的输出特征向量，K是哈希函数得到的哈希编码的位数，AvgValue为0.5；

所述分类损失函数为：

其中，i表示第i个样本，N表示图像训练集中的图像样本总数，M代表类别的数量，y_ic是一个符号函数，若i的真实类别为c则取1，否则为0。p_ic表示样本i属于类别c的预测概率。

所述总损失函数为：

其中α、β、γ均为超参数，分别设置为1，0.5，0.5。

作为优化，步骤S2.4中，将所述近似哈希编码进行哈希约束，使所述近似哈希编码量化为图像训练集中的图像所对应的二进制哈希编码，具体为通过阈值函数对所述近似哈希编码B_i进行哈希约束：

其中，B_i为哈希隐层的输出特征向量，即近似哈希编码。

作为优化，步骤S3中，将图像测试集中的图像及对应的图像标签输入至多个所述个体学习器中，得到对应的测试集二进制哈希编码，将所述测试集二进制哈希编码与所述训练集二进制哈希编码进行比较得到对应的汉明距离，并将多个所述个体学习器的精度分别与所述图像测试集中的图像在每个所述个体学习器对应的汉明距离的归一化值对应相乘所得到的值作为权重来求得测试集图像的得分的具体步骤为：

S3.1、将通过每个个体学习器后得到的所述测试集二进制哈希编码分别与对应的个体学习器得到的所述训练集哈希编码进行检索比较，形成所述图像测试集中的图像对应的汉明矩阵列表；

S3.2、将多个所述个体学习器的精度分别与所述图像测试集中的图像在每个所述个体学习器对应的汉明距离的归一化值对应相乘所得到的值作为权重来求得测试集图像的得分的公式为：

其中，h_i表示汉明距离矩阵列表中第i张图像与查询图像的汉明距离，H表示全部的汉明距离矩阵，ACC_k表示个体学习器的验证精度；

S3.3、综合所述测试集图像中的图像在步骤3.2对应的得分以得到所述测试集图像中的图像的总得分：

S_i＝descort(Score_i)；

其中，Score_i代表每张图像的得分，i表示图像的序号。

作为优化，还包括S4，通过求得所述测试集图像中的图像的总得分对所述总得分进行降序排序以调整检索到的图像的位置。

本发明与现有技术相比，具有如下的优点和有益效果：

1.本发明使用多个卷积神经网络模型集成图像检索能充分利用每个个体学习器的学习特性，使图像检索做到面面俱到，检索准确率更高；

2.对于个体学习器，改进卷积神经网络模型的结构，添加了哈希隐层，以及设计的哈希函数将高维的特征向量映射到汉明空间，生成紧凑的富有语义信息的哈希编码。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为本发明所述的一种基于深度哈希的多模型融合的集成图像检索方法的多个个体学习器组成的整体的网络结构示意图；

图2为个体学习器的网络模型结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

一种基于深度哈希的多模型融合的集成图像检索方法，如图1所示，是本发明的检索方法所使用的网络模型结构示意图。为了弥补单个个体学习器的表征能力的不足，使用集成学习方法，使用多个个体学习器的精度和图像归一化后的汉明距离的乘积作为权重来求图像的得分，最后将得分降序排序以调整结果列表的位置，查询出正确图像的同时使得正确图像的排位靠前。具体包括如下步骤：

S2、将所述图像标签和所述图像训练集中的图像分别输入至多个不同类型的个体学习器中以训练多个所述个体学习器，得到每个所述个体学习器的精度以及图像训练集中的图像对应的训练集二进制哈希编码。

如图2所示，本发明所提出的个体学习器的模型总体由两部分组成，一个卷积层特征提取模块用来提取图像高级特征，二是哈希隐层用来生成近似哈希编码。本发明首先对图像数据集中的图像所对应的图像标签进行预处理，主要是对图像标签进行独热编码，同时数据增强，对图像进行随机翻转、旋转，或者添加随机PCA噪声等。特征提取模块将图像转换成特征向量，哈希隐层将特征向量转化为近似哈希码，并且通过哈希约束，将哈希码的0与1的位数约束为近似相等，可以减少语义信息的损失。以便生成较为紧凑的哈希码。使得相似的图像之间汉明距离较小，而不相似的图像之间汉明距离较大。

具体的，本实施例中，步骤2中的具体实施步骤包括：

S2.1、对所述图像标签和图像训练集中的图像进行预处理。

具体的，对所述图像标签进行预处理的具体方法为：将所述图像标签进行独热编码，根据标签类别的数量使用N位0和1的离散状态码对所述图像标签的分类特征进行编码。这里，在下载的时候会有一个标签文件，通过图像标签制作独热码。

独热编码也称为One-Hot编码。根据图像标签的类别的数量来使用N位0和1的离散状态码对图像标签的分类特征进行编码，在深度学习中，经常会遇到分类的特征，分类特征属于离散型特征，而这些特征是离散和无序的，采用One-Hot编码可以使这些特征之间的距离计算更加合理。

对所述图像训练集中的图像进行预处理的具体方法为：对所述图像进行数据增强，所述数据增强的方式包括将所述图像进行翻转、将所述图像进行旋转、调整所述图像的长宽比、调整所述图像的尺寸、对HSV空间色彩进行调整以及添加随机PCA噪声。

在深度学习中卷积神经网络模型的训练往往需要大量的数据才能够具有较好的性能。所以，在拥有固定数量的训练数据时，可以通过使用数据增强的方式来提高样本的多样性，从而拟合更加复杂的网络。数据增强还能够提升模型的鲁棒性，避免由于数据样本过于简单从而导致模型过拟合。本发明对图像数据的增强方式有：

(1)图像翻转：将图像沿着水平或者垂直方向进行翻转；

(2)图像旋转：以图像中某一个点O为旋转中心，将图像中所有的点都绕P旋转一定的角度；

(3)调整图像长宽比：对原始图像的长宽比进行调整；

(4)调整图像尺寸：将图像随机裁剪成224*224大小；

(5)HSV空间色彩调整：HSV空间代表的是图像的色调、对比度和明亮度，在一定范围内对这3个值进行随机调整；

(6)添加随机PCA噪声：首先利用主成分分析对训练数据集进行处理，然后在模型训练时添加范围内随机大小的主成分噪声，PCA噪声能够缓解模型过拟合。

本实施例中，所述高级特征向量通过所述哈希隐层得到近似哈希编码Hash(out)，所述哈希隐层设置在全连接层fc7之后，所述哈希隐层的哈希函数为：

h(x：w)＝sigmoid(w^T[fc6(x)；fc7(x)]

其中，w表示哈希隐层的权重矩阵(权重矩阵为卷积神经网络模型的参数，为现有技术)，fc6(x)和fc7(x)表示特征提取模块中的全连接层fc6(x)和fc7(x)输出的高级特征向量，sigmoid为激活函数。

卷积神经网络模型的输入是数据增强后的图像以及独热编码后的图像标签，经过卷积神经网络模型的提取模块提取图像的高级特征向量，哈希隐层将深度卷积神经网络模型输出的图像高维特征空间映射到便于检索的汉明空间，本发明将哈希隐层添加在全连接层fc7之后，原先卷积神经网络模型中的分类层fc8能够对表达图像的高级语义信息并完成分类任务，哈希隐层不仅是对全连接层fc6和fc7的一个特征概括，并且在反向传播时，哈希隐层的神经元也受到了来自分类层fc8的反馈，因此哈希隐层在一定程度上可以被认为是fc6、fc7与fc8之间的桥梁，它将深度卷积神经网络模型的中层特征和高层语义特征联系起来，因此生成的哈希编码具有丰富的语义信息。

本实施例中，步骤S2.3中，将所述高级特征向量输入至所述卷积神经网络模型的哈希隐层时，需要设计总损失函数，利用反向传播方法对所述卷积神经网络模型进行优化训练以提高损失个体学习器的精度。在每个批次的训练中，用预测的图像标签跟真实的图像标签对比，若两者差距较大，则损失较大，通过反向传播更新网络参数，这个过程不断迭代，以提高个体学习器的精度，当个体学习器的精度高于设定的阈值时，该精度作为后续过程的参数使用。

本实施例中，所述总损失函数包括第一哈希损失函数、第二哈希损失函数以及分类损失函数。

sigmoid激活函数可以将输出范围约束到(0，1)之间的连续值，为了减少特征中语义信息的损失，设计损失函数将特征值拉近0或者1，因此，所述第一哈希损失函数为：

其中，MaxValue为0.25，MidValue为0.5，B_i为哈希隐层的输出特征向量。

Sigmoid激活函数是以y＝0.5这条直线为分界线，

表示了激活值到y＝0.5这条直线距离的均值，B_i接近0或者接近1是较为理想的情况，也就是离0.5越远越好，此时后一项约等于0.25，损失函数的目的是为了在B_i接近0或者接近1时，损失值也越小，因此加上了0.25。

为了生成紧凑的哈希编码，第二哈希损失函数将生成的哈希编码中0和1各占一半，所述第二哈希损失函数具体表示为：

其中，

即B_i，为哈希隐层的输出特征向量，K是哈希函数得到的哈希编码的位数，AvgValue为0.5。

特征值经过Sigmoid激活后，输出值在0-1之间，该项将输出值约束到0.5附近，使得后续量化过程中，每一位都有同样的概率生成0或者1的哈希码，因此使哈希码均匀分布。

为了保持语义信息，分类损失函数也占了一定权重，使用了交叉熵损失函数，所述分类损失函数为：

因此，所述总损失函数为：

其中α、β、γ均为超参数，分别设置为1，0.5，0.5。

这几个超参数代表了三个损失函数的权重，即重要性。我们认为分类损失是最重要的，因此取1，两个哈希约束的重要性次于分类损失，因此取0.5。

S2.4、将所述近似哈希编码进行哈希约束，使所述近似哈希编码量化为图像训练集中的图像所对应的二进制哈希编码；

经过哈希隐层后，可以获得近似的哈希编码。通过阈值函数，将哈希编码量化为0或者1，其中Hash(out)表示哈希隐层的输出的特征向量，也就是近似的哈希编码。

本实施例中，步骤S2.4中，将所述近似哈希编码进行哈希约束，使所述近似哈希编码量化为图像训练集中的图像所对应的二进制哈希编码，具体为通过阈值函数对所述近似哈希编码B_i进行哈希约束：

其中，B_i为哈希隐层的输出特征向量，即近似哈希编码。

至此，本发明已经得到哈希编码，将图像训练集制作成图像数据库，得到图像训练集中每张图像对应的哈希编码。

本实施例中，多个个体学习器所使用到的网络模型分别是VGG、ResNet和DenseNet，每个个体学习器通过各自的网络模型提取图片特征。

通过构建和组合多个个体学习器来集成学习以完成学习任务，使用一定的策略来整合每个个体学习器的结果，以获得比单个个体学习器更好的学习效果。集成策略主要包括平均法、加权投票法和学习法。其基本思想是，即使某个弱分类器(指准确率低的分类器，分类器在本发明中就是个体学习器)得到了不正确的预测，其他强分类器也可以纠正错误。

对于每张图像，使用加权投票的方法来确定由三个个体学习器中的每一个返回的图像的预测结果。

本实施例中，步骤S3中，具体步骤为：

S_i＝descort(Score_i)；

其中，Score_i代表每张图像的得分，i表示图像的序号。

假设我们有N个查询图像，对于每个查询图像，将量化后的测试集二进制哈希编码与数据库中的图像进行比较，数据库中不仅包含训练集二进制哈希编码，还记录了训练集二进制哈希编码对应的图像名称和图像的真实标签。对检索返回结果列表的汉明矩阵进行升序排序后，可以得到TOPK个查询结果，本发明将每个个体学习器的准确率(精度)和返回的TOPK个汉明距离参与每张图像的得分计算过程。

假设哈希编码位数为N，由于汉明距离是0到N大小的值，因此需要将汉明距离归一化，乘以个体学习器的验证精度后再除以个体学习器的个数作为图像最终的得分。如公式(8)所示，Score_i代表每张图像的得分，最后将得分降序排序以调整结果列表的位置。

本实施例中，还包括S4，通过求得所述测试集图像中的图像的总得分对所述总得分进行降序排序以调整检索到的图像的位置。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度哈希的多模型融合的集成图像检索方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度哈希的多模型融合的集成图像检索方法，其特征在于，步骤2中，将所述图像标签和所述图像训练集中的图像输入至个体学习器中以训练所述个体学习器的具体实施步骤包括：

S2.1、对所述图像标签和图像训练集中的图像进行预处理；

S2.4、将所述近似哈希编码进行哈希约束，使所述近似哈希编码量化为图像训练集中的图像所对应的训练集二进制哈希编码。

3.根据权利要求2所述的一种基于深度哈希的多模型融合的集成图像检索方法，其特征在于，步骤S2.1中，对所述图像标签进行预处理的具体方法为：将所述图像标签进行独热编码，根据标签类别的数量使用N位0和1的离散状态码对所述图像标签的分类特征进行编码。

4.根据权利要求2所述的一种基于深度哈希的多模型融合的集成图像检索方法，其特征在于，步骤S2.1中，对所述图像训练集中的图像进行预处理的具体方法为：对所述图像进行数据增强，所述数据增强的方式包括将所述图像进行翻转、将所述图像进行旋转、调整所述图像的长宽比、调整所述图像的尺寸、对HSV空间色彩进行调整以及添加随机PCA噪声。

5.根据权利要求2所述的一种基于深度哈希的多模型融合的集成图像检索方法，其特征在于，步骤2.3中，所述高级特征向量通过所述哈希隐层得到近似哈希编码Hash(out)，所述哈希隐层设置在全连接层fc7之后，所述哈希隐层的哈希函数为：

h(x：w)＝sigmoid(w^T[fc6(x)；fc7(x)]

6.根据权利要求2所述的一种基于深度哈希的多模型融合的集成图像检索方法，其特征在于，步骤S2.3中，将所述高级特征向量输入至所述卷积神经网络模型的哈希隐层时，需要设计总损失函数，利用反向传播方法对所述卷积神经网络模型进行优化训练以提高损失个体学习器的精度。

7.根据权利要求6所述的一种基于深度哈希的多模型融合的集成图像检索方法，其特征在于，所述总损失函数包括第一哈希损失函数、第二哈希损失函数以及分类损失函数；

所述第一哈希损失函数为：

所述第二哈希损失函数为：

其中，

所述分类损失函数为：

其中，i表示第i个样本，N表示图像训练集中的图像样本总数，M代表类别的数量，y_ic是一个符号函数，若i的真实类别为c则取1，否则为0，p_ic表示样本i属于类别c的预测概率。

所述总损失函数为：

其中α、β、γ均为超参数，分别设置为1，0.5，0.5。

8.根据权利要求2所述的一种基于深度哈希的多模型融合的集成图像检索方法，其特征在于，步骤S2.4中，将所述近似哈希编码进行哈希约束，使所述近似哈希编码量化为图像训练集中的图像所对应的二进制哈希编码，具体为通过阈值函数对所述近似哈希编码B_i进行哈希约束：

其中，B_i为哈希隐层的输出特征向量，即近似哈希编码。

9.根据权利要求1所述的一种基于深度哈希的多模型融合的集成图像检索方法，其特征在于，步骤S3中，将图像测试集中的图像及对应的图像标签输入至多个所述个体学习器中，得到对应的测试集二进制哈希编码，将所述测试集二进制哈希编码与所述训练集二进制哈希编码进行比较得到对应的汉明距离，并将多个所述个体学习器的精度分别与所述图像测试集中的图像在每个所述个体学习器对应的汉明距离的归一化值对应相乘所得到的值作为权重来求得测试集图像的得分的具体步骤为：

S_i＝descort(Score_i)；

其中，Score_i代表每张图像的得分，i表示图像的序号。

10.根据权利要求9所述的一种基于深度哈希的多模型融合的集成图像检索方法，其特征在于，还包括S4，通过求得所述测试集图像中的图像的总得分对所述总得分进行降序排序以调整检索到的图像的位置。