CN109783682B

CN109783682B - 一种基于点对相似度的深度非松弛哈希图像检索方法

Info

Publication number: CN109783682B
Application number: CN201910057434.8A
Authority: CN
Inventors: 汪海龙; 禹晶; 肖创柏; 郭乐宁
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-01-19
Filing date: 2019-01-19
Publication date: 2021-01-15
Anticipated expiration: 2039-01-19
Also published as: CN109783682A

Abstract

本发明公开了一种基于点对相似度的深度非松弛哈希图像检索方法，将图像的数据集以5:1的比例划分为训练样本集D_train和测试样本集D_test；构建深度卷积网络架构；利用训练样本集合，将训练数据集图像以及其类别标签作为神经网络的输入训练卷积神经网络，得到并保存深度神经网络的模型；根据卷积神经网络模型，去除其dropout层，在网络的输出端添加符号函数。将训练样本集D_train和D_test输入模型中，得到训练样本集的哈希码B_train和测试样本集的哈希码B_test；从测试样本取测试图像的哈希码，得到汉明距离对应的向量。将汉明距离向量的每一位数值以升序排序，作为检索的结果。本发明有效解决哈希函数量化二值哈希码过程中产生大量误差的问题，并提高图像检索的准确率。

Description

一种基于点对相似度的深度非松弛哈希图像检索方法

技术领域

本发明属于深度学习和数字图像处理领域，更具体地说，涉及一种基于点对相似度的深度非松弛哈希图像检索方法。

背景技术

近年来，随着计算机软件和硬件技术的发展，图像、视频等数据的维度和数量不断增加，为了解决海量的高维数据的存储和检索问题，出现了将高维数据投影到低维二值空间的哈希学习方法。哈希学习方法是一种在保持图像或视频等高维数据间相似性的条件下，通过哈希函数或函数簇将高维空间的数据投影到低维汉明空间的二值编码的机器学习方法，此方法利用哈希学习方法对数据建立索引，提高图像等高维数据的检索效率，并节省存储空间。

Indyk在文章“Approximate nearest neighbor:towards removing the curseof dimensionality”中提出局部敏感哈希(LSH)的图像检索方法，该方法在原始空间中使用随机线性投影将距离近的数据投影到类似的二值编码中。该算法的哈希函数简单易实现，计算速度快，但准确率不高。此后，出现了大量的利用哈希学习方法解决图像检索效率问题的方法。中国专利(申请号＝201010196539.0，公开号:CN101894130A)公开了一种基于稀疏表达和拉普拉斯图的哈希索引方法，首先提取图像底层特征，然后利用带权重的拉普拉斯-贝尔特拉米算子的特征方程和特征根，计算出欧氏空间到汉明空间的映射函数，得到低维空间汉明空间的哈希码，但该方法哈希函数的构造假设训练数据服从均匀分布，使其应用受限。2015年，Liu和Wang等在文章“Deep supervised hashing for fast imageretrieval”中提出利用成对的图像和标签作为网络的输入进行训练，并联合使用对比损失函数(Contrastive loss)与哈希码的

范数正则项作为网络的损失函数，解决了神经网络使用sigmoid函数导致网络收敛速度过慢的问题，但检索准确率偏低。Li等在2016年的文章“Feature learning based deep supervised hashing with pairwise labels”中通过图像的类别标签构造图像的标签对矩阵，根据图像的标签对构建交叉熵损失函数，以此衡量深度卷积神经网络训练的损失，使用基于Lagrange乘子法的松弛优化方法，对约束条件进行松弛，去掉符号函数的约束条件，解决离散约束问题，以此方法实现图像的检索的方法。此方法的缺点是：由于该方法使用Lagrange乘子，某些哈希位会被过度松弛，导致相似点对之间的语义信息保留不完整。

发明内容

针对现有的哈希学习图像检索方法中存在的问题，本发明提供了一种基于点对相似度的深度非松弛哈希图像检索方法，该方法试图解决哈希学习模型中使用符号函数导致对模型准确率影响的问题，将符号函数

移至卷积神经网络模型之外，取而代之，在模型中使用

范数和软阈值函数，更好地约束准哈希码，达到检索更准确的目的。

基于哈希学习图像检索的模型原理与流程如下：给定n幅图像的样本数据

每幅输入图像为

其中，

表示实数空间，n为图像的数量，d为图像的尺寸。输出数据为B∈{-1，1}^l×n，B的第i列b_i∈{-1，1}^l表示第i个样本x_i所对应的长度为l的二值哈希码，也即，哈希学习方法旨在从训练数据中自动学习一个哈希函数H(·)，一幅图像通过哈希函数表示为：b_i＝H(x_i)＝[h₁(x_i)，…，h_l(x_i)]。

对于线性哈希编码函数，每一个哈希函数h_i(·)将单幅图像投影为一个哈希位，l个哈希函数组成一个函数簇将单幅图像投影成一个l位的二值哈希码b_i，b_i保持了原始空间的中x_i的语义信息。用哈希码之间的内积表示哈希码之间的相似度，对于任意两个长度相等的哈希码b_i和b_j，将这两个哈希码的相似度

用它们的内积定义为：

内积越大，相似度越大，使用sigmoid函数对相似度

进行非线性阈值化，将其范围规范化到区间(0，1)，得：

基于哈希码相似度的度量，利用交叉熵损失函数保持点对之间的相似度，图像点对的哈希码与相似度之间的似然p(s_ij|B)定义为：

式中，s_ij表示样本对之间的相似度，当样本i和样本j属于同一类别时，s_ij＝1，否则，s_ij＝0。B表示样本数据对应的哈希码。由似然函数表明，当哈希码b_i与b_j越相似，即

越大，对应的似然函数p(s_ij|B)就越大；当哈希码b_i与b_j越不相似，对应的似然函数p(s_ij|B)就越小。对p(s_ij|B)的似然取负对数得到交叉熵损失函数，表示为:

在卷积神经网络的输出端使用一种软阈值函数

阈值化网络输出得到准哈希码，并使用

范数

约束输出端的准哈希码，使得准哈希码的各个哈希位的绝对值逼近1。本方法采用的目标函数的最优化问题为：

式中，S表示图像的相似度矩阵，W表示全连接层的神经元参数，v表示全连接层的偏移量，θ表示卷积层的神经元参数的集合，φ(·)表示图像的特征表示，n表示样本数，目标函数的第一项用于保持相似点对之间的语义相似性，第二项为准哈希码的正则项，用于约束准哈希码，使其各个位的值非线性地逼近-1或1。n表示样本数，s_ij∈{0，1}表示样本i和样本j是否相似，λ表示正则项系数，soft表示软阈值函数，η表示软阈值函数的控制参数，b_i表示前向网络输出的准哈希码，

表示两个哈希码之间的相似度。在网络模型输出端使用soft(x)，输出结果b_i将迅速逼近-1和1这两个值，使得

范数正则项损失减小，同时加快网络收敛的速度。网络经过训练后，在网络模型外部使用符号函数将准哈希码量化为二值哈希码。

根据本发明所提供的设计方案，一种基于点对相似度的深度非松弛哈希图像检索方法，包括以下步骤：

步骤1：将图像的数据集以5:1的比例划分为训练样本集D_train和测试样本集D_test，每个样本集包括一幅图像和其对应的类别标签；

步骤2：构建深度卷积网络架构，使用的网络模型包含：卷积层、全连接层、dropout层、哈希层，卷积层自动提取图像的特征，池化层缩减图像维度，全连接层拟合分类器并量化网络的误差损失，哈希层用于生成图像的哈希码，其中，dropout层用于两个全连接层之间，本发明模型中dropout值设置为0.7，在训练过程中，用于随机去除30％的神经元，防止模型过拟合；

步骤3：利用训练样本集合，将训练数据集图像以及其类别标签作为神经网络的输入训练卷积神经网络，得到并保存深度神经网络的模型；

步骤4：根据步骤3保存的卷积神经网络模型，去除其dropout层，每层的输出乘上相应的dropout比例系数，并在网络的输出端添加符号函数。将训练样本集D_train和D_test输入模型中，得到训练样本集的哈希码B_train和测试样本集的哈希码B_test；

步骤5：从测试样本取测试图像的哈希码，计算该哈希码与训练样本集哈希码之间的汉明距离，得到汉明距离对应的向量。

步骤6：将汉明距离向量的每一位数值以升序排序，取出前若干个，作为检索的结果。

本发明的有益效果在于：

1.本发明针对现有的图像检索技术图像检索的平均准确率低的问题，利用交叉熵保持相似点对之间的语义相似性，在卷积神经网络的输出端使用一种软阈值函数阈值化网络输出得到的准哈希码，并使用

范数约束输出端的准哈希码，使得准哈希码的绝对值逼近1，避免Lagrange的松弛求解对模型的准确率的影响。

2.本发明利用深度卷积神经网络强大的自适应特征提取能力，在提取图像特征表示的同时，学习哈希函数生成哈希码，将符号函数转移到深度哈希学习模型的外部，使得哈希学习模型为一个凸优化问题，有效解决哈希函数量化二值哈希码过程中产生大量误差的问题，并提高图像检索的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图和表作简单地介绍，显而易见地，下面描述中的附图和表仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图和表。

图1为本发明的实施流程图；

图2为正则项系数λ对哈希码分布的影响的实验结果；

图3为软阈值函数参数η对哈希码分布的影响。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面结合实验使用的数据集、模型、框架、附图中模型流程图、以及实验结果做进一步的说明。在实验中，使用CIFAR-10数据集作为模型的图像的输入，将AlexNet网络模型作为本发明方法的模型，采用TensorFlow框架编程实现本发明的方法，通过实验对将本发明的方法与当前流行的哈希学习图像检索方法进行比较。

一种基于点对相似度的深度非松弛哈希图像检索方法的流程如图1所示，具体包括以下步骤：

步骤1.训练集与测试集的划分：将CIFAR-10数据集的60000幅图像按5:1的比例随机划分为两个部分，50000幅图像划分为训练数据，记为D_train，10000幅图像划分为测试数据，记为D_test，每个训练集和测试集包括一幅图像和其对应的类别标签。

步骤2.构建卷积神经网络训练模型：使用的网络模型包含：卷积层、全连接层、dropout层、哈希层，卷积层自动提取图像的特征，池化层缩减图像维度，全连接层拟合分类器并量化网络的误差损失，哈希层用于生成图像的哈希码，其中，dropout层用于两个全连接层之间，本发明模型中dropout值设置为0.7，在训练过程中，用于随机去除30％的神经元，防止模型过拟合。使用的网络模型每层的参数如表1所示，其中

表示将Conv8的输出准哈希码的各个位阈值化到(-1，1)的范围。

步骤3.利用训练样本集合训练模型：其中，CIFAR图像数据尺度为32×32×3，使用双线性插值方法将图像扩充为224×224×3的尺度，使其符合网络模型的输入，将所有训练数据集D_train作为神经网络的输入步骤2构建的网络模型，在卷积网络的第8层Conv8的输出使用损失函数

度量网络传输的损失，其中，样本之间的相似度矩阵S∈{0，1}^n×n，对于任意两个样本x_i与x_j，若x_i与x_j属于同一类别，则s_ij＝1，否则s_ij＝0。b_i表示网络输出的指定长度的哈希码向量，

表示两个哈希码的内积。当网络迭代到损失值小于一定的阈值后，停止模型的训练，保存深度卷积神经网络的模型；

步骤4.构建图像检索模型：根据步骤3保存的卷积神经网络模型，去除Conv6和Conv7层中的dropout层，因为网络中dropout＝0.7，所以将输出的每个神经元乘以0.7，并在网络的输出端Conv8后添加符号函数，以此模型作为图像生成二值哈希码的模型，将训练样本集D_train和D_test经过双线性插值修改尺寸为224×224×3后，输入模型中，得到训练样本集的哈希码B_train和测试样本集的哈希码B_test；

步骤5.计算图像哈希码之间的距离：从测试样本取测试图像的哈希码，计算该哈希码与训练样本集哈希码之间的汉明距离，得到对应的汉明距离向量；

步骤6.检索结果排序：将汉明距离向量的每一位数值以升序排序，作为检索的结果。

表2直观地显示了在CIFAR-10数据集上的各个图像检索方法的平均检索准确率(MAP)，在测试集中，选取一幅图像作为待检索的样本，统计步骤5中与之对应的汉明距离向中与其图像类别相同的图像数量作为检索正确图像数，将检索正确的图像数与所有图像的比值，作为准确率，计算测试样本中每个样本的准确率，求这些准确率的平均值，即为平均准确率(MAP)。在表2中，12bits、24bits、32bits、48bits分别表示哈希码的长度为12、24、32、48。DPSH、DSH、DHN、FP-CNNH、NINH、CNNH表示当前流行的6个监督型深度哈希图像检索方法。从表2可以看出，本发明在四种长度的哈希码上，平均检索准确率均高于其他几个深度哈希图像检索方法。表3直观地显示了在NUS-WIDE数据集上的各个图像检索方法的平均检索准确率(MAP)，NUS-WIDE数据集的图像相对于CIFAR-10数据集的图像具有更高的像素，更完整的图像细节，更贴近实际应用中的图像。在NUS-WIDE数据集中，一幅图像可能包含多个标签，在检索过程中，只要检索到的图像与待检索图像包含有相同的标签，就判定为正确检索。由于NUS-WIDE数据集的图像数量很大，在该数据集上，本发明用每个测试样本检索返回的前5000个样本计算MAP。在相同长度的哈希码上，本发明的方法在12bits、24bits、32bits、48bits上的平均准确率分别为0.769、0.792、0.804、0.814，均高于其他的图像检索方法，证明了本发明的普适性。随着哈希码长度的增加，几乎所有方法的平均检索准确率都有一定程度的提高，尤其SDH方法，48bits的哈希码对应的平均准确率相对于12bits的哈希码的平均准确率提高了近7％，表明更多的哈希位能够表示更多的图像特征，提高检索准确率。

在本发明的方法中，软阈值函数的作用是在模型的前向计算中直接阈值化网络输出端的结果，而

范数作为目标函数的正则项在模型的反向传播中约束准哈希码，使准哈希码各个位的绝对值逼近1，这两个模块的作用均为约束准哈希码。为了验证联合使用

范数和软阈值函数的约束性能，本发明在CIFAR-10数据集上分别对

范数正则项独立约束、软阈值函数独立约束以及

范数和软阈值函数联合约束进行了实验。

表4列出了在4种长度的哈希码上，不同模型对应的平均准确率，其中，“交叉熵+软阈值”表示使用损失函数

在网络的输出端使用软阈值函数的模型，“交叉熵+

范数”表示使用损失函数

的模型，即在网络的输出端不使用软阈值函数的模型，“交叉熵+

范数+软阈值”表示本发明方法的模型，即联合使用

范数和软阈值函数。观察表4可知，“交叉熵+

范数”和“交叉熵+软阈值”这两个模型的平均准确率明显低于DPSH方法，表明单独使用

范数和软阈值函数的效果不如以Lagrange乘子松弛求解的DPSH方法。而联合使用

范数和软阈值函数(交叉熵+

范数+软阈值)在4种长度哈希码长度上，其MAP相比于单独使用其中一个模块均提高了近10％，并且高于DPSH方法。因此可以看出，联合使用

范数和软阈值函数能够更强地约束哈希码，提升本发明的性能。

图2显示了正则项系数λ对哈希码分布的影响，统计准哈希码中每一位的绝对值相对于1的距离分别在区间[0，0.1)，[0.1，0.2)，[0.2，0.3)，[0.3，0.4)的分布，不同颜色表示不同的分布区间，横轴表示正则项系数λ，纵轴表示落在不同区间的哈希位所占的百分比。从图2中准哈希码各哈希位的分布情况可以看出，随着λ的增大，准哈希码各哈希位的绝对值更集中靠近1，尤其在不使用

范数(λ＝0)约束的情况下，准哈希码的哈希位在0-0.4之间分布相对均匀，这样在最后的量化过程中损失会增加，导致结果不准确。在目标函数中，语义保真项用于保持点对之间的相似性，

范数正则项用于约束准哈希码的分布，正则项系数λ过大将过分增大

范数正则项的比重，从而减小语义保真项的作用，影响分类效果。由此可以看出，适当的

范数正则项对准哈希码的分布有很强的约束作用。

图3验证了软阈值函数对准哈希码的阈值化效果，统计软阈值函数控制参数η取不同值时,模型输出的准哈希码的分布情况。横轴表示软阈值函数控制参数η的取值，纵轴表示落在不同区间哈希位所占的百分比。由图3可以看出，η的取值越大，准哈希码的各哈希位的越逼近1或-1，尤其在η＝20时，准哈希码误差在0.1以内的比例达到了90％，但是η的取值过大也会带来严重的问题，当η＝20时，在模型的训练过程中，损失函数始终震荡难以收敛，这是因为当η取值过大时，软阈值函数趋于不可导。为了在模型训练中使损失平稳收敛，并且使准哈希码绝对值逼近1，经过多次实验，本发明模型中η的取值12。

表1网络模型的配置

层	配置
		Conv1	filter：96×11×11，stride：4×4，padding：valid，LRN，pool：3×3
Conv2	filter：256×5×5，stride：1×1，padding：same，LRN，pool：3×3
		Conv3	filter：384×3×3，stride：1×1，padding：same
Conv4	filter：384×3×3，stride：1×1，padding：same
		Conv5	filter：256×3×3，stride：1×1，padding：same，pool：3×3
Conv6	cell：4096，activation function：ReLU，dropout：0.7
		Conv7	cell:4096，activation function：ReLU，dropout：0.7
Conv8	cell：48，activation function：soft

表2各种方法在CIFAR-10数据集上的平均准确率(MAP)

方法	12bits	24bits	32bits	48bits
					Ours	0.726	0.749	0.753	0.768
DPSH	0.713	0.727	0.744	0.757
					DSH	0.616	0.651	0.661	0.676
DHN	0.555	0.594	0.603	0.621
					FP-CNNH	0.612	0.639	0.625	0.616
NINH	0.552	0.566	0.558	0.581
					CNNH	0.439	0.511	0.509	0.532

表3各种方法在NUS-WIDE数据集上的平均准确率(MAP)

方法	12bits	24bits	32bits	48bits
					Ours	0.769	0.792	0.804	0.814
DPSH	0.747	0.788	0.792	0.806
					DSH	0.548	0.551	0.558	0.562
DHN	0.708	0.735	0.748	0.758
					FP-CNNH	0.622	0.628	0.631	0.625
NINH	0.674	0.697	0.713	0.715
					CNNH	0.618	0.621	0.619	0.620

表4多种模块组合在CIFAR-10数据集上的平均准确率(MAP)

Claims

1.一种基于点对相似度的深度非松弛哈希图像检索方法，其特征在于：该方法试图解决哈希学习模型中使用符号函数导致对模型准确率影响的问题，将符号函数

移至卷积神经网络模型之外，取而代之，在模型中使用

范数和软阈值函数；

每幅输入图像为

其中，

表示实数空间，n为图像的数量，d为图像的尺寸；输出数据为B∈{-1，1}^l×n，B的第i列b_i∈{-1，1}^l表示第i个样本x_i所对应的长度为l的二值哈希码，也即，哈希学习方法旨在从训练数据中自动学习一个哈希函数H(·)，一幅图像通过哈希函数表示为：b_i＝H(x_i)＝[h₁(x_i)，…，h_l(x_i)]；

对于线性哈希编码函数，每一个哈希函数H_i(·)将单幅图像投影为一个哈希位，l个哈希函数组成一个函数簇将单幅图像投影成一个l位的二值哈希码b_i，b_i保持了原始空间的中x_i的语义信息；用哈希码之间的内积表示哈希码之间的相似度，对于任意两个长度相等的哈希码b_i和b_j，将这两个哈希码的相似度

用它们的内积定义为：

内积越大，相似度越大，使用sigmoid函数对相似度

进行非线性阈值化，将其范围规范化到区间(0，1)，得：

式中，s_ij表示样本对之间的相似度，当样本i和样本j属于同一类别时，s_ij＝1，否则，s_ij＝0；B表示样本数据对应的哈希码；由似然函数表明，当哈希码b_i与b_j越相似，即

越大，对应的似然函数p(s_ij|B)就越大；当哈希码b_i与b_j越不相似，对应的似然函数p(s_ij|B)就越小；对p(s_ij|B)的似然取负对数得到交叉熵损失函数，表示为:

在卷积神经网络的输出端使用一种软阈值函数

阈值化网络输出得到准哈希码，并使用

范数

约束输出端的准哈希码，使得准哈希码的各个哈希位的绝对值逼近1；本方法采用的目标函数的最优化问题为：

式中，s表示图像的相似度矩阵，w表示全连接层的神经元参数，υ表示全连接层的偏移量，θ表示卷积层的神经元参数的集合，φ(·)表示图像的特征表示，n表示样本数，目标函数的第一项用于保持相似点对之间的语义相似性，第二项为准哈希码的正则项，用于约束准哈希码，使其各个位的值非线性地逼近-1或1；n表示样本数，s_ij∈{0，1}表示样本i和样本j是否相似，λ表示正则项系数，soft表示软阈值函数，η表示软阈值函数的控制参数，b_i表示前向网络输出的准哈希码，

表示两个哈希码之间的相似度；在网络模型输出端使用soft(x)，输出结果b_i将迅速逼近-1和1这两个值，使得

范数正则项损失减小，同时加快网络收敛的速度；网络经过训练后，在网络模型外部使用符号函数将准哈希码量化为二值哈希码。

2.根据权利要求1所述的一种基于点对相似度的深度非松弛哈希图像检索方法，其特征在于：包括以下步骤，

步骤2：构建深度卷积网络架构，使用的网络模型包含：卷积层、全连接层、dropout层、哈希层，卷积层自动提取图像的特征，池化层缩减图像维度，全连接层拟合分类器并量化网络的误差损失，哈希层用于生成图像的哈希码，其中，dropout层用于两个全连接层之间，模型中dropout值设置为0.7，在训练过程中，用于随机去除30％的神经元，防止模型过拟合；

步骤4：根据步骤3保存的卷积神经网络模型，去除其dropout层，每层的输出乘上相应的dropout比例系数，并在网络的输出端添加符号函数；将训练样本集D_train和D_test输入模型中，得到训练样本集的哈希码B_train和测试样本集的哈希码B_test；

步骤5：从测试样本取测试图像的哈希码，计算该哈希码与训练样本集哈希码之间的汉明距离，得到汉明距离对应的向量；