CN106095811B

CN106095811B - 一种基于最优编码的监督离散哈希的图像检索方法

Info

Publication number: CN106095811B
Application number: CN201610377635.2A
Authority: CN
Inventors: 孙哲南; 桂杰; 孙运莲
Original assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co Ltd
Current assignee: Tianjin Zhongke Intelligent Identification Co ltd
Priority date: 2016-05-31
Filing date: 2016-05-31
Publication date: 2018-11-27
Anticipated expiration: 2036-05-31
Also published as: CN106095811A

Abstract

本发明公开了一种基于最优编码的监督离散哈希的图像检索方法，该方法首先将所有训练样本和测试样本通过高斯核映射到核空间，求解最优编码；将每个训练样本的哈希码映射到其对应的最优编码，然后求解对应的投影矩阵；求解平移向量；求解针对核化样本的投影矩阵；通过离散循环坐标下降法求解哈希码，反复迭代进行直至算法收敛。本发明提高了在图像检索应用中的精度，使得检索的结果更加精确，更加适应于精准检索，很好地改善了用户体验。本发明更具有通用性，可用于公共安全、信息安全、金融安全的防护和监督。

Description

一种基于最优编码的监督离散哈希的图像检索方法

技术领域

本发明涉及模式识别、机器学习、数字图像处理和计算机视觉技术领域，具体涉及一种基于最优编码的监督离散哈希的图像检索方法。

背景技术

图像检索，是计算机视觉、模式识别和数字图像处理领域一个很热门的研究问题，备受研究者们的广泛关注。图像检索技术的目的是输入计算机一个图像，让计算机输出与其相似的众多图像。图像检索作为一个科学问题，是一个典型的图像分析与理解、模式分类的计算机问题。它涉及模式识别、运筹学、机器学习、数字图像处理和计算机视觉等众多学科。图像检索技术在公共安全、信息安全、互联网安全和经济等领域具有广阔的应用前景和市场前景、巨大的研究价值。

哈希方法是一种实现图像检索的有效的机器学习方法，因为将图像转化成二值哈希码，通过汉明距离就能快速比较两个图像的相似度，相对欧氏距离，计算效率很高，而且极大降低了特征存储空间。对哈希码添加整数约束，是一个混合的整数优化问题，是NP难问题。为了简化在哈希码学习过程中的优化问题，大多数哈希方法首先不考虑离散约束，解决一个放松的问题，然后再通过量化将实数值转化成二值哈希码。这个放松的策略极大地简化了原始的离散优化问题。然而，这样一个放松的策略显然是次优的，通常质量低。在学习比较长的哈希码时，可能是因为聚集的量化错误，得到的哈希码不是很有效。大多数哈希方法没有考虑在哈希学习中离散优化的重要性。为此，Fumin Shen等在2015年提出一个名为“监督离散哈希”(supervised discrete hashing，简称SDH)[F.Shen,et al.,"Superviseddiscrete hashing,"in Conference on Computer Vision and Pattern Recognition,2015,pp.37-45]的图像检索方法，该方法没有采用放松的策略，直接优化学习二值哈希码。

如今，随着大数据时代的来临，我们需处理的图像数据规模往往非常大，算法的精准性愈发重要，如果检索返回的结果大多数是不相关的，不是用户想要的结果，则会导致用户体验很差。而“监督离散哈希”的精准性还有待进一步提高。因此针对实际环境下处理大规模图像数据的需求，如何利用哈希学习精准地实现图像检索，是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于克服上述已有技术的不足而提供一种基于最优编码的监督离散哈希(optimal code for supervised discrete hashing，简称OSDH)的图像检索方法，其可以提高图像检索方法的精准性。

为了实现上述目的，本发明采用以下技术方案：

一种基于最优编码的监督离散哈希的图像检索方法，包括步骤：

步骤S1，训练样本用表示，其中n和d分别是训练样本的个数和维数，x_i表示第i个训练样本，R是实数集合；

测试样本用表示，其中m表示测试样本的个数，t_j表示第j个测试样本；

将训练样本和测试样本进行归一化，然后通过高斯非线性核映射至核空间得到训练样本和测试样本的核化表达矩阵φ(X)和φ(T)；

随机生成针对训练样本的初始哈希码其中l代表哈希码的长度；b_i表示第i个哈希码；

训练样本的标号矩阵用表示，c代表类别数，y_i表示第i个标号；如果x_i属于第k类，则y_ik＝1，否则为零，其中y_ik是y_i的第k个元素；

最优编码R初始化为标号矩阵Y；

初始化哈希码的投影矩阵其中e_n是一个n维列向量，所有元素都等于一，I是n×n单位矩阵，B^T是B的转置，是e_n的转置，λ是一个正则化因子；

初始化平移向量

初始化核化的训练样本的映射矩阵P＝(φ(X)^Tφ(X))^-1φ(X)^TB；

初始化变量正则化因子λ、v及系数tol，λ＝1,v＝1e-5,tol＝1e-5；

步骤S2，利用步骤S1中的哈希码的投影矩阵，通过离散循环坐标下降法计算哈希码其中Q＝((R-e_nt^T)W^T+vF(X))^T，代表矩阵二范数的平方，tr()代表矩阵的迹，即矩阵的对角线所有元素之和，F(X)＝φ(X)P，t^T是t转置；

步骤S3，利用平移向量t，哈希码的投影矩阵W及步骤S2得到的哈希码，通过求解方程组求解最优编码R；

步骤S4，根据步骤S3得到最优编码R，计算哈希码的投影矩阵

步骤S5，根据步骤S3得到最优编码R以及步骤S4计算出的哈希码的投影矩阵，计算平移向量

步骤S6，根据步骤S2获得的哈希码，计算核化的训练样本的映射矩阵P＝(φ(X)^Tφ(X))^-1φ(X)^TB；

步骤S2-S6是反复迭代直至最大迭代次数或者算法收敛；

步骤S7，根据步骤S6得到的映射矩阵输出训练样本的哈希码：

B＝sgn(F(X))，其中F(X)＝φ(X)P；

根据步骤S6得到的映射矩阵输出测试样本的哈希码：

sgn(F(T))＝sgn(φ(T)P)；

步骤S8、根据所有训练样本和测试样本的哈希码进行图像检索。

步骤S1中，令训练样本和测试样本进行归一化，分别都除以其二范数，得到的单位向量作为新的样本，步骤为：

将训练样本x归一化的输出为x/||x||₂，将测试样本t归一化的输出为t/||t||₂。

将所有训练样本和测试样本通过高斯非线性核映射至核空间，将任意一个训练样本x映射至核空间的步骤为：φ(x)＝[exp(||x-a₁||²/σ),…,exp(||x-a_m||²/σ)]，

其中是从训练样本中随机挑选的m个数据，σ是高斯核参数；

对所有训练样本，都采取本操作得到训练样本的核化表达矩阵φ(X)；

对所有测试样本，都采取同样的操作得到测试样本的核化表达矩阵φ(T)。

所述算法收敛的判据是：

norm(B-φ(X)P)＜tol×norm(B,'fro')；

如果该条件得到满足，则步骤S2-S6不再迭代进行，执行步骤S7。

通过求解方程组求解最优编码R，是依次每行地求R的所有元素的，每行通用求解步骤为：

2(r_k-a_k)+λ_k＝0,k≠j

λ_k(1+r_k-r_j)＝0,k≠j

a_k,k≠j和a_j都已知，上述有(2c-1)个等式，(2c-1)个变量，可以用matlab的solve函数求解，r和a是最优编码R和(BW+e_nt^T)的任意一行，两者均是一个行向量，r_j和a_j分别是r和a的第j个元素，λ_k是拉格朗日乘子，k是λ_k的下标，k取值范围是1到c，k≠j。

与现有方法相比，本发明由于采用将训练样本的哈希码回归到其对应最优编码而不是直接回归到其标号矩阵，最优编码是经过学习获得的，因此相对标号矩阵，计算精准性都得到大大的提升，本发明不仅可以用于一般图像检索问题，也能应用到其他特定的图像检索问题，比如人脸检索和服装检索等。本发明也可用于公共安全、信息安全和金融安全的防护和监督，大众娱乐等。

附图说明

图1是基于最优编码的监督离散哈希的图像检索方法的系统流程图；

图2所示为CIFAR-10图像数据库中的图像样本。

具体实施方式

下面，结合实例对本发明的实质性特点和优势作进一步的说明，但本发明并不局限于所列的实施例。

参见图1所示，一种基于最优编码的监督离散哈希的图像检索方法，包括以下步骤：

训练样本的标号矩阵用表示，c代表类别数，y_i表示第i个训练样本的标号；如果x_i属于第k类，则y_ik＝1，否则为零，其中y_ik是y_i的第k个元素；

最优编码R初始化为标号矩阵Y；

初始化平移向量

初始化核化的训练样本的映射矩阵P＝(φ(X)^Tφ(X))^-1φ(X)^TB；

步骤S4，根据步骤S3得到最优编码R，计算哈希码的投影矩阵

步骤S2-S6是反复迭代直至最大迭代次数或者算法收敛；

步骤S7，根据步骤S6得到的映射矩阵输出训练样本的哈希码：

B＝sgn(F(X))，其中F(X)＝φ(X)P；

根据步骤S6得到的映射矩阵输出测试样本的哈希码：

sgn(F(T))＝sgn(φ(T)P)；

其中，在步骤S1中，令训练样本和测试样本进行归一化，分别都除以其二范数，得到的单位向量作为新的样本，步骤为：

其中是从训练样本中随机挑选的m个数据，σ是高斯核参数；

所述算法收敛的判据是：

norm(B-φ(X)P)＜tol×norm(B,'fro')；

2(r_k-a_k)+λ_k＝0,k≠j

λ_k(1+r_k-r_j)＝0,k≠j

其中，进行图像检索的方法是，根据得到的哈希码以采用最近邻分类器为例，计算测试样本和所有训练样本的哈希码的汉明距离，将距离按照从小到大排序，这就是针对当前的图像检索得到的结果。

本发明不但可以用于图像检索，也可以用于比如图像分类、检索和识别等。

为了详细说明本发明及验证本发明的有效性，下面将本发明提出的方法应用到一个公开的图像数据库——CIFAR-10图像数据库，并参照附图，对本发明进行详细说明。但所描述的实施例子仅旨在便于对本发明的理解，而不限于下述的实例。

步骤S1、输入的样本是CIFAR-10图像数据库中的图像样本，如图2所示。该数据库由60000张图像组成，总共有10个类别，其中每一张图片的尺寸均为32×32，并将每个图像拉成一个维度为1032的列向量作为输入特征。随机选择59000个样本作为训练，其余的1000个作为测试。

训练样本用表示，其中n和d分别是训练样本的个数和维数，本例中n＝59000,d＝1024，行向量x_i表示第i个训练样本。测试样本用表示，其中m表示测试样本的个数，本例中m＝1000，行向量t_j表示第j个测试样本。令所有训练样本和测试样本进行归一化，是分别都除以其模长，得到的单位向量作为新的特征点以利于后续步骤。其步骤为：

将归一化以后的训练样本和测试样本通过高斯非线性核映射至核空间,将任意一个训练样本x映射至核空间的步骤为：φ(x)＝[exp(||x-a₁||²/σ),…,exp(||x-a_m||²/σ)]，φ(x)是一个m维行向量，是对样本x核映射的结果，是从训练样本中随机挑选的m个样本，σ是高斯核参数，在本例中，固定其为0.4。将归一化以后的所有训练样本和测试样本通过高斯非线性核映射至核空间，分别得到φ(X)和φ(T)。

随机生成针对训练样本的初始哈希码其中l代表哈希码的长度，本例中l＝16。训练样本的标号矩阵用表示，c代表类别数，本例中c＝10。如果x_i属于第k类，则y_ik＝1，否则为零，其中y_ik是行向量y_i的第k个元素。最优编码R初始化为标号矩阵Y。初始化针对哈希码的投影矩阵其中e_n是一个n维列向量，所有元素都等于一，I是n×n单位矩阵。初始化平移向量初始化针对核化的训练样本的映射矩阵P＝(φ(X)^Tφ(X))^-1φ(X)^TB。初始化其他变量λ＝1,v＝1e-5,tol＝1e-5。

步骤S2、通过离散循环坐标下降法(discrete cyclic coordinate descent)计算哈希码其中Q＝((R-e_nt^T)W^T+vF(X))^T。

步骤S3、通过求解方程组求解最优编码R。

依次每行地求R的所有元素。每行的通用的求解步骤为：

2(r_k-a_k)+λ_k＝0,k≠j

λ_k(1+r_k-r_j)＝0,k≠j

a_k,k≠j和a_j都已知。上述有(2c-1)个等式，(2c-1)个变量，可以用matlab的solve函数求解。

步骤S4、计算针对哈希码的投影矩阵

步骤S5、计算平移向量

步骤S6、计算针对核化的训练样本的映射矩阵P＝(φ(X)^Tφ(X))^-1φ(X)^TB。

步骤S2至S6是反复迭代进行的，最大迭代次数是5，反复迭代直至最大迭代次数或者算法收敛。算法收敛的判断依据是：

norm(B-φ(X)P)＜tol×norm(B,'fro')

如果该条件得到满足，则算法收敛。

步骤S7、输出训练样本的哈希码：

B＝sgn(F(X))

输出测试样本的哈希码：

sgn(F(T))＝sgn(φ(T)P)

步骤S8、根据所有训练样本和测试样本的哈希码，进行图像检索。

其中进行图像检索的方法是，根据得到的哈希码，以采用最近邻分类器为例，计算测试样本和所有训练样本的哈希码的汉明距离，将距离按照从小到大排序，这就是针对当前的图像检索得到的结果。

实验结果如表1所示，表1是本发明在CIFAR-10图像数据库上，在检索准确率等指标上与其他方法的对比(当前的哈希码长度是16)。

从表1可以看出，本发明方法在实验中，在除测试时间外的所有指标(精确率precision、召回率recall、f-度量f-measure、准确率accuracy)都比现有方法要好。由此看出，本发明提出的方法整体要优于现有方法。

以上所述的具体实施例，对本发明的技术方案、有效效果和目的进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同改进、替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于最优编码的监督离散哈希的图像检索方法，其特征在于，包括以下步骤：

步骤S1，训练样本用表示，其中n和d分别是训练样本的个数和维数，x_i表示第i个训练样本；

最优编码R初始化为标号矩阵Y；

初始化平移向量

初始化核化的训练样本的映射矩阵P＝(φ(X)^Tφ(X))^-1φ(X)^TB；

步骤S4，根据步骤S3得到最优编码R，计算哈希码的投影矩阵

步骤S2-S6反复迭代直至最大迭代次数或者离散循环坐标下降法收敛；

步骤S7，根据步骤S6得到的映射矩阵输出训练样本的哈希码：

B＝sgn(F(X))，其中F(X)＝φ(X)P；

根据步骤S6得到的映射矩阵输出测试样本的哈希码：

sgn(F(T))＝sgn(φ(T)P)；

2.根据权利要求1所述图像检索方法，其特征在于，步骤S1中，令训练样本和测试样本进行归一化，分别都除以其二范数，得到的单位向量作为新的样本，步骤为：

将每一个训练样本x归一化的输出为x/||x||₂，将每一个测试样本t归一化的输出为t/||t||₂。

3.根据权利要求1所述图像检索方法，其特征在于，将所有训练样本和测试样本通过高斯非线性核映射至核空间，是将所有训练样本和测试样本中的每一个训练样本x及和每一个测试样本t映射至核空间，得到训练样本的核化表达矩阵φ(X)，以及测试样本的核化表达矩阵φ(T)，

其中，将任意一个训练样本x映射至核空间的方法为：

φ(x)＝[exp(||x-a₁||²/σ),…,exp(||x-a_m||²/σ)]，

其中是从训练样本中随机挑选的m个数据，σ是高斯核参数；

将任意一个测试样本t映射至核空间的方法，与将任意一个训练样本x映射至核空间的方法相同。

4.根据权利要求1所述图像检索方法，其特征在于，所述离散循环坐标下降法收敛的判断依据是：

norm(B-φ(X)P)＜tol×norm(B,'fro')；

如果收敛，则步骤S2-S6不再迭代进行，执行步骤S7。

5.根据权利要求1所述图像检索方法，其特征在于，通过求解方程组求解最优编码R，是依次每行地求R的所有元素的，每行通用求解步骤为：

2(r_k-a_k)+λ_k＝0,k≠j

λ_k(1+r_k-r_j)＝0,k≠j