CN103412960A

CN103412960A - 基于双边随机投影的图像感知哈希方法

Info

Publication number: CN103412960A
Application number: CN2013103911897A
Authority: CN
Inventors: 王秀美; 高新波; 季秀云; 田春娜; 李洁; 韩冰; 邓成; 王颖; 王斌
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2013-08-31
Filing date: 2013-08-31
Publication date: 2013-11-27
Anticipated expiration: 2033-08-31
Also published as: CN103412960B

Abstract

本发明公开了一种基于双边随机投影的图像感知哈希方法，主要解决大规模图像数据的快速检索问题，其实现步骤为：(1)对原始图像数据预处理；(2)获取双边随机投影矩阵；(3)低秩近似；(4)更新低秩矩阵；(5)判断更新低秩矩阵的迭代次数是否最大；(6)投影向量分组；(7)投影向量正交化；(8)获取哈希编码；(9)获取汉明距离；(8)输出测试结果。本发明提出的哈希方法能获取较好的投影向量，得到有效的哈希编码，降低了内存消耗，节省了检索时间，提高了图像检索的查准率-查全率综合性能，可用于电子商务和移动终端设备的图片搜索服务。

Description

基于双边随机投影的图像感知哈希方法

技术领域

本发明属于图像处理领域，更进一步涉及大规模图像数据的快速检索领域中的基于双边随机投影的图像感知哈希方法。本发明可有效的对图像进行二元编码，提高图像检索性能，具有实际应用价值。

背景技术

近年来，随着互联网和信息技术的发展，大数据越来越受到人们的关注。国际数据公司的研究结果表明，截止到2012年，全球产生的数据量已跃升至ZB级别。图像数据是大数据的重要成员，是人们沟通交流的重要方式。特别是在当今互联网、电子商务及移动终端迅速发展的时代，图像更是人们生产和生活中不可或缺的部分。为了在大数据中快速有效地检索到用户所需要的信息，人们依据某些准则对原始数据进行编码，用一定长度的哈希码来表示数据。由于哈希码由比特值组成，这正是计算机擅长处理的数据格式，因此能够大大加快信息检索速度。本发明提出的哈希方法，是近似最近邻的搜索方法，在精度要求不是很严格的情况下，针对人们当前的迫切需求进行设计，具有现实应用价值。

天格科技（杭州）有限公司申请的专利“一种基于局部敏感哈希的相似人脸快速检索方法”（申请号：201310087561.5，公开号：CN103207898A）公开了一种基于局部敏感哈希的人脸图像哈希索引方法。该方法通过人脸区域检测、眼睛和嘴巴特征检测和特征提取、肤色检测、人脸肤色分布特征提取等步骤将图像表示为人脸特征向量，然后利用局部敏感哈希方法对人脸特征向量构建索引，从而提高查询时的速度。该专利申请提出的方法存在的不足之处是：局部敏感哈希方法是一种基于概率模型的非数据驱动型方法，一方面算法精度虽然有理论保证，但精度比较低；另一方面受随机性的影响，方法的稳定性也不能令人满意。

大连理工大学提出的专利申请“基于多哈希表映射误差最小化的图像检索方法”（申请号：201110357850.3，公开号：CN102508910A）公开了一种基于多哈希表映射误差最小化的图像哈希索引方法。该方法首先提取图像特征，然后计算训练特征的主成分方向并采用迭代量化法对主成分方向进行优化，将待检索特征和查询特征投影到优化后的主成分方向上，得到其对应的哈希码。然后对先前训练特征进行能量弱化得到新的训练特征，重复该过程得到多组哈希码。该方法克服了单哈希表在召回率较高时汉明球半径较大的缺点，又采用相同哈希码长的多个哈希表，提高了检索的准确率。但是，本专利申请提出的方法存在的不足之处是：一方面主成分方向是通过线性降维方式得到的，而大多数数据是具有非线性特性的，且后续的迭代优化主成分方向过程会增加算法时间复杂度；另一方面对于大数据而言，多哈希表的构建无疑大大增加了存储空间的占用率。

浙江大学提出的专利申请“基于稀疏降维的谱哈希索引方法”（申请号：201010196539.0，公开号：CN101894130A）公开了一种基于稀疏表达和拉普拉斯图的哈希索引方法。该方法首先提取图像底层特征进一步得到视觉单词，然后利用有权重的拉普拉斯-贝尔特拉米算子的特征方程和特征根，求得欧式空间到汉明空间的映射函数，得到低维空间汉明向量。该方法用稀疏降维方式代替谱哈希的主成分分析降维方式，增加了结果的可解释性。但是，该专利申请提出的方法存在的不足之处是：该方法仍没有避免谱哈希模型中强制训练数据服从均匀分布的前提假设，使其应用价值受到限制。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种基于双边随机投影的图像感知哈希方法，改善了单边随机投影的不稳定性，节省了哈希编码的存储空间，降低了查询时间复杂度，有效提高了图像信息检索的查准率与查全率。

实现本发明目的的技术思路是，首先在训练阶段，对图像训练数据矩阵进行低秩近似，得到最优右投影矩阵，对最优右投影矩阵的列向量进行分组正交化，得到最优投影向量，计算图像训练数据在最优投影向量下的哈希值，得到图像训练数据哈希编码；测试阶段，计算图像测试数据在最优投影向量下的哈希值，得到图像测试数据的哈希编码，计算测试数据与训练数据间的汉明距离,得到测试数据在汉明空间下的近邻点。

为实现上述目的，本发明包括如下主要步骤：

(1)预处理：

1a)调用图像数据库中的原始图像数据；

1b)采用GIST方法，对原始图像数据提取图像底层特征，得到图像特征数据；

1c)对图像特征数据取均值，用图像特征数据中的每个图像特征数据分别减去该均值，得到相应的图像特征数据的中心化向量；

1d)对每个图像特征数据中心化向量的各个分量的平方相加后，再开根号得到该向量的模；

1e)将每个图像特征数据中心化向量除以该向量的模，得到每个图像特征数据的归一化向量；

1f)从图像特征数据的归一化向量中随机选取部分向量组成一个矩阵，将该矩阵作为图像测试数据矩阵，其余的图像特征数据的归一化向量组成的矩阵作为图像训练数据矩阵，完成预处理。

(2)获取双边随机投影矩阵：

2a)由计算机随机生成一个服从标准正态分布的矩阵，作为初始右投影矩阵；

2b)将初始右投影矩阵中每个列向量作为投影向量，将每个图像训练数据矩阵的行向量分别向该投影向量投影，得到左投影矩阵；

2c)将左投影矩阵的每个列向量作为投影向量，将每个图像训练数据矩阵的列向量分别向该投影向量投影，得到右投影矩阵。

(3)低秩近似：

3a)采用格拉姆-施密特正交化方法将右投影矩阵的列向量正交化，将这些向量排列在一个矩阵中，得到正交化右投影矩阵；

3b)对正交化右投影矩阵做转置，得到转置矩阵；

3c)将正交化右投影矩阵、转置矩阵、步骤1f)图像训练数据矩阵三者相乘，得到图像训练数据的低秩矩阵。

(4)更新图像训练数据的低秩矩阵：

用图像训练数据的低秩矩阵替换图像训练数据矩阵。

(5)判断更新低秩矩阵的迭代次数是否最大：

判断图像训练数据的低秩矩阵更新的迭代次数是否达到最大值10，当迭代次数小于最大值，则执行步骤(2)，否则，终止迭代。

(6)投影向量分组：

将最优右投影矩阵中列向量任意均分为两组，得到两组投影向量。

(7)投影向量正交化：

7a)对每组投影向量分别用格拉姆-施密特正交化方法进行正交，得到两组正交化的投影向量；

7b)将两组正交化的投影向量合并,得到全部最优投影向量。

(8)获取哈希编码：

8a)将图像训练数据矩阵中的每个行向量作为一个图像训练数据，采用哈希方法对每个图像训练数据进行编码，得到图像训练数据的哈希编码；

8b)将图像测试数据矩阵中的每个行向量作为一个图像测试数据，采用哈希方法对每个图像测试数据进行编码，得到图像测试数据的哈希编码。

(9)获取汉明距离：

取一个图像测试数据的哈希编码，统计该图像测试数据的哈希编码与每一个图像训练数据的哈希编码在相同位置上有不同编码值的位数，得到该图像测试数据与每一个图像训练数据的汉明距离。

(10)输出测试结果：

10a)将汉明距离按从小到大的顺序进行排序，得到有序图像训练数据；

10b)调取图像数据库中与有序图像训练数据对应的原始图像数据，将该原始图像数据依次输出。

本发明与现有技术相比具有以下优点：

第一，由于本发明引入了左投影矩阵与右投影矩阵，克服了现有技术中单边随机投影的不稳定性缺点，使得本发明得到的最优投影向量稳定性更高。

第二，由于本发明对最优右投影矩阵中的列向量进行先分组后正交化，克服了现有技术对投影向量直接正交化的缺点，使得本发明得到的最优投影向量性能更好，提高了图像检索的查准率与查全率。

第三，由于本发明采用一组哈希编码构造单哈希表的方法，克服了现有技术采用多组哈希编码构造多哈希表而占用内存空间、消耗检索时间的缺点，使得本发明所提出的方法在图像检索中效率更高。

附图说明

图1为本发明的流程图；

图2为本发明与现有技术在MNIST数据库下的仿真图；

图3为本发明与现有技术在CIFAR-10数据库下的仿真图。

具体实施方案

下面结合附图对本发明做进一步的详细描述。

参照附图1，本发明的具体实现方法如下：

步骤1，预处理。

调用图像数据库中的原始图像数据。

采用GIST方法，对原始图像数据提取图像底层特征，得到图像特征数据，具体步骤如下：

第一步，对每个原始图像数据的红、绿、蓝三个颜色通道的像素值取均值，得到该原始图像数据的灰度图像；

第二步，利用Gabor滤波器对原始图像数据的每一幅灰度图像进行4个尺度、8个方向的滤波，得到每一幅灰度图像的32个特征图；

第三步，将每个特征图分成大小为4×4的子网格，分别对每个子网格中的所有像素取均值，将该均值排列在一个向量中，得到图像特征数据。

对图像特征数据取均值，用图像特征数据中的每个图像特征数据分别减去该均值，得到相应的图像特征数据的中心化向量。

对每个图像特征数据中心化向量的各个分量的平方相加后，再开根号得到该向量的模。

将每个图像特征数据中心化向量除以该向量的模，得到每个图像特征数据的归一化向量。

从图像特征数据的归一化向量中随机选取部分向量组成一个矩阵，将该矩阵作为图像测试数据矩阵，其余的图像特征数据的归一化向量组成的矩阵作为图像训练数据矩阵，完成预处理。

步骤2，获取双边随机投影矩阵。

由计算机随机生成一个服从标准正态分布的矩阵，作为初始右投影矩阵。

将初始右投影矩阵中每个列向量作为一个投影向量，将每个图像训练数据矩阵的行向量分别向该投影向量投影，得到左投影矩阵。

将左投影矩阵的每个列向量作为一个投影向量，将每个图像训练数据矩阵的列向量分别向该投影向量投影，得到右投影矩阵：右随机投影矩阵是一个d×r的矩阵，其中r表示图像训练数据矩阵秩的估计值，其大小为16、24、32、40、48、56、64、72中的某一个值，d表示图像特征数据的特征个数，将图像训练数据矩阵秩的估计值与哈希编码长度统一起来，使得本发明所提出的方法具有感知原始图像数据内蕴维度的性能。

步骤3，低秩近似。

采用格拉姆-施密特正交化方法将右投影矩阵的列向量正交化，将这些向量排列在一个矩阵中，得到正交化右投影矩阵，具体步骤如下：

第一步，从右投影矩阵中取第一个列向量作为第一个正交向量，

第二步，从右投影矩阵中取下一个列向量作为待处理向量，将待处理向量分别向其前面的各个正交向量投影，将各个投影结果相加，得到待处理向量的投影向量；

第三步，用待处理向量减去待处理向量的投影向量得到待处理向量的正交向量；

第四步，判断格拉姆-施密特正交化的迭代次数是否等于右投影矩阵列向量个数，若是，则完成对右投影矩阵列向量的正交化，否则，执行第二步。

对正交化右投影矩阵做转置，得到转置矩阵。

将正交化右投影矩阵、转置矩阵、图像训练数据矩阵三者相乘，得到图像训练数据的低秩矩阵。

步骤4，更新图像训练数据的低秩矩阵。

用图像训练数据的低秩矩阵替换图像训练数据矩阵。

步骤5，判断更新低秩矩阵的迭代次数是否最大。

判断图像训练数据的低秩矩阵更新的迭代次数是否达到最大值10，当迭代次数小于最大值，执行步骤2，否则，终止迭代，完成图像训练数据的低秩矩阵的更新，得到最优右投影矩阵。

步骤6，投影向量分组。

步骤7，投影向量正交化。

对每组投影向量分别用格拉姆-施密特正交化方法进行正交，得到两组正交化的投影向量，具体步骤如下：

第一步，从一组投影向量中取第一个列向量作为第一个正交向量；

第二步，从该组投影向量取下一个列向量作为待处理向量，将待处理向量分别向它前面的各个正交向量投影，将各个投影结果相加，得到待处理向量的投影向量；

第四步，判断格拉姆-施密特正交化的迭代次数是否等于该组投影向量个数，若是，则完成对右投影矩阵列向量的正交化，否则，执行第二步。

将两组正交化的投影向量合并,得到全部最优投影向量。

步骤8，获取哈希编码。

将图像训练数据矩阵中的每个行向量作为一个图像训练数据，采用哈希方法对每个图像训练数据进行编码，得到图像训练数据的哈希编码，具体步骤如下：

第一步，按照以下公式，计算一个图像训练数据在最优投影向量上的哈希值，

h(x)=sign(xy)

其中，h(·)表示一个图像训练数据在一个最优投影向量上的哈希值，x表示一个图像训练数据，y表示一个最优投影向量，xy表示向量x与y的内积，sign(·)为符号函数；

第二步，计算每一个图像训练数据在各个最优投影向量上的哈希值，得到图像训练数据的哈希编码。

将图像测试数据矩阵中的每个行向量作为一个图像测试数据，采用哈希方法对每个图像测试数据进行编码，得到图像测试数据的哈希编码，具体步骤如下：

第一步，按照以下公式，计算一个图像测试数据在最优投影向量上的哈希值，

h(x)=sign(xy)

其中，h(·)表示一个图像测试数据在一个最优投影向量上的哈希值，x表示一个图像测试数据，y表示一个最优投影向量，xy表示向量x与y的内积，sign(·)为符号函数；

第二步，计算每一个图像测试数据在各个最优投影向量上的哈希值，得到图像测试数据的哈希编码。

步骤9，获取汉明距离：

步骤10，输出测试结果：

将汉明距离按从小到大的顺序进行排序，得到有序图像训练数据。

调取图像数据库中与有序图像训练数据对应的原始图像数据，将该原始图像数据依次输出。

下面结合仿真图对本发明的效果做进一步的描述：

1.仿真条件：

本发明是在中央处理器为Intel(R)Core i3-21003.10GHZ、内存4G、WINDOWS7操作系统上，运用MATLAB软件进行的仿真。

2.仿真内容：

本发明在两个公开数据库上做了仿真实验。第一个是CIFAR-10数据库，包括69000幅彩色图像，总共分成10类。第二个是MNIST数据库，包括70000幅手写数字图像。从每个图像数据库中调取4000个原始图像数据，其中图像测试数据的个数为1000个，图像训练数据的个数为3000个。对MNIST数据库中的原始图像数据不采用GIST方法提取图像底层特征，直接将原始图像数据作为图像特征数据。

将哈希编码长度分别设置为16、24、32、40、48、56、64、72中的某个值，对本发明进行仿真实验。本发明的方法与多种现有哈希方法进行了对比，作为对比的哈希方法分别是局部敏感哈希（Locality Sensitive Hashing,LSH）方法、主成分分析哈希（Principal Analysis Hashing,PCAH）方法、谱哈希（Spectral Hashing,SH）方法。仿真实验结果如下：

仿真1，在MNIST数据库下分别采用本发明方法和现有三种哈希方法进行仿真实验，仿真结果如图2所示。

图2（a）为哈希编码长度取32位的查准率-查全率曲线图，横轴表示查准率，纵轴表示查全率。图2（b）为哈希编码长度取48位的查准率-查全率曲线图，横轴表示查准率，纵轴表示查全率。图2（c）为准确率曲线图，横轴表示哈希编码长度，纵轴表示准确率。

图2（a）与图2（b）中标注加号的曲线代表本发明方法、标注三角号的曲线代表谱哈希方法、标注矩形的曲线代表主成分分析哈希方法、标注圆圈的曲线代表局部敏感哈希方法；每条曲线上有20个标注点，标注点从上到下依次表示图像测试数据与图像训练数据之间的汉明距离从0开始，依次增加1，直到汉明距离增加到19；每个标注点的横坐标值表示在相应的汉明距离下，图像测试数据的近似近邻图像中真实近邻个数与其真实近邻总数之比，标注点的纵坐标值表示在相应的汉明距离下，图像测试数据的近似近邻图像中真实近邻个数与其近似近邻总数之比。

图2（c）中标注加号的曲线代表本发明方法、标注三角号的曲线代表谱哈希方法、标注矩形的曲线代表主成分分析哈希方法、标注圆圈的曲线代表局部敏感哈希方法；每条曲线上标注点横坐标表示哈希编码长度，取值为16、24、32、40、48、56、64、72，标注点纵坐标表示本发明方法输出的每个图像测试数据的前500个测试结果中，该图像测试数据的真实近邻个数与500的比值。

仿真2，在CIFAR-10数据库下分别采用本发明方法和现有三种哈希方法进行仿真实验，仿真结果如图3所示。

图3（a）为哈希编码长度取16位的查准率-查全率曲线图，横轴表示查准率，纵轴表示查全率。图3（b）为哈希编码长度取24位的查准率-查全率曲线图，横轴表示查准率，纵轴表示查全率。图3（c）为准确率曲线图，横轴表示哈希编码长度，纵轴表示准确率。

图3（a）与图3（b）中标注加号的曲线代表本发明方法、标注三角号的曲线代表谱哈希方法、标注矩形的曲线代表主成分分析哈希方法、标注圆圈的曲线代表局部敏感哈希方法；每条曲线上有20个标注点，标注点从上到下依次表示图像测试数据与图像训练数据之间的汉明距离从0开始，依次增加1，直到汉明距离增加到19；每个标注点的横坐标值表示在相应的汉明距离下，图像测试数据的近似近邻图像中真实近邻个数与其真实近邻总数之比，标注点的纵坐标值表示在相应的汉明距离下，图像测试数据的近似近邻图像中真实近邻个数与其近似近邻总数之比。

图3（c）中标注加号的曲线代表本发明方法、标注三角号的曲线代表谱哈希方法、标注矩形的曲线代表主成分分析哈希方法、标注圆圈的曲线代表局部敏感哈希方法；每条曲线上标注点横坐标表示哈希编码长度，取值为16、24、32、40、48、56、64、72，标注点纵坐标表示本发明方法输出的每个图像测试数据的前500个测试结果中，该图像测试数据的真实近邻个数与500的比值。

由图2和图3的仿真结果可见，采用本发明方法得到的查准率-查全率曲线及准确率曲线都位于其它三条曲线的上方，说明用本发明方法进行图像检索的精度高于现有哈希方法，其性能优于现有的哈希方法。因此，与现有技术相比，本发明利用双边随机投影及投影向量分组正交化的方法，能有效获取原始图像数据的哈希编码，从而提高了图像检索的性能。

Claims

1.一种基于双边随机投影的图像感知哈希方法，包括如下步骤：

(1)预处理：

1a)调用图像数据库中的原始图像数据；

1f)从图像特征数据的归一化向量中随机选取部分向量组成一个矩阵，将该矩阵作为图像测试数据矩阵，其余的图像特征数据的归一化向量组成的矩阵作为图像训练数据矩阵，完成预处理；

(2)获取双边随机投影矩阵：

2c)将左投影矩阵的每个列向量作为投影向量，将每个图像训练数据矩阵的列向量分别向该投影向量投影，得到右投影矩阵；

(3)低秩近似：

3b)对正交化右投影矩阵做转置，得到转置矩阵；

3c)将正交化右投影矩阵、转置矩阵、步骤1f)图像训练数据矩阵三者相乘，得到图像训练数据的低秩矩阵；

(4)更新图像训练数据的低秩矩阵：

用图像训练数据的低秩矩阵替换图像训练数据矩阵；

(5)判断更新低秩矩阵的迭代次数是否最大：

判断图像训练数据的低秩矩阵更新的迭代次数是否达到最大值10，当迭代次数小于最大值，则执行步骤(2)，否则，终止迭代；

(6)投影向量分组：

将最优右投影矩阵中列向量任意均分为两组，得到两组投影向量；

(7)投影向量正交化：

7b)将两组正交化的投影向量合并,得到全部最优投影向量；

(8)获取哈希编码：

8b)将图像测试数据矩阵中的每个行向量作为一个图像测试数据，采用哈希方法对每个图像测试数据进行编码，得到图像测试数据的哈希编码；

(9)获取汉明距离：

取一个图像测试数据的哈希编码，统计该图像测试数据的哈希编码与每一个图像训练数据的哈希编码在相同位置上有不同编码值的位数，得到该图像测试数据与每一个图像训练数据的汉明距离；

(10)输出测试结果：

2.根据权利要求1所述的基于双边随机投影的图像感知哈希方法，其特征在于，步骤1b)所述的GIST方法的步骤如下：

3.根据权利要求1所述的基于双边随机投影的图像感知哈希方法，其特征在于，步骤2c)所述的右随机投影矩阵是一个d×r的随机矩阵，其中d表示图像特征数据的特征个数，r表示图像训练数据矩阵秩的估计值，其大小为16、24、32、40、48、56、64、72中的任意一个值。

4.根据权利要求1所述的基于双边随机投影的图像感知哈希方法，其特征在于，步骤3a)、步骤7a)中所述的格拉姆-施密特正交化方法的步骤如下：

5.根据权利要求1所述的基于双边随机投影的图像感知哈希方法，其特征在于，步骤8a)、步骤8b)所述的哈希编码的步骤如下：

第一步，按照以下公式，计算图像训练数据在最优投影向量上的哈希值：

h(x)=sign(xy)

其中，h(·)表示一个图像训练数据在一个最优投影向量上的哈希值，x表示图像训练数据，y表示一个最优投影向量，xy表示向量x与y的内积，sign(·)为符号函数；