CN104820696B - 一种基于多标签最小二乘哈希算法的大规模图像检索方法 - Google Patents
一种基于多标签最小二乘哈希算法的大规模图像检索方法 Download PDFInfo
- Publication number
- CN104820696B CN104820696B CN201510213390.5A CN201510213390A CN104820696B CN 104820696 B CN104820696 B CN 104820696B CN 201510213390 A CN201510213390 A CN 201510213390A CN 104820696 B CN104820696 B CN 104820696B
- Authority
- CN
- China
- Prior art keywords
- mrow
- matrix
- msup
- msub
- msubsup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 239000011159 matrix material Substances 0.000 claims abstract description 165
- 230000000007 visual effect Effects 0.000 claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000012544 monitoring process Methods 0.000 claims description 9
- 238000013139 quantization Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012847 principal component analysis method Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 241000209128 Bambusa Species 0.000 description 1
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 241000135164 Timea Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多标签最小二乘哈希算法的大规模图像检索方法,包括:提取训练集中图像的视觉特征和监督信息,分别得到原始视觉特征数据矩阵和监督信息矩阵,训练集中每幅图像均包括多个标签信息;对原始视觉特征数据矩阵进行两次降维处理,分别得到第一次降维最优投影矩阵和第二次降维最优投影矩阵;求取最优旋转矩阵及两次降维后的视觉特征数据矩阵的哈希编码,得到标准哈希编码;根据训练集得到的第一次降维最优投影矩阵、第二次降维最优投影矩阵和最优旋转矩阵,检索图像库中的图像时,求取图像库中的每幅图像的哈希编码,并计算图像库中的每幅图像的哈希编码与标准哈希编码之间的海明距离,输出图像库中与标准哈希编码之间具有最小海明距离的图像。
Description
技术领域
本发明涉及图像处理领域,具体涉及一种基于多标签最小二乘哈希算法的大规模图像检索方法。
背景技术
最邻近搜索(NN)是一个在尺度空间中寻找最近点的优化问题。问题描述如下:在尺度空间M中给定一个点集S和一个目标点q∈M,在S中找到距离q最近的点。很多情况下,M为多维的欧几里得空间,距离由欧几里得距离或曼哈顿距离决定。随着互联网近几年不断发展,互联网中产生了巨大规模的数据。在大规模数据中最近邻搜索往往需要很多时间,许多情况下,我们选择近似最近邻搜索(ANN)算法,来近似NN的结果,使计算复杂度大大下降。
在ANN方法发展的这几年中,提出了许多哈希方法用于高效的近似最近邻ANN搜索。这些哈希方法把高维数据嵌入在一个能够保持相似性的低维海明空间中,比较类似的图像在低维海明空间距离比较小。如果把现有的哈希方法按监督信息划分,大致分为3中类型:无监督哈希、有监督哈希、半监督哈希。
当数据有监督信息的时候,有监督哈希方法性能总是表现的比无监督哈希方法要好。在实际应用中,多标签数据会经常出现在监督搜索场景中(多标签指的是一个样本同时有多个标签),比如对一张描述“江南”的图像来讲,可能有水、山、竹子、白云、人等事物同时出现在图像中;所以,研究多标签哈希方法在监督哈希领域有非常大有意义。然而,现有的哈希方法主要是解决单标签的数据,很少有多标签哈希方法被提出。
发明内容
为应对并处理有监督数据的图像,该发明提出了一种基于多标签最小二乘哈希算法的大规模图像检索方法。该方法提高了模型的泛化能力,而且对多标签数据的图像搜索结果有很大提高。
为实现上述目的,本发明的具体方案如下:
一种基于多标签最小二乘哈希算法的大规模图像检索方法,包括以下步骤:
步骤(1):提取训练集中图像的视觉特征和监督信息,分别得到原始视觉特征数据矩阵和监督信息矩阵,所述训练集中每幅图像均包括多个标签信息;
步骤(2):对原始视觉特征数据矩阵进行两次降维处理,分别得到第一次降维最优投影矩阵和第二次降维最优投影矩阵;
步骤(3):优化两次降维后的视觉特征数据矩阵,求取最优旋转矩阵R以及两次降维后的视觉特征数据矩阵的哈希编码,得到标准哈希编码;
步骤(4):检索图像库中的图像时,根据训练集得到的第一次降维最优投影矩阵、第二次降维最优投影矩阵和最优旋转矩阵R,求取图像库中的每幅图像的哈希编码,并计算图像库中的每幅图像的哈希编码与标准哈希编码之间的海明距离,输出图像库中与标准哈希编码之间具有最小海明距离的图像。
所述步骤(1)的具体过程为:
步骤(1.1):对训练集中每幅图像提取d维的视觉特征,得到一个d×n的原始视觉特征数据矩阵X=[x1,...,xn]∈Rd×n,其中,n表示训练集中训练样本的个数,所述训练样本是具有标签的图像;
步骤(1.2):标注训练集中每张图中的标签,然后对所标注的结果进行筛选和统一;假设标注后图像库中的所有图像一共有k个标签,每幅图像的标签信息表示为k×1的向量;
当图像包含某个标签,标签向量中对应位置为1,否则为0,那么对于训练样本个数为n的训练集得到一个k×n的监督信息矩阵Y=[y1,...,yn]∈Rk×n。
所述步骤(2)的具体过程为:
步骤(2.1):使用与典型相关分析等价的最小二乘法,把训练集的原始视觉特征数据矩阵均投影到与训练集的监督信息矩阵维度一致的低维空间中,得到训练集的第一次降维后的视觉特征数据矩阵;
步骤(2.2):使用主成分分析方法,把经过步骤(2.1)降维后的视觉特征数据矩阵再投影预设的哈希码长度的维度空间中,得到第二次降维后的视觉特征数据矩阵。
所述步骤(2.1)的具体过程为:
步骤(2.1.1):确定投影矩阵Wd×k的求解模型该模型采用典型相关分析的等价形式的最小二乘法加上二范数约束的方法获得:
其中,为类指示矩阵;Y为监督信息;X为原始视觉特征数据矩阵,(Wd×k)T是Wd×k的转值矩阵;wj是Wd×k矩阵的第j列,wj T是wj的转置;k指的是训练集中样本具有标签的总个数,n是训练样本的个数;α表示系数;
步骤(2.1.2):采用最小二乘QR分解方法来求解公式(1),得到Wd×k的最优投影矩阵,记为
步骤(2.1.3):将投影矩阵代入降维方程中,得到第一次降维后的视觉特征数据矩阵X1,所述降维方程的表达式为:
其中,X为原始视觉特征数据矩阵;是的转置矩阵。
所述步骤(2.2)中获取第二次降维后的视觉特征数据矩阵再投影预设的哈希码长度的维度空间中的线性映射投影矩阵的具体过程为:
步骤(2.2.1):假设把第二次降维后的视觉特征数据矩阵再投影预设的哈希码长度的维度空间中的线性映射投影矩阵为Wk×c,确定其优化函数:
其中,hi(x)表示假定的哈希函数;c表示要将数据降到的维数;wi表示Wk×c的第i列;表示wi的转置;n表示样本的个数;X为原始视觉特征数据矩阵;x为原始视觉特征数据矩阵的元素;
步骤(2.2.2):对sgn()函数进行松弛,然后得到下列优化函数:
s.t. (Wk×c)TWk×c=I (4)
其中,X1为第一次降维后的视觉特征数据矩阵;表示求取矩阵的主对角线上的元素之和;n表示训练集的样本个数;
步骤(2.2.3):通过分解特征值,来求得各个特征值对应的特征向量,从而得到投影矩阵Wk×c的最优矩阵
所述步骤(2.2)中的第二次降维后的视觉特征数据矩阵X2为:
其中,为的转置矩阵;X1为第一次降维后的视觉特征数据矩阵。
所述步骤(3)中使用迭代量化方法优化经过步骤(2)降维后的视觉特征数据矩阵。
所述步骤(3)中获取标准哈希编码的具体过程为:
步骤(3.1):随机生成出一个旋转矩阵R;
步骤(3.2):采用旋转矩阵R来旋转经过步骤(2)降维后的视觉特征数据矩阵;
步骤(3.3):采用符号函数sgn(),把使用步骤(3.2)旋转过后的视觉特征数据矩阵进行二值化,得到二值化矩阵B;
步骤(3.4):将旋转矩阵R和二值化矩阵B代入公式(6)中,重复步骤(3.2)~步骤(3.3),得到公式(6)的局部最优解,也就是最优旋转矩阵R;
B=sgn(X3)
X3=RTX2 (6)
其中,X2为第二次降维后的视觉特征数据矩阵;RT为R的转置矩阵;
步骤(3.5):再重复步骤(3.2)~步骤(3.3),得到标准哈希编码。
本发明的有益效果为:
(1)该发明可以直接对多标签数据进行二进制编码;
(2)在对数据进行二进制转化的时候可以充分考虑数据在标签空间中的相似性;
(3)使用该方法对数据进行二进制转化后,可以大大提高数据的检索速度,并且降低数据的存储空间。
附图说明
图1为本发明的基于多标签最小二乘哈希算法的大规模图像检索方法流程图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明:
如图1所示,一种基于多标签最小二乘哈希算法的大规模图像检索方法,包括以下步骤:
步骤(1):提取训练集中图像的视觉特征和监督信息,分别得到原始视觉特征数据矩阵和监督信息矩阵,所述训练集中每幅图像均包括多个标签信息;
步骤(2):对原始视觉特征数据矩阵进行两次降维处理,分别得到第一次降维最优投影矩阵和第二次降维最优投影矩阵;
步骤(3):优化两次降维后的视觉特征数据矩阵,求取最优旋转矩阵R以及两次降维后的视觉特征数据矩阵的哈希编码,得到标准哈希编码;
步骤(4):检索图像库中的图像时,根据训练集得到的第一次降维最优投影矩阵、第二次降维最优投影矩阵和最优旋转矩阵R,求取图像库中的每幅图像的哈希编码,并计算图像库中的每幅图像的哈希编码与标准哈希编码之间的海明距离,输出图像库中与标准哈希编码之间具有最小海明距离的图像。
步骤(1):对做训练集的图像,提取监督信息和视觉特征;
所述步骤(1)中,假设训练集中的训练样本一共有n个,提取提取视觉特征的方法为:
对每幅图像提取d维的视觉特征,比如GIST特征,具体实施过程中可以提取其他的视觉特征或者多种特征进行组合,得到一个d×n的原始视觉特征数据矩阵X=[x1,...,xn]∈Rd×n,其中,所述训练样本是具有标签的图像。
提取提监督信息的方法为:
对于训练数据的标签采取人工的方式来对其进行标注,即多人对数据集中的数据进行标注,然后对所标注的结果进行筛选和统一;假设标注后数据集的所有图像一共有k个标签,每幅图像的标签信息可以表示为k×1的向量。其中,如果该图像包含某个标签,标签向量中对应位置为1,否则为0。在该表示条件下,对于训练样本个数为n的训练集得到一个k×n的监督信息矩阵Y=[y1,...,yn]∈Rk×n。
所述步骤(2)的具体过程为:
步骤(2.1):使用与典型相关分析等价的最小二乘法,把待检索图像和训练集的每一幅图像的原始视觉特征数据矩阵均投影到与训练集的监督信息矩阵维度一致的低维空间中,得到待检索图像和训练集中每一幅图像的第一次降维后的视觉特征数据矩阵;
步骤(2.2):使用主成分分析方法,把经过步骤(2.1)降维后的视觉特征数据矩阵再投影预设的哈希码长度的维度空间中,得到第二次降维后的视觉特征数据矩阵。
所述步骤(2.1)中,使用CCA的等价形式的最小二乘法,把原始数据特征数据投影到符合监督信息的低维空间,具体过程如下:
在这个步骤中,目的是寻找一个投影矩阵Wd×k把原始数据特征数据X投影到符合监督信息Y的低维空间,使用的目标函数是典型相关分析(CCA)的等价形式的最小二乘法,并且在此形式之上加上二范数约束项,来提高目标函数的效果。
具体做法如下,先定义一个特别类指示矩阵,从而可以得到CCA和最小二乘法的等价形式,在此称其为LS-CCA;然后,在LS-CCA模型上添加一个二范数约束项,来控制模型的复杂性,提高了模型的泛化能力。
假定加入二范数约束项的目标函数为LS-CCA2,则它的形式如下:
其中,为类指示矩阵;Y为监督信息;X为原始视觉特征数据矩阵,(Wd×k)T是Wd×k的转值矩阵;wj是Wd×k矩阵的第j列,wj T是wj的转置;k指的是训练集中样本具有标签的总个数,n是训练样本的个数;在对该函数进行优化求解时,α表示系数,通过交叉验证的方法得到的,在实际运用中也采用默认值1。然后,采用最小二乘QR分解方法(LSQR)来求最优解,也就是映射矩阵W。假定求得的最优解为然后可以用此降维矩阵对数据特征原始矩阵X进行降维,把数据投影到符合标签信息的低维空间中,即使用公式(2)对数据X进行降维。
所述步骤(2.2)中,使用主成分分析方法(PCA),解决一个特征值分解的问题,把第二次降维后的数据再投影我们需要的符合哈希码长度的空间。PCA主要用于数据降维,PCA的问题其实是一个把原始数据矩阵变换和投影问题,使得变换后的数据有着最大的方差。所以,目标还是求出一个最优的线性映射投影矩阵,即
其中,hi(x)表示假定的哈希函数;c表示要将数据降到的维数;wi表示Wk×c的第i列;表示wi的转置;n表示样本的个数;X为原始视觉特征数据矩阵;x为原始视觉特征数据矩阵的元素;公式(3)的约束函数为:
B′=sgn((Wk×c)TX)。
在这里我们可以对sgn()函数进行松弛,即去掉对数据的二值化,从而可以得到下列目标函数:
s.t. (Wk×c)TWk×c=I (4)
其中,约束项(Wk×c)TWk×c=I可以使投影的哈希超平面彼此正交;X1为第一次降维后的视觉特征数据矩阵;表示求取矩阵的主对角线上的元素之和;n表示训练集的样本个数;
优化这个目标函数的具体做法通过解决一个特征值分解问题。即求出协方差矩阵前c个特征值对应的特征向量,这c个特征向量作成一个投影矩阵得到该矩阵后,可以用此降维矩阵的转置对数据经过第二次降维后的数据进行降维,从而把数据投影到我们需要的符合哈希码长度的维度空间中,即
其中,为的转置矩阵;X1为第一次降维后的视觉特征数据矩阵。
所述步骤(3)中,使用迭代量化的方法优化经过步骤(2)降维后的数据。
训练出一个旋转矩阵来旋转经过步骤(2)降维后的数据矩阵,来减少量化误差。为此,先定义一个量化误差的公式||sgn(v)-v||,其中,v∈Rc是投影后的数据向量,最后得到的数据量化误差越小,说明最后得到的哈希编码越好保护了数据原来的局部结构。
其中,定义的迭代误差损失函数如下:
B=sgn(X3)
X3=RTX2 (6)
其中,X2为第二次降维后的视觉特征数据矩阵;在这个损失函数中,RT为旋转矩阵R的转置矩阵;在对以上函数进行优化时,先初始化一个随机矩阵R,然后用类似k-means的迭代量化过程来找量化误差的局部最小值。
在每一次迭代中,先固定R矩阵,然后更新B矩阵,然后再固定B矩阵,然后再更新R矩阵。重复这一过程,我们就可以找到局部最优解R。
一旦通过以上方法得到旋转矩阵R,就可以用这个旋转矩阵来投影经过步骤(2)处理的数据X2,来最小化这个量化误差;使用sgn函数把使用步骤(2)旋转过后的数据转化为二进制的哈希编码B,即B=sgn(X3)。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.一种基于多标签最小二乘哈希算法的大规模图像检索方法,其特征在于,包括以下步骤:
步骤(1):提取训练集中图像的视觉特征和监督信息,分别得到原始视觉特征数据矩阵和监督信息矩阵,所述训练集中每幅图像均包括多个标签信息;
步骤(2):对原始视觉特征数据矩阵进行两次降维处理,分别得到第一次降维最优投影矩阵和第二次降维最优投影矩阵;
步骤(3):优化两次降维后的视觉特征数据矩阵,求取最优旋转矩阵R以及两次降维后的视觉特征数据矩阵的哈希编码,得到标准哈希编码;
步骤(4):检索图像库中的图像时,根据训练集得到的第一次降维最优投影矩阵、第二次降维最优投影矩阵和最优旋转矩阵R,求取图像库中的每幅图像的哈希编码,并计算图像库中的每幅图像的哈希编码与标准哈希编码之间的海明距离,输出图像库中与标准哈希编码之间具有最小海明距离的图像。
2.如权利要求1所述的一种基于多标签最小二乘哈希算法的大规模图像检索方法,其特征在于,所述步骤(1)的具体过程为:
步骤(1.1):对训练集中每幅图像提取d维的视觉特征,得到一个d×n的原始视觉特征数据矩阵X=[x1,...,xn]∈Rd×n,其中,n表示训练集中训练样本的个数,所述训练样本是具有标签的图像;
步骤(1.2):标注训练集中每张图中的标签,然后对所标注的结果进行筛选和统一;假设标注后图像库中的所有图像一共有k个标签,每幅图像的标签信息表示为k×1的向量;
当图像包含某个标签,标签向量中对应位置为1,否则为0,那么对于训练样本个数为n的训练集得到一个k×n的监督信息矩阵Y=[y1,...,yn]∈Rk×n。
3.如权利要求1所述的一种基于多标签最小二乘哈希算法的大规模图像检索方法,其特征在于,所述步骤(2)的具体过程为:
步骤(2.1):使用与典型相关分析等价的最小二乘法,把训练集的原始视觉特征数据矩阵均投影到与训练集的监督信息矩阵维度一致的低维空间中,得到训练集的第一次降维后的视觉特征数据矩阵;
步骤(2.2):使用主成分分析方法,把经过步骤(2.1)降维后的视觉特征数据矩阵再投影预设的哈希码长度的维度空间中,得到第二次降维后的视觉特征数据矩阵。
4.如权利要求3所述的一种基于多标签最小二乘哈希算法的大规模图像检索方法,其特征在于,所述步骤(2.1)的具体过程为:
步骤(2.1.1):确定投影矩阵Wd×k的求解模型该模型采用典型相关分析的等价形式的最小二乘法加上二范数约束的方法获得:
<mrow>
<mover>
<mi>T</mi>
<mo>~</mo>
</mover>
<mo>=</mo>
<msup>
<mrow>
<mo>(</mo>
<msup>
<mi>Y</mi>
<mi>T</mi>
</msup>
<mi>Y</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
</mrow>
</msup>
<msup>
<mi>Y</mi>
<mi>T</mi>
</msup>
</mrow>
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<munder>
<mi>min</mi>
<mrow>
<mi>W</mi>
<mo>,</mo>
<mi>&alpha;</mi>
</mrow>
</munder>
<msub>
<mi>f</mi>
<mrow>
<mi>L</mi>
<mi>S</mi>
<mo>-</mo>
<mi>C</mi>
<mi>C</mi>
<mi>A</mi>
<mn>2</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mrow>
<mi>d</mi>
<mo>&times;</mo>
<mi>k</mi>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<mrow>
<mo>(</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msubsup>
<mi>w</mi>
<mi>j</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mover>
<mi>T</mi>
<mo>~</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>&alpha;</mi>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>w</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mo>|</mo>
<mo>|</mo>
<msup>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mrow>
<mi>d</mi>
<mo>&times;</mo>
<mi>k</mi>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mi>X</mi>
<mo>-</mo>
<mover>
<mi>T</mi>
<mo>~</mo>
</mover>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mi>F</mi>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mi>&alpha;</mi>
<mo>|</mo>
<mo>|</mo>
<msup>
<mi>W</mi>
<mrow>
<mi>d</mi>
<mo>&times;</mo>
<mi>k</mi>
</mrow>
</msup>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mi>F</mi>
<mn>2</mn>
</msubsup>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,为类指示矩阵;Y为监督信息;X为原始视觉特征数据矩阵,(Wd×k)T是Wd×k的转值矩阵;wj是Wd×k矩阵的第j列,是wj的转置;k指的是训练集中样本具有标签的总个数,n是训练样本的个数;α表示系数;d表示对训练集中每幅图像提取视觉特征的维数;
步骤(2.1.2):采用最小二乘QR分解方法来求解公式(1),得到Wd×k的最优投影矩阵,记为
步骤(2.1.3):将投影矩阵代入降维方程中,得到第一次降维后的视觉特征数据矩阵X1,所述降维方程的表达式为:
<mrow>
<msub>
<mi>X</mi>
<mn>1</mn>
</msub>
<mo>=</mo>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>W</mi>
<mrow>
<mi>L</mi>
<mi>S</mi>
<mo>-</mo>
<mi>C</mi>
<mi>C</mi>
<mi>A</mi>
<mn>2</mn>
</mrow>
<mrow>
<mi>d</mi>
<mo>&times;</mo>
<mi>k</mi>
</mrow>
</msubsup>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mi>X</mi>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,X为原始视觉特征数据矩阵;是的转置矩阵。
5.如权利要求3所述的一种基于多标签最小二乘哈希算法的大规模图像检索方法,其特征在于,所述步骤(2.2)中获取第二次降维后的视觉特征数据矩阵再投影预设的哈希码长度的维度空间中的线性映射投影矩阵的具体过程为:
步骤(2.2.1):假设把第二次降维后的视觉特征数据矩阵再投影预设的哈希码长度的维度空间中的线性映射投影矩阵为Wk×c,确定其优化函数:
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
<mi>W</mi>
</munder>
<msub>
<mi>f</mi>
<mrow>
<mi>P</mi>
<mi>C</mi>
<mi>A</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mrow>
<mi>k</mi>
<mo>&times;</mo>
<mi>c</mi>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>c</mi>
</munderover>
<mi>var</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>h</mi>
<mi>i</mi>
</msub>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>c</mi>
</munderover>
<mi>var</mi>
<mrow>
<mo>(</mo>
<mi>sgn</mi>
<mo>(</mo>
<mrow>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
<mi>x</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,hi(x)表示假定的哈希函数;c表示要将数据降到的维数;wi表示Wk×c的第i列;表示wi的转置;n表示样本的个数;X为原始视觉特征数据矩阵;x为原始视觉特征数据矩阵的元素;
步骤(2.2.2):对sgn()函数进行松弛,然后得到下列优化函数:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
<mi>W</mi>
</munder>
<msub>
<mi>f</mi>
<mrow>
<mi>P</mi>
<mi>C</mi>
<mi>A</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mrow>
<mi>k</mi>
<mo>&times;</mo>
<mi>c</mi>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>c</mi>
</munderover>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>T</mi>
</msubsup>
<msubsup>
<mi>X</mi>
<mn>1</mn>
<mi>T</mi>
</msubsup>
<msub>
<mi>X</mi>
<mn>1</mn>
</msub>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<mi>t</mi>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msup>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mrow>
<mi>k</mi>
<mo>&times;</mo>
<mi>c</mi>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msubsup>
<mi>X</mi>
<mn>1</mn>
<mi>T</mi>
</msubsup>
<msub>
<mi>X</mi>
<mn>1</mn>
</msub>
<msup>
<mi>W</mi>
<mrow>
<mi>k</mi>
<mo>&times;</mo>
<mi>c</mi>
</mrow>
</msup>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
s.t. (Wk×c)TWk×c=I (4)
其中,X1为第一次降维后的视觉特征数据矩阵;表示求取矩阵的主对角线上的元素之和;n表示训练集的样本个数;步骤(2.2.3):通过分解特征值,来求得各个特征值对应的特征向量,从而得到投影矩阵Wk×c的最优矩阵
6.如权利要求5所述的一种基于多标签最小二乘哈希算法的大规模图像检索方法,其特征在于,所述步骤(2.2)中的第二次降维后的视觉特征数据矩阵X2为:
<mrow>
<msub>
<mi>X</mi>
<mn>2</mn>
</msub>
<mo>=</mo>
<msup>
<mrow>
<mo>(</mo>
<msubsup>
<mi>W</mi>
<mrow>
<mi>P</mi>
<mi>C</mi>
<mi>A</mi>
</mrow>
<mrow>
<mi>k</mi>
<mo>&times;</mo>
<mi>c</mi>
</mrow>
</msubsup>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msub>
<mi>X</mi>
<mn>1</mn>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,为的转置矩阵;X1为第一次降维后的视觉特征数据矩阵。
7.如权利要求1所述的一种基于多标签最小二乘哈希算法的大规模图像检索方法,其特征在于,所述步骤(3)中使用迭代量化方法优化经过步骤(2)降维后的视觉特征数据矩阵。
8.如权利要求1所述的一种基于多标签最小二乘哈希算法的大规模图像检索方法,其特征在于,所述步骤(3)中获取标准哈希编码的具体过程为:
步骤(3.1):随机生成出一个旋转矩阵R;
步骤(3.2):采用旋转矩阵R来旋转经过步骤(2)降维后的视觉特征数据矩阵;
步骤(3.3):采用符号函数sgn(),把使用步骤(3.2)旋转过后的视觉特征数据矩阵进行二值化,得到二值化矩阵B;
步骤(3.4):将旋转矩阵R和二值化矩阵B代入公式(6)中,重复步骤(3.2)~步骤(3.3),得到公式(6)的局部最优解,也就是最优旋转矩阵R;
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<mi>B</mi>
<mo>,</mo>
<mi>R</mi>
</mrow>
</munder>
<mi>f</mi>
<msub>
<mrow>
<mo>(</mo>
<mi>B</mi>
<mo>,</mo>
<mi>R</mi>
<mo>)</mo>
</mrow>
<mrow>
<mi>I</mi>
<mi>T</mi>
<mi>O</mi>
</mrow>
</msub>
<mo>=</mo>
<mo>|</mo>
<mo>|</mo>
<mi>B</mi>
<mo>-</mo>
<msup>
<mi>R</mi>
<mi>T</mi>
</msup>
<msub>
<mi>X</mi>
<mn>2</mn>
</msub>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mi>F</mi>
<mn>2</mn>
</msubsup>
</mrow>
B=sgn(X3)
X3=RTX2 (6)
其中,X2为第二次降维后的视觉特征数据矩阵;RT为R的转置矩阵;
步骤(3.5):再重复步骤(3.2)~步骤(3.3),得到标准哈希编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510213390.5A CN104820696B (zh) | 2015-04-29 | 2015-04-29 | 一种基于多标签最小二乘哈希算法的大规模图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510213390.5A CN104820696B (zh) | 2015-04-29 | 2015-04-29 | 一种基于多标签最小二乘哈希算法的大规模图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104820696A CN104820696A (zh) | 2015-08-05 |
CN104820696B true CN104820696B (zh) | 2018-06-05 |
Family
ID=53730991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510213390.5A Active CN104820696B (zh) | 2015-04-29 | 2015-04-29 | 一种基于多标签最小二乘哈希算法的大规模图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104820696B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126668B (zh) * | 2016-06-28 | 2019-07-19 | 北京小白世纪网络科技有限公司 | 一种基于哈希重建的图像特征点匹配方法 |
CN108228823A (zh) * | 2017-12-29 | 2018-06-29 | 中国电子科技集团公司信息科学研究院 | 一种高维图像数据降维的二值编码方法及系统 |
CN108399185B (zh) * | 2018-01-10 | 2021-12-21 | 中国科学院信息工程研究所 | 一种多标签图像的二值向量生成方法及图像语义相似度查询方法 |
CN108492337B (zh) * | 2018-02-07 | 2020-07-03 | 中国农业大学 | 一种基于pca的灰度图像简化方法、设备、装置及存储介质 |
CN110674331A (zh) | 2018-06-15 | 2020-01-10 | 华为技术有限公司 | 信息处理方法、相关设备及计算机存储介质 |
CN109634953B (zh) * | 2018-11-07 | 2021-08-17 | 宁波大学 | 一种面向高维大数据集的加权量化哈希检索方法 |
CN109344279B (zh) * | 2018-12-12 | 2021-08-10 | 山东山大鸥玛软件股份有限公司 | 基于哈希检索的手写英文单词智能识别方法 |
CN109787760B (zh) * | 2019-01-23 | 2021-10-08 | 哈尔滨工业大学 | 一种优化的基于h1类哈希函数族的密钥保密增强方法及装置 |
CN109885716B (zh) * | 2019-02-18 | 2022-10-14 | 成都快眼科技有限公司 | 基于异质多任务学习深度监督离散哈希的图像检索方法 |
CN111882061B (zh) * | 2020-07-24 | 2023-05-23 | 成都成信高科信息技术有限公司 | 一种基于分层随机梯度下降的卷积神经网络训练方法 |
CN112528065B (zh) * | 2020-12-17 | 2022-12-27 | 重庆邮电大学 | 一种流形相似度保持自编码器的医学超声图像检索方法 |
CN112906804B (zh) * | 2021-03-02 | 2023-12-19 | 华南理工大学 | 一种针对组织病理学图像的哈希样本平衡癌症标注方法 |
CN115098721B (zh) * | 2022-08-23 | 2022-11-01 | 浙江大华技术股份有限公司 | 一种人脸特征检索方法、装置及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010001282A2 (en) * | 2008-06-08 | 2010-01-07 | Spandan Choudury | Camera guaranteeing authenticity of videos or photos taken and of when taken and optionally of all additional measurable facts of the circumstances of the taken videos or photos |
CN102208034A (zh) * | 2011-07-16 | 2011-10-05 | 西安电子科技大学 | 基于半监督维数约减的高光谱图像分类方法 |
JP2012147140A (ja) * | 2011-01-11 | 2012-08-02 | Ricoh Co Ltd | 画像処理装置、画像形成装置、画像処理方法、画像処理プログラム及び記録媒体 |
CN102629279A (zh) * | 2012-03-23 | 2012-08-08 | 天津大学 | 一种用于图像或视频搜索重排序的方法 |
WO2013044295A1 (en) * | 2011-09-30 | 2013-04-04 | Canon Kabushiki Kaisha | Image retrieval method |
CN104166982A (zh) * | 2014-06-30 | 2014-11-26 | 复旦大学 | 基于典型相关性分析的图像优化聚类方法 |
CN104317902A (zh) * | 2014-10-24 | 2015-01-28 | 西安电子科技大学 | 基于局部保持迭代量化哈希的图像检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9087267B2 (en) * | 2011-06-10 | 2015-07-21 | Image Vision Labs, Inc. | Image scene recognition |
-
2015
- 2015-04-29 CN CN201510213390.5A patent/CN104820696B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010001282A2 (en) * | 2008-06-08 | 2010-01-07 | Spandan Choudury | Camera guaranteeing authenticity of videos or photos taken and of when taken and optionally of all additional measurable facts of the circumstances of the taken videos or photos |
JP2012147140A (ja) * | 2011-01-11 | 2012-08-02 | Ricoh Co Ltd | 画像処理装置、画像形成装置、画像処理方法、画像処理プログラム及び記録媒体 |
CN102208034A (zh) * | 2011-07-16 | 2011-10-05 | 西安电子科技大学 | 基于半监督维数约减的高光谱图像分类方法 |
WO2013044295A1 (en) * | 2011-09-30 | 2013-04-04 | Canon Kabushiki Kaisha | Image retrieval method |
CN102629279A (zh) * | 2012-03-23 | 2012-08-08 | 天津大学 | 一种用于图像或视频搜索重排序的方法 |
CN104166982A (zh) * | 2014-06-30 | 2014-11-26 | 复旦大学 | 基于典型相关性分析的图像优化聚类方法 |
CN104317902A (zh) * | 2014-10-24 | 2015-01-28 | 西安电子科技大学 | 基于局部保持迭代量化哈希的图像检索方法 |
Non-Patent Citations (3)
Title |
---|
Least squere regularized spectral hashing for similarity search;Fuhao zou 等;《Signal Processing》;20130831;第93卷(第8期);2265-2273 * |
图像检索中的特征表示模型和多信息融合方式的研究;陆文婷;《中国博士学位论文全文数据库 信息科技辑》;20130115;I138-64 * |
基于多标签学习的图像区域语义自动标注算法研究;滕舟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120115;I138-447 * |
Also Published As
Publication number | Publication date |
---|---|
CN104820696A (zh) | 2015-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104820696B (zh) | 一种基于多标签最小二乘哈希算法的大规模图像检索方法 | |
Wu et al. | Semi-supervised nonlinear hashing using bootstrap sequential projection learning | |
Lin et al. | Spec hashing: Similarity preserving algorithm for entropy-based coding | |
CN111461157B (zh) | 一种基于自学习的跨模态哈希检索方法 | |
CN104112018B (zh) | 一种大规模图像检索方法 | |
CN109271486B (zh) | 一种相似性保留跨模态哈希检索方法 | |
US20170262478A1 (en) | Method and apparatus for image retrieval with feature learning | |
Liu et al. | Self-explanatory sparse representation for image classification | |
Chen et al. | Using binarization and hashing for efficient SIFT matching | |
CN106033426A (zh) | 一种基于潜在语义最小哈希的图像检索方法 | |
CN109657112B (zh) | 一种基于锚点图的跨模态哈希学习方法 | |
Hong et al. | Image-based 3D human pose recovery with locality sensitive sparse retrieval | |
CN110046660B (zh) | 一种基于半监督学习的乘积量化方法 | |
Zhang et al. | Scalable discrete matrix factorization and semantic autoencoder for cross-media retrieval | |
Xu et al. | Iterative manifold embedding layer learned by incomplete data for large-scale image retrieval | |
Lin et al. | Optimizing ranking measures for compact binary code learning | |
CN112256727B (zh) | 基于人工智能技术的数据库查询处理及优化方法 | |
CN115795065A (zh) | 基于带权哈希码的多媒体数据跨模态检索方法及系统 | |
CN117171393A (zh) | 一种面向多模态检索的自适应半配对询问哈希方法 | |
Zhang et al. | Image classification based on low-rank matrix recovery and Naive Bayes collaborative representation | |
Khan et al. | Data Dimension Reduction makes ML Algorithms efficient | |
Shen et al. | Equiangular basis vectors | |
US20170309004A1 (en) | Image recognition using descriptor pruning | |
Mao et al. | Hashing with pairwise correlation learning and reconstruction | |
Wu et al. | Codebook-free compact descriptor for scalable visual search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |