CN109145143A

CN109145143A - 图像检索中的序列约束哈希算法

Info

Publication number: CN109145143A
Application number: CN201810878258.XA
Authority: CN
Inventors: 纪荣嵘; 刘弘
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2019-01-04

Abstract

图像检索中的序列约束哈希算法，涉及图像检索。首先在训练模型过程中，对原始问题进行松弛通常会带来大量精度的损失，即通常模型是在实数空间中进行模型学习与优化。同时，以往的哈希算法都是保证在汉明空间中保持原来数据的点对关系，而忽略检索任务的本质，即排序。为了应对并处理大规模图像搜索问题，并通过二值编码获得更加精准的排序结果，用以克服大规模图像检索存在的各种问题，提高模型的使用范围，可以处理不同特征度量空间的图像搜索问题。

Description

图像检索中的序列约束哈希算法

技术领域

本发明涉及图像检索，具体是涉及一种高效的图像检索中的序列约束哈希算法。

背景技术

以图像视频为代表的视觉数据，是我们认识客观世界的重要信息源。伴随着光学影像、互联网技术和高性能计算等领域的迅猛发展，图像视频等视觉数据在获取、交换和计算上的成本极大降低，导致了视觉数据规模的爆炸式增长。例如，据统计截止2016年9月，社交网站Facebook上用户每天共享的图像数目突破4.5亿，每天所需扫描的图像数据已高达230TB。在公共安全领域，城市摄像机监控网络无时不刻产生着海量的监控视频数据。面对数据量如此之快的增长速度，如何利用好这些数据面临两个需要解决的问题，即如何更加有效地利用存储空间与如何在海量的内容中准确并快速地找到需要的信息。相对于如何有效地利用存储空间，如何在海量的内容中准确并快速地找到用户需要的信息在现有的技术条件下更具有难度。在对音频、图片、视频进行检索与查找时，现有的解决方案无法满足准确率与时间复杂度上的要求。基于内容的检索系统(CBIR：Content Based InformationRetrieve)近年来在商业应用与学术研究领域得到了越来越多的关注与投入。相比于传统的文本数据检索采用的关键词索引方式，CBIR需要更加高效的索引机制。

在数据库中进行相似数据的搜索也成为最近邻搜索(ANN：approximated nearestneighbor search)，其有两个关键问题：1、特征维度较高；2、数据量较大。因此，简单的穷尽搜索面临非常高的时间复杂度的问题，将原始数据从存储中加载到内存也成为了现实应用中所必须解决的一个瓶颈。近年来，在实际应用中出现了一些时间复杂度为次线性的快速有效的最近邻搜索方法，例如：KD树、Ball树、Metric树、vantage-point树等。然而，基于树的索引方法本身存在着一个不能忽视的问题，这些方法需要的存储空间太大，在某些时候存储这些索引树的空间甚至超过存储数据本身所需的存储空间。同时，随着数据的维度增加时，会对数据检索时间造成很明显的影响，其检索时间会急剧增加。与基于树的索引将数据空间进行递归的划分不同，哈希类算法(又可以称作二值编码)重复的对整个数据空间进行二类划分，同时对于每一个划分进行一次二值编码。即哈希算法将输入数据映射到一个离散的汉明空间，每一个数据点用一串二值码表示。在大多数情况下哈希算法不使用编码后得到的二值码进行穷尽检索，而是将其组织成哈希表的形式每一个哈希码在表中对应其中一个项目。汉明距离可以通过异或操作进行快速计算，因此使用哈希码对数据库进行穷尽检索，时间复杂度也能满足应用要求。但是如果将编码后得到的二值码组织成表的形式，其实在本质上这是一个倒排索引可以在常量时间内进行查找。

数据独立的二值特征编码学习又称为随机哈希算法，其最早可以追溯到20世纪初90年代末。在当时数据规模不是很大的条件下，不依赖于数据分布的基于概率统计的二值特征编码学习受到广泛的关注。早在1999年，美国麻省理工学院的Indyk等人提出的局部敏感哈希算法，该模型允许用户准确地控制相似度搜索的准确度和搜索时间之间的平衡。局部敏感哈希算法可以有效避免KD树之类的特征索引结构对高维特征空间搜索的低效性。特别是，借鉴数据结构中的哈希索引技术，对编码后的离散空间建立图像倒排，从而使视觉搜索与匹配时间复杂度不受数据集规模的影响。在此之后，与局部敏感哈希相关的研究工作层出不穷，哥伦比亚大学的教授Andoni教授不断地对这一理论进行深入探索挖掘，并在2015年机器学习顶级会议NIPS上发表了关于最优局部敏感哈希的论文，实现了在1ms内检索完整个百万级的特征库。

在大数据的背景下，如何充分挖掘特征数据的内部结构、分布等信息，然后结合机器学习、数据挖掘等理论，将这些信息融入到二值编码学习的过程中，从提升编码的鲁棒性和准确性。目前具有代表性的哈希方法有：半监督哈希、监督哈希、无监督哈希以及深度学习结合的哈希。然而，这些基于学习的哈希方法，从利用监督信息来区分可以分为监督学习哈希方法和无监督学习哈希方法。由于获取监督信息成本较高，在超大规模数据的情况下只有很少部分数据带有监督信息，因此目前主流的研究热点为无监督学习哈希方法与半监督学习方法。虽然与深度学习相结合的哈希在检索性能上表现优异，但是在训练时需要监督信息。

近年来，排序敏感的二值编码学习逐渐成为二值编码学习和大规模视觉搜索的研究焦点。最早开展排序敏感二值编码学习研究的是加拿大多伦多大学的Salakhutdinov教授研究组，受潜在结构支撑向量机的思路启发，提出了汉明距离度量学习的哈希算法。中国科学技术大学与微软亚洲研究院在2013年合作提出了序列保留哈希算法，其核心在于利用序列校准的准则辅助编码函数的学习。在排序敏感哈希算法研究的早期，大多模型都考虑整个排序列表的规律。然而，实际视觉检索系统中，用户更关心排序列表中靠前的K个结果是否正确。因而，加州大学圣迭亚戈分校的宋东进等人提出了Top-Rank监督二值编码学习算法。

发明内容

本发明的目的在于为了解决以往无监督哈希学习算法中广泛存在的问题，提供图像检索中的序列约束哈希算法。

本发明包括以下步骤：

1)对于图像库中的图像，随机选取一部分图像作为训练集，并抽取相应的图像特征，所述图像特征包括但不限于GIST特征；

2)采用所提出的序列约束分析方法，将原图像特征降低维度到与特定的子空间；

3)采用K-means聚类方法，生成训练集对应的聚类中心点，并用序列约束投影对所有聚类中心进行降低维度处理；

4)依据低维度表示的聚类中心特征，根据张量序列图构建训练样本的序列关系矩阵；

5)通过迭代优化学习对应的哈希函数；

6)输出对应的哈希函数，并计算整个图像库的哈希编码；

7)对于查询图像，首先抽取对应的GIST特征，然后根据训练得到的哈希编码函数用同样的方法对图像特征进行哈希编码，最后计算查询图像的哈希编码与图像库中的图像特征编码之间的汉明距离，利用汉明距离大小来衡量查询图像与图像库中待检索图像之间的相似性，返回相似度高的图像。

本发明旨在提出一种序列约束哈希方法，其最终目标在于获取哈希编码的函数(哈希函数)：

H(x)＝{h₁(x),h₂(x),...,h_r(x)}。

哈希函数可以将原实数特征矩阵映射为相对应的二值编码矩阵B＝{b₁,b₂,...,b_n}∈{0,1}^r×n，其中r为哈希编码的长度。所提出的详细方案的形式化描述如下所示：查询图像和待检索图像库的图像GIST特征抽取的形式化描述为：对于训练集中的每幅图像提取d维的GIST特征，得到一个d×n的原始视觉特征矩阵X＝{x₁,x₂,...,x_n}∈R^d×n,其中，n表示训练集中的训练样本个数，x_i为矩阵X第i列表示样本集合中第i个维度为d的GIST特征向量。

在步骤2)中，所述采用所提出的序列约束分析方法，将原图像特征降低维度到与特定的子空间的具体方法可为：提出序列约束投影，不仅可以找到具有保序性的子空间，而且还能够使得上述的排序数量进一步减少，这对于大规模视觉特征的二值编码具有非常大的理论价值；

具体流程如下：在给定前述方法中着重关注的排序关系{(q,l_i,l_j,l_k)|D(q,l_i)＜D(q,l_j)＜D(q,l_k)}的条件下，可以采用如下的数学形式化描述：

其中，I(x)是统计函数，当x>0时，I(x)设为1，否则为零，为方便处理数据，在预处理阶段，算法对特征向量进行归一化处理，以统一特征的统计分布特性，同时保证收敛速度；引入归一化操作后，上述的形式化表达可以重新定义为：

其中，是一个半正定对称矩阵，可以通过奇异值分解将其分解成M＝Z^TΛZ，其中矩阵并将其带入上述新的表达式后，通过矩阵计算以及推导可得：

其中，上述解法中另一个问题是低维度子空间的维度确定。在以往的解决方案中，通常将其看成是一个模型选择问题，即该参数可以反映一个模型的复杂度。为保证在较低复杂度下获得更好的模型参数，d_svd的数值大小可以通过如下的表达式进行自动选择，即：

在步骤3)～步骤4)中，为依据张量序列图快速计算特征之间序列关系，在序列计算前，首先介绍张量序列图的概念。详细序列关系构建的形式化描述如下：

定义X＝{x₁,...,x_n}特征之间的相似度度量标准(通常情况下采用欧氏距离)，基于此构建相似度矩阵S∈R^n×n：

同时定义一个不相似性矩阵DS∈R^n×n，且DS(i,j)＝1/S(i,j)。并且当i与j相等时，令DS(i,j)＝S(i,j)＝0。

因此，相似性矩阵S和不相似性矩阵DS的张量积可以定义为:

其中，为矩阵的克罗内克积操作，也称为张量积。其中，G(ij,kl)＝S(i,j)×DS(k,l)，描述了元素(x_i,x_j)与元素(x_k,x_l)之间的序列关系。当G(ij,kl)＞1时，元素(x_i,x_j)的序列关系应该要高于元素(x_k,x_l)，即x_i与x_j在特征空间中更加相似，反之亦然。

通过上述张量序列图，在给定的包含n个特征的数据集中，通过K-means聚类算法生成m个锚点L＝{l₁,...,l_m}∈R^d×m(即步骤3)。然后，通过序列约束投影得到一个低维度的子空间特征集合随后，在低维子空间中，算法可构建锚点的如下三元关系集合：根据上述张量序列图的构建方式，在该低维子空间中构建序列关系图(即步骤4)：

最后，统计整个锚点图中三元关系编码前后是否一致，该统计可以通过如下公式描述：

其中，I为单位对角矩阵；sgn(·)为二值量化函数，其自变量大于零时输出1，反之输出0；矩阵V为一个正交投影矩阵，将子空间的特征投影变换到和预设定的编码长度等长的超立方体空间。至此，基于序列约束的二值编码模型构建完成。

在步骤5)中，所述通过迭代优化学习对应的哈希函数的具体方法可为：

5.1)在序列图中随机选择一部分的序列关系对，作为训练样本；

5.2)计算目标函数的梯度；

5.3)更新二次投影矩阵；

5.4)置信度判断，满足条件跳出迭代，否则继续循环。

在步骤6)中，对于查询图像特征和待检索的图像库特征，采用如下哈希函数进行相应的哈希编码：

H(x)＝sgn(V^TZ^Tx)。

本发明首先在训练模型过程中，对原始问题进行松弛通常会带来大量精度的损失，即通常模型是在实数空间中进行模型学习与优化。同时，以往的哈希算法都是保证在汉明空间中保持原来数据的点对关系，而忽略检索任务的本质，即排序。为了应对并处理大规模图像搜索问题，并通过二值编码获得更加精准的排序结果，用以克服大规模图像检索存在的各种问题，提高模型的使用范围，可以处理不同特征度量空间的图像搜索问题，本方案提供一种基于序列约束哈希的图像检索方法。

本发明通过利用数据数据之间的序列关系而获得更好的哈希表示，而不是像距离尺度学习一样假设原始数据在空间存在一个统一的语义距离能够很好的表示数据与数据之间语义距离，而数据局部的之间的关系即数据的最近邻更能体现数据语义相似性。

本发明的优点如下：

通过本发明所提出的方案能够获得一个鲁棒、高效的哈希编码机制，在离散空间尽量保留原始数据之间的局部线性结构，同时通过直接在离散空间直接进行求解的办法得到二值编码函数，减少了通过进行约束松弛时获得哈希函数时的精度损失。同时，通过所提出的基于离散线性嵌入算法，提高了哈希函数在能够很好适应数据的流型分布，从而使得本发明能够很好的适用于大规模的图像数据集。

具体实施方式

以下实施例将对本发明作进一步的说明。

H(x)＝{h₁(x),h₂(x),...,h_r(x)}。

本发明实施例包括以下步骤：

1)对于图像库中的图像，随机选取一部分图像作为训练集，并抽取相应的图像特征，所述图像特征包括但不限于GIST特征(可以参考文章Aude Oliva and AntonioTorralba,”Modeling the Shape of the Scene:A Holistic Representation of theSpatial Envelope”,in the International Journal of Computer Vision)；

2)采用所提出的序列约束分析方法，将原图像特征降低维度到与特定的子空间，具体方法为：提出序列约束投影，不仅可以找到具有保序性的子空间，而且还能够使得上述的排序数量进一步减少，这对于大规模视觉特征的二值编码具有非常大的理论价值；

因此，相似性矩阵S和不相似性矩阵DS的张量积可以定义为:

5)通过迭代优化学习对应的哈希函数，具体方法为：

5.2)计算目标函数的梯度；

5.3)更新二次投影矩阵；

5.4)置信度判断，满足条件跳出迭代，否则继续循环。

6)输出对应的哈希函数，并计算整个图像库的哈希编码；

对于查询图像特征和待检索的图像库特征，采用如下哈希函数进行相应的哈希编码：

H(x)＝sgn(V^TZ^Tx)。

本发明在经典的检索数据集VLAD500K和GIST1M上做了对应的相关的验证性实验如表1所示。

表1

表1展示了VLAD500K数据集中所有查询的检索平均精确度和检索列表前100的精确度，对比了现有的大部分经典哈希学习方法，可以看出本发明所提出的方案在低比特率编码条件下，具有良好的检索性能。

以GIST1M数据为例进行说明。GIST1M包含100万个960维度的特征向量。具体实施步骤如下：

a)从整个数据库中，随机抽取一定量的数据样本；

b)依据序列约束哈希算法，学习对应的二值编码函数；

c)利用编码函数对整个特征库的特征进行哈希编码；

d)依据汉明距离，计算数据库中与查询特征距离最小的样本，并作为结果返回。

Claims

1.图像检索中的序列约束哈希算法，其特征在于包括以下步骤：

5)通过迭代优化学习对应的哈希函数；

6)输出对应的哈希函数，并计算整个图像库的哈希编码；

2.如权利要求1所述图像检索中的序列约束哈希算法，其特征在于所述序列约束哈希算法获取哈希编码的函数，即哈希函数：

H(x)＝{h₁(x),h₂(x),...,h_r(x)}

哈希函数将原实数特征矩阵映射为相对应的二值编码矩阵B＝{b₁,b₂,...,b_n}∈{0,1}^r×n，其中，r为哈希编码的长度；查询图像和待检索图像库的图像GIST特征抽取的形式化描述为：对于训练集中的每幅图像提取d维的GIST特征，得到一个d×n的原始视觉特征矩阵X＝{x₁,x₂,...,x_n}∈R^d×n，其中，n表示训练集中的训练样本个数，x_i为矩阵X第i列表示样本集合中第i个维度为d的GIST特征向量。

3.如权利要求1所述图像检索中的序列约束哈希算法，其特征在于在步骤2)中，所述采用所提出的序列约束分析方法，将原图像特征降低维度到与特定的子空间的具体方法为：提出序列约束投影，不仅找到具有保序性的子空间，而且能够使得排序数量进一步减少；

具体流程如下：在给定前述方法中着重关注的排序关系{(q,l_i,^l _j,^l _k)|D(q,l_i)＜D(q,l_j)＜D(q,l_k)}的条件下，采用如下的数学形式化描述：

其中，I(x)是统计函数，当x>0时，I(x)设为1，否则为零，为方便处理数据，在预处理阶段，算法对特征向量进行归一化处理，以统一特征的统计分布特性，同时保证收敛速度；引入归一化操作后，上述的形式化表达重新定义为：

其中，是一个半正定对称矩阵，通过奇异值分解将其分解成M＝Z^TΛZ，其中矩阵并将其带入上述新的表达式后，通过矩阵计算以及推导得：

其中，

4.如权利要求1所述图像检索中的序列约束哈希算法，其特征在于在步骤3)～步骤4)中，为依据张量序列图快速计算特征之间序列关系，在序列计算前，首先介绍张量序列图的概念；详细序列关系构建的形式化描述如下：

定义X＝{x₁,...,x_n}特征之间的相似度度量标准，基于此构建相似度矩阵S∈R^n×n：

同时定义一个不相似性矩阵DS∈R^n×n，且DS(i,j)＝1/S(i,j)，并且当i与j相等时，令DS(i,j)＝S(i,j)＝0；

因此，相似性矩阵S和不相似性矩阵DS的张量积定义为:

其中，为矩阵的克罗内克积操作，也称为张量积；其中，G(ij,kl)＝S(i,j)×DS(k,l)，描述元素(x_i,x_j)与元素(x_k,x_l)之间的序列关系；当G(ij,kl)＞1时，元素(x_i,x_j)的序列关系要高于元素(x_k,x_l)，即x_i与x_j在特征空间中更加相似，反之亦然；

通过上述张量序列图，在给定的包含n个特征的数据集中，通过K-means聚类算法生成m个锚点L＝{l₁,...,l_m}∈R^d×m；然后，通过序列约束投影得到一个低维度的子空间特征集合随后，在低维子空间中，算法构建锚点的如下三元关系集合：根据上述张量序列图的构建方式，在该低维子空间中构建序列关系图：

最后，统计整个锚点图中三元关系编码前后是否一致，该统计通过如下公式描述：

其中，I为单位对角矩阵；sgn(·)为二值量化函数，其自变量大于零时输出1，反之输出0；矩阵V为一个正交投影矩阵，将子空间的特征投影变换到和预设定的编码长度等长的超立方体空间；至此，基于序列约束的二值编码模型构建完成。

5.如权利要求1所述图像检索中的序列约束哈希算法，其特征在于在步骤5)中，所述通过迭代优化学习对应的哈希函数的具体方法为：

5.2)计算目标函数的梯度；

5.3)更新二次投影矩阵；

5.4)置信度判断，满足条件跳出迭代，否则继续循环。

6.如权利要求1所述图像检索中的序列约束哈希算法，其特征在于在步骤6)中，对于查询图像特征和待检索的图像库特征，采用如下哈希函数进行相应的哈希编码：

H(x)＝sgn(V^TZ^Tx)。