CN105469096B

CN105469096B - 一种基于哈希二值编码的特征袋图像检索方法

Info

Publication number: CN105469096B
Application number: CN201510794428.2A
Authority: CN
Inventors: 杨育彬; 朱瑞; 居振飞; 毛晓蛟; 朱启海
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2015-11-18
Filing date: 2015-11-18
Publication date: 2018-09-25
Anticipated expiration: 2035-11-18
Also published as: CN105469096A

Abstract

本发明公开了一种基于哈希二值编码的特征袋图像检索方法，包含如下步骤：视觉词汇表建立；视觉词汇的tf‑idf(词频‑逆文本频率指数)权值量化；图像的视觉词汇特征量化；建立倒排索引；学习特征二值编码的投影方向；特征的二值编码量化；检索候选图像集合。本发明能够对图像数据库建立索引，实现快速的图像检索，提高了检索效率。此外，通过具有相似性保留能力的二值编码学习方法，并且从空间距离相似性与语义距离相似性学习二值编码作为签名，提高了图像检索的准确率。本发明实现了高效、准确的基于哈希二值编码的特征袋图像检索技术，因此具有较高的使用价值。

Description

一种基于哈希二值编码的特征袋图像检索方法

技术领域

本发明属于图像检索领域，尤其涉及一种基于哈希二值编码的特征袋图像检索方法。

背景技术

随着信息时代数据的疯狂增长，图像数据总量也在超高速的增加着，因此如何在基于哈希二值编码的的图像数据集中进行高效的检索也成为了一个重要的研究方向。而图像检索的方法也经历了从需要人工标注关键词的基于文本的图像检索(TBIR)到基于内容的图像检索(CBIR)的发展。并且为了更加高效地处理基于哈希二值编码的特征袋图像数据集检索问题，引入了特征袋模型检索框架来进行快速的检索。在现实应用中图像并不会这么小，图像所包含的内容也更加的丰富，一个图像文件由许多局部描述符构成。

若直接使用哈希方法对每个描述符进行索引，那么例如局部敏感哈希(LSH)方法需要100-500字节来索引一张图像。而当一个数据集有几百万图像并包含几十亿描述符的时候依靠局部敏感哈希(LSH)方法是难以执行的。基于BoF词袋模型的图像检索，通过聚类的方法将描述符量化为视觉词汇，同时建立以视觉词汇为索引的倒排索引系统。这样的方法不仅能进行高速的图像检索，在空间效率上也更优于敏感哈希(LSH)方法。举例说明，使用20个哈希函数的LSH需要160字节的大小来表示一个描述符，而BoF词袋模型只需要4字节来存储一个视觉词汇。但基于BoF词袋模型的图像检索也存在着问题，在描述符量化为视觉词汇的过程中很大程度上降低了局部特征的判别能力。并且聚类中心即视觉词汇的数量k难以确定。Jegou等人提出的用哈希二值编码的方法为属于同一视觉词汇的描述符提供进一步的划分。但此方法采用了选取随机投影构成哈希函数的方法，并没有解决相似性保留问题。基于哈希二值编码的特征袋图像检索在性能和准确率上有待进一步提高。

发明内容

发明目的：本发明为了解决现有技术中的问题，提出了一种基于哈希二值编码的特征袋图像检索方法，从而有效解决基于哈希二值编码的数据下，图像的快速准确检索问题。

发明内容：本发明公开了一种基于哈希二值编码的特征袋图像检索方法，包含如下步骤：

对训练图像数据集中所有图像进行步骤1～步骤6的处理，对待检索图像执行步骤7；

步骤1，提取训练图像数据集中所有图像的特征，采用K-Means算法聚类得到大小为K的视觉词汇表；

步骤2，计算视觉词汇表中每个视觉词汇tf-idf权值；

步骤3，计算训练图像数据集中所有图像的每个特征相应的视觉词汇；

步骤4，在训练图像数据集上建立一维倒排序索引；

步骤5，分别从空间距离相似性与语义相似性两方面学习得到特征二值编码的投影方向；

步骤6，根据步骤5得到的投影方向，计算得到训练图像数据集中所有图像特征的二值编码；

步骤7，输入待检索图像，计算训练图像数据集中图像的得分s，根据得分s排序检索出与待检索图像最相近的图像。

其中，步骤1包括：

采用词带模型(Bag-of-Words，BoW)完成对图像特征的向量化表达，先进行图像特征提取，对训练图像数据集中的所有图像提取尺度不变特征SIFT(Scale-InvariantFeature Transform)，每张图像提取d条SIFT特征，每条特征128维，将此特征称为局部特征，每一条局部特征构建一条特征向量，对得到的特征向量利用K-Means算法进行聚类，聚类中心为K个，则每一个聚类中心即为一个视觉词汇，所有的聚类中心构成大小为K的视觉词汇表。

步骤2包括：在训练图像数据集中统计每个视觉词汇出现的次数，通过视觉单词的频度赋予每个视觉词汇权值：较少出现的视觉词汇被认为有着更高的判别能力，则赋予较高的权值；而经常出现的视觉词汇则赋予较低的权值。根据步骤1建立的视觉词汇表，为每个视觉词汇计算权值，首先计算tf-idf(词频-逆文本频率指数)的值作为视觉词汇的权值，方法如下：Tf-idf(词频-逆文本频率指数)实际上是：TF*IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)。TF表示视觉词汇在训练集中出现的频率。包含视觉词汇t₁的数量越少，也就是数量n₁越小，IDF越大，则说明视觉词汇t₁具有很好的类别区分能力。某一类图像C中包含视觉词汇t₁的个数为m₁，而其它类包含t₁的总数为k₁，则所有包含t₁的图像数n₁＝m₁+k₁，当m₁大的时候，n₁也大，按照IDF公式得到的IDF的值会小，就说明该视觉词汇t₁类别区分能力不强。如果一个视觉词汇在一个类的图像中频繁出现，则说明该视觉词汇能够很好的代表这个类的图像的特征，这样的视觉词汇应该给它们赋予较高的权重，并选来作为该类图像的特征词以区别与其它类图像。词频(term frequency，TF)指的是某一个给定的视觉词汇在该图像中出现的频率。这个数字是对词数(termcount)的归一化，以防止它偏向长的文件。对训练集中每个视觉词汇的词频(TermFrequency)和IDF逆向文件频率(Inverse Document Frequency)进行统计求和。

步骤3包括：

根据视觉词汇表，采用欧式距离，使用最近邻算法将训练图像数据集中所有图像的局部特征分配给视觉词汇中最相近的视觉词汇。

步骤4包括：

倒排序索引需要根据属性的值来查找记录，索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址，由属性值来确定记录的位置，根据步骤1建立的视觉词汇表，对提取到的特征建立索引系统，索引的每一项对应于SIFT(Scale-Invariant FeatureTransform)特征构成的视觉词汇表中的一个视觉词汇。给定一个训练图像总数为N的训练图像数据集I_i代表训练图像数据集中的第i张训练图像，每张训练图像I_i包含一个由SIFT算法提取到的局部特征集合x_j表示训练图像的第j个局部特征，d是局部特征的数量，将大小为K的视觉词汇表记为表示第j₁个视觉词汇，则一维倒排序索引表示为在R中，每个项包含一列已索引的特征，并存储着由步骤2计算得到的图像ID、TF值以及IDF的值。

步骤5包括：

使用两种方法学习二值编码的投影方向，一种是基于空间距离相似性，另一种是基于语义相似性，具体如下：

基于空间距离相似性的二值编码学习算法步骤为：给定一组局部特征X＝[x₁,x₂,...,x_n]，x_j代表第j个局部特征，待求的二值编码为Z＝[b₁,b₂,...,b_n]，最小化相似特征间的汉明距离，即目标函数为：

Subject to:

b_g∈{-1,1}^g，

其中为相似度矩阵，q₁,q₂为索引下标，表示矩阵的q₁行q₂列位置的元素，采用特征的欧式距离计算相似度矩阵

其中∈定义为相似特征间的欧氏距离，b_g为对特征进行编码所得到的第g位二值编码，约束b_g的总和为0，表示每一位二值编码平衡，即拥有相同的0和1的个数，引入拉普拉斯矩阵L：

将最小化相似特征间的汉明距离的目标函数转化为：

Minimize:trace(Z^TLZ)，

Subject to:b_g∈{-1,1}^g，

其中trace()为矩阵的迹，Z为二值编码b_g所构成的矩阵，

松弛b_g∈{-1,1}^g约束，不再要求编码的总和为0，则最终目标函数为：

Minimize:trace(P₁ ^TXLX^TP₁)，

其中P₁为待学习的投影方向，P₁ ^T为P₁的转置矩阵，X^T为X的转置矩阵，L为对应的拉普拉斯矩阵，则学习到的投影方向P₁为XLX^T不包含特征值0以外的最大t个特征值所对应的特征向量；

计算步骤如下：

(1)计算拉普拉斯矩阵

(2)计算矩阵X^TLX；

(3)计算矩阵X^TLX的最大t个特征值所对应的特征向量P₁。

则P₁即为所要求的投影方向。

基于语义相似性的二值编码学习算法步骤为：

定义优化目标函数J(H)：

其中H为优化参数，H(x_j)表示特征x_j所对应的二值编码，表示特征x_u和x_j来自同一个标签类别，表示特征x_u和x_j属于同一视觉词汇，(x_u,x_j)∈D表示特征x_u和x_j既不来自于同一个标签类别也不属于同一个视觉词汇，参数λ用以平衡给予相同标签类别与相同视觉词汇的相似二值编码间的关系；

通过定义关联矩阵A将目标函数转化为矩阵形式，关联矩阵为：

根据该优化目标函数，给定一组局部特征X＝[x₁,x₂,...,x_n]，特征所属的类别标签集[tag₁,tag₂,...,tag_n]，tag_c为第c个局部特征对应的类别标签，特征所属的视觉词汇集[vw₁,vw₂,...,vw_n]，vw_c为第c个局部特征对应的视觉词汇，首先迭代计算A_uj的值，若tag_u＝tag_j则A_uj＝λ，若vw_i＝vw_j，则A_uj＝1，否则A_uj＝-1；

利用关联矩阵A将目标函数表示为如下形式：

由于目标函数不可微，进行松弛则最终目标函数为：

其中P₂为待学习的投影方向。通过对称矩阵M＝XAX^T进行特征值分解求得目标函数的结果：

其中[λ₁,λ₂,...,λ_t]为最大的t个特征值。P₂为这t个最大的特征值所对应的特征向量，P₂即为所求的投影方向。

步骤6包括：根据步骤1通过聚类算法建立视觉词汇表，得到的聚类中心作为视觉词汇，根据步骤4在训练图像数据集上建立一维倒排索引系统且索引项为视觉词汇，根据步骤5学习到的两种投影方向分别通过线性映射得到所有特征的二值编码，对于训练图像数据集中图像的局部特征x_j，使用步骤5中的两种方法计算得到的投影方向P₁，P₂，使用如下两种方法分别计算局部特征的二值编码

其中sgn()为符号函数，r表示得到的二值编码的长度，则将训练图像数据集中一幅图像的一个局部特征采用步骤3得到的视觉词汇q(x_j)和两种方法得到的二值编码表示出来，采用方法一的表示法为采用方法二的表示法为

步骤7包括：

训练图像数据集包含N个图像，训练图像数据集中图像的局部特征用x_j表示，给定一幅待检索图像Y，对待检索图像Y利用SIFT算法提取局部特征，用y_i3表示，根据视觉词汇表，采用欧式距离，使用最近邻算法将图像Y的局部特征分配给视觉词汇表中最相近的视觉词汇，则计算训练图像数据集中图像的得分s的步骤如下：

将训练图像数据集中所有图像的得分s初始化为0，通过累加的方式计算如下：

其中f()是匹配函数，反应训练图像数据集中每幅图像的局部特征x_j和待检索图像Y的局部特征的相似度，m_i表示训练图像局部特征的数目，表示待检索图像局部特征的数目，f()计算方法如下：

其中h为固定汉明距离的阀值，因此0≤h≤β，β为二值编码的长度，q()表示局部特征对应的视觉词汇，D_h()表示两个二值编码之间的汉明距离。

通过步骤6及上述处理，训练图像和待检索图像的局部特征都可用对应的视觉词汇q()和二值编码b()表示出来，对待检索图像的每一维局部特征与训练图像的每一维局部特征进行比对，当二者的视觉词汇相同且二值编码之间的汉明距离在阀值以内时，则认为该维局部特征相似，将由步骤2计算得到的此视觉词汇的tf-idf权值作为得分。若不符合条件，则此次匹配认为不相似，得分为0，计算的结果累加求和得到该幅训练图像的得分，重复此过程，分别计算完成所有训练图像的得分，按照由高到低的顺序排序，取得分高的作为检索结果。

按照得分由高到低排列作为检索结果输出。

有益效果：本发明能够进行图像的特征提取，建立图像数据库的索引结构，提高检索性能和数据库的扩展性，此外，通过具有相似性保留能力的二值编码学习方法，并且从空间距离相似性与语义距离相似性学习二值编码作为签名，提高了图像检索的准确率。因此本发明提出的基于哈希二值编码的特征袋图像检索方法具有较高的使用价值。

附图说明

图1为本发明流程图。

图2为利用训练集建立视觉词汇表流程图。

图3为建立训练图像数据集中图像直方图向量流程图。

图4为k-means与二值编码示意图。

图5为一维倒排索引结构示意图。

图6为学习二值编码投影方向示意图。

图7为实施例2示意图。

具体实施方式：

如图1所示，本发明公开了一种基于哈希二值编码的特征袋图像检索方法，包含如下步骤：对训练图像数据集中所有图像进行步骤1～步骤6的处理，对待检索图像执行步骤7；

步骤2，计算视觉词汇表中每个视觉词汇tf-idf权值；

步骤3，计算训练图像数据集中所有图像的每个特征并赋予相应的视觉词汇；

步骤4，在训练图像数据集上建立一维倒排序索引；

步骤1建立视觉词汇表的方法如图2所示。首先对原始图像提取SIFT(Scale-Invariant Feature Transform)特征，将提取到的每一个特征构建特征向量，利用K-means算法进行聚类，先随机选择20k个视觉词汇作为聚类中心，对剩余的每个视觉词汇采用FLANN库中的最近邻算法测量其到每个聚类中心的距离，并把它归到最近的聚类中心，重新计算已经得到的各个类的聚类中心，反复迭代以上步骤直到新的聚类中心与原聚类中心相等为止，则此时聚类中心即为选定的视觉词汇，并构成视觉词汇表。

步骤2具体包括如下步骤：

建立视觉词汇表后，对特征向量的每一维需要赋予不同的权值以区别不同特征不同的表达能力，本发明通过计算tf-idf(词频-逆文本频率指数)的值作为视觉词汇的权值，Tf-idf(词频-逆文本频率指数)实际上是：TF*IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)。TF表示视觉词汇在训练集中出现的频率。包含视觉词汇t₁的数量越少，也就是数量n₁越小，IDF越大，则说明视觉词汇t₁具有很好的类别区分能力。某一类图像C中包含视觉词汇t₁的个数为m₁，而其它类包含t₁的总数为k₁，则所有包含t₁的图像数n₁＝m₁+k₁，当m₁大的时候，n₁也大，按照IDF公式得到的IDF的值会小，就说明该视觉词汇t₁类别区分能力不强。如果一个视觉词汇在一个类的图像中频繁出现，则说明该视觉词汇能够很好的代表这个类的图像的特征，这样的视觉词汇应该给它们赋予较高的权重，并选来作为该类图像的特征词以区别与其它类图像。

通过统计训练集中每个视觉词汇的词频(Term Frequency)和IDF逆向文件频率(Inverse Document Frequency)完成每个视觉词汇权值的赋予。

步骤3具体包括如下步骤：

利用训练集得到视觉词汇表，将训练图像数据集中图像表达为特征向量，方法如图3所示，根据最近邻算法将提取的特征指定到最相近的视觉词汇，以此完成特征赋予。

步骤4建立倒排序索引的方法如图4所示，对建立的特征向量建立索引结构，索引的每一项对应于SIFT(Scale-Invariant Feature Transform)特征构成的视觉词汇表中的一个视觉词汇。给定一个训练图像总数为N的训练图像数据集I_i代表训练图像数据集中的第i张训练图像，每张训练图像I_i包含一个由SIFT算法提取到的局部特征集合x_j表示训练图像的第j个局部特征，d是局部特征的数量，将大小为K的视觉词汇表记为表示第j₁个视觉词汇，则一维倒排序索引表示为在R中，每个项包含一列已索引的特征，并存储着由步骤2计算得到的图像ID、TF值以及IDF的值。

步骤5中，在BoF(词袋模型)图像检索方法的基础上增加二值编码作为空间划分，首先需要在训练集上使用K-Means算法进行聚类生成视觉词汇表，并建立相应的倒排索引系统。对于属于同一个视觉词汇的两个局部特征，通过它们的二值编码间汉明距离来反应它们欧氏距离或相似度。从空间距离相似性与语义相似性两个方面分别用不同的方法学习二值编码作为二值签名。学习特征二值编码的投影方向如图6所示，具体包括如下步骤：

Subject to:

b_g∈{-1,1}^g，

则可将最小化相似特征间的汉明距离的目标函数转化为：

Minimize:trace(Z^TLZ)，

Subject to:b_g∈{-1,1}^g，

其中trace()为矩阵的迹，Z为二值编码b_g所构成的矩阵，

Minimize:trace(P₁ ^TXLX^TP₁)，

基于语义相似性的二值编码学习算法步骤为：

定义优化目标函数J(H)：

利用关联矩阵A将目标函数表示为如下形式：

由于目标函数不可微，进行松弛则最终目标函数为：

其中P₂为待学习的投影方向。目标函数的求解可以通过对称矩阵M＝XAX^T进行特征值分解求得结果：

步骤6通过映射得到所有特征的二值编码具体包括以下步骤：

根据步骤1通过聚类算法建立视觉词汇表，得到的聚类中心即为视觉词汇，根据步骤4在待检索的数据集上建立一维倒排索引系统且索引项为视觉词汇，根据步骤5学习到的两种投影方向分别通过线性映射得到所有特征的二值编码，图5为一般k-means聚类和使用二值编码法进行k-means聚类的比较，图5(a)表示一般k-means聚类时为了保证准确度采用较大的k值，k＝40，这样会导致相同特征的噪声会有更大概率被映射到不同的单元里。图5(b)为本发明采用的方法，使用较低的k值，k＝10使得范式晶格较大，在用一个单元中保留相同特征的噪音，再利用二值编码法对局部特征进行签名，在每个单元内进行汉明空间划分。结合了粗量化函数(低k值)和细量化函数(高k值)之间的有点。对于训练图像数据集中图像的局部特征x_j，使用步骤5中的两种方法计算得到的投影方向P₁，P₂，使用如下两种方法分别计算局部特征的二值编码

其中sgn()为符号函数，r表示得到的二值编码的长度，则将训练图像数据集中一幅图像的一个局部特征采用步骤3得到的视觉词汇q(x_j)和两种方法得到的二值编码表示出来，利用方法一的表示法为利用方法二的表示法为

步骤7根据训练图像数据集中图像的得分s排序检索出最相近的图像。具体包括如下步骤：

对训练图像数据集中每幅图像提取局部特征表达成特征向量，并完成二值编码，然后对训练图像数据集中所有图像的得分s初始化为0，对于每一幅训练图像，利用待检索图像的局部特征和训练图像数据集中的每一个特征描述x_j，通过累加的方式计算出每幅图的得分。根据得分由高到低，确定检索结果。

实施例1

本实施例包括以下部分：

步骤1，建立视觉词汇表：

利用k-means方法对图像特征进行聚类，建立视觉词汇表，本模块主要分为两个步骤：图像特征表达和聚类建立视觉词汇表。

图像特征表达用到了词带模型(Bag-of-Words,BoW)。

特征袋模型的名字来源于自然语言处理和信息检索领域的词袋模型(Bag-of-Words,BoW)。词袋模型忽略了文本的语法以及语序，用无序的单词所构成的直方图来表达一个文档。这些单词构成了一个字典，通过统计字典中单词在文档中出现的次数来构建直方图。通常字典中应该去除不包含信息的单词(如“the”)，并且对于多个同义词只使用一项来表达。利用词袋模型表示文档的特征向量是稀疏的，向量中的每一项是字典中单词在该文档中出现的频率。词袋模型之所以称之为“袋”，是因为忽略了单词在文档中的顺序。图像特征表示图像的局部区域，正如同单词是文档的局部特征。将图像类比为文档，图像中的视觉词汇可以定义为一个图像块的局部特征向量。

图像特征表达：利用Flickr60k作为独立的数据集，提取尺度旋转不变特征SIFT(Scale-Invariant Feature Transform)后，将提取到的每一个特征作为特征向量的一维，构建特征向量。

建立视觉词汇表用到了k-means聚类算法。

K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。K个初始类聚类中心点的选取对聚类结果具有较大的影响，因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心，初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象，根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后，一次迭代运算完成，新的聚类中心被计算出来。如果在一次迭代前后，J的值没有发生变化，说明算法已经收敛。

算法过程如下：

(1)从N个视觉词汇随机选取K个视觉词汇作为聚类中心

(2)对剩余的每个视觉词汇测量其到每个聚类中心的距离，并把它归到最近的聚类中心点

(3)重新计算已经得到的各个类的聚类中心

(4)迭代(2)～(3)步直至新的聚类中心与原聚类中心相等或小于指定阈值，算法结束。

具体如下：

输入：k,data[n]；

(1)选择k个初始中心点，例如c[0]＝data[0],…c[k-1]＝data[k-1]；

(2)对于data[0]….data[n']，分别与c[0]…c[k-1]比较，假定与c[z]差值最少，就标记为z；

(3)对于所有标记为z点，重新计算c[z]＝{所有标记为z的data[z']之和}/标记为z的个数；

(4)重复(2)(3)，直到所有c[z]值的变化小于给定阈值。

聚类建立视觉词汇表：Flickr60k数据集作为独立的数据集用以训练视觉词汇表，通过Approximate K-Means算法聚类生成视觉词汇表。聚类中心即视觉词汇的数量选定为了20k。描述符量化的过程(即找到距离最近的聚类中心)采用FLANN库中的近邻搜索算法，搜索结束后，完成视觉词汇表的建立。

步骤2，计算视觉词汇的权值

建立视觉词汇表后，对特征向量的每一维需要赋予不同的权值以区别不同特征不同的表达能力，本发明通过计算tf-idf(词频-逆文本频率指数)的值作为视觉词汇的权值，Tf-idf(词频-逆文本频率指数)实际上是：TF*IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)。TF表示视觉词汇在训练集中出现的频率。包含视觉词汇t₁的数量越少，也就是数量n₁越小，IDF越大，则说明视觉词汇t₁具有很好的类别区分能力。某一类图像C中包含视觉词汇t₁的个数为m₁，而其它类包含t₁的总数为k₁，则所有包含t₁的图像数n₁＝m₁+k₁，当m₁大的时候，n₁也大，按照IDF公式得到的IDF的值会小，就说明该视觉词汇t₁类别区分能力不强。如果一个视觉词汇在一个类的图像中频繁出现，则说明该视觉词汇能够很好的代表这个类的图像的特征，这样的视觉词汇应该给它们赋予较高的权重，并选来作为该类图像的特征词以区别与其它类图像。词频(term frequency，TF)指的是某一个给定的视觉词汇在该图像中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。

步骤3，将训练图像数据集中图像的每个特征赋予相应的视觉词汇

利用训练集得到视觉词汇表，采用欧式距离作为度量，根据最近邻算法将提取的特征指定到最相近的视觉词汇，以此完成特征赋予。

步骤4，建立倒排索引

根据步骤1提取的特征建立索引，索引的每一项对应于尺度不变特征SIFT(Scale-Invariant Feature Transform)构成的视觉词汇表中的一个视觉词汇。给定一个训练图像总数为N的训练图像数据集I_i代表训练图像数据集中的第i张训练图像，每张训练图像I_i包含一个由SIFT算法提取到的局部特征集合x_j表示图像的第j个局部特征，d是局部特征的数量，将大小为K的视觉词汇表记为表示第j₁个视觉词汇，则一维倒排索引表示为在R中，每个项包含一列已索引的特征，并存储着由步骤2计算得到的图像ID、TF值以及IDF的值。

对数据库中所有的图像建立倒排索引，按照上述过程进行量化，得到表示图像的视觉词汇，将数据库中所有图像量化，分别索引到各自的视觉词汇，索引结构即为视觉词汇的集合，通过给定的视觉词汇，可以检索到与其对应的图像集合。

步骤5，学习特征二值编码的投影方向

本发明在基于二值编码的特征袋图像检索上从空间距离相似性与语义似性两个方面学习具有相似性保留能力的二值编码。具体地：

首先考虑空间距离相似性，给定一组局部特征X＝[x₁,x₂,...,x_n]，x_j为第j个局部特征，待求的二值编码为Z＝[b₁,b₂,...,b_n]，最小化相似特征间的汉明距离，即目标函数为：

Subject to:

b_g∈{-1,1}^g，

则可将最小化相似特征间的汉明距离的目标函数转化为：

Minimize:trace(Z^TLZ)，

Subject to:b_g∈{-1,1}^g，

其中trace()为矩阵的迹，Z为二值编码b_g所构成的矩阵，

Minimize:trace(P₁ ^TXLX^TP₁)，

具体计算步骤如下：

(1)迭代计算局部特征之间的相似度并求和

(2)计算拉普拉斯矩阵

(3)计算矩阵X^TLX；

(4)计算矩阵X^TLX最大t个特征值所对应的特征向量P₁；

P₁即为学习到的投影方向。

对于语义相似性，考虑到有些数据集中数据是有类标签的，因此每个局部特征有了两个属性：一是距离最近的聚类中心，即该特征所属于的视觉词汇；二是该特征所属于的标签类别。本发明提出的基于语义相似性的二值编码学习方法将利用局部特征的标签类别进一步的提升二值编码作为签名的效果。则定义如下目标函数：

其中H为优化参数，H(x_j)表示特征x_j所对应的二值编码，表示特征x_u和x_j来自同一个标签类别，表示特征x_u和x_j属于同一视觉词汇，(x_u,x_j)∈D表示特征x_u和x_j既不来自于同一个标签类别也不属于同一个视觉词汇.该目标函数表示在赋予相同视觉词汇的局部特征相同二值编码的基础上，更赋予来自相同标签类别的特征相同的二值编码，而集合中的特征则赋予相异的编码，以此来提高二值编码的相似性保留能力。其中λ用以平衡给予相同标签类别与相同视觉词汇的相似二值编码间的关系。那么最大化该目标函数的哈希函数则为所求的哈希函数。与先前的解法类似，同样通过定义关联矩阵A来将目标函数转化为矩阵形式:

则目标函数可表示为如下形式：

由于目标函数不可微，进行松弛则最终目标函数为：

目标函数的求解可以通过对矩阵M＝XAX^T进行特征值分解求得结果即：

其中[λ₁,λ₂,...,λ_t]为最大的t个特征值。P₂即为所求的投影方向。

具体步骤如下：

局部特征集X＝[x₁,x₂,...,x_n]，特征所属的类别标签集[tag₁,tag₂,...,tag_n]，特征所属的视觉词汇集[vw₁,vw₂,...,vw_n]，

(1)迭代计算A_uj的值，若tag_u＝tag_j则A_uj＝λ，若vw_u＝vw_j，A_uj＝1否则A_uj＝-1；

(2)计算矩阵X^TLX；

(3)计算矩阵X^TLX最大t个特征值所对应的特征向量P₂。

P₂即为所求的投影方向。

步骤6，通过映射得到所有特征的二值编码。

根据步骤1通过聚类算法建立视觉词汇表，得到的聚类中心即为视觉词汇，根据步骤4在待检索的数据集上建立一维倒排索引系统且索引项为视觉词汇，根据步骤5学习到的投影方向通过线性映射得到所有特征的二值编码，与步骤5相对应分为基于空间距离相似性的二值编码和基于语义相似性的二值编码，对于训练图像数据集中图像的局部特征，具体处理如下：

(1)在视觉词汇表中找到x_j最近的视觉词汇q(x_j)并赋予x_j；

(2)通过投影方向P₁,P₂得到x_j的二值：

其中sgn()为符号函数，r表示得到的二值编码的长度，则训练图像数据集中一幅图像的一个局部特征可以由步骤3得到的视觉词汇q(x_j)和两种方法得到的二值编码表示出来，利用方法一的表示法为利用方法二的表示法为

基于空间距离相似性的二值编码：相似度矩阵W_ij采用特征的欧氏距离来度量：

∈定义为相似特征间的欧氏距离，∈的值可根据具体的近邻百分比来确定，可取值的效果和范围如下：

近邻百分比(％)	0.1	0.2	0.5	1	2	5	10
								∈²	0.4367	0.4634	0.4997	0.5292	0.5619	0.6136	0.6644

本发明中的值∈²选定为近邻百分比为5％时的0.6136，编码长度选择为128位。

基于语义相似性的二值编码：本发明在基于语义性的二值编码中优化目标函数J(H)如下：

H(x_j)表示特征x_j所对应的二值编码，表示特征x_u和x_j来自同一个标签类别，表示特征x_u和x_j属于同一视觉词汇，(x_u,x_j)∈D表示特征x_u和x_j既不来自于同一个标签类别也不属于同一个视觉词汇，参数λ固定为40，编码长度为128位。

步骤7，按照得分排序，检索数据集。

训练图像数据集包含N个图像，训练图像数据集中图像的局部特征用x_j表示，给定一幅待检索图像Y，对待检索图像Y利用SIFT算法提取局部特征，用表示，根据视觉词汇表，采用欧式距离，使用最近邻算法将图像Y的局部特征分配给视觉词汇中最相近的视觉词汇，则计算训练图像数据集中图像的得分s的步骤如下：

按照得分由高到低排列作为检索结果输出。

实施例2

图7为实施例2检索示意图，图中图像来源为公用的INRIA Holidays数据库。图中1是待检索图像，2表示提取的特征，3表示根据视觉词汇表，将特征表达为向量，4是学习二值编码的投影方向，5是根据学习到的投影方向，将特征映射为128位的二值编码，6为根据检索得分，得到检索结果，得到的检索结果与待检索图像属于同一类别则检索成功。

本发明提供了一种基于哈希二值编码的特征袋图像检索方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于哈希二值编码的特征袋图像检索方法，其特征在于，包含以下步骤：

步骤2，计算视觉词汇表中每个视觉词汇tf-idf权值；

步骤4，在训练图像数据集上建立一维倒排序索引；

2.根据权利要求1所述的一种基于哈希二值编码的特征袋图像检索方法，其特征在于，步骤1包括：对训练图像数据集中的所有图像提取SIFT特征，每张图像提取d条SIFT特征，每条特征128维，将此特征称为局部特征，每一条局部特征构建一条特征向量，对得到的特征向量采用K-Means算法进行聚类，聚类中心为K个，则每一个聚类中心即为一个视觉词汇，所有的聚类中心构成大小为K的视觉词汇表。

3.根据权利要求2所述的一种基于哈希二值编码的特征袋图像检索方法，其特征在于，步骤2中，在训练图像数据集中统计每个视觉词汇出现的次数，对出现次数较少的视觉词汇设置较大的tf-id权值；对出现次数较多的视觉词汇设置较小的tf-idf权值。

4.根据权利要求3所述的一种基于哈希二值编码的特征袋图像检索方法，其特征在于，步骤3包括：根据视觉词汇表，采用欧式距离，使用最近邻算法将训练图像数据集中所有图像的局部特征分配给视觉词汇中最相近的视觉词汇。

5.根据权利要求4所述的一种基于哈希二值编码的特征袋图像检索方法，其特征在于，步骤4包括：给定一个训练图像总数为N的训练图像数据集I_i代表训练图像数据集中的第i张训练图像，根据步骤1处理得到训练图像的局部特征，处理完成后，每张训练图像I_i包含一个由SIFT算法提取到的局部特征集合x_j表示训练图像的第j个局部特征，d为局部特征的数量，将大小为K的视觉词汇表记为v_j1表示第j₁个视觉词汇，则一维倒排序索引表示为在R中，每个项包含一列已索引的特征，并存储着由步骤2计算得到的图像ID、TF值以及IDF的值。

6.根据权利要求5所述的一种基于哈希二值编码的特征袋图像检索方法，其特征在于，步骤5包括：

Subject to:

b_g∈{-1,1}^g，

其中ε定义为相似特征间的欧氏距离，b_g为对特征进行编码所得到的第g位二值编码，约束b_g的总和为0，表示每一位二值编码平衡，即拥有相同的0和1的个数，引入拉普拉斯矩阵L：

将最小化相似特征间的汉明距离的目标函数转化为：

Minimize:trace(Z^TLZ)，

Subject to:b_g∈{-1,1}^g，

其中trace()为矩阵的迹，Z为二值编码b_g所构成的矩阵，

其中P₁为待学习的投影方向，为P₁的转置矩阵，X^T为X的转置矩阵，L为对应的拉普拉斯矩阵，则学习到的投影方向P₁为XLX^T不包含特征值0以外的最大t个特征值所对应的特征向量；

基于语义相似性的二值编码学习算法步骤为：

定义优化目标函数J(H)：

利用关联矩阵A将目标函数表示为如下形式：

由于目标函数不可微，进行松弛则最终目标函数为：

其中P₂为待学习的投影方向，通过对称矩阵M＝XAX^T进行特征值分解求得目标函数的结果：

其中[λ₁,λ₂,...,λ_t]为最大的t个特征值，P₂为这t个最大的特征值所对应的特征向量，P₂即为所求的投影方向。

7.根据权利要求6所述的一种基于哈希二值编码的特征袋图像检索方法，其特征在于，步骤6包括：对于由步骤1得到的训练图像的局部特征x_j，使用步骤5中的两种方法计算得到的投影方向P₁，P₂，使用如下两种方法分别计算局部特征的二值编码

8.根据权利要求7所述的一种基于哈希二值编码的特征袋图像检索方法，其特征在于，步骤7包括：

给定一幅待检索图像Y，对待检索图像Y利用SIFT算法提取局部特征，用表示，根据视觉词汇表，采用欧式距离，使用最近邻算法将图像Y的局部特征分配给视觉词汇表中最相近的视觉词汇，则计算训练图像数据集中图像的得分s的步骤如下：

其中h为固定汉明距离的阀值，因此0≤h≤β，β为二值编码的长度，q()表示局部特征对应的视觉词汇，D_h()表示两个二值编码之间的汉明距离；

计算完成每幅训练图像的得分后，按照得分由高到低输出检索结果。