CN101859320A

CN101859320A - 一种基于多特征签名的海量图像检索方法

Info

Publication number: CN101859320A
Application number: CN201010176213A
Authority: CN
Inventors: 金城; 朱远毅; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2010-05-13
Filing date: 2010-05-13
Publication date: 2010-10-13
Anticipated expiration: 2030-05-13
Also published as: CN101859320B

Abstract

本发明属于图像处理与信息检索技术领域，具体为一种基于多特征签名的图像检索方法。该方法包含以下步骤：提取图像的多种特征；对特征降维并做比特映射，得到各种特征对应的特征签名；对特征签名建立索引；以汉明距离表示特征签名之间的距离；通过特征签名查找与查询图片内容相近的图片。本发明方法，可以很好地解决图像的特征存储与距离计算，同时具有较高的查询准确率和系统可扩展性。

Description

一种基于多特征签名的海量图像检索方法

技术领域

本发明属于图像处理与信息检索技术领域，具体涉及一种基于多特征签名的图像检索方法。

背景技术

基于内容的图像检索主要难点在于图像的特征存储以及特征匹配[1]。一幅图像在特征提取之后，通常得到一个维数较高的浮点数特征矢量，以这种形式表示的图像特征存储开销较大。而且特征间的距离计算，往往通过浮点矢量之间的欧式距离来表示，计算的时间开销也较大。

本发明提出了一种基于多特征签名的图像检索系统和方法，首先利用主分量分析(Principal Component Analysis，PCA)方法对多种特征的浮点矢量降维，接着借助矢量量化技术[4]实现比特映射，最终生成多种特征的签名。在这种多特征签名的基础之上，实现基于内容的图像检索。利用这种多特征签名进行图像检索的好处在于：首先，以多特征签名形式表示的多种图像特征，只需要很小的存储开销；其次，特征签名之间的距离可用汉明距离[5]表示，相对于计算浮点矢量之间的欧式距离来说，这种方式速度更快；最后，和大多数基于单一特征的图像检索系统[2]不同的是，这种基于多特征签名的方法，具有更高的查询准确率和特征可扩展性。

和文献[6]所采用的矢量量化方法相比，基于多特征签名的图像检索系统采用的方法在特征签名映射过程中进一步放大了PCA降维后的高维分量，弱化了低维分量。这样使得两幅内容相近的图像之间的汉明距离会更近。同时也让特征签名对于特征细节的变化不敏感，使检索结果与查询图像在内容相近的基础上，更具有多样性，且能返回更多的图像结果，优化用户的检索体验。

发明内容

本发明的目的在于提出一种基于多特征签名的图像检索方法，实现图像特征的高效存储以及特征匹配。

本发明提出的多特征签名是一种基于主分量分析和矢量量化技术的图像特征提取方法。本发明的基础是利用主分量分析实现高维浮点矢量图像特征的降维，得到低维浮点矢量特征后，再借助矢量量化技术，将特征映射到由一个或多个整数存储的特征签名中。本发明以汉明距离表示特征签名之间的距离，通过查找系统中与查询图像的多特征签名距离接近的图像，最终实现基于多特征签名的图像检索。具体的步骤如下：

1.图像的多特征提取。系统首先提取图像的多种特征，得到多维的浮点矢量。这些特征可以是任意的图像特征。例如文献[6]所使用的灰度块图像特征：首先将彩色图像转化成灰度图象，再切割成n*n的分块，计算每个灰度块的光照度均值：

f_{k} = \frac{1}{N_{k}} \underset{i, j &Element; B_{k}}{Σ} I (i, j), k = 1,2, . . ., n^{2} - - - (1)

其中B_k表示第k个灰度块，N_k表示第k个灰度块中的像素个数，I(i，j)表示图像在坐标(i，j)处的灰度值。这样整幅图像的灰度块特征可用一个矢量表示：F₁＝(f₁，f₂，...，f_n*n)^T。由于灰度块特征描述的是图像的宏观结构分布、不受缩放影响，是一种理想的不变性特征且计算速度较快，实验中也将选取这一特征。

此外，MPEG7中的边缘直方图特征[7]也可以作为一种图像纹理的描述，提取后可得到80维的浮点矢量。

经过上述多种特征提取后，系统得到m种以浮点矢量表示的图像特征：F₁，F₂，...，F_m。它们对应的矢量维度分别为dim₁，dim₂，...，dim_m。

2.特征降维。为了优化图像多特征的存储，首先对每一种特征F_i降维，在维持基本性质的情况下将F_i从dim_i维降至K维的特征G_i。可通过PCA实现：

G_i＝A_iF_i (2)

这里的A_i表示第i种特征对应的降维投影矩阵。A_i由大规模的图像样本训练得到，同时得到训练样本在该特征上的均值矢量M_i＝(m₁，m₂，...，m_K)^T，其中的元素m_j是训练样本在第j个维度上的均值。另外还可以得到2个矢量：

和

是训练样本在第j个维度上，大于m_j的元素的均值，

是训练样本在第j个维度上，小于m_j的元素的均值。

降维投影矩阵A_i和三个均值矢量在训练完成后固定不变，在后续的特征映射和编码过程中会被利用到。

3.特征映射与编码。由于多特征降维后，仍然是多个浮点矢量，存储开销依然较大。本文借助PCA训练过程中得到的每种特征F_i所对应的3个矢量M_i，和

对降至K维后的浮点特征矢量G_i再进行比特映射和编码，映射至K维的二值矢量H_i。对G_i的高h维分量做2位比特映射：

\underset{\underset{h \leq K}{0 \leq k < h}}{(H_{i, 2 k}, H_{i, 2 k + 1})} = \{\begin{matrix} (1,1) & if G_{i, k} &GreaterEqual; M_{i, k}^{1} \\ (0, 1) & if G_{i, k} < M_{i, k}^{1} and G_{i, k} &GreaterEqual; M_{i, k} \\ (0,0) & if G_{i, k} < M_{i, k} and G_{i, k} &GreaterEqual; M_{i, k}^{2} \\ (1,0) & if G_{i, k} < M_{i, k}^{2} \end{matrix} - - - (3)

浮点矢量G_i的高h维分量，就被映射到了二值矢量H_i的高2h维。H_i中还可存入K-2h位，对G_i的第h维至第h+K-2h维，也就是第h维至第K-h维做1位比特的映射

\underset{\underset{h \leq k < K - h}{i, h + k}}{H} = \{\begin{matrix} 1 & if G_{i, k} &GreaterEqual; M_{i, k} \\ 0 & if G_{i, k} < M_{i, k} \end{matrix} - - - (4)

这样H_i的高2h维来自G_i的高h维，Hi的低K-2h维来自G_i的中间K-2h维，G_i的最低h维，在映射过程中被忽略。上述映射方式的物理意义，就是利用参数h，在PCA降维的基础上，放大具有更大方差的维度，弱化方差较小的维度。经过这样的映射，一幅图像的各种特征，都会被编码为长度为K的0-1比特串，这些串也就是本文所要介绍的特征签名。每幅图像拥有多种签名，利用这些签名可以找到与任意一幅图像相似或内容相近的其他图像。将特征映射到签名上，还会带来这样一些好处：签名可以被方便灵活地存入1个或多个整数中，大大地节省了存储开销；此外，签名之间的汉明距离计算，相对于计算浮点矢量之间的欧式距离，要快很多。

4.对特征签名建立索引。得到所有图像的多特征签名后，对每一类特征签名进行聚类。借助文献[8]提出的AP聚类方法，把所有图像的特征签名i聚成C_i个类，每个类的类中心为center_i，k 1≤k≤C_i。这样第i种特征就可以生成一个从特征签名到图像id的倒排索引。索引的键为特征签名，每个键对应一条图像id的拉链，并且可通过C_i个类中心优化查询。

由于每幅图像在第i个特征的索引中至多存储1个特征签名和1个图像id，假设id用32位整数保存，则整个索引所占内存约为(K+32)*N_Image比特，其中K是特征签名所占比特数，N_Image是图像检索系统中的图像总数。当K取32、图像总数为1亿时，所占内存为64亿比特，约762兆字节，完全可以全部放入1台当前主流服务器的内存中。其他特征的索引，也通过相同方式，存放在同一台服务器或不同服务器的内存中。此外如有必要还可以按照类中心分层放置索引，将索引全部放置在内存中。

5.通过多特征签名查找与查询图片内容相近的图片。基于多特征签名的图像检索系统在检索阶段，先对用户提交的图像进行多特征签名计算，获得查询图像的各种特征签名(sign₁，sign₂，...，sign_m)，方法与特征签名计算阶段相同。接着通过签名sign_i，在索引中找到与其最接近的类中心center_i，k和center_i，k对应的倒排表。查找倒排表中的特征签名，找到与sign_i汉明距离小于阈值T_i的所有特征签名，取出且合并所有的图像id，得到链表idlist_i。待所有特征的链表计算完成后，归并得到以图像id链表形式的查询结果idlist。从存储系统中根据图像id即可找到图像，最终返回给用户。

本发明提出的基于多特征签名的图像检索方法，首先利用主分量分析(PrincipalComponent Analysis，PCA)方法对多种特征的浮点矢量降维，接着借助矢量量化技术[4]实现比特映射，最终生成多种特征的签名。在这种多特征签名的基础之上，实现基于内容的图像检索。利用这种多特征签名进行图像检索的好处在于：首先，以多特征签名形式表示的多种图像特征，只需要很小的存储开销；其次，特征签名之间的距离可用汉明距离[5]表示，相对于计算浮点矢量之间的欧式距离来说，这种方式速度更快；最后，和大多数基于单一特征的图像检索系统[2]不同的是，这种基于多特征签名的方法，具有更高的查询准确率和特征可扩展性。

和文献[6]所采用的矢量量化方法相比，基于多特征签名的图像检索方法在特征签名映射过程中进一步放大了PCA降维后的高维分量，弱化了低维分量。这样使得两幅内容相近的图像之间的汉明距离会更近。同时也让特征签名对于特征细节的变化不敏感，使检索结果与查询图像在内容相近的基础上，更具有多样性，且能返回更多的图像结果，优化用户的检索体验。

附图说明

图1：多特征签名的计算流程图示。

图2：第i个特征对应的索引。

图3：基于多特征签名的图像检索系统检索流程图示。

图4：查询图像示例。图4(a)为风景类查询图像，图4(b)为车辆类查询图像。

图5：通过多特征签名查询的查询结果示例。

图6：单一特征签名和多特征签名的效果对比。图6(a)是单一特征签名的图像检索结果示例，图6(b)是多特征签名的图像检索结果示例。

具体实施方式

下面以在主流图像搜索引擎上自动抓取得到的缩略图像为基础实现的图像检索系统进一步描述本发明。这些缩略图的长度和宽度均大于70像素，且均不超过140像素。图像格式为JPEG，总共占据27.4GB的磁盘空间，平均每张图像占5.13KB。

图5展示的是对图4(a)这个风景类查询图像进行查询后得到的前12个结果。这12张图像与查询图像内容相近，说明了基于多特征签名的图像检索系统能有效地利用多特征签名，在图像库中定位查询结果。

图6所展示的是单一特征签名和多特征签名的查询效果对比。以图4(b)里的车辆图像作为查询图像，分别利用单一特征签名和多特征签名进行检索。可以发现，仅使用单一的灰度块特征签名时准确率较低，而使用多特征签名时准确率较高。如图6(a)和图6(b)所示，单一特征的前8个检索结果中有4幅图像与车辆无关，而多特征的前8个结果中，仅2幅图像不是车辆。从检索结果可以看到，基于多特征签名的图像检索系统使用的多特征签名方法相对单一特征签名，能很好地提高基于内容的图像检索的准确率。

参考资料：

[1]Datta R，Joshi D，Li Jia，et al.Image Retrieval：Ideas，Influences，and Trends of the NewAge[J].ACM Computing Surveys，2008，40(2)：35-94

[2]Rao A，Srihari R K，Zhang Zhongfei.Spatial Color Histograms for Content-Based ImageRetrieval[C]//Proc.of International Conference on Tools with Artificial Intelligence.Chicago，Illinois，USA：IEEE Press，1999：183-186

[3]Zhang Dengsheng，Wong A，Indrawan M，et al.Content-based Image Retrieval Using GaborTexture Features[J].IEEE Trans.on Pattern Analysis and Machine Intelligence，2000，12(7)：629-639

[4]Gersho A，Gray R M.Vector quantization and signal compression[M].Norwell，Massachusetts，USA：Kluwer Academic Publishers，1992

[5]MacKay D.Information Theory，Inference，and Learning Algorithms[M].Cambridge，UK：Cambridge University Press，2003

[6]Wang Bin，Li Zhiwei，Li Mingjing，et al.Large-scale duplicate detection for web imagesearch[C]//Proc.of IEEE International Conference on Multimedia & Expo.Toronto，Ontario，Canada：IEEE Press，2006：353-356

[7]Sikora T.The MPEG-7Visual standard for content description-an overview[J].IEEE Trans.Circuits and Systems for Video Technology，2001，11(6)：696-702

[8]Frey B J，Dueck D.Clustering by Passing Messages Between Data Points[J].Science，2007，315(5814)：972-976。

Claims

1.一种基于多特征签名的图像检索方法，其特征在于，用主分量分析降低图像特征的维数，并利用矢量量化技术在主分量分析的基础上，进一步将图像特征量化到二值矢量表示的特征签名上；将该特征签名存入一个或多个整数中；用汉明距离表示特征之间的距离，通过图像的多种特征检索图像，包括以下步骤：

步骤一、图像的多特征提取首先提取图像的多种特征，得到多维的浮点矢量；经过上述多种特征提取后，得到m种以浮点矢量表示的图像特征：F₁，F₂，...，F_m，它们对应的矢量维度分别为dim₁，dim₂，...，dim_m；

步骤二、特征降维首先对每一种特征F_i降维，在维持基本性质的情况下将F_i从dim_i维降至K维的特征G_i，这通过PCA实现：G_i＝A_iF_i；这里A_i表示第i种特征对应的降维投影矩阵，A_i由大规模的图像样本训练得到，同时得到训练样本在该特征上的均值矢量M_i＝(m₁，m₂，...，m_k)^T，其中的元素m_j是训练样本在第j个维度上的均值；另外还得到2个矢量：

和

是训练样本在第j个维度上，大于m_j的元素的均值，

是训练样本在第j个维度上，小于m_j的元素的均值；

步骤三、特征映射与编码借助PCA训练过程中得到的每种特征F_i所对应的3个矢量：M_i，

和

对降至K维后的浮点特征矢量G_i再进行比特映射和编码，映射至K维的二值矢量H_i；对G_i的高h维分量做2位比特映射，对G_i的第h维至第h+K-2h维，即第h维至第K-h维做1位比特的映射；这样H_i的高2h维来自G_i的高h维，H_i的低K-2h维来自G_i的中间K-2h维，G_i的最低h维，在映射过程中被忽略；

步骤四、对特征签名建立索引得到所有图像的多特征签名后，对每一类特征签名进行聚类：采用AP聚类方法，把所有图像的特征签名i聚成G_i个类，每个类的类中心为center_i，k 1≤k≤C_i，第i种特征生成一个从特征签名到图像id的倒排索引；索引的键为特征签名，每个键对应一条图像id的拉链，并且通过C_i个类中心优化查询；

步骤五、通过多特征签名查找与查询图片内容相近的图片在检索阶段，先对用户提交的图像进行多特征签名计算，获得查询图像的各种特征签名sign₁，sign₂，...，sign_m，方法与特征签名计算阶段相同；接着通过签名sign_i，在索引中找到与其最接近的类中心center_i，k和center_i，k对应的倒排表；查找倒排表中的特征签名，找到与sign_i汉明距离小于阈值T_i的所有特征签名，取出且合并所有的图像id，得到链表idlist_i；待所有特征的链表计算完成后，归并得到以图像id链表形式的查询结果idlist；从存储系统中根据图像id即可找到图像，最终返回给用户。