CN102693311B

CN102693311B - 基于随机化视觉词典组和上下文语义信息的目标检索方法

Info

Publication number: CN102693311B
Application number: CN201210168671.XA
Authority: CN
Inventors: 赵永威; 李弼程; 高毫林; 蔺博宇
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2012-05-28
Filing date: 2012-05-28
Publication date: 2014-07-23
Anticipated expiration: 2032-05-28
Also published as: CN102693311A

Abstract

本发明涉及一种基于随机化视觉词典组和上下文语义信息的目标检索方法。首先采用精确欧氏位置敏感哈希函数对训练图像库的局部特征点进行聚类，生成一组支持动态扩充的随机化视觉词典组；然后选取查询图像并用矩形框界定目标区域，提取查询图像和图像数据库的SIFT特征并对其进行E²LSH映射，实现特征点与视觉单词的匹配；在语言模型的基础上利用查询目标区域及其周围视觉单元的图像显著度，计算查询图像中各视觉单词的检索得分，构造包含目标上下文语义信息的目标模型；最后将图像库的特征向量存为索引文件，并引入K-L散度对目标的语言模型与图像库中任一图像的语言模型进行相似性度量，得到检索结果。

Description

基于随机化视觉词典组和上下文语义信息的目标检索方法

技术领域

本发明涉及一种基于随机化视觉词典组和上下文语义信息的目标检索方法。

背景技术

近年来，随着计算机视觉，特别是图像局部特征（如SIFT）和视觉词典法（BoVW，Bag ofVisual Words）的飞速发展及应用，使得目标检索技术日趋实用化，并在现实生活产品中得到了广泛应用。如Tineye是一种面向网络的近似重复图像检索系统，Google Goggles则允许用户使用手机拍摄图片并检索出与图片中所包含目标的相关信息。BoVW方法是受文本检索领域词集方法启发而产生的，由于BoVW方法性能突出，目前已经成为目标检索领域的主流方法，但是它也存在一些开放性的问题。一是算法的时间效率低及内存消耗大问题。BoVW方法涉及到大量的高维数据近邻查找问题，如在视觉词典生成阶段，传统的做法是采用K-Means算法对特征点聚类而得到的，而K-Means算法的每次迭代都需要将数据点分配到与之最近的聚类中心，以及视觉词汇直方图构建时需找到与图像的局部特征点最近的视觉单词等，其用于近邻查找的时间将随数据规模的增大急剧增加。相关文献表明K-Means算法只适用于生成较小规模的词典，当词典规模超过10⁵时就难以解决。Nister等采用层次化K-Means算法HKM（Hierarchical K-Means）提高了量化和检索效率，在此基础上，Philbin等及Cao等人又采用近似K-means算法AKM(Approximate K-Means)针对大规模目标检索实现了进一步优化。而为了提高检索效率，还常引入倒排文档结构（inverted file），尽管如此，内存消耗依然是BoVW方法面临的主要问题之一，相关文献表明处理110万幅的图像仍要占用4.3GB的内存。此外，K-Means及其改进算法（HKM，AKM等）不支持动态扩充，即它们生成的视觉词典与现有的图像训练数据是相关的，当加入新的图像时，需对新图像训练库的局部特征点重新聚类，生成新的视觉词典。

二是视觉单词的同义性和歧义性问题。基于K-Means以及改进的聚类算法由于没有考虑特征点之间的空间关系，在生成词典时都会导致以下2个问题：①聚类中心的分布不均匀特性，即在数据点密集空间得到的聚类中心偏多，而在数据点稀疏区域得到聚类偏少，由此会导致有多个视觉单词描绘同一图像区域的现象，即视觉词汇的同义性；②偏离聚类中心的数据点会使聚类中心发生偏移，导致视觉词汇的歧义性，即同一个视觉词汇描述的特征点之间存在很大的差异现象。对此，研究人员进行了诸多尝试，如Philbin等人提出了一种软分配（soft-assignment）的视觉词汇分布直方图的构建方法，Gemert等进一步验证了软分配方法对克服视觉单词同义性和歧义性问题的有效性，Wang等人在构建直方图时引入了一种QP分配（quadratic programming assignment）的策略进一步提高了匹配精度，较于传统的硬分配（hard-assignment），它们在一定程度上克服了同义性和歧义性问题，然而，这些方法都是建立在应用K-Means以及其改进的聚类算法产生初始视觉词典基础上的，未能有效地解决BoVW方法存在的效率问题。此外，为了更为准确的表达目标的信息，Hsiao等则利用相关信息反馈过滤噪声。

三是当人工界定的目标区域所包含的信息不能正确或不足以表达用户检索意图时就会造成语义鸿沟而不能得到理想的检索结果。主要表现为：①矩形框只是目标区域的近似表示；因为目标图像具有不规则的形状，而矩形框是一个简单的矩形，所以从中提取的特征会包含一些与查询目标不相关的信息。②在矩形框很小的情况下，所提取的特征则不足以表征目标信息，在检索的时候会出现一些不相关的图像。此外，由于采用聚类算法生成视觉词典时存在量化误差，也会导致原有特征信息的丢失。为解决上述问题，研究人员作了许多尝试，如Jegou等提出了一种汉明切入HE（Hamming Embedding）技术，它利用一个二进制向量标识特征点的大概位置进而补充视觉单词信息量的不足，同时也证明几何验证方法（geometricverification）对提高检索准确度的有效性，但是由于其计算复杂度较高，故要对数据库中所有图像都进行几何验证处理是不现实的，它一般只用作对初始检索结果的重排序，故而在提高查准率的同时也降低了查全率。Philbin等又将查询扩展（Query Expansion）从文本领域引入到目标检索，提高了查全率，它利用初始检索结果中正确匹配的图像信息，经多次迭代构建信息更为精确和丰富的目标模型。查询扩展技术虽然有效，却依赖于一定的初始查全率，并且一般要经多次迭代才能达到较好的效果，因此会极大的增加算法计算复杂度，影响系统实用性。

精确欧氏位置敏感哈希（E²LSH，Exact Euclidean Locality Sensitive Hashing）是位置敏感哈希LSH（Locality Sensitive Hashing）在欧氏空间的一种实现方案，能够实现快速的大规模高维数据近似近邻查找。其基本思想是利用一组基于稳定分布的位置敏感函数对高维数据降维映射，确保原始空间中距离较近的点，经过映射操作后，能够以较大的概率哈希到同一个桶中，而相距较远的点哈希到同一个桶的概率很小。因此，借鉴该思想，可以采用E²LSH代替传统的K-Means及其改进算法对训练图像库的局部特征点进行聚类，生成一组随机化视觉词典，进而有效地避免多个单词描述同一图像区域和同一单词描述的特征点之间有很大差异的现象。同时，由于E²LSH具有一定的随机性，因此，在利用多个E²LSH完成特征与视觉单词的映射时可以实现特征点与多个距离相近的视觉单词之间的匹配，进一步地克服视觉单词同义性和歧义性问题。而考虑到查询目标一般不会在图像中单独出现，因此，可以将目标区域周围的视觉信息看作目标的上下文语义相关信息而用来更好的表达目标内容，如图1所示，为目标上下文语义信息示意图，其中，“荷花”为用户界定的查询目标，其周围“荷叶”和“水面”包含的信息就能用来更好的表征目标内容，尤其是当视觉单词对“荷叶”“水面”概念敏感性更强时效果尤为明显。

视觉词典法（BoVW，Bag of Visual Words）的产生及应用改善了目标检索的性能，但传统的BoVW方法具有时间效率低、内存消耗大以及视觉单词同义性和歧义性的问题，并且当人工界定的目标区域所包含的信息不能正确或不足以表达用户检索意图时也不能得到理想的检索结果。

发明内容

本发明针对现有技术不足，提出一种基于随机化视觉词典组和上下文语义信息的目标检索方法，有效地解决了传统聚类算法及查询扩展技术的多次迭代带来的高运算复杂度，并较好地降低了人工界定的目标区域与用户检索意图之间的语义鸿沟，增强了目标的区分性。

本发明所采用的技术方案：

一种基于随机化视觉词典组和上下文语义信息的目标检索方法，

首先，采用精确欧氏位置敏感哈希函数对训练图像库的局部特征点进行聚类，生成一组支持动态扩充的随机化视觉词典组；

其次，选取查询图像并用矩形框界定目标区域，然后根据Lowe的方法提取查询图像和图像数据库的SIFT特征并对其进行E²LSH映射，实现特征点与视觉单词的匹配；

然后，在语言模型的基础上，利用查询目标区域及其周围视觉单元的图像显著度，计算查询图像中各视觉单词的检索得分，构造包含目标上下文语义信息的目标模型；

最后，将图像库的特征向量存为索引文件，并引入K-L散度对目标的语言模型与图像库中任一图像的语言模型进行相似性度量，得到检索结果。

所述的基于随机化视觉词典组和上下文语义信息的目标检索方法，对于每个哈希函数g_i(i＝1,…,L)，利用其分别对训练图像库的SIFT点进行哈希映射，空间中距离很近的点就会存入哈希表的同一个桶中，以每个桶中心代表一个视觉单词，则每个函数g_i都能生成一个哈希表（即一个视觉词典），那么，L个函数g₁,…,g_L就能够生成一个视觉词典组，其中，单个视觉词典生成的详细过程可描述如下：

（1）训练图像库的SIFT特征提取：采用目标检索常用的数据库Oxford5K作为训练图像库检测出中所有图像的SIFT特征点，得到包含K个点的特征库其中每个点r_i都是一个128维的SIFT特征向量；

（2）E²LSH降维映射：对中的每个SIFT点r，利用g_i函数对其进行降维映射，得到k维的向量g_i(r)；

（3）E²LSH桶哈希：按式(3)和(4)分别计算SIFT点r的主哈希值h₁(g_i(r))和次哈希值h₂(g_i(r))：将主、次哈希值相同的点放入同一个桶中，生成哈希表表示哈希表T_i的第k个桶，N_i为哈希表T_i中包含桶的个数；将每个桶的中心看作一个视觉单词，便得到视觉词典其中

（4）视觉单词过滤：对于每个视觉词典W_i，包含数据点太少或太多的视觉单词所携带的信息往往不大，因此，在信息损失很小的前提下，可以将这些视觉单词滤除掉，为每个视觉词典都保留M个视觉单词，即

所述的基于随机化视觉词典组和上下文语义信息的目标检索方法，为有效地利用目标区域周围的视觉单元信息，构建包含上下文语义信息的目标模型，减少与用户检索意图之间的鸿沟：

在语言模型的基础上引入空间位置信息并利用目标周围的视觉单元估计查询图像中各视觉单词的检索意图得分，将查询图像表示为q＝{q^I,q^b}，其中q^b＝[x_l,y_l,x_r,y_r]分别表示整幅查询图像和由矩形框界定的目标区域，用表示图像库中的任一图像，其中，q_i,d_i分别表示查询图像q和图像d包含的视觉单词，M_q,M_d为各自包含的视觉单词数目，p_i为视觉单词q_i在查询图像中所处位置，x_l,y_l,x_r,y_r表示矩形框的上下左右边界；假设由矩形框界定目标区域的查询图像服从以下分布：

p (q | θ_{Q}) = p (q^{I}, q^{b} | θ_{Q}) &Proportional; Π_{i = 1}^{M_{q}} p (q_{i}, p_{i} | θ_{Q}) - - - (5)

又查询图像中各单词相互独立，故有：

p (q_{i}, p_{i} | θ_{Q}) = p {(q_{i} | θ_{Q})}^{S (p_{i}, q)} - - - (6)

其中θ_Q为查询图像q的语言模型，S(p_i,q)表示在位置p_i处的视觉单词的检索意图得分，对于传统的视觉词典法而言，其值只有1和0，即当视觉单词位于矩形框内时值为1，否则为0，构建上下文语义信息目标模型；

由式（5）和（6）可知，包含上下文语义信息的查询图像语言模型的最大似然估计（MLE）可由下式得出：

p (w_{j} | θ_{Q}) = \frac{Σ_{i = 1}^{M_{q}} S (p_{i}, q) δ (q_{i} = w_{j})}{Σ_{i = 1}^{M_{q}} S (p_{i}, q)} - - - (7)

其中w_j为查询图像中任一视觉单词，而查询图像中各视觉单词的检索意图得分与该视觉单词反应检索意图的条件概率成正比，故可定义如下：

S(p_i,q)∝p(p_i|q) （8）

由贝叶斯准则可知：

p(p_i|q)＝p(p_i|q^I,q^b)∝p(q^I,q^b|p_i) （9）

假设在给出每处视觉单词的检索意图得分时，查询图像和目标区域出现的概率是相互独立的，则有p(p_i|q)∝p(q^b|p_i)p(q^I|pⁱ)，由贝叶斯准则可将其转化为：

p(p_i|q)∝p(p_i|q^b)p(p_i|q^I) (10)

其中，A_i为p_i处的图像显著度得分，γ为图像显著度检测的影响因子，假设p(p_i|q^b)在矩形框的x,y方向是相互独立的，则有：

p(p_i|q^b)＝p(x_i,y_i|x_l,y_l,x_r,y_r) (11)

＝f(x_i;x_l,x_r,δ)f(y_i;y_l,y_r,δ)

其中f为两个sigmoid函数之间的最小值，定义如下：

f (x_{i}; x_{l}, x_{r}, δ) = \min (\frac{1}{1 + \exp (δ (x_{l} - x_{i}))}, \frac{1}{1 + \exp (δ (x_{i} - x_{r}))}) - - - (12)

参数δ表示对上下文语义信息目标模型对矩形框周围视觉单元利用范围的大小，当δ→+∞时，表示查询目标为矩形框内表征的内容，当δ＝0时表示将整幅查询图像作为查询目标；由上述可得p_i处视觉单词的检索意图得分S(p_i,q)如下：

S(p_i,q)＝exp(-γ(A_i-1)²)×f(x_i;x_l,x_r,δ)f(y_i;y_l,y_r,δ) (13)

由此得到目标的检索意图得分示意图，得出包含上下文语义信息的查询目标的语言模型，分数的高低分别表示由该视觉单词表征的图像区域与用户检索意图相关度的大小。

所述的基于随机化视觉词典组和上下文语义信息的目标检索，查询图像q与图像库中任一幅图像d间的相似性可由查询似然p(q|d)度量，则有：

p (q | d) = Π_{i = 1}^{M_{q}} p (q_{i} | d) - - - (14)

将其转化为风险最小化问题，即给定查询图像q，返回图像d的风险函数定义如下：

p(θ_D|d)p(r|θ_Q,θ_D)dθ_Qdθ_D

其中a＝d表示返回图像为d，为数据库中检索结果返回图像的集合，r表示查询图像q与图像d的相似度，θ_D表示d的语言模型，L为损失函数，可由θ_Q,θ_D之间的K-L散度计算，则风险函数R可转化为：

R (d; q) &Proportional; \underset{w_{i}}{Σ} p (w_{i} | \hat{θ_{Q}}) \log \frac{p (w_{i} | \hat{θ_{Q}})}{p (w_{i} | \hat{θ_{D}})} + ξ_{q} - - - (16)

且有分别为θ_Q,θ_D的最大似然估计，当式（16）用作相似性度量函数时，ξ_q因与图像d无关，可被忽略不计，且将对查询似然p(q|d)的计算转化为估计和对它们作最大似然估计：

p_{ml} (q_{i} | \hat{θ_{Q}}) = \frac{c_{i} (q)}{M_{q}}, p_{ml} (d_{i} | \hat{θ_{D}}) = \frac{c_{i} (d)}{M_{d}} - - - (17)

其中c_i(q)，c_i(d)分别表示单词q_i,d_i在图像q与d中出现的频率，

采用Jelinek-Mercer平滑算法对式（17）作平滑处理：

其中为图像集的语言模型，λ为一个与图像无关的平滑参数，λ∈[0,1]；

则由式（7）、（16）和（17）实现包含上下文语义信息的目标模型与图像库中任一图像d的相似性匹配。

本发明的有益积极效果：

1、本发明基于随机化视觉词典组和上下文语义信息的目标检索方法，与传统的K-Means聚类及其改进算法相比，有效地降低了时间和内存开销，并且能在一定程度上克服了视觉单词的同义性和歧义性问题，增强了查询目标的区分性及检索效率。将E²LSH用于视觉词典的构建，生成了一组支持动态扩充的随机化视觉词典组，并利用查询目标及其周围的视觉单元构造了一种上下文语义信息目标模型，相较于人工界定的目标区域，上下文语义信息目标模型对目标内容的描述能更为精确地表达用户的检索意图，增强了目标的区分性，同时也能避免查询扩展技术因多次迭代而带来的额外时间开销。

实验结果表明，与传统方法相比，新方法较好地提高了目标对象的可区分性，在目标检索性能上有显著性提高。

2、本发明基于随机化视觉词典组和上下文语义信息的目标检索方法，在数据规模增大的情况下，依然可以保持较高的时间效率，具有更强的实用性。

附图说明

图1：本发明中目标上下文语义信息示意图；

图2：随机化视觉词典组的生成示意图；

图3：两种聚类算法的聚类效果对比图；

图4：检索意图得分示意图，其中(a)(c)为由矩形框界定的目标，(b)(d)为其对应的由本文方法生成的检索意图得分示意图，白色区域亮度的大小表示了该区域视觉单词的检索意图得分多少；

图5：E²LSH参数的影响；

图6：MAP随参数γ和δ的变化情况（左边为参数γ，右边为δ）；

图7：不同方法的查准率-查全率曲线对比（左边查询目标为Ashmolean_3，右边为Christchurch_5）；

图8：不同查询目标在Oxford5K数据库上检索的AP；

图9：不同查询目标在Oxford5K+Flickr1数据库上检索的AP；

图10：基于本文方法的目标检索结果；

图11：不同算法的时间效率对比。

具体实施方式

实施例一：本实施例基于随机化视觉词典组和上下文语义信息的目标检索方法，首先，针对传统聚类算法的效率低及视觉单词同义性和歧义性问题，采用E²LSH对训练图像库的局部特征点进行聚类，生成一组支持动态扩充的随机化视觉词典组；其次，选取查询图像并用矩形框界定目标区域，然后根据Lowe的方法提取查询图像和图像数据库的SIFT特征并对其进行E²LSH映射，实现特征点与视觉单词的匹配；然后，在语言模型的基础上，利用矩形框区域和图像显著度检测计算查询图像中各视觉单词的检索得分并得到包含目标上下文语义信息的目标模型；最后，针对内存消耗大的问题，将图像库的特征向量存为索引文件，不再直接对数据进行内存操作，并引入K-L散度（Kullback-Leibler divergence）对目标的语言模型与图像库中任一图像的语言模型进行相似性度量，得到检索结果。

与传统的K-Means聚类及其改进算法相比，有效地降低了时间和内存开销，并且能在一定程度上克服了视觉单词的同义性和歧义性问题，增强了查询目标的区分性及检索效率。

实施例二：参见图2、图3、图4，本实施例的基于随机化视觉词典组和上下文语义信息的目标检索方法，采用下述步骤，生成基于E²LSH的随机化视觉词典组：

对于每个哈希函数g_i(i＝1,…,L)，利用其分别对训练图像库的SIFT点进行哈希映射，空间中距离很近的点就会存入哈希表的同一个桶中，以每个桶中心代表一个视觉单词，则每个函数g_i都能生成一个哈希表，即一个视觉词典。那么，L个函数g₁,…,g_L就能够生成一个视觉词典组，流程如图2所示。

其中，单个视觉词典生成的详细过程可描述如下：

（1）训练图像库的SIFT特征提取。本文采用目标检索常用的数据库Oxford5K作为训练图像库检测出中所有图像的SIFT特征点，得到包含K个点的特征库其中每个点r_i都是一个128维的SIFT特征向量；

（2）E²LSH降维映射。对中的每个SIFT点r，利用g_i函数对其进行降维映射，得到k维的向量g_i(r)；

（3）E²LSH桶哈希。按式(3)和(4)分别计算SIFT点r的主哈希值h₁(g_i(r))和次哈希值h₂(g_i(r))。将主、次哈希值相同的点放入同一个桶中，生成哈希表表示哈希表T_i的第k个桶，N_i为哈希表T_i中包含桶的个数。将每个桶的中心看作一个视觉单词，便得到视觉词典其中

w_{k}^{(i)} = b_{k}^{(i)};

（4）视觉单词过滤。对于每个视觉词典W_i，包含数据点太少或太多的视觉单词所携带的信息往往不大，因此，在信息损失很小的前提下，可以将这些视觉单词滤除掉，为每个视觉词典都保留M个视觉单词，即

从图3两种聚类算法的聚类效果对比图可以看出，基于E²LSH的视觉词典构造过程是数据无关的，当有新的目标图像加入时，只需提取该图像的局部特征点，然后重复上述步骤，将这些新特征点哈希到相应的桶中，就能完成视觉词典的动态扩充。为了检验E²LSH对数据点聚类的效果，将它与K-Means聚类算法在MATLAB环境下进行仿真，结果如图3中的（a）和（b）所示。其中，圆形点代表初始数据，星形的点代表各聚类中心，对比（a）和（b）可以看出，K-Means聚类在密集点区域聚类中心多而稀疏点区域聚类中心少，而基于E²LSH聚类得到的各个桶的中心分布更为均匀，为有效地克服视觉单词同义性和歧义性问题提供了条件。

构建上下文语义信息目标模型：

上下文信息作为一种重要的人工辅助信息源在信息检索领域具有十分重要的作用，比如在日常生活中利用一幅图像周围的文字、标签、注解等信息就可以有效地帮助人们了解更多的与图像相关信息。文献表明利用视觉上下文信息能有效地消除计算机对查询目标理解的歧义性，尤其是当目标本身模糊、凌乱及部分被遮挡时效果更为明显。因此，为有效地利用目标区域周围的视觉单元信息，构建包含上下文语义信息的目标模型，减少与用户检索意图之间的鸿沟。本文将在语言模型的基础上引入空间位置信息并利用目标周围的视觉单元估计查询图像中各视觉单词的检索意图得分（分数的高低分别表示由该视觉单词表征的图像区域与用户检索意图相关度的大小），将查询图像表示为q＝{q^I,q^b}，其中q^b＝[x_l,y_l,x_r,y_r]分别表示整幅查询图像和由矩形框界定的目标区域，用表示图像库中的任一图像，其中，q_i,d_i分别表示查询图像q和图像d包含的视觉单词，M_q,M_d为各自包含的视觉单词数目，p_i为视觉单词q_i在查询图像中所处位置，x_l,y_l,x_r,y_r表示矩形框的上下左右边界。

现假设由矩形框界定目标区域的查询图像服从以下分布：

p (q | θ_{Q}) = p (q^{I}, q^{b} | θ_{Q}) &Proportional; Π_{i = 1}^{M_{q}} p (q_{i}, p_{i} | θ_{Q}) - - - (5)

又查询图像中各单词相互独立，故有：

p (q_{i}, p_{i} | θ_{Q}) = p {(q_{i} | θ_{Q})}^{S (p_{i}, q)} - - - (6)

其中θ_Q为查询图像q的语言模型，S(p_i,q)表示在位置p_i处的视觉单词的检索意图得分，对于传统的视觉词典法而言，其值只有1和0，即当视觉单词位于矩形框内时值为1，否则为0。而为构建更为可靠、准确的查询模型，本文联合了矩形框内和其周围的视觉单词信息生成上下文语义信息目标模型。由式（5）和（6）可知，包含上下文语义信息的查询图像语言模型的最大似然估计（MLE）可由下式得出：

p (w_{j} | θ_{Q}) = \frac{Σ_{i = 1}^{M_{q}} S (p_{i}, q) δ (q_{i} = w_{j})}{Σ_{i = 1}^{M_{q}} S (p_{i}, q)} - - - (7)

S(p_i,q)∝p(p_i|q) （8）

由贝叶斯准则可知：

p(p_i|q)＝p(p_i|q^I,q^b)∝p(q^I,q^b|p_i) （9）

本文假设在给出每处视觉单词的检索意图得分时，查询图像和目标区域出现的概率是相互独立的，则有p(p_i|q)∝p(q^b|p_i)p(q^I|p_i)，由贝叶斯准则可将其转化为：

p(p_i|q)∝p(p_i|q^b)p(p_i|q^I) (10)

p(p_i|q^I)∝exp(-γ(A_i-1)²)，其中，A_i为p_i处的图像显著度得分，γ为图像显著度检测的影响因子，为保证效率，本文采用的方法在LUV空间对图像进行显著度检测并计算不同位置的显著度得分。此外，假设p(p_i|q^b)在矩形框的x,y方向是相互独立的，则有：

p(p_i|q^b)＝p(x_i,y_i|x_l,y_l,x_r,y_r) (11)

＝f(x_i;x_l,x_r,δ)f(y_i;y_l,y_r,δ)

其中f为两个sigmoid函数之间的最小值，定义如下：

f (x_{i}; x_{l}, x_{r}, δ) = \min (\frac{1}{1 + \exp (δ (x_{l} - x_{i}))}, \frac{1}{1 + \exp (δ (x_{i} - x_{r}))}) - - - (12)

参数δ表示对上下文语义信息目标模型对矩形框周围视觉单元利用范围的大小，当δ→+∞时，表示查询目标为矩形框内表征的内容，当δ＝0时表示将整幅查询图像作为查询目标。由上述可得p_i处视觉单词的检索意图得分S(p_i,q)如下：

S(p_i,q)＝exp(-γ(A_i-1)²)×f(x_i;x_l,x_r,δ)f(y_i;y_l,y_r,δ) (13)

综上所述，可得到目标的检索意图得分示意图如图4所示，由此就可得出包含上下文语义信息的查询目标的语言模型。图4检索意图得分示意图（其中(a)(c)为由黄色矩形框界定的目标，(b)(d)为其对应的由本文方法生成的检索意图得分示意图，白色区域亮度的大小表示了该区域视觉单词的检索意图得分多少）

实施例三：本实施例与实施例二不同的是，采用下述步骤，进行相似性度量：

查询图像q与图像库中任一幅图像d间的相似性可由查询似然p(q|d)度量，则有：

p (q | d) = Π_{i = 1}^{M_{q}} p (q_{i} | d) - - - (14)

p(θ_D|d)p(r|θ_Q,θ_D)dθ_Qdθ_D

R (d; q) &Proportional; \underset{w_{i}}{Σ} p (w_{i} | \hat{θ_{Q}}) \log \frac{p (w_{i} | \hat{θ_{Q}})}{p (w_{i} | \hat{θ_{D}})} + ξ_{q} - - - (16)

且有分别为θ_Q，θ_D的最大似然估计，当式(16)用作相似性度量函数时，ξ_q因与图像d无关，可被忽略不计，且将对查询似然p(q|d)的计算转化为估计和本文对它们作最大似然估计：

p_{ml} (q_{i} | \hat{θ_{Q}}) = \frac{c_{i} (q)}{M_{q}}, p_{ml} (d_{i} | \hat{θ_{D}}) = \frac{c_{i} (d)}{M_{d}} - - - (17)

其中c_i(q)，c_i(d)分别表示单词q_i，d_i在图像q与d中出现的频率。由式(14)和(17)知，由于数据的稀疏性，利用最大似然估计必然导致零概率问题，即当查询图像中有视觉单词未在图像d中出现时，就会导致两者间的相似度为0，这显然是不行的，因为除了查询图像本身外，图像库中的其它图像几乎不可能包含查询图像中所有的视觉单词，通常采用数据平滑的方法解决零概率问题，使得所有的单词都有一个大于0的概率。由文献知Jelinek-Mercer平滑算法能很好解决这个问题，因此，本文采用Jelinek-Mercer平滑算法对式(17)作平滑处理：

其中为图像集的语言模型，λ为一个与图像无关的平滑参数，λ∈[0，1]。则由式(7)(16)和(17)就能实现包含上下文语义信息的目标模型与图像库中任一图像d的相似性匹配。

本发明将E²LSH用于视觉词典的构建，生成了一组支持动态扩充的随机化视觉词典组，并利用查询目标及其周围的视觉单元构造了一种上下文语义信息目标模型，相较于人工界定的目标区域，上下文语义信息目标模型对目标内容的描述能更为精确地表达用户的检索意图，增强了目标的区分性，同时也能避免查询扩展技术因多次迭代而带来的额外时间开销。

实验结果与分析

实验数据为牛津大学为目标检索及分类提供的Oxford5K数据库，共有5062幅图像。其中，包含55幅标准的查询图像，每个目标选取5幅图像，涵盖了牛津大学的11处标志性建筑，比如Oxford Christ Church和Oxford Radcliffe Camera等。此外，为了验证在大规模数据下的实验性能，本文又引入了Flickr1数据库作为干扰项。数据库的详细信息见表1所示。实验硬件配置为Core 2.6GHz×2，内存2G的服务器。性能评价采用平均查准率AP(AveragePrecision)、平均查准率均值MAP(Mean Average Precision)和查准率-查全率曲线（Precision-Recall curve），相关定义如下：

AP为查准率-查全率曲线所包含的面积，MAP为5幅查询图像的平均AP值。

表1各数据库特征点数量

参数的影响

哈希表个数L以及哈希函数个数k是E²LSH算法中非常关键的两个参数。不难得出，L取值越大，算法的随机性越小，但算法的效率会随之降低，图5（a）反映了在哈希表个数不同情况下各个查询目标检索精度变化情况。而哈希函数个数k对哈希表中的桶数目影响很大，即对视觉词典规模影响很大，实验从Oxford5K数据库中提取约16,334,970个特征点，然后利用E²LSH对其聚类，分析了参数k对哈希表中桶数目的影响，如图5（b）所示。综合考虑到算法的精度和效率，本文取L＝25，k＝10。

在构造上下文语义信息目标模型时有两个较为重要的参数γ和δ。其中γ为图像显著度检测对视觉单词的检索意图得分的影响因子，γ值越大表示视觉单词的检索意图得分受其影响越明显，δ表示对矩形框周围视觉单元利用范围的大小，由式（12）可知，当δ→+∞时，表示查询目标为矩形框内表征的内容，也即只估计矩形框内包含的视觉单词的检索意图得分，当δ＝0时则表示将整幅查询图像作为查询目标。本文以Oxford5K作为实验数据库，分析了参数γ和δ对检索的平均查准率均值的影响，如图6所示。由图6知，当参数γ和δ的值分别为0.005和10时，检索结果MAP值达到最高。由上述分析不难得出，矩形框对目标的界定越准确，最优的δ值就越大，同时受图像显著度检测的影响也就越小，而Oxford5K数据库作为专门研究目标检索的公共数据库，其中的每幅查询图像都已经对目标作了的界定，通常比日常用户检索时所作的界定更为精准，本文取γ=0.005，δ＝10。

实验性能分析

首先，为了验证采用E²LSH聚类生成一组随机化视觉词典组（RVD，Randomized VisualDictionaries）并由E²LSH映射完成特征点与视觉单词间匹配的方法对克服视觉单词同义性和歧义性问题的有效性，本文将其与传统的硬分配（AKM+HA）和常用的软分配(AKM+SA)作比较，结果如图7所示，其中，基于硬分配和软分配方法的视觉词典均由AKM算法生成，词典规模为10⁶。由图7可知，基于随机化视觉词典组的方法相较于硬分配方法和软分配方法具有更高的检索精度，已验证了软分配方法对克服视觉单词同义性和歧义性问题的有效性，因此，较于软分配方法利用E²LSH对特征点聚类能够更为有效地克服视觉单词的同义性和歧义性问题。

其次，实验将本文方法（RVD+CSI，Randomized Visual Dictionaries+ContextualSemantic Information）与经典的基于软分配和查询扩展的方法（AKM+SA+QE），未考虑上下文语义信息的语言模型方法(AKM+LM，AKM+Language Model)以及将随机化视觉词典组与语言模型相结合的方法（RVD+LM）在Oxford5K数据库上对部分目标的检索准确度作了比较，总结了上下文语义信息（CSI，Contextual Semantic Information）对检索结果的影响，得平均查准率均值（MAP）如表2所示。从表2结果可以看出，对不同的查询目标而言，AKM+LM方法的MAP值均低于其它几种方法。由于随机化视觉词典组能有效地克服视觉单词同义性与歧义性问题，因此，RVD+LM方法的MAP值相较于AKM+LM方法而言有所提高，但RVD+LM方法因没有构建信息量丰富、准确目标模型，所以与AKM+SA+QE方法相比略有逊色，由此也说明克服视觉单词同义性与歧义性问题及构建信息量丰富、准确的目标模型都能提高目标检索准确度。本文方法在随机化视觉词典组的基础上又利用目标周围的视觉单元构建包含上下文语义信息的目标模型，因此其MAP值均高于其它几种方法，由此也充分说明上下文语义信息目标模型对提高检索准确度的有效性。

表2平均查询策略对不同查询目标的检索结果影响

图8和图9给出了Oxford5K数据库中11个查询目标分别采用AKM+LM方法，AKM+SA+QE方法，RVD+LM方法及本文方法（RVD+CSI）在Oxford5K数据库及Oxford5K+Flickr1数据库上进行检索的平均查准率值（AP）。

由图8和图9可知，采用本文方法进行检索较之其他3种方法有更好的表现，但因为“Hertford”，“Keble”，“Pitt_rivers”等原有的目标区域就已包含丰富的信息量，使得上下文语义信息的作用不明显。而当在加入干扰项的Oxford5K+Flickr1数据库进行检索时，AKM+LM方法，RVD+LM方法因没有构建信息量更为准确、丰富目标模型，因此其检索性能都有明显的下降，AKM+SA+QE方法及本文方法却下降不明显，但本文方法仍优于AKM+SA+QE方法。由此说明本文方法在大规模数据情况下仍有较高的准确度。

此外，图10给出了本文方法在Oxford5K+Flickr1数据库上的一些目标检索结果样例。其中，上面5幅Magdalen图像可由传统的BoVW方法检索得到，而下面5幅不易检索的图像可由包含上下文语义信息的目标模型检索得到，可见，采用本文方法能够得到更多包含查询目标的图像。

最后，实验还将E²LSH的AKM算法在构建视觉词典及特征点与视觉单词匹配时的时间消耗作了对比。首先，从训练图像库中选取500幅图像，提取约1320000个SIFT特征点，然后分别采用E²LSH和AKM算法进行聚类生成视觉词典，并分别采用E²LSH映射与硬比对完成特征点与视觉单词的匹配，实验结果如图11所示。图11（a）为视觉词典构建时间效率对比图，图11（b）为特征点与视觉单词间的匹配时间效率对比。从图11（a）可以看出，随着视觉词典规模增大，两种方法的时间消耗都以近乎对数的形式增加，但由文献知，AKM（其时间复杂度为O(Ndlogc)，其中，c是聚类中心数目，N为特征点数目，d为特征维数）的时间效率与特征点数的多少成正比，而E²LSH算法（其时间复杂度为O(dlogc)）则几乎不受特征点数量的影响。从图11（b）可以看出，硬比对方法的量化耗时随着视觉词典规模增大而线性增加，而基于E²LSH的方法随着视觉词典规模增大，其量化耗时基本保持不变。综合图11（a）和（b）的对比结果可知，基于E²LSH的目标检索在数据规模增大的情况下，依然可以保持较高的时间效率，具有更强的实用性。

需要指出的是，本文只引入了目标周围的视觉语义信息，当检索环境更为复杂时，就会有一定的局限性，因此，在下一步工作中研究如何综合利用多种上下文信息（如目标周围的文字，注解及特殊标志等）仍十分必要。

Claims

1.一种基于随机化视觉词典组和上下文语义信息的目标检索方法，其特征是：

然后，在视觉语言模型的基础上，利用查询目标区域及其周围视觉单元的图像显著度，计算查询图像中各视觉单词的检索得分，构造包含目标上下文语义信息的目标模型；

2.根据权利要求1所述的基于随机化视觉词典组和上下文语义信息的目标检索方法，其特征是：对于每个哈希函数g_i，其中i＝1,…,L，利用其分别对训练图像库的SIFT点进行哈希映射，空间中距离很近的点就会存入哈希表的同一个桶中，以每个桶中心代表一个视觉单词，则每个函数g_i都能生成一个哈希表，即一个视觉词典，那么，L个函数g₁,…,g_L就能够生成一个视觉词典组，其中，单个视觉词典生成的详细过程可描述如下：

(1)训练图像库的SIFT特征提取：采用目标检索常用的数据库Oxford5K作为训练图像库检测出中所有图像的SIFT特征点，得到包含K个点的特征库其中I_k代表图像库里的一幅图像，k＝1,2,3...T，每个点r_i都是一个128维的SIFT特征向量；

(2)E²LSH降维映射：对中的每个SIFT点r，利用g_i函数对其进行降维映射，得到k维的向量g_i(r)；

(3)E²LSH桶哈希：按

h_{1} (a) = ((Σ_{i = 1}^{k} r_{i}^{'} a_{i}) \mod prime) \mod size

和分别计算SIFT点r的主哈希值h₁(g_i(r))和次哈希值h₂(g_i(r))，其中α为k维向量，且a＝(a₁,a₂,La_k)，r′_i和r″_i是随机整数，size是哈希表的大小，其取值为数据点的总个数，prime是一个大的素数，取值2³²-5；将主、次哈希值相同的点放入同一个桶中，生成哈希表表示哈希表T_i的第k个桶，N_i为哈希表T_i中包含桶的个数；将每个桶的中心看作一个视觉单词，便得到视觉词典

W_{i} = {w_{1}^{(i)}, w_{2}^{(i)}, . . ., w_{k}^{(i)}, . . ., w_{N_{i} - 1}^{(i)}, w_{N_{i}}^{(i)}},

其中

(4)视觉单词过滤：对于每个视觉词典W_i，包含数据点太少或太多的视觉单词所携带的信息往往不大，因此，在信息损失很小的前提下，可以将这些视觉单词滤除掉，为每个视觉词典都保留M个视觉单词，即

W_{i} = {w_{1}^{(i)}, w_{2}^{(i)}, . . ., w_{k}^{(i)}, . . ., w_{M - 1}^{(i)}, w_{M}^{(i)}}, i = 1, . . ., L .