CN104216949A

CN104216949A - 一种融合空间信息的图像特征聚合表示方法及系统

Info

Publication number: CN104216949A
Application number: CN201410397368.6A
Authority: CN
Inventors: 顾晓光; 周仁浩; 张勇东
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2014-08-13
Filing date: 2014-08-13
Publication date: 2014-12-17

Abstract

本发明公开了一种融合空间信息的图像特征聚合表示方法及系统，该方法包括：对每幅图像提取局部特征，并对所述局部特征的集合进行聚类得到视觉单词；将每幅图像在空间上划分为多层，使每一层被划分为若干个子区域，聚合每一层属于同一子区域的所述局部特征与对应的所述视觉单词的残差信息从而生成局部聚合描述子特征向量，然后对该特征向量做归一化处理；计算两幅图像的每一层的所述局部聚合描述子特征向量集的内积乘以对应的所述权重后进行累加来计算两幅图像的相似度。由此，降低误匹配，进一步提高图像检索精度。

Description

一种融合空间信息的图像特征聚合表示方法及系统

技术领域

本发明属于多媒体检索领域，特别涉及一种融合空间信息的图像特征聚合表示方法及系统。

背景技术

随着互联网和移动互联网的飞速发展，人们面临的问题不再是缺乏多媒体信息，而是如何找到自己真正所需要的信息。传统的图像检索是基于文本的图像检索，其典型框架是首先对图像用文本进行注解，然后用基于文本的数据库管理系统进行图像的检索，检索操作是基于该图像的文本描述进行精确匹配或概率匹配。然而，文本注解工作基本上都是人工进行的，而人工标注往往具有主观性、不完整性和不准确性，于是基于内容的图像检索技术应运而生，其主要思路是：从图像中分析提取底层视觉特征，利用这些特征来描述每一幅图像，并以此衡量图像之间的相似程度以实现基于内容的检索。

现有的图像特征主要分为局部特征和全局特征两大类。局部特征因其局部性而对遮挡、重叠等情况具备良好的鲁棒性，但计算复杂度和空间复杂度都较高；全局特征提取速度快，存储占用少，但对插入logo,内容裁剪等变换鲁棒性不足。所以局部特征和全局特征都有各自的优点，从而近些年，结合全局特征和局部特征的方法引起了广泛研究，如：BoW(Bag-of-Words)，VLAD(Vectorof Locally Aggregated Descriptors)和Fisher Vector，这类方法都是通过聚合一部分局部特征的统计信息来生成最终的全局特征。针对每幅图片，BoW首先提取局部特征(如SIFT)，然后把这些局部特征聚类到视觉单词，并统计属于每个视觉单词的特征个数，从而形成全局的特征向量。但BoW只统计了每个视觉单词的出现次数，所以在区分性上存在局限性。为了进一步提高检索精度，Jegou等人提出了VLAD(局部聚合描述子)，也是一种图像特征聚合表示方法。与BoW不同的是，该算法并不统计视觉单词的词频信息，而是通过聚合局部特征与局部特征对应的视觉单词的残差信息来形成最终的全局特征，所以VLAD更具区分性，对裁剪、插入logo有更强的鲁棒性。

但是VLAD没有考虑局部特征的其他信息，如：主方向，空间信息等。由于VLAD是全局特征，而空间信息是具体到某个局部特征的，所以将局部特征的空间信息融入到最终生成的全局特征中是比较困难的。

发明内容

为了解决上述问题，本发明的目的在于，提供一种融合空间信息的图像特征聚合表示方法及系统，其能够克服上述现有技术没有融入局部特征空间信息的问题，降低误匹配，进一步提高图像检索精度。

本发明提出一种融合空间信息的图像特征聚合表示方法，该方法包括：

局部特征提取步骤，对于图像库中的每幅图像分别提取其局部特征，并对所述局部特征的集合进行聚类，将聚类中心作为视觉单词；

特征表示步骤，将每幅图像在空间上划分为多层，使每一层被划分为若干个子区域，并通过将每一层属于同一个子区域的所述局部特征量化为对应的所述视觉单词并聚合所述局部特征与对应的所述视觉单词的残差信息的方式生成局部聚合描述子特征向量；然后对该局部聚合描述子特征向量进行归一化处理；

图像匹配步骤，为所述图像的每一层赋予权重，通过将两幅图像的每一层的所述局部聚合描述子特征向量集的内积乘以对应的所述权重后进行累加来计算两幅图像的相似度。

本发明所提出的融合空间信息的图像特征聚合表示方法，其中，在所述特征表示步骤中，对所述图像进行区域划分的方法为：

使第l层沿图像的纵向和横向等间隔划分为2^l×2^l个子区域。

本发明所提出的融合空间信息的图像特征聚合表示方法，其中，在所述特征表示步骤中，所述生成局部聚合描述子特征向量的步骤具体为：

局部特征量化步骤，将子区域内的每个局部特征量化到对应的视觉单词μ_i，

其中||.||₂表示L₂范数，q(x)为量化函数，x表示局部特征，C代表所述视觉单词的集合，表示d维的实空间；

残差信息统计步骤，统计局部特征与其对应视觉单词的残差信息，

其中xinc表示局部特征x的位置在子区域c中，x：q(x)＝μ_i表示局部特征x被量化到第i个视觉单词μ_i，i表示视觉单词的序号。

本发明所提出的融合空间信息的图像特征聚合表示方法，其中，在所述特征表示步骤中，对该局部聚合描述子特征向量进行归一化处理的具体过程包括：

L₂范数计算步骤，计算第0层特征向量V⁰的L₂范数||V⁰||₂，

特征向量归一化步骤，对每个子区域的特征向量进行归一化，

V_{c}^{l} : = \frac{V_{c}^{l}}{{| | V^{0} | |}_{2}} .

本发明所提出的融合空间信息的图像特征聚合表示方法，其中，在所述图像匹配步骤中，计算两幅图像的相似度的方法具体可形式化为：

S (V (X), V (Y)) = \underset{l &Element; L}{Σ} ω_{l} < V^{l} (X), V^{l} (Y) >,

其中，X和Y代表两幅不同的图像，L表示空间金字塔的总层数，V^l(X)和V^l(Y)是由第l层的每个子区域的特征向量组合而构成，ω_l表示第l层的权重，<.，.>表示计算内积；

该相似度S的计算方法进一步为：

其中，表示<V^l(X)，V^l(Y)>。

本发明还涉及一种融合空间信息的图像特征聚合表示系统，该系统包括：

局部特征提取模块，用于对于图像库中的每幅图像分别提取其局部特征，并对所述局部特征的集合进行聚类，将聚类中心作为视觉单词；

特征表示模块，用于将每幅图像在空间上划分为多层，使每一层被划分为若干个子区域，并通过将每一层属于同一个子区域的所述局部特征量化为对应的所述视觉单词并聚合所述局部特征与对应的所述视觉单词的残差信息的方式生成局部聚合描述子特征向量；然后对该局部聚合描述子特征向量进行归一化处理；

图像匹配模块，用于为所述图像的每一层赋予权重，通过将两幅图像的每一层的所述局部聚合描述子特征向量集的内积乘以对应的所述权重后进行累加来计算两幅图像的相似度。

本发明所提出的融合空间信息的图像特征聚合表示系统，其中，在所述特征表示模块中，对所述图像进行区域划分的方法为：

使第l层沿图像的纵向和横向等间隔划分为2^l×2^l个子区域。

本发明所提出的融合空间信息的图像特征聚合表示系统，其中，在所述特征表示模块中，通过以下模块生成所述局部聚合描述子特征向量：

局部特征量化模块，用于将子区域内的每个局部特征量化到对应的视觉单词μ_i，

其中||.||₂表示L₂范数，q(x)为量化函数，x表示局部特征，C代表所述视觉单词的集合，表示d维的实空间。

残差信息统计模块，用于统计局部特征与其对应视觉单词的残差信息，

本发明所提出的融合空间信息的图像特征聚合表示系统，其中，在所述特征表示模块中，通过以下模块对该局部聚合描述子特征向量进行归一化处理：

L₂范数计算模块，用于计算第0层特征向量V⁰的L₂范数||V⁰||₂，

特征向量归一化模块，用于对每个子区域的特征向量进行归一化，

V_{c}^{l} : = \frac{V_{c}^{l}}{{| | V^{0} | |}_{2}} .

本发明所提出的融合空间信息的图像特征聚合表示系统，其中，在所述图像匹配模块中，计算两幅图像的相似度的方法具体可形式化为：

S (V (X), V (Y)) = \underset{l &Element; L}{Σ} ω_{l} < V^{l} (X), V^{l} (Y) >,

该相似度S的计算方法进一步为：

其中，表示<V^l(X)，V^l(Y)>。

本发明的积极技术效果在于：

(1)通过在VLAD中融入局部特征的空间信息，能够提高图像检索精度；

(2)通过采用空间金字塔方法融入局部特征的空间信息，能够成功将局部特征的空间信息融入到VLAD特征中；

(3)通过在VLAD中融入局部特征的空间信息而不影响VLAD的原始框架，能够在图像描述时仍能使用任意一种局部特征，聚类方法等；

(4)通过使用全图的VLAD特征的2范数对所有子区域的VLAD特征进行归一化处理，能够增加全图的VLAD特征权重。

附图说明

图1是本发明的融合空间信息的图像特征聚合表示方法的流程图。

具体实施方式

为了使发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明的双语无监督句法分析方法及系统进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明的双语无监督句法分析方法主要分为三个步骤，即局部特征提取步骤、特征表示步骤和图像匹配步骤，下面对各个步骤进行详细说明。

(一)局部特征提取步骤

在本发明的局部特征提取步骤中，首先对图像库中的每幅图像，分别提取局部特征，例如：d＝128维的SIFT特征然后使用聚类算法，如K-Means算法，在局部特征集合上训练出与该局部特征相对应的k个视觉中心C＝{μ₁，...，μ_k}。

(二)特征表示步骤

对于本发明的特征表示步骤，该步骤包括空间金字塔聚合(Spatial PyramidPooling)和归一化处理两部分。下面分别对这两部分进行详细说明。

(1)空间金字塔聚合

(1.1)将图像逐层细分为多个子区域，每次细分形成空间金字塔的一层。第l层是沿图像的纵向和横向等间隔划分为2^l×2^l个子区域。则第0层为整幅图像，第1层由图像的4个子区域构成，依此类推；

(1.2)将每一层属于同一个子区域的局部特征聚合生成单个VLAD特征向量其中c代表某个子区域。具体过程为：

(a)局部特征量化步骤，将子区域内的每个局部特征量化到对应的视觉单词μ_i

其中||.||₂表示L₂范数，q(x)为量化函数，x表示局部特征，C代表所述视觉单词的集合，表示d维的实空间。此外，VLAD和BoW不同的是，其所使用的视觉词典所包含的单词个数一般较小，k一般等于64或256；

(b)残差信息统计步骤，统计局部特征与其对应视觉单词的残差信息

其中xinc表示局部特征x的位置在子区域c中，所以此聚合方法是由量化函数q(x)和x的位置共同决定的。

通过上述特征表示步骤可知，空间金字塔的第0层由k×d维的特征向量表示，第1层由4×k×d维的特征向量表示，依次类推，将所有层的特征向量首尾相连起来便构成了空间金字塔局部聚合描述子(SPVLAD，Spatial PyramidVector of Locally Aggregated Descriptors)向量，共维。

(2)归一化处理

(2.1)计算第0层特征向量V⁰的L₂范数||V⁰||₂；

(2.2)对每个子区域的特征向量进行归一化

V_{c}^{l} : = \frac{V_{c}^{l}}{{| | V^{0} | |}_{2}}

VLAD采用的归一化方法是L₂归一化，但在本发明中，如果对每个子区域的特征向量单独进行L₂归一化处理，会导致子区域的权重和整幅图片的权重一样，但是每个子区域只是描述整幅图片的一部分内容，显然权重要比整幅图片低，所以本发明提出了以上归一化方法。

(三)图像匹配步骤

计算图像X和Y的相似度分为两步(1)计算两者SPVLAD特征向量中每一层的相似度(2)对每一层的相似度赋以权重，并进行累加。其中每一层的相似度，通过计算特征向量内积<.，.>获得，具体可形式化为：

S (V (X), V (Y)) = \underset{l &Element; L}{Σ} ω_{l} < V^{l} (X), V^{l} (Y) >,

其中V^l(X)和V^l(Y)是由第l层的每个子区域的特征向量拼接构成，ω_l表示第l层的权重。

易知，越大的子区域越容易产生误匹配，所以应该对大的子区域进行权重惩罚，则第l层的初始权重为(和子区域的宽度成反比)。但第l层子区域的局部特征完全包括第l+1层对应子区域的局部特征，所以第l层的相似度减去第l+1层的相似度才是真正第l层新得到的相似度。根据以上分析，得到了最终的相似度计算为：

其中表示<V^l(X)，V^l(Y)>。

以下通过具体的实验案例来验证本发明的优势。

实验使用INRIA Holidays和Oxford5k数据集，并采用mAP(mean averageprecision)作为评价指标：

mAP = \frac{Σ_{q = 1}^{Q} AP (q)}{Q}

其中Q表示查询数目，AP(q)表示第q个查询的平均查准率(average precision)，其计算公式如下：

AP = \frac{Σ_{k = 1}^{n} P (k) \times rel (k)}{number of relevant images}

其中rel(k)表示如果结果列表中第k个查询结果是相似图像则置为1，否则为0；P(k)表示前k个结果的查准率(precision)；n为返回结果的个数。

mAP越高表示检索到的相似图像越多，同时表示相似图像排名越靠前，则检索效果越好。实验中将本发明方法与传统的VLAD方法进行了比较，同时根据金字塔层数不同将本发明方法分为SPVLAD(L＝1)和SPVLAD(L＝2)方法，分别表示两层金字塔和三层金字塔。具体结果如表1和表2所示。

表1 Holidays数据集上，在不同视觉单词个数下本发明方法SPVLAD与VLAD的比较

视觉单词个数	k＝8	k＝16	k＝32	k＝64	k＝128	k＝256
							VLAD	0.459	0.495	0.510	0.528	0.552	0.573
SPVLAD(L＝1)	0.481	0.519	0.540	0.559	0.583	0.592
							SPVLAD(L＝2)	0.481	0.522	0.553	0.565	0.605	0.607

表2 Oxford5k数据集上，在不同视觉单词个数下本发明方法SPVLAD与VLAD的比较

视觉单词个数	k＝8	k＝16	k＝32	k＝64	k＝128	k＝256
							VLAD	0.172	0.238	0.269	0.313	0.341	0.389
SPVLAD(L＝1)	0.211	0.272	0.304	0.344	0.369	0.413
							SPVLAD(L＝2)	0.233	0.292	0.323	0.365	0.383	0.429

由表1和表2可知，在两个数据集上，本发明方法SPVLAD都要优于传统的VLAD方法。其中，在Holidays数据集上，SPVLAD(L＝1)比VLAD平均提高了5.1％；在oxford5k数据集上，SPVLAD(L＝1)比VLAD平均提高了12.3％。但在两个数据集上，SPVLAD(L＝2)比SPVLAD(L＝1)都只有轻微改进。

综上所述，本发明在实际应用中能够提高图像检索的准确率。

另外，本发明还涉及一种融合空间信息的图像特征聚合表示系统，该系统包括：

使第l层沿图像的纵向和横向等间隔划分为2^l×2^l个子区域。

V_{c}^{l} : = \frac{V_{c}^{l}}{{| | V^{0} | |}_{2}} .

S (V (X), V (Y)) = \underset{l &Element; L}{Σ} ω_{l} < V^{l} (X), V^{l} (Y) >,

该相似度S的计算方法进一步为：

其中，表示<V^l(X)，V^l(Y)>。

本发明的总的技术效果在于：现有的VLAD特征是将全图的局部特征聚合起来生成全局向量，然后再进行相似度计算，存在以下问题(1)误匹配增多(2)忽略了局部区域相似度的重要性。本发明通过划分空间金字塔，只聚合局部区域的局部特征生成VLAD向量，计算对应局部区域的相似度，只涉及本区域的局部特征，所以降低了误匹配，此外对越细分区域赋有越高权重，强调了局部区域的相似度，基于以上技术，进一步提高图像检索精度。

Claims

1.一种融合空间信息的图像特征聚合表示方法，其特征在于，该方法包括：

图像匹配步骤，为所述图像的每一层赋予权重，通过将两幅图像的每一层的所述局部聚合描述子特征向量的内积乘以对应的所述权重后进行累加来计算两幅图像的相似度。

2.根据权利要求1所述的融合空间信息的图像特征聚合表示方法，其特征在于，在所述特征表示步骤中，对所述图像进行区域划分的方法为：

使第l层沿图像的纵向和横向等间隔划分为2^l×2^l个子区域。

3.根据权利要求1所述的融合空间信息的图像特征聚合表示方法，其特征在于，在所述特征表示步骤中，所述生成局部聚合描述子特征向量的步骤具体为：

4.根据权利要求1所述的融合空间信息的图像特征聚合表示方法，其特征在于，在所述特征表示步骤中，对该局部聚合描述子特征向量进行归一化处理的具体过程包括：

V_{c}^{l} : = \frac{V_{c}^{l}}{{| | V^{0} | |}_{2}} .

5.根据权利要求1所述的融合空间信息的图像特征聚合表示方法，其特征在于，在所述图像匹配步骤中，计算两幅图像的相似度的方法具体可形式化为：

S (V (X), V (Y)) = \underset{l &Element; L}{Σ} ω_{l} < V^{l} (X), V^{l} (Y) >,

该相似度S的计算方法进一步为：

其中，表示<V^l(X)，V^l(Y)>。

6.一种融合空间信息的图像特征聚合表示系统，其特征在于，该系统包括：

7.根据权利要求6所述的融合空间信息的图像特征聚合表示系统，其特征在于，在所述特征表示模块中，对所述图像进行区域划分的方法为：

使第l层沿图像的纵向和横向等间隔划分为2^l×2^l个子区域。

8.根据权利要求6所述的融合空间信息的图像特征聚合表示系统，其特征在于，在所述特征表示模块中，通过以下模块生成所述局部聚合描述子特征向量：

9.根据权利要求6所述的融合空间信息的图像特征聚合表示系统，其特征在于，在所述特征表示模块中，通过以下模块对该局部聚合描述子特征向量进行归一化处理：

V_{c}^{l} : = \frac{V_{c}^{l}}{{| | V^{0} | |}_{2}} .

10.根据权利要求6所述的融合空间信息的图像特征聚合表示系统，其特征在于，在所述图像匹配模块中，计算两幅图像的相似度的方法具体可形式化为：

S (V (X), V (Y)) = \underset{l &Element; L}{Σ} ω_{l} < V^{l} (X), V^{l} (Y) >,

其中，X和Y代表两幅不同的图像，V^l(X)和V^l(Y)是由第l层的每个子区域的特征向量组合而构成，ω_l表示第l层的权重，<.，.>表示计算内积；

1该相似度S的计算方法进一步为：

其中，表示<V^l(X)，V^l(Y)>。